人類每天都在吃飯、睡覺、工作和玩耍,這個過程就產生了數據——非常非常多的數據。據IBM公布的消息顯示,人類每天產生2.5垓(一京是一億億,一萬京為一垓)字節的數據。該數量相當于從地球堆疊到月球又返回來的所有DVD碟片所能存儲的數據總量,其中包括了我們發送的文本、我們上傳的照片,以及工業傳感器的數據,還有機器間通信的所有數據。
正因為數據如此龐大,所以我們的時代人人都在談數據。這也是為什么“大數據”現如今如此流行的主要原因。簡單地說,當人們談論大數據時,他們指的是能夠獲得大量的數據、分析數據,并將其變成有用的東西。那么數據分析和大數據分析有什么區別呢?什么樣的數據才能叫做大數據呢?
億信ABI今天想和大家聊聊這些。
一、概念
1、什么是大數據?
要了解一個事物,我們首先要從概念入手。那么什么是大數據呢?大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間。大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。
一般來說,大數據概念可以分解成三個層面:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。
2、什么是數據分析?
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,未提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據分析包含“數據”和“分析”兩個方面,一方面包括收集、加工和整理數據,另一方面也包括分析數據,從中提取有價值的信息并形成對業務有幫助的結論。數據分析的成果通常以分析報告的形式呈現。對于數據分析報告,分析就是論點,數據就是論據,兩者缺一不可。
數據分析需要掌握數學知識和分析工具,數學知識包含統計學、概率論和數理統計、多元統計分析、時間序列、數據挖掘;工具一般應該掌握Excel、SQL、R、Python等。需要學習掌握基本數據處理及分析方法,掌握高級數據分析及數據挖掘方法(多元線性回歸法,貝葉斯,神經網絡,決策樹,聚類分析法,關聯規則,時間序列,支持向量機,集成學習等)和可視化技術。
3、什么是大數據分析?
大數據分析是指分析無法使用現有的傳統應用程序有效處理的龐大數據量的技術。大數據的處理始于未聚合的原始數據,通常是不可能將其存儲在單臺計算機的內存中的。
大數據分析是是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
二、數據分析和大數據分析的區別
1、分析方法
就分析方法而言,兩者并無本質區別。數據分析的核心工作是對數據指標的分析,思考和解釋。人腦可以攜帶的數據量極為有限。因此,無論是“傳統數據分析”還是“大數據分析”,都需要根據分析思路對原始數據進行統計處理,以獲得匯總統計結果供人為分析。兩者在此過程中相似,不同之處僅在于處理方法是由原始數據的大小引起的。
2、統計知識應用
第二,兩者在使用統計知識方面有很大的不同。“傳統數據分析”中使用的知識主要圍繞“可以通過少量采樣數據來猜測現實世界”這一主題。“大數據分析”主要是使用各種類型的全量數據(非采樣數據)設計統計程序并獲得詳細而有把握的統計結論。
3、機器學習模型
兩者之間在機器學習模型方面存在根本差異。“傳統數據分析”大多數時候,知識使用機器學習模型作為黑匣子工具來協助分析數據。“大數據分析”通常是兩者的緊密結合。大數據分析不僅會產生分析效果評估,而且還會基于此進行產品升級。在大數據分析的背景下,數據分析通常是數據上墨的序幕,而數據建模是數據分析的結果。
4、結果展現
數據分析報告體現數據挖掘的整體流程,層層闡述信息的收集、模型的構建、結果的驗證和解讀,對行業進行評估,優化和決策。大數據報告要求報告能體現大數據分析的優勢,能清楚地闡述數據采集、大數據處理過程及最終結果的解讀,同時提出模型的優化和改進之處,以利于提升大數據分析的商業價值。
三、數據分析和大數據分析不同的應用場景
(1)
大數據分析應用場景
1、購物營銷
當我們打開淘寶,京東等購物APP時,總是會發現,這些APP比我們自己還懂自己,能夠未卜先知的知道我們最近需要什么。商家通過手機瀏覽的數據分析,知道我們近期的需求,之后精準的向我們進行推銷。如今人們網絡購物的行為越來越頻繁,網絡購物的體驗也越來越好。而影響網絡購物體驗的一個最重要的方面就是物流的速度。雙十一時,很多物品能保證晚上下單,第二天就送達,即使購買的是新疆的葡萄干,也能在24小時到貨。速度提升的背后,離不開大數據的賦能。物流倉儲與購物平臺合作,通過分析用戶的瀏覽數據,購物車,下定金情況,預知某一地區的購買量,進行提前備貨。通過大數據中心的調控,物流分揀系統能最科學合理的進行裝車。在智慧系統的指引下,快遞員也能按照最優的線路進行高效的配送。
2、交通出行
如今百度地圖、高德地圖已經成了我們出行必不可少的工具。沒了地圖,很多時候我們將寸步難行。手機地圖能夠做到精準的導航和實時的路況預測得益于大數據的分析。一是地圖公司有自己數據采集車,前期采集了海量的數據存儲在數據庫中。二是每一個使用地圖的用戶,都共享了自己的位置,貢獻了自己的數據。通過對同一時間段同一路段用戶的使用情況進行分享,地圖很容易就能得知哪里堵車,哪里暢通,提前告知使用者。
3、政務處理
大數據在助力政府的政務處理方面同樣發揮著重要的作用。近年來精準扶貧是各級政府的首要工程,扶貧如何做到精準,考驗著政府的執政能力。這里我們以億信華辰的數據治理平臺睿治為例,給大家講解。
睿治智能數據治理平臺由億信華辰自主研發,是一款融合數據治理十大產品模塊,覆蓋數據全生命周期管理的應用平臺,也是目前國內功能齊全的數據治理工具,助力數據標準落地,提升數據質量,實現數據資產融合。基于此,億信華辰幫助廣州市荔灣政數局建設了政務大數據平臺。
睿治平臺依托四標四實基礎數據,整合荔灣區政務數據資源,搭建全區統一的四標四實數據平臺,提供多源數據采集、數據管控、數據共享交換、數據分析、數據挖掘、數據服務等核心能力,推進全區政務數據資源的共享利用,探索政府數據與社會數據的整合利用。
(2)數據分析應用場景
1、趨勢預測和熱點營銷
社區中熱點和熱門是數據分析的結果。在社區中熱門話題、在搜索引擎中熱點分析,通常具有先兆性的特征,能夠成為一種流行趨勢的預測。比如,蘋果的土豪金讓土豪色成為一種流行。同時由于社區傳播的廣泛、快捷性,也能夠幫助企業通過病毒式營銷獲得更多關注,比如小米的病毒式營銷的策劃。
2、產品定價
產品定價的合理性需要進行數據試驗和分析,主要研究客戶對產品定價的敏感度,將客戶按照敏感度進行分類,測量不同價格敏感度的客戶群對產品價格變化的直接反應和容忍度。通過這些數據試驗,為產品定價提供決策參考。
3、戶流失預測
客戶數據分析中發現客戶的投訴增多,客戶評價出現負面情緒,客戶購買量明顯減少等現象,根據客戶行為模型,預測客戶流失的可能性,并采取針對性措施。
4、基于環境數據的外部形勢分析
從市場競爭者的產品、促銷等數據,從外部環境的數據,例如天氣(如霧霾)、重大節日(如雙十一)、國家大事(十八大)、熱門話題(如中國好聲音)、社交媒體上人們的情緒(快樂)等中找到對外部形勢演變的先導性的預測,幫助企業應對環境變化。
5、基于物聯網數據分析的產品生命周期管理
條形碼、二維碼、RFID等能夠唯一標識產品,傳感器、可穿戴設備、智能感知、視頻采集、增強現實等技術能將產品生命周期的信息進行實時采集和分析,這些數據能夠幫助企業在供應鏈的各個環節跟蹤產品,收集產品使用信息,從而實現產品生命周期的管理。
四、小結
隨著大數據的快速發展,就像計算機和互聯網一樣,大數據逐漸可能成為新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智能等相關技術,有可能會改變數據世界里的很多算法和基礎理論,實現科學技術上的突破。所以數據分析和大數據分析在未來區別并不重要,重要的是二者如何結合在大數據時代發揮更大的作用。
(部分內容來源網絡,如有侵權請聯系刪除)