隨著大數(shù)據(jù)技術(shù)的不斷更新和迭代,數(shù)據(jù)管理工具得到了飛速的發(fā)展,相關(guān)概念如雨后春筍一般應(yīng)運而生,如從最初決策支持系統(tǒng)(DSS)到商業(yè)智能(BI)、數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺等,這些概念特別容易混淆,下面我們將圍繞BI、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺的區(qū)別進行介紹。
商業(yè)智能(BI)
商業(yè)BI是一套完整的解決方案,用來將企業(yè)中現(xiàn)有的數(shù)據(jù)進行有效的整合,快速準確的提供報表并提出決策依據(jù),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營決策。一般包括數(shù)據(jù)倉庫、報表查詢、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等部分。
首先從業(yè)務(wù)系統(tǒng)數(shù)據(jù)中提取有用的數(shù)據(jù)并進行清理,以保證數(shù)據(jù)的正確性,然后經(jīng)過抽取、轉(zhuǎn)換和裝載,合并到數(shù)據(jù)倉庫,得到企業(yè)數(shù)據(jù)全局視圖,再利用合適工具等對其進行分析和處理,最后將知識呈現(xiàn)給管理者,為管理者的決策過程提供支持。
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫(Data Warehouse),也稱為企業(yè)數(shù)據(jù)倉庫,它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的包含多種數(shù)據(jù)的存儲庫,并且是高度建模的數(shù)據(jù)集合存儲系統(tǒng)。它將來自不同業(yè)務(wù)、系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)聚合起來,幫助公司把運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持,幫助建構(gòu)商業(yè)智能(BI)。
數(shù)據(jù)湖
數(shù)據(jù)湖(Data Lake)是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖是以其自然格式存儲的數(shù)據(jù)的系統(tǒng)或存儲庫,通常是對象Blob或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學(xué)習等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)(CSV,日志,XML,JSON),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進制數(shù)據(jù)(圖像,音頻,視頻)。
數(shù)據(jù)倉庫與數(shù)據(jù)湖差異
1、在儲存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲所有數(shù)據(jù),并且僅在分析時再進行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。
2、在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。
3、數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會用具有預(yù)測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于月度報告等操作用途,因為它具有高度結(jié)構(gòu)化。
4、在架構(gòu)中數(shù)據(jù)湖通常,在存儲數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉庫中存儲數(shù)據(jù)之前定義架構(gòu)。
數(shù)據(jù)中臺
數(shù)據(jù)中臺是指通過企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù),對外可以數(shù)據(jù)合作價值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺建立后,會形成數(shù)據(jù)API,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺整體技術(shù)架構(gòu)上采用云計算架構(gòu)模式,將數(shù)據(jù)資源、計算資源、存儲資源充分云化,并通過多租戶技術(shù)進行資源打包整合,并進行開放,為用戶提供“一站式”數(shù)據(jù)服務(wù)。利用大數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行統(tǒng)一采集、計算、存儲,并使用統(tǒng)一的數(shù)據(jù)規(guī)范進行管理,將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標準化數(shù)據(jù),挖掘出對企業(yè)最有價值的數(shù)據(jù),構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫,提供一致的、高質(zhì)量的大數(shù)據(jù)服務(wù)。
數(shù)據(jù)中臺不是一套軟件,也不是一個信息系統(tǒng),而是一系列數(shù)據(jù)組件的集合,企業(yè)基于自身的信息化建設(shè)基礎(chǔ)、數(shù)據(jù)基礎(chǔ)以及業(yè)務(wù)特點對數(shù)據(jù)中臺的能力進行定義,基于能力定義利用數(shù)據(jù)組件搭建自己的數(shù)據(jù)中臺。
數(shù)據(jù)倉庫與數(shù)據(jù)中臺的差異
計算存儲上
傳統(tǒng)的數(shù)據(jù)倉庫基于OLAP類型的數(shù)據(jù)庫,后續(xù)發(fā)展為MPP、Hadoop、GreenPlum混合架構(gòu)。數(shù)據(jù)中臺從一誕生起,就使用Hadoop、MPP、RDS、Flink等混合架構(gòu),隨需搭配,滿足各類數(shù)據(jù)計算的要求。
應(yīng)用場景和價值體系
數(shù)據(jù)中臺的應(yīng)用場景比傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用場景廣泛得多。傳統(tǒng)的數(shù)倉只是滿足領(lǐng)導(dǎo)和業(yè)務(wù)人員數(shù)據(jù)決策的需要,因此更多的體現(xiàn)在報表輸出,使用者以小部分的業(yè)務(wù)人員和決策層為主,新需求的開發(fā)周期以月甚至到年為計。而數(shù)據(jù)中臺由于起家于互聯(lián)網(wǎng)企業(yè),其使用對象擴大到一線服務(wù)人員和商家企業(yè),其業(yè)務(wù)需求更繁雜,包含商品推薦、精準廣告展示、客戶滿意度評價等等諸多不確定性的應(yīng)用場景,很難用傳統(tǒng)的報表系統(tǒng)滿足需求,因此必須要使用隨需應(yīng)變的數(shù)據(jù)服務(wù)來快速滿足不斷變化的業(yè)務(wù)需求。
體系架構(gòu)
數(shù)據(jù)中臺是由多個組件構(gòu)成,除了計算平臺外,其方案由多個分布式服務(wù)系統(tǒng)提供,滿足不同業(yè)務(wù)需求和高并發(fā)和系統(tǒng)自動擴容需求,除了大數(shù)據(jù)存儲和計算平臺外,還包含數(shù)倉建設(shè)、數(shù)據(jù)開發(fā)IDE、任務(wù)調(diào)度、數(shù)據(jù)同步服務(wù)、數(shù)據(jù)治理、對外統(tǒng)一數(shù)據(jù)服務(wù)、資產(chǎn)管理系統(tǒng)、實時流計算平臺和開發(fā)平臺,敏捷BI報表開發(fā)等多個組件,通過多個組件組成一整套方案。這一點傳統(tǒng)的數(shù)據(jù)倉庫是遠遠達不到的。
數(shù)據(jù)倉庫與BI差異
商業(yè)智能BI相比于數(shù)據(jù)倉庫,它是一個更大的概念。商業(yè)智能可以說是基于數(shù)據(jù)倉庫,經(jīng)過了數(shù)據(jù)挖掘后,得到了商業(yè)價值的過程。所以說數(shù)據(jù)倉庫是個金礦,數(shù)據(jù)挖掘是煉金術(shù),而商業(yè)報告則是黃金。數(shù)據(jù)倉庫就像是 BI 這個房子的地基,搭建好 DW 這個地基之后,才能進行分析使用,最后產(chǎn)生價值。
BI工具推薦
億信華辰作為中國專業(yè)的商業(yè)智能BI和數(shù)據(jù)治理軟件提供商,一直致力于為政企用戶提供從數(shù)據(jù)采集、存儲、治理、分析到智能應(yīng)用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動、數(shù)據(jù)智能,已積累了8000多家用戶的服務(wù)和客戶成功經(jīng)驗,為客戶提供數(shù)據(jù)分析平臺、數(shù)據(jù)治理系統(tǒng)搭建等專業(yè)的產(chǎn)品咨詢、實施和技術(shù)支持服務(wù)。其在2021中國數(shù)據(jù)智能/ 數(shù)據(jù)中臺生態(tài)圖譜的商業(yè)智能領(lǐng)域榜上有名。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)