您當前的位置:首頁 > 云計算 > IDC情報 > 綜合情報

現在都流行把數據放“湖”里么?

新京報 2019-09-03 15:18:35
數據倉庫是再次獲得發展動力,還是會逐漸消亡呢?如果你對這個問題感到困惑也是情有可原的。一方面,數據倉庫似乎仍處于熱門階段。作為一個長期的行業觀察者,我發現這一行業在一連串成功的創新和創業活動中正迸發出新的活力。

這種趨勢基本上始于十年前設備標準進入數據倉庫主流,然后隨著市場向新一代云數據倉庫轉移,又在幾年前獲得了新動力。在過去幾年中,云數據倉庫供應商Snowflake在市場上獲得了眾多支持。

數據倉庫的衰落

但另一方面,數據倉庫在大數據、機器學習和人工智能等新行業的沖擊下正逐漸黯然失色。這種趨勢造成了數據倉庫在企業IT優先等級中不斷下降,但是實際上大多數企業現在至少有一個或是有多個數據倉庫服務于各種下游應用程序。

數據倉庫一直是企業的核心工作負載,這也是幾年前我認為自己有必要搞清楚為什么數據倉庫遠未消亡的原因。同時,這也可能解釋了為什么其他觀察者認為他們必須重新定義數據倉庫的概念,以使其能夠融入數據湖和云計算時代。

數據倉庫作為一種實踐不僅蓬勃發展,而且現在還被視為云計算行業的增長核心。如果你只關注以此標簽進入市場的那些平臺(例如Snowflake),那么你將錯過這個領域內的眾多機遇。

數據湖的興起

被許多人稱之為“數據湖”的概念正在迅速發展成為下一代數據倉庫。對于那些不熟悉這個概念的人來說,數據湖是一種多結構化數據的系統或存儲庫,它們以原始格式和模式存儲,通常作為blob對象或文件。

數據湖通常用作所有企業數據的單個存儲,包括源系統數據的原始副本和用于報告、可視化、分析和機器學習等任務的轉換數據。它們包含分布式文件或對象存儲、機器學習模型庫以及高度并行化的處理與存儲資源集群。并且,數據庫通常在讀取時進行處理,并使用統計模型從中提取有意義的相關性和模式,而不是對它們存儲的對象強制執行通用模式和語義。

這與Inmon和Kimball核心概念不一樣,后者的概念是將大多數專業人員的方法提供給數據倉庫。在本質上,數據倉庫是用于聚合、保留和管理官方認可的“單一版本的真實”數據記錄。此概念與管理數據的特定應用程序域以及使用它們的特定用例無關。

如果你對我的看法持懷疑態度,那么你可以看一下Bill Inmon對數據倉庫的定義以及對Inmon和Ralph Kimball框架的比較。數據倉庫通常都是關于數據驅動的決策支持,這使得它們可以很好地擴展到由人工智能驅動的推理領域。


下一代數據倉庫

在過去的一年當中,多個備受矚目的行業公告標志著數據倉庫的角色發生了轉變。盡管決策支持(即商業智能、報告和在線分析處理)仍然是大多數數據倉庫的核心用例,但是我們看到了其正在穩步向著決策自動化轉型。換句話說,數據倉庫現在支持數據科學管道,為數據驅動的推理構建機器學習應用程序。

新一代數據倉庫實際上就是數據湖,其主要用途是對用于構建和訓練機器學習模型的數據進行管理。這些數據已經進行過了清洗、整合和驗證。例如,在去年秋天召開的Amazon re:Invent大會上,亞馬遜網絡服務公布了AWS Lake Formation。這種新托管服務的目的很明確,就是簡化和加速安全數據湖的設置。雖然AWS Lake Formation擁有云數據倉庫的所有標志,并且實際上提供了一個面向決策支持應用程序的經典數據倉庫Amazon Redshift,但是亞馬遜網絡服務(AWS)并沒有這樣稱呼它。


AWS Lake Formation的外觀和功能類似于數據倉庫。AWS將其描述為:“數據湖是一個集中化的、有機的且安全的存儲庫,它們以原始形式存儲所有數據并為分析做好準備。通過數據湖,你可以打破數據孤島并組合不同類型的分析,從而獲得深刻的洞察力,更好地指導業務決策。”

實際上,AWS將AWS Lake Formation作為一種超級數據倉庫用于決策支持和人工智能驅動的決策自動化。AWS表示該服務旨在管理數據集,讓用戶能夠選擇并使用Amazon EMR for Apache Spark、Redshift、Athena、SageMaker和QuickSight等分析與機器學習服務。

另一個例子是Databricks最近宣布的Delta Lake開源項目。Delta Lake可以在Apache 2.0許可下使用,類似于AWS Lake格式,主要用途是對在數據湖中維護的數據集進行聚合、清洗和管理,以支持機器學習。

Delta Lake位于本地部署或云數據存儲平臺之上,可以從Apache Spark訪問HDFS、Amazon S3或微軟Azure blob等存儲。Delta Lake將數據存儲在Parquet中,以提供Databricks所稱的“事務存儲層”。Parquet是一種開源的列式存儲格式,可用于Hadoop生態系統中的任何項目,與選擇數據處理框架無關。它們通過開放式并發串行、快照隔離、數據版本控制、回滾和模式強制來支持ACID事務。

Delta Lake和AWS Lake Formation之間的一個關鍵區別是Delta Lake可處理該管道中的批量數據和流數據。另一個區別是Delta Lake支持所有數據的ACID事務,允許數百個應用程序同時進行多次寫入和讀取。此外,開發人員還可以訪問每個Delta Lake的早期版本,以進行審計、回滾或重現其MLFlow機器學習實驗的結果。

Delta Lake似乎要與Apache Hive展開競爭。雖然Apache Hive完全依賴基于HDFS的存儲,并且直到最近才解決了對ACID的支持,但是它們已經成為了部署最為廣泛的開源數據倉庫項目。Hive 3在一年前才宣布要為基于Hadoop的數據倉庫提供ACID支持。Hive 3可為使用delta文件的CRUD(創建讀取更新刪除)表單提供原子性和快照隔離等操作。

作為人工智能驅動的決策自動化的基礎

近期關于AWS Lake Formation、Delta Lake和Hive 3的這些行業公告都預測了數據湖成為決策支持與決策自動化應用以及交易數據應用的中央樞紐的時間。為了加速這一趨勢,Hive 3和Delta Lake等開源項目需要吸引供應商和用戶更多的關注。

未來“數據倉庫”這一術語可能將主要指那些存儲了用于商業智能的結構化數據的多域倉庫。底層數據平臺還會將繼續發展,以便為基于云的人工智能提供核心數據治理基礎。不過,目前推動企業數據倉庫發展的主要動力是人工智能而非商業智能。
Contact lanisky

深圳市湛藍信息產業有限公司

地址:深圳市龍華區民治街道華僑新村
[email protected] / 0755-86501200

廉江市湛藍科技有限公司

廣東省廉江市良垌鎮平田濟村 / 13542015105

經營資質

營業執照  企業信用信息  粵ICP備15114633號
中央網信辦舉報中心  廣東省通管局  深圳舉報中心

首頁 | 湛藍公司 | 關于我們 | 官方新聞 | 資料中心 | 人力資源 | 聯系我們 | 網站條款 | 友情鏈接

©2007- Lanisky All rights reserved.

lanisky Lanisky Lanisky 中國 Lanisky 香港 Lanisky 臺灣 Lanisky India Lanisky Singapore Lanisky 日本 Lanisky Россия 更多>
亿客隆彩票