數據作為一種新興的生產要素,最大的價值在於數據的共享、訪問和利用。在數據驅動的世界中,企業越來越注重將其數據轉化為有價值的產品,以便在整個企業中輕鬆訪問和使用,最終目標是向數據使用者提供預構建的數據產品,從而更快地大規模共享、訪問、利用數據,激發數據的潛能。
數據產品如控製麵板、報告、API、數據可視化、機器學習模型等,具有可衡量的價值並且可重用,旨在提供可信數據來解決業務問題。這種對可擴展、靈活數據訪問的需求催生了數據編織和數據網格等架構方法,以解決現代數據環境的複雜性,並釋放數據資產的全部潛力。
Data Fabric的核心價值在於整合數據資源,方便數據訪問,自動化處理數據,保障安全合規。而Data Mesh則采用分布式數據架構方法,將數據所有權分配給跨職能的領域團隊,由這些團隊向最終用戶提供數據產品。
因此,Data Fabric和Data Mesh正成為企業為當下和未來選擇數據架構的兩種主要選擇,也是構建數據空間,實現數據價值的重要路徑。
Data Fabric:以數據為中心的企業的“必備”架構
Gartner將“數據編織Data Fabric”列為“2021年十大數據和分析技術趨勢”之一,並預測到2024年,25%的數據管理供應商將為數據編織提供完整的框架。
另一家市場研究公司Forrester估計,目前有20%的組織采用了多個雲,預計這一數字將在未來三年內翻一番,也為Data Fabric解決方案提供商帶來了機會。Data Fabric在當今的多雲和混合雲行業中發揮著重要作用。
為什麽要發展Data Fabric?從應用上看,隨著數字化發展,企業數據源增多,數據量持續增長,數據與應用孤島大量湧現。
企業的業務數據格式已從以結構化為主,轉變為多種類型並存,像結構化、半結構化、非結構化數據共存,對實時或事件驅動的數據共享需求也在攀升。
同時,企業上雲趨勢下,在混合數據環境中跨平台、跨環境進行數據的收集、訪問、管理和共享變得極為困難,要從分散且高度關聯的數據獲取可執行洞見,挑戰巨大。
這些數據管理難題亟待解決,企業急需應對數據資產多樣化、分布式、規模龐大和複雜等問題。
從技術上看,多年來,為支持數據分析出現了許多種架構。最流行的是企業信息工廠(Corporate Information Factory)和數據倉庫總線架構,滿足企業在構建企業數據倉庫(EDW)時對數據分析的需求。
但隨著技術和時代的進步,數據科學界所需的分析和對實時數據進行的實時流分析僅靠企業數據倉庫環境根本無法支持。
於是數據編織Data Fabric應運而生,Forrester分析師Noel Yuhanna於2013年定義Data Fabric。從概念上講,Data Fabric大數據結構本質上是一種元數據驅動的方式,用於連接不同的數據工具集合,以有凝聚力的自助服務方式解決大數據項目中的關鍵痛點。
作為新興的數據管理和處理方法,Gartner將Data Fabric定義為包含數據和連接的集成層,通過對現有的、可發現和可推斷的元數據資產進行持續分析,來支持數據係統跨平台的設計、部署和使用,從而實現靈活的數據交付
正如Gartner所說,Data Fabric是一種跨平台的數據整合方式,能集成所有業務用戶信息,具有靈活彈性優勢,讓人們可隨時獲取數據,還能大幅縮短集成設計、部署和維護的時間。Data Fabric數據編織的目標是創建一個可以涵蓋所有形式的分析和數據架構,可以用於任何類型的分析,並讓所有需要的人都能無縫的訪問和共享。
Gartner定義的Data Fabric能力架構如下:
如何理解Data Fabric呢?Data Fabric是一種端到端的統一架構,它將組織所需的主要數據和分析工具整合在一起。利用AI和機器學習等技術,通過高級功能得到增強,以自動化和優化數據管理流程,從而在您的係統和平台上創建統一、一致和集成的數據環境。這種統一的架構通過自動化元數據管理和AI驅動的洞察動態生成數據產品,從而有效地消除孤島並培養敏捷性。
首先,Data Fabric是一種數據架構思想,並非特定工具集,旨在以統一方法管理異構數據工具鏈,把可信數據從各相關數據源,以靈活且易被業務理解的方式提供給所有相關數據消費者,創造比傳統數據管理更多價值。
可將Data Fabric想象成一張虛擬網,網上的節點是IT係統或數據源,就像大腦神經元連接傳遞信息一樣,是一種虛擬連接,能讓數據迅速流動並統一提供服務。
其次,Data Fabric解決方案提供數據訪問、發現、轉換、集成、安全、治理、沿襲和編排等領域的功能。
第三,Data Fabric和數據集成不同。數據集成側重於融合異構存儲數據,構建統一視圖,包含數據合並、轉換、清洗等操作,專注於數據的複製和移動,如ETL加工等。而Data Fabric是架構思想,數據虛擬化是其關鍵技術之一,數據虛擬化可在不移動數據情況下從源頭訪問數據,具備跨平台敏捷集成等功能。
另外,數據湖隻是Data Fabric的異構數據源之一,數據編織通過統一框架支持分布式環境中的數據消費。
最後,全麵整合後的數據分析架構有很多好處,如:讓數據管理更輕鬆,讓數據更安全、更可靠、更一致;讓數據和分析資產民主;降低了複雜性,促成了協同的、記錄在案的數據血緣和數據使用流程等。
數據編織Data Fabric是如何實現的?要達到數據編織的目的,需要具備以下五個能力:
其一,數據源連接能力。數據編織能夠連接豐富多樣的數據源,像企業內部的數據庫、數據倉庫、數據湖、BI、應用係統等,也包括非結構化數據源如物聯網傳感器等,還能從外部公共數據獲取數據。
其二,靈活數據目錄能力。它能自動識別獲取元數據,借助ML/AI分析數據語義打標簽加深業務理解,進而構建知識圖譜,將碎片化元數據有序組織,便於人機理解和數據處理,為搜索、挖掘、分析助力。
其三,基於知識圖譜的智能設計與推薦能力。知識圖譜可加速數據集成設計,實現快速檢索自動填充,還能進行智能推薦,把合適的數據在合適時間發送到合適的人。
其四,動態集成與自動編排能力。基於前麵的基礎可實現動態集成,采用本體和網格技術,同時數據自動化編排可簡化優化集成流程。
其五,麵向消費者的自助能力。能為各類數據用戶提供服務,滿足專業IT用戶複雜需求和業務人員自助式數據處理需求。
Data Fabric的重點供應商。市場研究公司對Data Fabric企業有詳細的分析。
Forrester將Denodo、Informatica、Oracle等評為Enterprise Data Fabric領域的領導者。在報告中,Denodo在“數據訪問、交付和數據產品”標準中獲得高分,在“部署和管理”以及“數據處理和事務”標準中獲得高分之一。Denodo還在Roadmap和Partner Ecosystem標準中獲得了高分。
根據該報告,Denodo非常適合專注於企業範圍數據結構戰略的客戶,以支持實時分析、客戶360度、數據工程、數據科學、物聯網分析、運營洞察和預測分析用例等。
目前,一些工具供應商(包括Informatica和Talend)提供包含上述許多功能的Data Fabric,而其他工具供應商(如Ataccama)則提供Data Fabric的特定部分。
Google Cloud通過其新的Dataplex產品支持Data Fabric方法。Data Fabric中各個組件之間的集成通常通過API和通用JSON數據格式進行處理。
Data Mesh:克服湖倉痛點,讓數據跨組織應用
在擁有了Data Fabric之後,為什麽還要推出Data Mesh?
數據倉庫旨在存儲數據分析師用於回溯SQL分析的大部分結構化數據,由分析師用於回答有關結構化數據的業務問題;數據湖主要存儲數據科學家用於構建預測性機器學習模型的大部分非結構化數據。
而以實時數據流和對雲服務的接受為標誌的新一代係統,並沒有解決數據倉庫和數據湖之間潛在的可用性差距。
許多組織構建和維護精心設計的ETL數據管道,以試圖保持數據同步,也推動了對“高度專業化數據工程師”的需求。但是數據轉換不能由工程師硬連線到數據中,而應該是一種過濾器,應用於所有用戶都可以使用的一組通用數據。
因此,數據大致以原始形式保留,並且一係列特定於領域的團隊在將數據塑造成產品時接管這些數據,而不是構建一組複雜的ETL管道,將數據移動和轉換到專門的存儲庫中,以便各個領域對其進行分析。
分布式數據網格Data Mesh就是通過一種新架構來解決這一問題。
Data Mesh讓數據使用者可以不再是數據的旁觀者,而是在數據功能的設計、開發和管理中發揮作用。
分布式數據網格Data Mesh是Zhamak Dehghani於2019年在谘詢公司Thoughtworks工作時創造的,旨在幫助解決傳統集中式架構(如數據倉庫和數據湖)中的一些基本缺陷。
Data Mesh是一種用於分析和數據科學的去中心化數據管理架構。傳統的數據架構通常集中數據,導致可擴展性、靈活性和治理方麵的挑戰。Data Mesh 提出了一種去中心化的方法,將數據視為產品,並由組織內的去中心化團隊或領域(如營銷、銷售和客戶服務)進行管理。
以前,集中式基礎設施團隊將管理跨域的數據所有權。但是,Data Mesh模型將這種所有權轉移給生產者,可以在設計API時考慮到主要數據使用者的利益。
除了負責對數據進行編目、建立使用和權限策略以及定義語義之外,這種域驅動的方法還維護一個集中式數據治理團隊,以實施圍繞數據的標準和實踐。
Forrester認為,Data Mesh讓數據使用者可以不再是數據的旁觀者,而是在數據功能的設計、開發和管理中發揮積極作用。
為此,提出了Data Mesh框架的四個原則,即用於上下文、理解和責任的域所有權,用於環境信任和控製的聯合計算數據治理(FCDG),通過自助服務擴展數據使用和業務價值,數據即產品,用於分配和管理數據功能的商業價值。
Forrester也提出,有五個因素會影響Data Mesh在現代數據基礎設施中的應用,即語義學、定義和開發數據產品、投資組合管理即數據產品管理、DataOps的作用,以及與強大的主題專家聯合。
Data Mesh是數據架構中的一個新興概念,它為企業提供了多項好處。
去中心化的數據所有權。通過在特定領域的團隊之間分配數據所有權,Data Mesh有助於民主化、消除瓶頸並使團隊能夠做出有關其數據的決策,加快創新速度,更好地與業務目標保持一致。
改進了數據訪問和可擴展性。Data Mesh通過增強數據訪問、安全性和可擴展性來改善使用數據的團隊的體驗和效率。其目標是通過在數據所有者、生產者和使用者之間建立直接連接,提高業務用戶對數據的可訪問性和可用性。
有利於提高數據質量和推進數據治理。集中式架構可能難以維護數據質量和實施治理標準,因為這些職責通常集中在數據團隊中。Data Mesh 鼓勵特定領域的團隊擁有其數據的所有權,從而提高數據質量並符合治理標準。
有利於消除數據孤島和災難恢複。Data Mesh的一個顯著優勢在於它能夠減少數據孤島。通過部署自助式數據基礎架構,可以輕鬆地跨域訪問數據,從而促進協作並加快數據發現的步伐。
便於進行人工智能和機器學習。Data Mesh架構中的數據分散化有利於部署AI 和ML選項,依賴於廣泛而多樣的數據集來高效運行。通過更輕鬆地訪問數據和資源,團隊可以更快地迭代AI和ML實驗和原型,有助於優化模型並隨著時間的推移提高其性能。
眾多企業推出了Data Mesh商業化解決方案。
2024年第3季度的Forrester Wave評估了12家企業“企業數據目錄”的方案,Atlan被評為領導者。企業數據目錄已經成為Data Mesh結構落地的一種商業化產品。
隨著組織尋求能夠彌合複雜數據集、治理、業務洞察和AI支持之間差距的解決方案,數據目錄、數據質量工具和數據治理解決方案正在融合。在一個擁擠、廣闊的市場中,Atlan通過為所有業務和技術角色提供“自動化AI/ML元數據、GenAI 輔助發現、端到端沿襲、實時處理和類似 Netflix 的個性化體驗”而被評為領導者。它提供上下文感知的關係映射、複雜的工作流程、第三方應用程序小部件、動態訪問控製和每日摘要,使用戶能夠了解和控製數據生態係統。
Snowflake Data Mesh使組織能夠從整體式架構過渡到分散、可擴展的數據生態係統。它利用Snowflake的雲原生平台來實現域驅動的所有權、無縫數據集成和聯合治理。
Snowflake Data Cloud就是這樣一個平台。Snowflake的多集群共享數據架構整合了數據倉庫、數據集市和數據湖,使其成為設置自助式數據網格平台的一個不錯的選擇。
2023年,Ascend.io在公司的Data Pipeline自動化平台中集成新的Data Mesh功能,使企業首次能夠從單個控製台跨多個數據雲共享和鏈接數據。
Ascend平台中整合的全新Data Mesh功能是通過結合Ascend獨有的兩項技術而開發的:可擴展架構可在統一架構上支持多個雲數據平台即Snowflake、Databricks、BigQuery和開源Spark);Ascend的指紋識別技術內置於DataAware Control Plane中,使公司能夠將代碼和數據鏈接在一起,跟蹤沿襲並確保數據完整性。通過將這兩項功能相結合,公司可以在整個數據生命周期中跨數據平台傳輸時全麵跟蹤、自動化和優化數據。
Starburs公司開發了名為Trino的分布式SQL查詢引擎Presto版本。Starburst將 Trino(以前稱為PrestoSQL)定位為“Data Mesh的分析引擎”,可以對存儲在一係列數據庫和文件係統中的數據執行SQL查詢。它最初設計為在Facebook修改後的Hadoop集群中運行,但如今最大的用例是查詢存儲在S3或S3兼容對象存儲係統中的數據,以及Databricks的Delta Lake等湖倉一體。
Apiphani推出了一套新的服務Apiphani Data Pipeline,專注於幫助客戶構建一個推動高效率、可靠性和價值的Data Mesh解決方案,為客戶最重要的商業智能、機器學習、人工智能和數字產品奠定了基礎。
Apiphani Data Pipeline包含現代數據和分析平台所需的所有組件,包括雲原生工具和數據目錄解決方案。除了核心技術平台之外,Apiphani Data Pipeline 還圍繞托管服務構建,允許客戶規劃、實施和維護生成的數據管道,產生可靠、簡化的自助式數據,為最終用戶、數據專業人員、工程師、業務經理和高管帶來價值。
Data Fabric Vs. Data Mesh:使用正確的架構進行數據管理
正如我們所看到的,Data Fabric與Data Mesh之間存在相似之處,但也有一些差異。
Data Mesh是一種高度分散的數據架構,旨在應對包括缺乏數據所有權、缺乏高質量數據和擴展瓶頸在內的挑戰。Data Mesh的目標是將數據視為一種產品,每個來源都有一個數據產品所有者,可以成為跨職能數據工程師團隊的一部分,克服了傳統數據湖和數據倉庫的問題。
Data Fabric是一個連接數據和分析流程的一體化集成的架構層。它利用現有的元數據資產來支持跨所有環境和平台的設計、部署和正確使用數據。Data Fabric旨在通過自動化流程加速數據推理並提供實時見解。它將數據、分析和儀表板集成,並用作管理解決方案,允許在分布式環境中進行訪問。
方法差異:自動化與人工包容。Data Mesh從以人員和流程為中心的角度處理數據,並將數據視為產品。
Data Fabric利用人工和機器功能就地訪問數據或在適當時支持其整合。它將連接數據源、類型和位置的技術與訪問數據的不同方法相結合。Data Fabric持續識別、連接和豐富來自不同應用的實時數據,以發現數據點之間的關係,通過構建一個圖表來存儲算法可用於業務分析的互連數據描述來實現這一點。
數據存儲差異:集中式與分散式。在Data Mesh中,數據分散存儲在公司內部的域中。每個節點都有本地存儲和計算能力,並且不需要單點控製即可運行。從本質上講,原始數據保留在域中,並為特定使用案例生成數據集副本。
在Data Fabric中,數據訪問通過高速服務器集群進行集中,以實現Data Fabric中的網絡和高性能資源共享。
構建方式的差異。Data Mesh旨在取代數據湖成為數據和分析領域主導架構,引入了獨立於特定技術的組織視角。其架構遵循領域驅動的設計和產品思維,以克服與數據相關的挑戰。Data Mesh數據網格文化是關於連接人們並創建聯合職責結構。
Data Fabric利用元數據來推動推薦,而Data Mesh則與主題專家合作來監督域。這些域是可獨立部署的微服務集群,用於與用戶通信。它由代碼、工作流、團隊和技術環境組成。
Data Fabric與技術、業務和運營數據配合使用,並且主要與技術、業務和運營數據兼容。可視化工具使技術基礎設施易於解釋,並幫助組織管理其存儲成本、性能、安全性和效率。此外,公司可以在各種數據存儲庫上虛擬部署單一Data Fabric,以管理不同的數據源和下遊使用者。
數據訪問差異:API與受控數據集。在Data Mesh中,數據通過受控數據集提供。首先,將信息從部門數據存儲複製到共享位置。在Data Fabric中,數據通過基於目標的API提供。數據被複製到特定使用案例的特定數據集中,並且擁有數據的業務單位處於控製之中。
使用案例差異。Data Mesh是混合雲網絡的理想選擇。Data Fabric支持單點數據訪問,解決數據質量和存儲問題,並處理安全威脅。
明智選擇源於數據成熟度
Data Mesh和 Data Fabric是現代數據架構範式,旨在解決在複雜的分布式環境中管理數據的挑戰。雖然它們有一些相似之處,也具有獨特的特征,使它們適用於不同的用例,甚至可以組合使用。
Data Fabric 和Data Mesh兩個數據架構概念都是互補的,可以並存。組織可以在不同的用例中利用這兩種方法。
根據微軟的數據和AI解決方案架構師James Serra的說法,這兩個概念的區別在於用戶如何訪問數據。Data Fabric 和 Data Mesh提供了跨多種技術和平台訪問數據的架構。但Data Fabric以技術為中心,而Data Mesh則側重於組織變革。Data Mesh更多地與人員和流程有關,而不是架構;而Data Fabric是一種架構方法,它以一種智能的方式處理數據和元數據的複雜性,並且可以很好地協同工作。
IBM網站文章顯示,Data Fabric和數據網格Data Mesh可以共存。事實上,Data Fabric可以通過三種方式實現Data Mesh:
□ 為數據所有者提供數據產品創建功能,如對數據資產進行編目、將資產轉換為產品以及遵循聯合治理策略;
□ 使數據所有者和數據使用者能夠以各種方式使用數據產品,如將數據產品發布到目錄、搜索和查找數據產品,以及利用數據虛擬化或使用API查詢或可視化數據產品;
□ 利用來自Data Fabric元數據的洞察,通過在數據產品創建過程或監控數據產品過程中從模式中學習來自動執行任務。
組織的數據成熟度在很大程度上影響著哪個框架更合適。對於數據成熟度相對較高且具有數據驅動型文化的組織,Data Mesh可能是一個可行的選擇。這些組織通常擁有完善的數據治理模型、成熟的數據管道以及隨時準備對自己的數據資產負責的團隊。
對於數據治理仍在發展的組織,特別是不同團隊之間可能沒有緊密協調的組織,Data Fabric可能是最佳選擇。它允許集中治理,同時使組織能夠在分布式環境中逐步擴展其數據架構。Data Fabric也更適合元數據成熟度較高的組織,因為它專注於從元數據中推動智能。
無論選擇哪種架構,元數據管理都是Data Mesh和Data Fabric的關鍵要素。元數據(如技術、運營或業務元數據)對於實現有效的數據發現、治理和影響分析至關重要。
Data Mesh和Data Fabric兩個架構都有其優點,但如果沒有強大的數據完整性基礎和明確的元數據管理策略,都可能無法成功。在采用這兩種方法之前,組織必須確保擁有必要的基礎設施、數據文化和治理,以最大限度地發揮其數據的價值。最終目標是提供可信、可擴展的數據產品,從而提供商業價值,而擁有準確、一致和情境化的數據對於實現信任至關重要。
文:放飛⠯⠦𘦓猿
責編:凝視深空⠯⠦𘦓猿
本文由隔壁老李于2022-12-21发表在极致时空,如有疑问,请联系我们。
本文链接:http://unhoj.yeniadaptor.com/5crwqa/398.html
有话要说...