数据存储并不像以前看起来那么简单. 如今,复杂的机器和技术收集了海量的数据 / 2.每天5千万亿字节! -来自设备传感器、日志、用户、消费者和其他地方. 所有这些数据都必须以一种允许企业利用的方式存储在某个地方.
考虑到目前可用数据的数量和种类, 关于数据的存储方式存在着相当多的误解. 今天,权威推荐全球最大网赌正规平台将解决关于两种流行的数据存储类型的常见误解:数据湖和数据仓库. 不要错过下面的信息图,它揭示了数据湖和数据仓库之间的区别.
误解1:你只需要其中之一
现在,您经常听到人们谈论数据湖和数据仓库,好像企业必须选择其中之一. 但现实是 数据湖和数据仓库有不同的用途. 虽然两者都为数据提供存储, 它们使用不同的结构, 支持不同格式, 并针对不同的用途进行了优化. 通常,公司可以从使用数据仓库和数据湖中获益.
数据仓库最适合于为业务智能分析操作系统数据的企业. 数据仓库在这方面工作得很好,因为存储的数据是结构化的, 清洗, 并为分析做准备. 另外, 数据湖允许企业以任何格式存储几乎任何用途的数据, 包括机器学习(ML)模型和大数据分析.
Myth #2: 数据湖s Are Niche; Data Warehouses Aren’t
人工智能(AI)和ML代表 一些增长最快的云工作负载, 组织越来越多地转向数据湖来帮助确保这些项目的成功. 因为数据湖允许您存储几乎任何类型的数据(结构化和非结构化),而无需事先准备或清理, 你可以为未来保留尽可能多的潜在价值, 未指明的使用. 这种设置对于更复杂的工作负载是理想的,比如机器学习模型,其中特定的数据类型和用途尚未确定.
数据仓库可能是这两种选项中更广为人知的一种, 但是数据湖(以及类似类型的存储基础设施)可能会随着数据工作负载的趋势而继续流行. 数据仓库适用于某些类型的工作负载和用例, 数据湖代表了服务于其他类型工作负载的另一种选择.
误解3:数据仓库很容易使用,而数据湖很复杂
的确,数据湖需要数据工程师和数据科学家(或具有类似技能集的专家)的特定技能来对存储在其中的数据进行排序和利用. 数据的非结构化性质使得那些不完全了解数据湖如何工作的人不太容易访问它.
然而, 一旦数据科学家和数据工程师建立了数据模型或管道, 业务用户通常可以利用与流行业务工具的集成(自定义或预构建)来探索数据. 同样的, 大多数业务用户通过连接的商业智能(BI)工具(如Tableau和Looker)访问存储在数据仓库中的数据. 借助第三方BI工具, 业务用户应该能够访问和分析数据, 数据是存储在数据仓库还是数据湖中.
在下面的信息图中了解数据湖和数据仓库之间的所有差异.
另外:查看权威推荐全球最大网赌正规平台关于数据湖运营的免费电子书,了解如何最大化数据湖的价值.