diff --git a/doc/SUMMARY.md b/doc/SUMMARY.md index 3d745cba05..2f8265c06f 100644 --- a/doc/SUMMARY.md +++ b/doc/SUMMARY.md @@ -348,6 +348,7 @@ - [Hadoop](./数据技术/Hadoop.md) - [检索技术](./数据技术/检索技术.md) - [数据集成](./数据技术/数据集成.md) + - [数据存储](./数据技术/数据存储.md) - [数据处理](./数据技术/数据处理.md) - [任务调度系统](./数据技术/任务调度系统.md) - [数据中台](./数据技术/数据中台.md) diff --git "a/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\345\255\230\345\202\250.md" "b/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\345\255\230\345\202\250.md" new file mode 100644 index 0000000000..be32d95ab1 --- /dev/null +++ "b/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\345\255\230\345\202\250.md" @@ -0,0 +1,102 @@ + +# 数据存储 + +## 存储抽象 + +### [数据仓库](/数据技术/数据仓库.md) + +### 数据湖 + +一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。数据湖侧重于ODS的层管理,由于数据湖没有固定的结构,可以使用数据湖来存储大量的原始数据。通过一个数据湖中间层以支持ODS层之后不同方式的使用或处理 + +常见的实现形式为表格式,只负责依照某种格式存储到存储系统中,再由独立的查询引擎实现读取数据查询 + +### 湖仓一体 + +业界主流有两种做法: + +1. 将数据仓库构建在数据湖之上 +2. 数据仓库与数据湖独立,二者通过消息通道进行数据同步 + +### 数据平台 + +提供了可互操作的工具的生态系统,与核心数据存储层紧密结合。 + +数据湖可以看作是一种开放的数据平台 + +## 存储系统 + +### [数据库](/中间件/数据库/数据库.md) + +### [分布式存储](/软件工程/架构/系统设计/分布式/分布式数据.md) + +### 文件存储 + +- 本地磁盘 +- NAS +- 云文件系统 + +### 块存储 + +- RAID +- SAN +- 云虚拟块存储 +- VPS本地实例卷 + +### 对象存储 + +特征: + +- 键值存储:对象存储使用键值对来存储数据对象。 +- 不可变性:一旦写入,对象变为不可更改,要修改数据必须重写整个对象。 +- 无随机写入或追加操作:对象不支持随机写入或追加操作,只能作为字节流一次性写入。 +- 范围请求:支持通过范围请求进行随机读取。 +- 无服务器:作为“无服务器”服务,工程师不需要管理底层服务器集群或磁盘。 +- 并行流写入和读取:支持在多个磁盘上进行高性能的并行流写入和读取。 +- 跨可用区存储:数据通常保存在多个可用区,提高数据的耐用性和可用性。 +- 可扩展存储空间:存储空间高度可扩展,几乎无限制。 + +优点: + +- 简化管理:无需管理底层硬件,工程师可以直接管理和使用存储服务。 +- 高可用性和耐用性:数据保存在多个可用区,降低数据丢失的风险。 +- 弹性扩展:存储和处理能力可以根据需求灵活扩展,适应大流量和并行处理需求。 +- 成本效益:按需付费,避免了提前为硬件做计划的成本,对预算有限的小型组织尤为有利。 +- 分离计算和存储:允许使用短暂的计算集群处理数据,进一步优化资源利用。 +- 大数据支持:适用于处理大数据,支持大规模并行处理和存储。 +- 无限存储:存储空间几乎无限,工程师可以快速存储大量数据,不受物理硬件限制。 +- 数据持久性:数据写入后不可更改,确保数据的持久性和完整性。 + +### 分布式文件系统 + +### [流式存储](/中间件/消息队列/消息队列.md) + +像Apache Kafka这样的分布式、可扩展的流框架现在允许极长的流数据保留。Kafka通过将旧的、不经常访问的消息推送到对象存储中来支持无限期的数据保留 + +### 区块链 + +## 设计思想与趋势 + +### 数据目录 + +一个集中存储元数据的平台,用于管理和查询整个组织的数据。它与各种系统集成,跨运营和分析数据源工作,提供数据脉络和关系,并允许用户编辑数据描述。数据目录通常提供一个中央场所,用户可以查看、查询和存储元数据 + +### 数据共享 + +允许组织和个人与特定实体共享特定的数据和精心定义访问权限 + +### 模式 + +数据的预期形式是什么?文件的格式是什么?是结构化的、半结构化的,还是非结构化的?预计有哪些数据类型?数据如何融入一个更大的层次结构?它是否通过共享键或其他关系与其他数据相连? + +### 计算与存储分离 + +将数据存储系统(如对象存储、数据湖)与计算资源(如虚拟机、容器、数据处理引擎)分离管理和运行。数据存储在一个独立的存储系统中,而计算资源可以根据需要动态分配和释放,处理存储中的数据 + +### 数据存储生命周期 + +对比项|热数据|暖数据|冷数据 +-|-|-|- +访问|很频繁|不频繁|不频繁 +存储开销|昂贵|中等|便宜 +检索费用|便宜|中等|昂贵 diff --git "a/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\346\236\266\346\236\204.md" "b/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\346\236\266\346\236\204.md" index e4316d47bc..b222c4d7bb 100644 --- "a/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\346\236\266\346\236\204.md" +++ "b/doc/\346\225\260\346\215\256\346\212\200\346\234\257/\346\225\260\346\215\256\346\236\266\346\236\204.md" @@ -6,28 +6,7 @@ tags: ['数据技术', '大数据'] 从数据存储模式、时效性和分布模式三个架构设计和数据建模视角描述做什么,怎么做 -## 数据存储 - -### [数据库](/中间件/数据库/数据库.md) - -### [数据仓库](/数据技术/数据仓库.md) - -### 数据湖 - -一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。数据湖侧重于ODS的层管理,由于数据湖没有固定的结构,可以使用数据湖来存储大量的原始数据。通过一个数据湖中间层以支持ODS层之后不同方式的使用或处理 - -常见的实现形式为表格式,只负责依照某种格式存储到存储系统中,再由独立的查询引擎实现读取数据查询 - -### 湖仓一体 - -业界主流有两种做法: - -1. 将数据仓库构建在数据湖之上 -2. 数据仓库与数据湖独立,二者通过消息通道进行数据同步 - -### [分布式存储](/软件工程/架构/系统设计/分布式/分布式数据.md) - -### 区块链 +## [数据存储](/数据技术/数据存储.md) ## 数据计算