Skip to content

Latest commit

 

History

History
58 lines (41 loc) · 6.66 KB

File metadata and controls

58 lines (41 loc) · 6.66 KB

简介

云数据仓库套件 Sparkling(Tencent Sparkling Data Warehouse Suite)基于业界领先的 Apache Spark 框架,为用户提供一套全托管、简单易用、高性能的 PB 级云端数据仓库解决方案,实现一站式大数据开发与数据科学计算。企业可以借助 Sparkling 跨数据源联合分析特性,轻松分析位于云上的数据,从而帮助企业专注于数据价值的挖掘和探索。

云数据仓库套件 Sparkling 支持弹性扩缩容,用户可以根据业务发展需要调整集群资源大小;支持多种异构数据源的导入及作业定时调度,用户可以实现对多路数据源的汇聚分析;提供了统一的、图形化的交互方式,帮助用户更加便捷、高效地进行数据开发与数据分析操作。

产品功能

集群管控

Sparkling 集群是云数据仓库套件 Sparkling 为用户提供服务的载体。一个 Sparkling 集群由 Master 节点和工作节点组成。工作节点包括核心节点和弹性计算节点,其中核心节点提供数据存储能力和计算能力,弹性计算节点提供计算能力。Sparkling 集群的大小,决定了云数据仓库套件 Sparkling 所能提供的存储能力和计算能力的上限。

Sparkling 支持创建高可用的集群,来保证服务的高可用性。在高可用模式下,Master 节点服务在机架级硬件故障情况下仍然可用。

  • 云数据仓库套件 Sparkling 提供了非常简洁易用的 集群管理 功能,方便用户指定符合业务需求的 Sparkling 集群规模。同时,随着用户业务的发展,存储和计算需求的增加,用户也可以很方便的 扩容和缩容 集群规模。随着节点规模的增加,整个集群的存储容量和计算性能也得到线性的提升。
  • 当用户不再需要使用某个集群时,可以选择 销毁集群。被销毁的集群无法恢复,同时集群中存储的数据也会在一段时间之后无法再访问。
  • Sparkling 的集群管理除了支持集群的创建、销毁、扩缩容,还可以查看集群当前运行状态、资源信息、所在地域、节点型号等信息。

数据集成

提供各类异构数据源的接入集成。用户可以通过 Data Studio 控制台将传统关系型数据库、对象存储 COS、Kafka 流式数据经过抽取、转换和装载,接入到云数据仓库套件 Sparkling 的存储中。

Sparkling 提供丰富的功能供用户定制数据接入过程。用户可以:

  • 行裁剪:设置过滤条件,对导入数据进行行裁剪。
  • 导入部分列:删除导入数据的某些列,只将部分列导入数据仓库。
  • 列顺序调整:对导入列的顺序进行调整。
  • 设置分区:在某些列上设置分区,提高后续数据查询的效率。
  • 多种格式存储:支持多种数据文件存储格式。
  • 管理数据源:支持保存和管理数据源,方便之后设置新的数据导入任务以及数据溯源。
  • 导入已有数据表:支持将数据导入到数仓上一个已经存在的数据表中。
  • 设置映射关系:用户可以设置源数据表与目标数据表之间的映射关系,使数据导入更加灵活。
  • 预览数据:数据导入过程中用户可以预览导入数据。
  • 定时导入:用户可以进行单次导入,也可以设置定时任务进行周期性导入。
  • 全量/增量导入:支持数据的全量导入和增量导入。
  • 增量导入自定义语法:支持增量导入条件中提供一些自定义语法使增量导入条件更加灵活。

数据开发

Sparkling 为用户提供基于 Notebook 的线上交互式环境。用户可以通过在 Notebook 中执行代码,对数据仓库中的数据进行分析和加工。

用户可以在 Sparkling Notebook 中执行 SQL、Python 和 Spark 代码。Sparkling SQL 是一种结构化的查询语言,语法与 MySQL/Oracle/Hive SQL 类似,兼容业界 SQL 标准 ANSI SQL 2003。熟悉传统数据库或 Hive 的用户可以很容易上手。除了标准的 SQL 操作,Sparkling SQL 还嵌入了多种高级函数,这些函数包含了常见的数学运算、统计分析、时间日期等方面的操作。

用户在 Sparkling Notebook 里还可以运行 spark 和 pyspark 程序,方便用户开发更灵活的数据分析程序。

Sparkling Notebook 提供了数据可视化工具。通过拖拽组件的方式,用户可以在 Notebook 中通过多种方式(如饼状图、散点图等)对数据进行可视化。通过结合交互式编程和数据可视化,用户可以方便的分析和调试数据。用户还可以将数据分析结果进行报表展示,以及将分析结果导出下载到本地。

Sparkling 还提供一些辅助功能提高用户效率,例如用户可以按照项目组织自己 Notebook,可以在一个 SQL IDE 中查看数据表。

任务管理

对于持续更新的数据,Sparkling 支持用户将数据导入和 Notebook 设置为按一定周期定时执行。周期设置的范围从小时到月。Sparkling 提供可靠的周期调度,支持任务的回填调度。

除了基本的数据导入和 Notebook 定时任务,用户可以将数据导入和 Notebook 进行组合,组成一个 DAG 工作流任务,Sparkling 将对整体 DAG 工作流任务进行按依赖关系进行调度,这在复杂的数据分析流水线和数据科学等场景下尤为有用。

通过 Sparkling 统一的任务管理界面可以查看和管理数据导入和 Notebook 定时运行任务。用户可以进行如查看任务状态、历史信息、临时触发任务或终止任务等操作。

弹性伸缩

云数据仓库套件 Sparkling 提供强大的弹性扩缩容能力。计算存储分离,集群工作节点包括核心节点和弹性计算节点。用户通过 Data Studio 控制台或云 API,实现手动和自动对大规模节点的快速线性横向的扩容,以及纵向计算和存储能力的变配。弹性计算节点同时支持自动化弹性缩容,以适配业务的发展。

数据管理

提供元数据管理模块,支持技术元数据、管理元数据和业务元数据的注册、导入、存储、检索、导出、发布等管理功能,同时为用户提供数据地图、数据字典、数据血缘追踪和影响分析、元数据版本管理、元数据统计分析、数据质量报表等多种数据管理能力。

项目管理

提供项目管理模块,支持客户按照企业内部产品线、团队和项目方式来创建项目空间并进行项目人员和笔记簿管理。