Skip to content
5 changes: 4 additions & 1 deletion tispark-overview.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,8 @@ TiSpark 是将 Spark SQL 直接运行在分布式存储引擎 TiKV 上的 OLAP
+ TiSpark 深度整合了 Spark Catalyst 引擎, 可以对计算提供精确的控制,使 Spark 能够高效的读取 TiKV 中的数据,提供索引支持以实现高速的点查。
+ 通过多种计算下推减少 Spark SQL 需要处理的数据大小,以加速查询;利用 TiDB 的内建的统计信息选择更优的查询计划。
+ 从数据集群的角度看,TiSpark + TiDB 可以让用户无需进行脆弱和难以维护的 ETL,直接在同一个平台进行事务和分析两种工作,简化了系统架构和运维。
+ 除此之外,用户借助 TiSpark 项目可以在 TiDB 上使用 Spark 生态圈提供的多种工具进行数据处理。例如,使用 TiSpark 进行数据分析和 ETL;使用 TiKV 作为机器学习的数据源;借助调度系统产生定时报表等等。
+ 用户借助 TiSpark 项目可以在 TiDB 上使用 Spark 生态圈提供的多种工具进行数据处理。例如,使用 TiSpark 进行数据分析和 ETL;使用 TiKV 作为机器学习的数据源;借助调度系统产生定时报表等等。
+ 除此之外,TiSpark 还提供了分布式写入 TiKV 的功能。相比使用 Spark 结合 JDBC 的方式写入 TiDB,分布式写入 TiKV 可以实现事务(要么全部数据写入成功,要么全部都写入失败),并且写入速度会更快。

## 环境准备

Expand Down Expand Up @@ -95,6 +96,8 @@ spark-shell --jars $TISPARK_FOLDER/tispark-${name_with_version}.jar

如果没有使用中的 Spark 集群,推荐使用 Saprk Standalone 方式部署。这里简单介绍下 Standalone 部署方式。如果遇到问题,可以去官网寻求[帮助](https://spark.apache.org/docs/latest/spark-standalone.html);也欢迎在我们的 GitHub 上提 [issue](https://github.com/pingcap/tispark/issues/new)。

如果是使用 TiDB Ansible 部署的 TiDB 集群,也可以通过 TiDB Ansible 来部署 Spark Standalone 集群,TiSpark 也会同时部署。

#### 下载安装包并安装

你可以在 [Download Apache Spark™ 页面](https://spark.apache.org/downloads.html)下载 Apache Spark。
Expand Down