From 2475d16746287e12fe5f9fe3437d47426a7992ba Mon Sep 17 00:00:00 2001 From: marsishandsome Date: Fri, 22 May 2020 15:06:16 +0800 Subject: [PATCH 1/4] update tispark doc --- tispark-overview.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/tispark-overview.md b/tispark-overview.md index a0b007a650d6..2a271f2273e3 100644 --- a/tispark-overview.md +++ b/tispark-overview.md @@ -19,7 +19,8 @@ TiSpark 是将 Spark SQL 直接运行在分布式存储引擎 TiKV 上的 OLAP + TiSpark 深度整合了 Spark Catalyst 引擎, 可以对计算提供精确的控制,使 Spark 能够高效的读取 TiKV 中的数据,提供索引支持以实现高速的点查。 + 通过多种计算下推减少 Spark SQL 需要处理的数据大小,以加速查询;利用 TiDB 的内建的统计信息选择更优的查询计划。 + 从数据集群的角度看,TiSpark + TiDB 可以让用户无需进行脆弱和难以维护的 ETL,直接在同一个平台进行事务和分析两种工作,简化了系统架构和运维。 -+ 除此之外,用户借助 TiSpark 项目可以在 TiDB 上使用 Spark 生态圈提供的多种工具进行数据处理。例如,使用 TiSpark 进行数据分析和 ETL;使用 TiKV 作为机器学习的数据源;借助调度系统产生定时报表等等。 ++ 用户借助 TiSpark 项目可以在 TiDB 上使用 Spark 生态圈提供的多种工具进行数据处理。例如,使用 TiSpark 进行数据分析和 ETL;使用 TiKV 作为机器学习的数据源;借助调度系统产生定时报表等等。 ++ 除此之外,TiSpark 还提供了分布式写入 TiKV 的功能,相比通过 JDBC 写入 TiDB,分布式写入 TiKV 可以实现事务(要么全部数据写入成功,要么全部都写入失败),并且写入速度会更快。 ## 环境准备 @@ -95,6 +96,8 @@ spark-shell --jars $TISPARK_FOLDER/tispark-${name_with_version}.jar 如果没有使用中的 Spark 集群,推荐使用 Saprk Standalone 方式部署。这里简单介绍下 Standalone 部署方式。如果遇到问题,可以去官网寻求[帮助](https://spark.apache.org/docs/latest/spark-standalone.html);也欢迎在我们的 GitHub 上提 [issue](https://github.com/pingcap/tispark/issues/new)。 +如果是使用 tidb-ansible 部署的 TiDB 集群,也可以通过 tidb-ansible 来部署 Spark Standalone 集群,TiSpark 也会同时部署。 + #### 下载安装包并安装 你可以在 [Download Apache Spark™ 页面](https://spark.apache.org/downloads.html)下载 Apache Spark。 From fa3b7928f5bf8b5e1be2b8d7cd15b68b8bda8952 Mon Sep 17 00:00:00 2001 From: Liangliang Gu Date: Fri, 22 May 2020 15:09:48 +0800 Subject: [PATCH 2/4] Update tispark-overview.md Co-authored-by: TomShawn <41534398+TomShawn@users.noreply.github.com> --- tispark-overview.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/tispark-overview.md b/tispark-overview.md index 2a271f2273e3..6d54bd186fea 100644 --- a/tispark-overview.md +++ b/tispark-overview.md @@ -96,7 +96,7 @@ spark-shell --jars $TISPARK_FOLDER/tispark-${name_with_version}.jar 如果没有使用中的 Spark 集群,推荐使用 Saprk Standalone 方式部署。这里简单介绍下 Standalone 部署方式。如果遇到问题,可以去官网寻求[帮助](https://spark.apache.org/docs/latest/spark-standalone.html);也欢迎在我们的 GitHub 上提 [issue](https://github.com/pingcap/tispark/issues/new)。 -如果是使用 tidb-ansible 部署的 TiDB 集群,也可以通过 tidb-ansible 来部署 Spark Standalone 集群,TiSpark 也会同时部署。 +如果是使用 TiDB Ansible 部署的 TiDB 集群,也可以通过 TiDB Ansible 来部署 Spark Standalone 集群,TiSpark 也会同时部署。 #### 下载安装包并安装 From 70ed809a5205d501797bcf1c0731898773a9b94a Mon Sep 17 00:00:00 2001 From: Liangliang Gu Date: Mon, 25 May 2020 14:47:42 +0800 Subject: [PATCH 3/4] Update tispark-overview.md --- tispark-overview.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/tispark-overview.md b/tispark-overview.md index 6d54bd186fea..d4fb975df8e5 100644 --- a/tispark-overview.md +++ b/tispark-overview.md @@ -20,7 +20,7 @@ TiSpark 是将 Spark SQL 直接运行在分布式存储引擎 TiKV 上的 OLAP + 通过多种计算下推减少 Spark SQL 需要处理的数据大小,以加速查询;利用 TiDB 的内建的统计信息选择更优的查询计划。 + 从数据集群的角度看,TiSpark + TiDB 可以让用户无需进行脆弱和难以维护的 ETL,直接在同一个平台进行事务和分析两种工作,简化了系统架构和运维。 + 用户借助 TiSpark 项目可以在 TiDB 上使用 Spark 生态圈提供的多种工具进行数据处理。例如,使用 TiSpark 进行数据分析和 ETL;使用 TiKV 作为机器学习的数据源;借助调度系统产生定时报表等等。 -+ 除此之外,TiSpark 还提供了分布式写入 TiKV 的功能,相比通过 JDBC 写入 TiDB,分布式写入 TiKV 可以实现事务(要么全部数据写入成功,要么全部都写入失败),并且写入速度会更快。 ++ 除此之外,TiSpark 还提供了分布式写入 TiKV 的功能,相比使用 spark 结合 jdbc 的方式写入 TiDB,分布式写入 TiKV 可以实现事务(要么全部数据写入成功,要么全部都写入失败),并且写入速度会更快。 ## 环境准备 From 3cbb7c19ae81bea35d8069e01669c63eae83470e Mon Sep 17 00:00:00 2001 From: Liangliang Gu Date: Mon, 25 May 2020 17:04:22 +0800 Subject: [PATCH 4/4] Update tispark-overview.md Co-authored-by: TomShawn <41534398+TomShawn@users.noreply.github.com> --- tispark-overview.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/tispark-overview.md b/tispark-overview.md index d4fb975df8e5..08a1ff29913d 100644 --- a/tispark-overview.md +++ b/tispark-overview.md @@ -20,7 +20,7 @@ TiSpark 是将 Spark SQL 直接运行在分布式存储引擎 TiKV 上的 OLAP + 通过多种计算下推减少 Spark SQL 需要处理的数据大小,以加速查询;利用 TiDB 的内建的统计信息选择更优的查询计划。 + 从数据集群的角度看,TiSpark + TiDB 可以让用户无需进行脆弱和难以维护的 ETL,直接在同一个平台进行事务和分析两种工作,简化了系统架构和运维。 + 用户借助 TiSpark 项目可以在 TiDB 上使用 Spark 生态圈提供的多种工具进行数据处理。例如,使用 TiSpark 进行数据分析和 ETL;使用 TiKV 作为机器学习的数据源;借助调度系统产生定时报表等等。 -+ 除此之外,TiSpark 还提供了分布式写入 TiKV 的功能,相比使用 spark 结合 jdbc 的方式写入 TiDB,分布式写入 TiKV 可以实现事务(要么全部数据写入成功,要么全部都写入失败),并且写入速度会更快。 ++ 除此之外,TiSpark 还提供了分布式写入 TiKV 的功能。相比使用 Spark 结合 JDBC 的方式写入 TiDB,分布式写入 TiKV 可以实现事务(要么全部数据写入成功,要么全部都写入失败),并且写入速度会更快。 ## 环境准备