- 本章展示如何开发独立的Spark应用程序并将其部署到集群上
- 本章使用一个简单构建应用程序的模板，包括设置构建工具和单元测试

<h4>编写Spark应用程序</h4>

- Spark应用程序包含两个部分：Spark集群，自己的代码
- 本例，集群被设置为本地模式

In [1]:
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.master("local")\
.appName("Word Count")\
.config("spark.some.config.option","some-value")\
.getOrCreate()

In [8]:
spark.range(50000).where("id > 500").selectExpr("sum(id)").show()

+----------+
|   sum(id)|
+----------+
|1249849750|
+----------+



In [10]:
spark.range(50000).where("id > 500").selectExpr("sum(id)").collect()

[Row(sum(id)=1249849750)]

<h4>开发Python应用程序</h4>

- 为了便于代码重用，通常将多个Python文件打包成包含Spark代码的egg文件或ZIP文件
- 可以通过spark-submit的--py-files参数来添加要与应用程序一起分发的.pym .zip和.egg文件

In [9]:
from __future__ import print_function
if __name__ == '__main__':
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.master("local").appName("Word Count").config("spark.some.config.option","some-value").getOrCreate()
    print(spark.range(5000).where("id > 500").selectExpr("sum(id)").collect())

<h4>运行应用程序</h4>

- 调用spark-submit执行应用程序

$SPARK_HOME/bin/spark-submit --master local pyspark_template/main.py

<h4>使用哪种API</h4>

- Spark提供了很多API选择，包括SQL、DataFrame和Dataset
- 其中每一种对应用程序的可维护性和可测试性都会产生不同的影响
- 选择何种API取决于开发团队和需求
- SQL和DataFrame限制少，可以提高开发速度
- Dataset API或RDD可以提高类型安全


- 通常推荐使用Scala和Java等静态类型语言来处理大型或完全控制性能优化的应用程序

<h4>spark-submit命令选项</h4>

- 可以使用spark-submit -help命令列举所有选项

<h4>spark-submit的--master标记可以接收的值</h4>

|值|描述|
|:----|:----|
|spark://host:port|连接到指定端口的Spark独立集群上，默认情况下Spark独立主节点使用7077端口
|mesos://host:port|连接到指定端口的Mesos集群上，默认情况下Mesos主节点监听5050端口
|yarn|连接到一个YARN集群，需要设置变量HADOOP_CONF_DIR指向Hadoop配置目录，以获取集群信息
|local|运行本地模式，使用单核
|local[N]|运行本地模式，使用N个核心
|local[\*]|运行本地模式，使用尽可能多的核心

<h4>spark-submit的一般格式</h4>

- ./bin/spark-submit [options] <app jar | python file> [app options]
- [option]是传给spark-submit的标记列表，可以运行spark-submit --help列出所有可接收标记
- [app options]是传给应用的选项

|标记|描述|
|:----|:----|
|--master MASTER_URL|表示要连接的集群管理器
|--deploy-mode DEPLOT_MODE|选择在本地客户端("client")，即调用spark-submit的机器上启动驱动器程序，还是集群中的一台工作节点上("cluster")启动，默认为客户端模式
|--class|运行Java或Scala程序时应用的主类
|--name|应用的显示名，会显示在Spark的网页用户界面中
|--files|需要放到应用工作目录中的文件列表
|--py-files|需要放到PYTHONPATH中的文件列表，配置Python应用程序需要的.zip、.egg或者.py，用逗号隔开
|--execute-memory|执行器进程使用的内存量，以字节为单位，如"512m"(512MB)或"15g"(15GB)
|--driver-memory MEM|配置驱动器的内存大小（例如，1000MB，2GB），默认1024MB
|--driver-Java-options|配置驱动器的Java参数
|--driver-library-path|配置驱动器的library oath
|--driver-class-path|配置驱动器的classpath，通过--jars添加的JAR包已经自动包含在classpath里
|--help, -h|显示帮助信息并退出
|--verbose, -v|打印额外的debug信息

<h4>部署相关配置</h4>

|Cluster Managers|Modes|Conf|Description|
|:----|:----|:----|:----
|Standalone|Cluster|--driver-cores NUM|驱动器的核心数量（默认：1）
|Standalone/Mesos|Cluster|--supervise|失败后重新启动驱动器
|Standalone/Mesos|Cluster|--kill SUBMISSION_ID|杀死指定驱动器进程
|Standalone/Mesos|Cluster|--status SUBMISSION_ID|获取指定驱动器的状态
|Standalone/Mesos|Either|--total-executor-cores NUM|所有执行器的总核心数
|Standalone/YARN|Either|--executor-cores NUM1|每个执行器的核心数（默认YARN模式下为1，或在standalone模式下worker节点）
|YARN|Either|--driver-cores NUM|集群模式下的驱动器的核心数（默认：1）
|YARN|Either|queue QUEUE_NAME|提交到YARN的队列名
|YARN|Either|--num-executors NUM|启动的执行器（默认：2），如果执行了动态分配，那么初始执行器数量最少为NUM

<h4>应用程序启动示例</h4>

./bin/spark-submit \\<br>
--master spark://192.168.0.200:7077 \\<br>
examples/src/main/python/pi.py \\<br>
1000

- 也可以将其更改为本地模式运行
- 即将master设置为local或local\[*]