<h4>Apache Spark: 在集群上运行的统一计算引擎，以及一组并行数据处理软件库</h4>

统一平台

- 统一API，利用Spark的API，用户可以组合不同库和函数来优化用户程序
- 统一平台，统一软件库支持

计算引擎
- Spark专注于对数据执行计算，不考虑数据存储于何处
- Spark本身不负责持久化数据，不偏向于使用某一特定的存储系统

配套的软件库
- Spark不仅支持引擎附带的标准库，同时也支持由开源社区以第三方包形式发布的大量外部库
- Spark SQL, MLlib, Spark Streaming, Graphx

启动Python控制台
- ./bin/pyspark

启动Scala控制台
- ./bin/spark-shell

启动SQL控制台
- .bin/spark-sql

<b>Spark权威指南用到的数据</b>
- https://github.com/databricks/Spark-The-Definitive-Guide

<h4>Spark的基本架构</h4>

Spark应用程序
- 一个驱动器进程（指挥）和一组执行器进程（工作节点）
- 驱动器进程
    - 维护Spark应用程序的相关信息
    - 回应用户的程序或输入
    - 分析任务并分发给若干执行器处理
    
- 执行器进程
    - 执行由驱动器分配给的代码
    - 将将执行器的计算状态报告给运行驱动器的节点
    
- 集群管理器
    - Spark使用一个集群管理器来跟踪可用资源
    - 用于控制物理机器，并为Spark应用程序分配资源
    - 这个集群管理器可以是三个核心集群管理器中的任一个
    - Spark的独立集群管理器、Yarn或Mesos

<h4>SparkSession</h4>

- Spark通过SparkSession将用户命令和数据发送给Spark
- 当我们以交互模式启动Spark时，我们隐式创建了一个SparkSession来管理Spark应用程序
- 如果通过独立应用程序启动，必须在应用程序代码中显式创建SparkSession对象
- 简单来说我们需要创建一个SparkSession实例在集群中执行用户定义的操作
- 以下运行一个简单的命令

In [4]:
%%html
<img src="img/first.png", width=400>

ok，我们写了第一个Spark程序，我给大家讲两句

- 首先第一行我们创建了一个DataFrame，包含1000行，0~999
- 这些数字是分布式集合，这意味这些数字会被分配在不同的执行器上
- collect作为计算函数能够展示当前rdd的内容（DataFrame是对rdd的封装）
- 也可以用show()方法展示DataFrame的内容

<h4>DataFrame</h4>

- 最常见的结构化API，是包含行和列的数据表，也成为SchemaRDD
- 它的列和列类型规则被称为模式（schema）
- DataFrame相当于具有多个命名列，能够跨越数千台机器存储的表格
- 目前可以公开的情报：Python DataFrame可以转为Spark DataFrame

<h4>数据分区</h4>

- 为了让多个执行器并行工作，Spark将数据分为多个数据块，每个数据块叫一个分区
- 分区是位于集群中的一台物理机上的多行数据的集合，代表了执行过程中数据在集群上的物理分布


- 一个分区，数千执行器，Spark只有一个执行器处理数据
- 一个执行器，数千分区，Spark只有一个执行器处理数据


- 在使用DataFrame时，大部分时候不需要手动操作分区，只需要指定数据的高级转化操作
- Spark会决定如何在集群上执行工作

<h4>转换操作</h4>

- 要更深刻地理解转换操作，需要看下下面的惰性评估
- 转换操作不是更改DataFrame，转换操作是告诉Spark对DataFrame的执行步骤
- 以下执行一个简单的转换来查找当前DataFrame的所有偶数

In [7]:
%%html
<img src="img/even.png", width=300>

Spark转换操作有两类<br>


1. 窄依赖关系的转换操作（narrow dependency）
    - 每个输入分区仅决定一个输出分区的转换
    - Spark自动执行流水线处理
    - 如果在DataFrame上指定多个过滤操作，它们将全部在内存中执行
2. 宽依赖关系的转换操作（wide dependency）
    - 每个输入分区决定了多个输出分区，也称为洗牌（shuffle）操作
    - 它会在整个集群中执行互相交换分区数据的功能
    - 执行Shuffle操作时，Spark将结果写入磁盘

<h4>惰性评估（lazy evaluation）</h4>

- 等到绝对需要时才执行计算
- 当用户表达对数据的操作时，不是立刻修改数据，而是建立一个作用到原始数据的转换计划
- Spark会将转换计划编译为可以在集群中高效运行的流水线式地物理执行计划


- 直到最后时刻执行代码为什么有好处，一个很好的例子是DataFrame的<b>谓词下推（predicate pushdown）</b>
    - 假设构建了一个含有多个转换操作的Spark作业，并在最后指定了一个过滤操作
    - 即，我们其实只需要数据集中的某一行
    - 那么最有效的方法是在最开始访问我们需要的单个记录，而不是全部加载进来
    - Spark会自动下推这个过滤操作来优化整个物理执行计划

<h4>动作操作</h4>

- 转换操作能让我们建立逻辑转换计划
- 动作操作（action）则会指示Spark在一系列转换操作后1计算一个结果
- 最简单的动作操作是count，它能计算一个DataFrame中的记录总数

In [8]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Python").getOrCreate()

- spark.read方法将csv读取到DataFrame中，又通过take读到行列表中

In [11]:
flightData2015 = spark.read.option("inferSchema","true").option("header","true").csv("./data/flight-data/csv/2015-summary.csv")
flightData2015.take(3)

[Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Romania', count=15),
 Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Croatia', count=1),
 Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Ireland', count=344)]

In [12]:
flightData2015.printSchema()

root
 |-- DEST_COUNTRY_NAME: string (nullable = true)
 |-- ORIGIN_COUNTRY_NAME: string (nullable = true)
 |-- count: integer (nullable = true)



- 我们也可以试试对count进行排序，然后调用explain操作显示DataFrame的来源
- 可以从上往下阅读解释计划
- 上面是最终结果，下面是数据源，可以看到排序，交换和FileScan
- 排序是一个宽转换，行需要相互比较和交换

In [13]:
flightData2015.sort("count").explain()

== Physical Plan ==
*(1) Sort [count#40 ASC NULLS FIRST], true, 0
+- Exchange rangepartitioning(count#40 ASC NULLS FIRST, 200), ENSURE_REQUIREMENTS, [id=#51]
   +- FileScan csv [DEST_COUNTRY_NAME#38,ORIGIN_COUNTRY_NAME#39,count#40] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex[file:/C:/Users/zAckky1997/Desktop/学习/Spark/Untitled Folder/data/flight-data/csv..., PartitionFilters: [], PushedFilters: [], ReadSchema: struct<DEST_COUNTRY_NAME:string,ORIGIN_COUNTRY_NAME:string,count:int>




这里还可以指定分区数量，分区默认为200个shuffle分区，这里设置为5

In [14]:
spark.conf.set("spark.sql.shuffle.partitions","5")
flightData2015.sort("count").take(2)

[Row(DEST_COUNTRY_NAME='United States', ORIGIN_COUNTRY_NAME='Singapore', count=1),
 Row(DEST_COUNTRY_NAME='Moldova', ORIGIN_COUNTRY_NAME='United States', count=1)]

<h4>DataFrame和SQL</h4>

- 在使用Spark SQL时，可以将任何DataFrame注册为数据表或视图，并使用纯SQL对它进行查询

In [16]:
flightData2015.createOrReplaceTempView("flight_data_2015")

sqlWay = spark.sql("""
SELECT DEST_COUNTRY_NAME, count(1)
FROM flight_data_2015
GROUP BY DEST_COUNTRY_NAME
""")

dataFrameWay = flightData2015.groupBy("DEST_COUNTRY_NAME").count()

sqlWay.explain()
dataFrameWay.explain()

== Physical Plan ==
*(2) HashAggregate(keys=[DEST_COUNTRY_NAME#38], functions=[count(1)])
+- Exchange hashpartitioning(DEST_COUNTRY_NAME#38, 5), ENSURE_REQUIREMENTS, [id=#83]
   +- *(1) HashAggregate(keys=[DEST_COUNTRY_NAME#38], functions=[partial_count(1)])
      +- FileScan csv [DEST_COUNTRY_NAME#38] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex[file:/C:/Users/zAckky1997/Desktop/学习/Spark/Untitled Folder/data/flight-data/csv..., PartitionFilters: [], PushedFilters: [], ReadSchema: struct<DEST_COUNTRY_NAME:string>


== Physical Plan ==
*(2) HashAggregate(keys=[DEST_COUNTRY_NAME#38], functions=[count(1)])
+- Exchange hashpartitioning(DEST_COUNTRY_NAME#38, 5), ENSURE_REQUIREMENTS, [id=#102]
   +- *(1) HashAggregate(keys=[DEST_COUNTRY_NAME#38], functions=[partial_count(1)])
      +- FileScan csv [DEST_COUNTRY_NAME#38] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex[file:/C:/Users/zAckky1997/Desktop/学习/Spark/Untitled Folder/data/flight-

In [17]:
sqlWay.show()

+--------------------+--------+
|   DEST_COUNTRY_NAME|count(1)|
+--------------------+--------+
|             Moldova|       1|
|             Bolivia|       1|
|             Algeria|       1|
|Turks and Caicos ...|       1|
|            Pakistan|       1|
|    Marshall Islands|       1|
|            Suriname|       1|
|              Panama|       1|
|         New Zealand|       1|
|             Liberia|       1|
|             Ireland|       1|
|              Zambia|       1|
|            Malaysia|       1|
|               Japan|       1|
|    French Polynesia|       1|
|           Singapore|       1|
|             Denmark|       1|
|               Spain|       1|
|             Bermuda|       1|
|            Kiribati|       1|
+--------------------+--------+
only showing top 20 rows



<h4>更多的例子</h4>

- 使用max函数统计往返特定位置航班的最大数量

In [20]:
spark.sql("SELECT max(count) FROM flight_data_2015").take(1)

[Row(max(count)=370002)]

In [21]:
from pyspark.sql.functions import max
flightData2015.select(max("count")).take(1)

[Row(max(count)=370002)]

- 统计接收航班数量最多的目的地

In [24]:
maxSql = spark.sql("""
SELECT DEST_COUNTRY_NAME, sum(count) as destination_total
FROM flight_data_2015
GROUP BY DEST_COUNTRY_NAME
ORDER BY sum(count) DESC
LIMIT 5
""")
maxSql.show()

+-----------------+-----------------+
|DEST_COUNTRY_NAME|destination_total|
+-----------------+-----------------+
|    United States|           411352|
|           Canada|             8399|
|           Mexico|             7140|
|   United Kingdom|             2025|
|            Japan|             1548|
+-----------------+-----------------+



In [26]:
from pyspark.sql.functions import desc

flightData2015\
    .groupBy("DEST_COUNTRY_NAME")\
    .sum("count")\
    .withColumnRenamed("sum(count)", "destination_total")\
    .sort(desc("destination_total"))\
    .limit(5)\
    .show()

+-----------------+-----------------+
|DEST_COUNTRY_NAME|destination_total|
+-----------------+-----------------+
|    United States|           411352|
|           Canada|             8399|
|           Mexico|             7140|
|   United Kingdom|             2025|
|            Japan|             1548|
+-----------------+-----------------+



注意：以上从groupBy开始到limit所有转换操作都会产生新的不可变的DataFrame

DataFrame转换完整流程详解

1. 读取数据
    - 在调用spark.read后，spark实际上并未真正读取它，直到在DataFrame上调用动作操作后才会真正读取它
2. 调用groupBy分组
    - 得到RelationalGroupedDataset对象，也是一个DataFrame对象
3. 指定聚合操作
    - 使用sum聚合操作，这里需要输入列表达式或者简单的列名称，产生一个新的DataFrame
4. 重命名
5. 降序排序

In [28]:
flightData2015\
    .groupBy("DEST_COUNTRY_NAME")\
    .sum("count")\
    .withColumnRenamed("sum(count)", "destination_total")\
    .sort(desc("destination_total"))\
    .limit(5)\
    .explain()

== Physical Plan ==
TakeOrderedAndProject(limit=5, orderBy=[destination_total#209L DESC NULLS LAST], output=[DEST_COUNTRY_NAME#38,destination_total#209L])
+- *(2) HashAggregate(keys=[DEST_COUNTRY_NAME#38], functions=[sum(cast(count#40 as bigint))])
   +- Exchange hashpartitioning(DEST_COUNTRY_NAME#38, 5), ENSURE_REQUIREMENTS, [id=#343]
      +- *(1) HashAggregate(keys=[DEST_COUNTRY_NAME#38], functions=[partial_sum(cast(count#40 as bigint))])
         +- FileScan csv [DEST_COUNTRY_NAME#38,count#40] Batched: false, DataFilters: [], Format: CSV, Location: InMemoryFileIndex[file:/C:/Users/zAckky1997/Desktop/学习/Spark/Untitled Folder/data/flight-data/csv..., PartitionFilters: [], PushedFilters: [], ReadSchema: struct<DEST_COUNTRY_NAME:string,count:int>


