## spark-sql 的数据关联

数据关联（Join）指的是这样一个计算过程：给定关联条件（Join Conditions）将两张数据表以不同关联形式拼接在一起的过程。关联条件包含两层含义，一层是两张表中各自关联字段（Join Key）的选择，另一层是关联字段之间的逻辑关系。是数据分析场景中最常见、最重要的操作

Join 的种类非常丰富。如果按照关联形式（Join Types）来划分，数据关联分为内关联、外关联、左关联、右关联，等等。对于参与关联计算的两张表，关联形式决定了结果集的数据来源。在开发过程中选择哪种关联形式，是由我们的业务逻辑决定的

而从实现机制的角度，Join 又可以分为 NLJ（Nested Loop Join）、SMJ（Sort Merge Join）和 HJ（Hash Join）。也就是说，同样是内关联，我们既可以采用 NLJ 来实现，也可以采用 SMJ 或是 HJ 来实现。区别在于，在不同的计算场景下，这些不同的实现机制在执行效率上有着天壤之别

### 关联形式（Join Types）
![image.png](attachment:a835656e-bafa-4c13-805c-ad5e2886fcff.png)

内”、“外”、“左”、“右”这些说法的含义和mysql的类似，这里不再阐述，主要介绍左半 / 逆关联（Left Semi Join / Left Anti Join）

#### 左半关联 left_semi
左半关联是内关联的一个子集；其次，它只保留左表 salaries 中的数据。这两个特点叠加在一起，很好地诠释了“左、半”这两个字。
#### 左逆关联 left_anti
左逆关联同样只保留左表的数据，它的关键字有“leftanti”和“left_anti”。但与左半关联不同的是，它保留的，是那些不满足关联条件的数据记录

### 关联机制（Join Mechanisms） 

根据业务逻辑选用适用的关联形式后，还需要选择关联的实现机制，不同的关联机制影响着我们程序的运算性能，比如同样是内关联，不同的 Join 实现机制在执行效率方面差异巨大。因此，掌握不同关联机制的实现原理与特性，有利于提高程序运行的性能

Join 有 3 种实现机制，分别是 NLJ（Nested Loop Join）、SMJ（Sort Merge Join）和 HJ（Hash Join）

![image.png](attachment:d396e441-e3c8-48cf-893d-5e0ca62d7a8b.png)

详细的算法原理可以查询相关文档，我们主要关心这三种实现机制的适用场景



三者之中，Hash Join 的执行效率最高，这主要得益于哈希表 O(1) 的查找效率。不过，在 Probe 阶段享受哈希表的“性能红利”之前，Build 阶段得先在内存中构建出哈希表才行。因此，Hash Join 这种算法对于内存的要求比较高，适用于内存能够容纳基表数据的计算场景。

Sort Merge Join 就没有内存方面的限制。不论是排序、还是合并，SMJ 都可以利用磁盘来完成计算。所以，在稳定性这方面，SMJ 更胜一筹。而且与 Hash Join 相比，SMJ 的执行效率也没有差太多，前者是 O(M)，后者是 O(M + N)，可以说是不分伯仲。当然，O(M + N) 的复杂度得益于 SMJ 的排序阶段。因此，如果准备参与 Join 的两张表是有序表，那么这个时候采用 SMJ 算法来实现关联简直是再好不过了。

与前两者相比，Nested Loop Join 看上去有些多余，嵌套的双层 for 循环带来的计算复杂度最高：O(M * N)。不过，尺有所短寸有所长，执行高效的 HJ 和 SMJ 只能用于等值关联，也就是说关联条件必须是等式，像 salaries(“id”) < employees(“id”) 这样的关联条件，HJ 和 SMJ 是无能为力的。相反，NLJ 既可以处理等值关联（Equi Join），也可以应付不等值关联（Non Equi Join），可以说是数据关联在实现机制上的最后一道防线

### 分布式环境下的 Join 实现策略

在分布式环境中，两张表的数据各自散落在不同的计算节点与 Executors 进程。因此，要想完成数据关联，Spark SQL 就必须先要把 Join Keys 相同的数据，分发到同一个 Executors 中去才行，Spark SQL 才能利用刚刚说的 HJ、SMJ、以及 NLJ，以 Executors（进程）为粒度并行地完成数据关联

Spark 支持两类数据分发模式。一类是Shuffle 模式，通过中间文件来完成 Map 阶段与 Reduce 阶段的数据交换，因此它会引入大量的磁盘与网络开销。另一类是通过广播变量（Broadcast Variables），广播变量在 Driver 端创建，由 Driver 分发到各个 Executors 的内存中。因此，从数据分发模式的角度出发，数据关联的实现方式又可以分为 Shuffle Join 和 Broadcast Join 这两大类。将两种分发模式与 Join 本身的 3 种实现机制相结合，就会衍生出分布式环境下的 6 种 Join 策略，spark 支持其中五种join实现策略，在没有开发者干预的情况下，Spark SQL 默认采用 Shuffle Join 来完成分布式环境下的数据关联

![image.png](attachment:bb34f1de-2d53-450f-a603-18d1f070e3ee.png)

不论是等值关联、还是不等值关联，只要 Broadcast Join 的前提条件：被广播数据表的全量数据能够完全放入 Driver 的内存、以及各个 Executors 的内存，Spark SQL 一定会优先选择 Broadcast Join 相关的策略

### spark sql 性能调优

AQE（Adaptive Query Execution）是 Spark 3.0 推出的新特性，它帮助 Spark SQL 在运行时动态地调整执行计划，更加灵活地优化作业的执行性能.AQE机制的 3 个特性，分别是 Join 策略调整、自动分区合并、以及自动倾斜处理，可以通过调节相关的配置项，来影响 Spark SQL 的优化行为

![image.png](attachment:241028dc-43f4-44b0-9f3e-bb084fcade8d.png)
    

### 性能调优实践

以之前实现的小汽车摇号分析，实践spark 性能调优工作

相关代码:

In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("lesson6") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .getOrCreate()

In [2]:
%%time

# 导入数据
from pathlib import Path

root = Path("..") / 'data' / 'carData'

apply_path = root / 'apply'
apply_df = spark.read.parquet(str(apply_path))

lucky_path = root / 'lucky'
lucky_df = spark.read.parquet(str(lucky_path))

# 过滤 2016 年后的中签者数据 并且缓存数据
filter_lucky_df = lucky_df.filter(lucky_df.batchNum >= '201601').select("carNum")

filter_lucky_df.cache()
filter_lucky_df.count()

# 过滤后的中签数据与摇号数据做内关联，Join Key为申请号码carNum
join_df = filter_lucky_df.join(apply_df, "carNum")

# 以 carNum, batchNum做分组，统计倍率系数
from pyspark.sql import functions as F

multipliers = join_df.groupBy(["carNum", "batchNum"]).agg(F.count("*").alias("multiplier"))

# 以 carNum 做分组，  
uniqueMultipliers = multipliers.groupby("carNum") \
        .agg(F.max("multiplier").alias("multiplier"))

# 以multiplier倍率做分组，统计人数
result = uniqueMultipliers.groupby("multiplier").count().orderBy("multiplier")

# 结果保存为csv文件
result.write.mode("overwrite").format("csv").option("header", "true") \
        .save(str(root / "result"))

CPU times: user 13.7 ms, sys: 4.8 ms, total: 18.5 ms
Wall time: 5.77 s
