In [1]:
# 只使用RDD导入sparkContext即可
from pyspark import SparkContext

# 创建本地SparkContext对象，作为程序入口
sc = SparkContext("local[*]", "lesson2")

## RDD 实现数据聚合
数据聚合操作负责处理元素类型为（Key，Value）键值对的 Paired RDD 
![image.png](attachment:792db2ad-126d-4645-8602-6e5432437f81.png)

### group by key: 分组收集
groupByKey 算子包含两步，即分组和收集。具体来说，对于元素类型为（Key，Value）键值对的 Paired RDD，groupByKey 的功能就是对 Key 值相同的元素做分组，然后把相应的 Value 值，以集合的形式收集到一起。换句话说，groupByKey 会把 RDD 的类型，由 RDD[(Key, Value)]转换为 RDD[(Key, Value 集合)]

示例功能：对于分词后的一个个单词，不再统计其计数，而仅仅是把相同的单词收集到一起

In [5]:
word_rdd = sc.textFile("./data/wikiOfSpark.txt").flatMap(lambda line: line.split(" ")).filter(lambda word: word != "")
group_rdd = word_rdd.map(lambda word: (word, word)).groupByKey()

为了完成分组收集，对于 Key 值相同、但分散在不同数据分区的原始数据记录，Spark 需要通过 Shuffle 操作，跨节点、跨进程地把它们分发到相同的数据分区。Shuffle 是资源密集型计算，对于动辄上百万、甚至上亿条数据记录的 RDD 来说，这样的 Shuffle 计算会产生大量的磁盘 I/O 与网络 I/O 开销，从而严重影响作业的执行性能，所以 groupByKey 的执行效率较差，不过在数据分析领域中，分组收集的使用场景很少，而分组聚合才是统计分析的刚需

### reduceByKey：分组聚合
reduceByKey 的含义是“按照 Key 值做聚合”，它的计算逻辑，就是根据聚合函数 f 的算法，把 Key 值相同的多个元素，聚合成一个元素

示例功能：把 Word Count 的计算逻辑，改为随机赋值、提取同一个 Key 下的最大值。也就是在 kvRDD 的生成过程中，我们不再使用映射函数 word => (word, 1)，而是改为 word => (word, 随机数)，然后再使用 reduceByKey 算子来计算同一个 word 当中最大的那个随机数

In [6]:
import random

In [7]:
word_count_rdd = word_rdd.map(lambda word: (word, random.randint(0, 10))).reduceByKey(lambda x, y: max(x, y))
word_count_rdd.take(3)

[('From', 2), ('encyclopedia', 8), ('Jump', 0)]

尽管 reduceByKey 也会引入 Shuffle，但相比 groupByKey 以全量原始数据记录的方式消耗磁盘与网络，reduceByKey 在落盘与分发之前，
会先在 Shuffle 的 Map 阶段做初步的聚合计算。

比如，在数据分区 0 的处理中，在 Map 阶段，reduceByKey 把 Key 同为 Streaming 的两条数据记录聚合为一条，聚合逻辑就是由函数 f 定义的、取两者之间 Value 较大的数据记录，
这个过程我们称之为“Map 端聚合”。相应地，数据经由网络分发之后，在 Reduce 阶段完成的计算，我们称之为“Reduce 端聚合”。

### aggregateByKey 更加灵活的聚合算子
对于大多数分组 & 聚合的计算需求来说，只要设计合适的聚合函数 f，你都可以使用 reduceByKey 来实现计算逻辑。
不过，术业有专攻，reduceByKey 算子的局限性，在于其 Map 聚合阶段与 Reduce 聚合阶段的计算逻辑必须保持一致，这个计算逻辑统一由聚合函数 f 定义。
当一种计算场景需要在两个阶段执行不同计算逻辑的时候，reduceByKey 就爱莫能助了。

比方说Word Count，我们想对单词计数的计算逻辑做如下调整：在 Map 阶段，以数据分区为单位，计算单词的加和；而在 Reduce 阶段，对于同样的单词，取加和最大的那个数值。
显然，Map 阶段的计算逻辑是 sum，而 Reduce 阶段的计算逻辑是 max。对于这样的业务需求，reduceByKey 已无用武之地，这个时候，就需要使用 aggregateByKey 这个算子

要在 Paired RDD 之上调用 aggregateByKey，你需要提供一个初始值，一个 Map 端聚合函数 f1，以及一个 Reduce 端聚合函数 f2
![image.png](attachment:972b25ab-cb9e-4fa7-b98e-872f43c47d1f.png)

颜色相同代表数据的类型需要保持相同.

现在用 aggregateByKey 这个算子来实现刚刚提到的“先加和，再取最大值”的计算逻辑

In [27]:
def f1(x, y):
    return x + y

def f2(x, y):
    return max(x, y)

res_rdd = word_rdd.map(lambda word: (word, 1)).aggregateByKey(0, f1, f2)

res_rdd.take(10)

[('From', 1),
 ('encyclopedia', 1),
 ('Jump', 1),
 ('to', 23),
 ('navigationJump', 1),
 ('Logo', 1),
 ('Original', 1),
 ('Developer(s)\tApache', 1),
 ('Initial', 1),
 ('release\tMay', 1)]

### sortByKey：排序
的功能是“按照 Key 进行排序”。给定包含（Key，Value）键值对的 Paired RDD，sortByKey 会以 Key 为准对 RDD 做排序。算子的用法比较简单，只需在 RDD 之上调用 sortByKey() 即可, 默认为升序排列

In [31]:
res_rdd.map(lambda pair_word: (pair_word[1],  pair_word[0])).sortByKey(ascending=False).take(10)

[(50, 'the'),
 (43, 'a'),
 (41, 'of'),
 (39, 'Spark'),
 (31, 'and'),
 (23, 'to'),
 (23, 'Apache'),
 (20, 'is'),
 (20, 'in'),
 (18, 'as')]

## spark 内存区域配置
Spark 把 Executor 内存划分为 4 个区域，分别是 Reserved Memory、User Memory、Execution Memory 和 Storage Memory。通过调整 spark.executor.memory、spark.memory.fraction 和 spark.memory.storageFraction 这 3 个配置项，可以灵活地调整不同内存区域的大小，从而去适配 Spark 作业对于内存的需求

![image.png](attachment:f868267e-bf70-4f9f-a999-29b8147d81cb.png)


## RDD的缓存
RDD Cache 的基本用法，当一个 RDD 在代码中的引用次数大于 1 时，可以考虑通过给 RDD 加 Cache 来提升作业性能。
具体做法是在 RDD 之上调用 cache 或是 persist 函数。其中 persist 更具备普适性，你可以通过指定存储级别来灵活地选择 Cache 的存储介质、存储形式以及副本数量，从而满足不同的业务需要。
cache 函数并不会立即触发 RDD 在内存中的物化，因此我们还需要调用 count 这类action算子来触发这一执行过程

In [8]:
word_count_rdd.cache()
word_count_rdd.count()

1345