In [1]:
# 只使用RDD导入sparkContext即可
from pyspark import SparkContext
# 创建本地SparkContext对象，作为程序入口
sc = SparkContext("local[*]", "lesson1")

## 使用pyspark创建wordcount代码

In [None]:
# 读取文本文件，组合RDD算子实现Word Count逻辑
text_file = sc.textFile("file:///home/jovyan/work/data/wikiOfSpark.txt")
word_counts = text_file.flatMap(lambda line: line.split(" ")) \
                      .filter(lambda word: word != "") \
                      .map(lambda word: (word, 1)) \
                      .reduceByKey(lambda a, b: a + b)
# 只暴露频率最高的Top5数据
word_counts.sortBy(lambda x: x[1], ascending=False).take(5)

## RDD 数据转换算子
![image.png](attachment:fa2226e4-984a-40a1-bdc9-1a74d220193e.png)
这里的几个算子是使用频率最高的几个常用算子

### 1. 创建RDD
在 Spark 中，创建 RDD 的典型方式有两种：
* 通过 SparkContext.parallelize 在内部数据之上创建 RDD；
* 通过 SparkContext.textFile 等 API 从外部数据创建 RDD。

In [None]:
# 第一种方式
arr = ["victor", "kafka", "zelda"]
data = sc.parallelize(arr)

print(data.collect())

sc.stop()

In [1]:
# 第二种方式
data = sc.textFile("/home/jovyan/work/data/wikiOfSpark.txt")

data.collect()

sc.stop()

### 2. RDD内的数据转换
* map 以元素为粒度的数据转换
* mapPartitions 以数据分区为力度的数据转换
* flatmap 从元素到集合，再从集合到元素
* filter 过滤RDD

**map 使用示例**

在wordcount的统计逻辑中将单词`spark`的统计权重变为原来的两倍

In [2]:
def word_map_func(word):
    if word == 'spark':
        return (word, 2)
    return (word, 1)


data = sc.textFile("/home/jovyan/work/data/wikiOfSpark.txt").flatMap(lambda line: line.split(" ")).filter(lambda word: word != "").map(word_map_func).reduceByKey(lambda x, y: x + y).sortBy(lambda x: x[1], ascending=False)

data.take(5)

[('the', 67), ('Spark', 63), ('a', 54), ('and', 51), ('of', 50)]

**mapPartitions 使用场景**

由于 map(f) 是以元素为粒度对 RDD 做数据转换的，在某些计算场景下，这个特点会严重影响执行效率，
例如我们把 Word Count 的计数需求，从原来的对单词计数，改为对单词的哈希值计数，在这种情况下
由于 map(f) 是以元素为单元做转换的，那么对于 RDD 中的每一条数据记录，我们都需要实例化一个md5对象来计算这个元素的md5值
而在工业级生产系统中，一个 RDD 动辄包含上百万甚至是上亿级别的数据记录，如果处理每条记录都需要事先创建对象，那么实例化对象的开销就会聚沙成塔，不知不觉地成为影响执行效率的罪魁祸首

为解决这个问题，spark引入了 mapPartitions， 现在看下使用这个算子怎么优化上面的问题

In [6]:
import hashlib

def word_map_partition_func(iterator):
    # 创建MD5对象
    hash_object = hashlib.md5()
    for word in iterator:
        hash_object.update(word.encode())
        yield (hash_object.hexdigest(), 1)


data2 = sc.textFile("/home/jovyan/work/data/wikiOfSpark.txt",2).flatMap(lambda line: line.split(" ")).filter(lambda word: word != "").mapPartitions(word_map_partition_func).reduceByKey(lambda x, y: x + y).sortBy(lambda x: x[1], ascending=False)

data2.take(5)

[('e9713ae04a02a810d6f33dd956f42794', 1),
 ('7349ec53c0153fbc5f9462e594915a50', 1),
 ('c1fff55f22cd53d55d3723a9524d140c', 1),
 ('c4de2fcecae016d976582ff82bb1a9db', 1),
 ('57f8b41a1c2bd6f7c0fe46dda80ab48a', 1)]

**flatMap 使用场景**

和前面两个算子相比，flatMap 的映射函数 f 有着显著的不同。对于 map 和 mapPartitions 来说，其映射函数 f 的类型，都是（元素） => （元素），即元素到元素。而 flatMap 映射函数 f 的类型，是（元素） => （集合），即元素到集合（如数组、列表等）

因此，实际执行中flatMap 的映射过程在逻辑上分为两步：
* 以元素为单位，使用映射函数 f 创建集合；
* 去掉集合“外包装”，提取集合元素

需求功能：
改变 Word Count 的计算逻辑，由原来统计单词的计数，改为统计相邻单词共现的次数
![image.png](attachment:9473a312-b201-443a-adf5-fa61ad72691e.png)

In [10]:
def flat_map_func(line):
    words = [x for x in line.split(" ") if x != ""]
    for index in range(len(words) - 1):
        yield words[index] + '-' + words[index + 1] 

data2 = sc.textFile("/home/jovyan/work/data/wikiOfSpark.txt").flatMap(flat_map_func).map(lambda x: (x, 1)).reduceByKey(lambda x,y: x + y).sortBy(lambda x: x[1], ascending=False)
data2.take(5)

**filter 算子的使用**

借助一个判定函数 实现对 RDD 的过滤转换。所谓判定函数，它指的是（RDD 元素） => （Boolean）的函数。在任何一个 RDD 之上调用 filter(f)，
其作用是保留 RDD 中满足 f（也就是 f 返回 True）的数据元素，而过滤掉不满足 f（也就是 f 返回 False）的数据元素。

需求功能：基于上一个统计相近邻词的功能中，过滤邻近单词中含有特殊符号的词

In [4]:
def filter_func(pair_word:str):
    charcter_str = ["&", "|", "#", "^", "@"]
    return any(char not in pair_word for char in charcter_str)

def flat_map_func(line):
    words = [x for x in line.split(" ") if x != ""]
    for index in range(len(words) - 1):
        yield words[index] + '-' + words[index + 1] 

data2 = sc.textFile("/home/jovyan/work/data/wikiOfSpark.txt").flatMap(flat_map_func).filter(filter_func).map(lambda x: (x, 1)).reduceByKey(lambda x,y: x + y).sortBy(lambda x: x[1], ascending=False)
data2.take(10)

[('Apache-Software', 10),
 ('Apache-Spark', 8),
 ('of-the', 7),
 ('can-be', 7),
 ('to-the', 6),
 ('Software-Foundation', 6),
 ('in-a', 6),
 ('machine-learning', 5),
 ('the-Apache', 5),
 ('such-as', 5)]