# RDD编程

In [2]:
import findspark
#可在环境变量中进行设置，即PATH中加入如下地址
findspark.init("C:/Users/Orion/Downloads/spark-2.4.3-bin-hadoop2.7/spark-2.4.3-bin-hadoop2.7")

from pyspark import SparkContext
sc = SparkContext( 'local', 'test')

## 从文件系统中加载数据创建RDD

In [4]:
textFile = sc.textFile("./words.txt")
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word,1)).reduceByKey(lambda a, b : a + b)
wordCount.collect()

[('good', 5), ('as', 5), ('am', 5)]

## 通过并行集合（数组）创建RDD


In [None]:
nums = [1,2,3,4,5]
rdd = sc.parallelize(nums)

## RDD操作

RDD被创建好以后，在后续使用过程中一般会发生两种操作：

- 转换（Transformation）： 基于现有的数据集创建一个新的数据集。

- 行动（Action）：在数据集上进行运算，返回计算值。

#  键值对RDD的创建

##  从文件中加载

In [5]:
lines = sc.textFile("./words.txt")
pairRDD = lines.flatMap(lambda line : line.split()).map(lambda word : (word,1))
pairRDD.foreach(print)
pairRDD.first()
print (pairRDD.collect())

[('good', 1), ('good', 1), ('good', 1), ('good', 1), ('good', 1), ('as', 1), ('as', 1), ('as', 1), ('as', 1), ('as', 1), ('am', 1), ('am', 1), ('am', 1), ('am', 1), ('am', 1)]


## 通过并行集合（列表）创建RDD


In [6]:
list = ["Hadoop","Spark","Hive","Spark"]
rdd = sc.parallelize(list)
airRDD = rdd.map(lambda word : (word,1))
print (airRDD.collect())

[('Hadoop', 1), ('Spark', 1), ('Hive', 1), ('Spark', 1)]


## 常用的键值对转换操作

- 常用的键值对转换操作包括reduceByKey()、groupByKey()、sortByKey()、join()、cogroup()等

### reduceByKey(func)
- reduceByKey(func)的功能是，使用func函数合并具有相同键的值。

In [7]:
airRDD = airRDD.reduceByKey(lambda a,b : a+b)
print (airRDD.collect())

[('Hadoop', 1), ('Spark', 2), ('Hive', 1)]


### groupByKey()
- groupByKey()的功能是，对具有相同键的值进行分组。

In [8]:
groupRDD = pairRDD.groupByKey()
print (groupRDD.collect())

[('good', <pyspark.resultiterable.ResultIterable object at 0x000001DCABCC19E8>), ('as', <pyspark.resultiterable.ResultIterable object at 0x000001DCABCC19B0>), ('am', <pyspark.resultiterable.ResultIterable object at 0x000001DCABCC1B38>)]


### keys()
- keys()只会把键值对RDD中的key返回形成一个新的RDD。

In [9]:
keyRDD = pairRDD.keys()
print (keyRDD.collect())

['good', 'good', 'good', 'good', 'good', 'as', 'as', 'as', 'as', 'as', 'am', 'am', 'am', 'am', 'am']


### values()
- values()只会把键值对RDD中的value返回形成一个新的RDD。

In [10]:
valuesRDD = pairRDD.values()
print (valuesRDD.collect())

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


### sortByKey()
- sortByKey()的功能是返回一个根据键排序的RDD。

In [11]:
sortByKeyRDD = pairRDD.sortByKey()
print (sortByKeyRDD.collect())

[('am', 1), ('am', 1), ('am', 1), ('am', 1), ('am', 1), ('as', 1), ('as', 1), ('as', 1), ('as', 1), ('as', 1), ('good', 1), ('good', 1), ('good', 1), ('good', 1), ('good', 1)]


### mapValues(func)
- mapValues(func)，它的功能是，对键值对RDD中的每个value都应用一个函数，但是，key不会发生变化。

In [12]:
mapValuesRDD = pairRDD.mapValues(lambda x : x+1)
print (mapValuesRDD.collect())

[('good', 2), ('good', 2), ('good', 2), ('good', 2), ('good', 2), ('as', 2), ('as', 2), ('as', 2), ('as', 2), ('as', 2), ('am', 2), ('am', 2), ('am', 2), ('am', 2), ('am', 2)]


### join
- join(连接)操作是键值对常用的操作。

In [13]:
pairRDD1 = sc.parallelize([('spark',1),('spark',2),('hadoop',3),('hadoop',5)])
pairRDD2 = sc.parallelize([('spark','fast')])
pairRDD3 = pairRDD1.join(pairRDD2)
print (pairRDD3.collect())

[('spark', (1, 'fast')), ('spark', (2, 'fast'))]


# 文件读写

## 本地文件文件的数据读写

In [15]:
textFile = sc.textFile("words.txt")
textFile.first()

'good good good good good as as as as as am am am am am'

In [37]:
b'\xe6\x88\x91\xe7\x9f\xa5\xe9\x81\x93'.decode('utf-8')

'我知道'