# 单词统计
本章节通过经典的单词统计来学习Spark的基础应用

**首先需要保证sc已经初始化好，执行下面的cell，应该能看到如下所示内容:**
```
SparkContext
Spark UI
Version
v2.2.0
Master
local[*]
AppName
PySparkShell
```

In [None]:
sc

在本文件夹路径下已经建有*softk_itty.txt*文件，内容来源于英文歌曲《Soft Kitty》:
```
soft kitty
warm kitty
little ball of fur
happy kitty
sleepy kitty
purr purr purr
```
我们接下来将基于此执行一些基本操作

In [None]:
# 创建一个rdd
rdd = sc.textFile("soft_kitty.txt")

通过对一个rdd进行collect()，我们可以做一些小规模的debug来查看其中内容

In [None]:
rdd.collect()

In [None]:
words = rdd.flatMap(lambda line:line.split())

In [None]:
words.collect()

如上所示，仍然通过collect()，可以观察到单词已经被切分完了：
```
['soft',
 'kitty',
 'warm',
 'kitty',
 'little',
 'ball',
 'of',
 'fur',
 'happy',
 'kitty',
 'sleepy',
 'kitty',
 'purr',
 'purr',
 'purr']
```

In [None]:
pairs = words.map(lambda word: (word, 1))

In [None]:
pairs.collect()

我们通过map函数将单词转化为键值对，key为单词，value为次数，接下来通过按照key进行规约求和即可统计出每个单词出现的次数

In [None]:
result = pairs.reduceByKey(lambda x, y: x + y)

In [None]:
result.collect()

我们通过reduceByKey将结果按照键值规约相加，得到了单词的计数的结果

最后，我们可以把结果保存到本地(注意：如果已经执行过如下的操作，需要先删除文件夹)

In [None]:
! rm -rf output

In [None]:
result.saveAsTextFile("output")

可以查看保存下来的内容

In [None]:
! ls output
! cat output/part*