配置和启动 PySpark：

In [None]:
import findspark
findspark.init()

from pyspark.sql import SparkSession
# 本地模式
spark = SparkSession.builder.master("local[*]").appName("Reading Text").getOrCreate()
sc = spark.sparkContext
# sc.setLogLevel("ERROR")
print(spark)
print(sc)

查看环境变量：

In [None]:
import os

print(os.getenv("HADOOP_HOME"))
print(os.getenv("SPARK_HOME"))

!pyspark --version

利用 PySpark 读取文本文件。注意此时只是创建了一个对文件的描述，文件内容并没有加载到内存中。

In [None]:
file = sc.textFile("data/UNv1.0.en-zh.zh")

查看文件的行数：

In [None]:
print(file.count())

查看前5行：

In [None]:
text1 = file.take(5)
print(*enumerate(text1), sep="\n")

查看随机抽取的10行（可能会比较慢！访问 http://localhost:4040 查看进度）：

In [None]:
text2 = file.takeSample(withReplacement=False, num=10, seed=123)
print(*enumerate(text2), sep="\n")

利用 Filter 操作筛选符合条件的行：

In [None]:
# 所有包含“乌克兰”的行
ukraine = file.filter(lambda x: x.__contains__("乌克兰"))

注意，运行上述语句并不会直接进行计算，而只是把要进行的操作保存了下来。只有当真正需要获取结果时计算才会发生，比如下面获取前5行的操作：

In [None]:
text3 = ukraine.take(5)
print(*enumerate(text3), sep="\n")

Filter 操作的参数是一个函数，该函数输入一个字符串，输出 `True` 或 `False` 的取值。上面该函数通过 lambda 表达式实现，也可以使用定义好的函数：

In [None]:
def my_filter(x):
    return x.__contains__("乌克兰") and x.__contains__("俄罗斯")

ukraine2 = file.filter(my_filter)
text4 = ukraine2.take(5)
print(*enumerate(text4), sep="\n")

Map 操作可以对数据的每一行进行变换，例如将字符串分割成若干字串的列表：

In [None]:
split = file.map(lambda x: x.split("，"))
text5 = split.take(5)
print(*enumerate(text5), sep="\n")

Flat map 可以把上述列表展开：

In [None]:
split2 = file.flatMap(lambda x: x.split("，"))
text6 = split2.take(10)
print(*enumerate(text6), sep="\n")

关闭 Spark：

In [None]:
sc.stop()