# Maps

在 Spark 中，map会把输入数据按照map中的函数进行转换它们就像数据的指引，告诉每个输入要如何到达输出 。

第一个单元创建一个 SparkContext 对象。你可以使用 SparkContext 把输入数据分布到集群中（因为你当前使用的是单机模式，严格讲数据集没有分布到集群上）。

运行下面的代码单元来实例化 SparkContext 对象，然后用Spark 读取 log_of_songs 列表。

In [None]:
### 
# You might have noticed this code in the screencast.
#
# import findspark
# findspark.init('spark-2.3.2-bin-hadoop2.7')
#
# The findspark Python module makes it easier to install
# Spark in local mode on your computer. This is convenient
# for practicing Spark syntax locally. 
# However, the workspaces already have Spark installed and you do not
# need to use the findspark module
#
###

import pyspark
sc = pyspark.SparkContext(appName="maps_and_lazy_evaluation_example")

log_of_songs = [
        "Despacito",
        "Nice for what",
        "No tears left to cry",
        "Despacito",
        "Havana",
        "In my feelings",
        "Nice for what",
        "despacito",
        "All the stars"
]

# parallelize the log_of_songs to use with Spark
distributed_song_log = sc.parallelize(log_of_songs)

下一个代码单元定义了一个将歌曲标题转换为小写的函数。有一个例子将 “Havana"  改写成  “havana"。

In [None]:
def convert_song_to_lowercase(song):
    return song.lower()

convert_song_to_lowercase("Havana")

以下代码单元演示了如何通过 map 来应用此函数。map 步骤会遍历列表中的每首歌曲并且把convert_song_to_lowercase() 函数应用在歌曲上。

In [None]:
distributed_song_log.map(convert_song_to_lowercase)

这个代码单元运行得很快。这是惰性评估的原因。不必要的情况下 Spark 不会执行 map 步骤。

输出中的 “RDD” 指的是弹性分布式数据集。RDD 正是他们所说的：分布在集群中的容错数据集。这就是 Spark 存储数据的方式。 

要让 Spark 运行 map 步骤，你需要使用一个“工具”。有个可用的“工具”叫 collect 方法。collect() 方法会把所有集群中结果收集到主节点上的单个列表中。

In [None]:
distributed_song_log.map(convert_song_to_lowercase).collect()

另外，请注意，Spark 不会更改原始数据集：Spark 只是复制了一份副本。你可以在原始数据集上运行collect() 来确认这点。

In [None]:
distributed_song_log.collect()

在 map 步骤，有时你不用编写自定义函数。你还可以使用匿名（lambda）函数以及string.lower() 等内置Python函数。 

匿名函数实际上是一个Python特性，专门用于编写函数式程序。

In [None]:
distributed_song_log.map(lambda song: song.lower()).collect()

In [None]:
distributed_song_log.map(lambda x: x.lower()).collect()