## Sparkをはじめてみよう
Sparkを使って、README.mdを読み込み、いろいろと操作してみます。

In [None]:
textFile = sc.textFile("../README.md")

In [None]:
# 行数をカウント
textFile.count()

In [None]:
# "Spark"を含む行を抽出。
sparkLines = textFile.filter(lambda l: "Spark" in l)
sparkLines.count()

In [None]:
# "Spark"を含む行を全件取得
sparkLines.collect()

In [None]:
# 出現単語ごとの件数を取得
textFile.flatMap(lambda l: l.strip().split()).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x + y).collect()

## RDDの作り方
RDDの作り方は、大きく分けて２通りあります。

In [None]:
# コレクションオブジェクトから作成する
l = [1, 2, 3]
rdd = sc.parallelize(l)
rdd.collect()

In [None]:
# 外部から読み込む
rdd = sc.textFile("../README.md")
rdd.count()

## RDDの処理イメージ
RDDのTransformationとActionがどのように実行されるのか見てみます。

In [None]:
# テキストファイルからRDD作成。この時点ではRDDオブジェクトが作成されるだけで、実際の読み込みは発生しない。
linesRDD = sc.textFile("../README.md")
print type(linesRDD)

In [None]:
# "Spark"というワードを持つ行のみ抽出。ここでも新たなRDDオブジェクトが作成されるだけ。
filteredRDD =  linesRDD.filter(lambda l: "Spark" in l)
print type(filteredRDD)

In [None]:
# 行数取得。ここでやっとテキストファイルから読み込んでフィルタするという操作が実行される。
filteredRDD.count()

## RDDのキャッシュ

In [None]:
textFile = sc.textFile("../README.md")

In [None]:
# cache()を呼び出すことで、メモリにキャッシュすることが指示されます。ここではまだキャッシュされません。
cached = textFile.filter(lambda l: "Spark" in l).cache()

In [None]:
# ここで、テキストファイルからの読み込みとフィルタ処理が行われた上で、結果がメモリにキャッシュされます。
cached.count()

In [None]:
# メモリからfilter処理までが終わった状態のデータを読み込み、処理します。テキストファイルが再び読み込まれることはありません。
import datetime
cached.saveAsTextFile("README-filtered-{}.md".format(datetime.datetime.now().strftime("%Y%m%d%H%M%S")))