## Sparkをはじめてみよう
Sparkを使って、README.mdを読み込み、いろいろと操作してみます。

In [None]:
textFile = sc.textFile("../README.md")

In [None]:
# 行数をカウント
textFile.count()

In [None]:
# "Spark"を含む行を抽出。
sparkLines = textFile.filter(lambda l: "Spark" in l)
sparkLines.count()

### filter-> pythonのfilterと同じ

In [None]:
# "Spark"を含む行を全件取得
sparkLines.collect()

In [None]:
# 出現単語ごとの件数を取得
textFile.flatMap(lambda l: l.strip().split()).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x + y).collect()

### flatMap -> mapしつつ、内部のコレクションを展開する関数。[[1,2], [3,4], [4,5]]をflatMapすると、[1,2,3,4,5]になる。
### map -> pythonのmapと同じ
### reduceByKey -> (key, value)のコレクションに対して、キーごとに値を集計する。

## RDDの作り方
RDDの作り方は、大きく分けて２通りあります。

In [None]:
# コレクションオブジェクトから作成する
l = [1, 2, 3]
rdd = sc.parallelize(l)
rdd.collect()

In [None]:
# 外部から読み込む
rdd = sc.textFile("../README.md")
rdd.count()

## RDDの処理イメージ
RDDのTransformationとActionがどのように実行されるのか見てみます。

In [None]:
# テキストファイルからRDD作成。この時点ではRDDオブジェクトが作成されるだけで、実際の読み込みは発生しない。
linesRDD = sc.textFile("../README.md")
print type(linesRDD)

In [None]:
# "Spark"というワードを持つ行のみ抽出。ここでも新たなRDDオブジェクトが作成されるだけ。
filteredRDD =  linesRDD.filter(lambda l: "Spark" in l)
print type(filteredRDD)

In [None]:
# 行数取得。ここでやっとテキストファイルから読み込んでフィルタするという操作が実行される。
filteredRDD.count()

## RDDのキャッシュ

In [None]:
textFile = sc.textFile("../README.md")

In [None]:
# cache()を呼び出すことで、メモリにキャッシュすることが指示されます。ここではまだキャッシュされません。
cached = textFile.filter(lambda l: "Spark" in l).cache()

In [None]:
# ここで、テキストファイルからの読み込みとフィルタ処理が行われた上で、結果がメモリにキャッシュされます。
cached.count()

In [None]:
# メモリからfilter処理までが終わった状態のデータを読み込み、処理します。テキストファイルが再び読み込まれることはありません。
import datetime
cached.saveAsTextFile("README-filtered-{}.md".format(datetime.datetime.now().strftime("%Y%m%d%H%M%S")))

## Sparkの管理画面で実行を確認する

### Shuffleのないケース

In [None]:
sc.textFile("../licenses/*.txt").filter(lambda l: "Copyright" in l).first()

[管理画面で確認](http://localhost:4040/)

### Shuffleのあるケース

In [None]:
sc.textFile("../licenses/*.txt").flatMap(lambda l: l.split()).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x + y).take(1)

[管理画面で確認](http://localhost:4040/)

## DataFrameを動かしてみよう

In [None]:
# DataFrameを使うためのエントリーポイントとなるオブジェクト作成
from pyspark.sql import SparkSession
spark =  SparkSession.builder.appName("pycon2016").getOrCreate()

In [None]:
# 下記のようなjsonがあります。
%cat ../examples/src/main/resources/people.json

In [None]:
# これを読み込みます。
df = spark.read.json("../examples/src/main/resources/people.json")
df.show()

In [None]:
# 特定のカラムを選択します。
df.select("name").show()

In [None]:
# 絞り込み選択
df.filter(df['age'] > 21).show()

In [None]:
# 集約関数
df.groupBy("age").count().show()

In [None]:
# メモリ上にテンポラリテーブルとして保存することもできます。
df.createOrReplaceTempView("people")

In [None]:
# テーブルには直接SQLを発行することができます。戻り値はDataFrameです。
res = spark.sql("select age from people where name = 'Andy'")
res.show()

In [None]:
# なお、スキーマについてはデータから類数されています。
df.printSchema()