# RDDの作成

#### [Joseph A. Dianes著、PythonによるSpark入門 ](https://github.com/jadianes/spark-py-notebooks)

このノートブックでは、基本的なSparkデータ構造、Resilient Distributed DatasetまたはRDDにデータを取り込む2つの異なる方法を紹介します。 RDDは要素の分散コレクションです。 Sparkのすべての作業は、新しいRDDの作成、既存のRDDの変換、または結果を計算するためのRDDのアクションの呼び出しとして表現されます。 Sparkは、RDDに含まれるデータをクラスタ全体に自動的に配信し、実行した操作を並列化します。

#### References 参考文献

これらおよびその他のSpark関連トピックの参考書は、Holden Karau、Andy Konwinski、Patrick Wendell、およびMatei ZahariaによるLearning Sparkです。

KDD Cup 1999の競技データセットについては、ここで詳しく説明します。 [here](http://kdd.ics.uci.edu/databases/kddcup99/kddcup99).

## データファイルの取得

このノートブックでは、KDD Cup 1999に提供された約10万のデータセットを使用し、約50万件のネットワークインタラクションを使用します。このファイルは、ローカルでダウンロードするGzipファイルとして提供されています。

In [2]:
import urllib
f = urllib.request.urlretrieve ("http://kdd.ics.uci.edu/databases/kddcup99/kddcup.data_10_percent.gz", "kddcup.data_10_percent.gz")

## ファイルからRDDを作成する

RDDを作成する最も一般的な方法は、ファイルからロードすることです。 SparkのtextFileは圧縮ファイルを直接処理できることに注意してください。

In [3]:
data_file = "./kddcup.data_10_percent.gz"
raw_data = sc.textFile(data_file)

これでデータファイルがraw_data RDDにロードされました。

Sparkの変換と処理に着くことなく、RDDの内容が正しいことを確認するためにできる最も基本的なことは、ファイルからRDDにロードされた行数をcount（）することです。

In [5]:
raw_data.count()

494021

また、データの最初のいくつかのエントリを確認することもできます。

In [6]:
raw_data.take(5)

['0,tcp,http,SF,181,5450,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,9,9,1.00,0.00,0.11,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,235,1337,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,29,29,1.00,0.00,0.03,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,219,1337,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,6,6,0.00,0.00,0.00,0.00,1.00,0.00,0.00,39,39,1.00,0.00,0.03,0.00,0.00,0.00,0.00,0.00,normal.',
 '0,tcp,http,SF,217,2032,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,6,6,0.00,0.00,0.00,0.00,1.00,0.00,0.00,49,49,1.00,0.00,0.02,0.00,0.00,0.00,0.00,0.00,normal.']

以下のノートでは、この生データを使用して、さまざまなSparkの変換と動作について学習します。

## 並列化を使用した作成とRDD

RDDを作成する別の方法は、既存のリストを並列化することです。

In [35]:
a = range(100)

data = sc.parallelize(a)

以前と同じように、RDDの要素数を数えることができます。

In [36]:
data.count()

100

これまでのように、私たちはRDD上の最初のいくつかの要素にアクセスできます。

In [37]:
data.take(5)

[0, 1, 2, 3, 4]