![図1.2 Sparkの紹介とインストール](images/introduce_spark.png)

# 本チャプターの目次
1. Sparkとは？
2. 分散処理とは？
3. PySparkとは？
4. Pyspark インストール
5. Pysparkを簡単に動かしてみよう

# Sparkとは？
複数のノード(PC)でデータを読み込んで、データを処理する分散コンピューティングエンジンです。  
大きなデータを処理するときには、一台で処理を行うよりも効率が良く物事を処理することができるようになります。  
中身はPythonで利用する関数や変数などを利用することもできます。  

今回のSparkのバージョンは3.1.1を利用します。  
 
Sparkは世の中ABC人材(AI,BigData,Cloud)な人材になるための必須スキルと言っても過言ではありません。  
Sparkがスキルセットに存在しているだけで、企業のデータ活用の人材として重宝されます。

Sparkはコンピューティングエンジンで特定のプログラミング言語に対して、分散処理能力を与えます。
対象のプログラミング言語は

1. Scala
2. Python
3. Java
の３つです。

PythonとSparkを組み合わせて使うとPythonが分散処理の能力を持ちます。  

そしてPythonとSparkなのでPysparkと呼ばれています。  
本コースでは、あまり内部的な構造には踏み込みませんが、次のチャプターで簡単にSparkの機能について紹介します。 

# 分散処理とは？
大きなテキストがあって、 そのテキストを複数の人間(パソコンで仕事を分担)すること。

![図1.2 分散処理](images/bunsan.png)


## スレッド処理との違い？
スレッド処理は、ノードが一台で実施するのに対して、分散処理は複数ノードで実施されることが特徴  
スレッド処理はスケールアップ型(一台のPCのメモリやCPUを増強していくこと)  
分散処理はスケールアウト型(スペックがそこそこ(そこそこ、と言ってもお家で使っているようなPCではない)なノード複数台で一つの目的のために処理を行うこと)

# PySparkとは？
PythonとSparkを組み合わせて使うとPythonが分散処理の能力を持ちます。  
そしてPythonとSparkなのでPysparkと呼ばれています。  

Pythonのプログラムも当然かけます。 

日に数万Jobというビッグデータ処理でも難なくこなします。

## Scala + Sparkとの比較は？
(かなりの)速度を求めるのであればScalaになります(メモリ効率はPythonより断然にScala(or Java))。  
容易に使う用途であればPythonになります。  
また、他のプロダクトがSparkをサポートする場合はScalaの方から実装されることが多く、数ヶ月してPythonが実装されるという流れが大半です。  

そのため、PySparkは主にバッチ処理で実装するのがおすすめで、ストリーミング処理はScala(or Java)で実装してみるのが良いと思います。

## PySparkでできること
1. RDDの操作
2. バッチ処理(DataFrameの操作、SQL、機械学習、不正検、AI、受給予測)
3. データを(だいたい)一行づつ処理していくStreaming処理(DataFrameの操作、SQL、IoT,不正検知、機械学習、AI、受給予測)

# Pyspark インストール

## VSCodeのインストール
以下のURLからご自身のOSに合わせたVSCodeをダウンロード  
https://code.visualstudio.com/download

## VSCodeのセッティング
1. Python拡張機能をインストールする(cmd + shift + p) -> install extensions -> ウィンドウにpythonと入力
2. cmd + shift + p -> python interpreter -> python3.8
3. cmd + shift + p -> create ju -> Pythonが利用可能なノートブック環境ができあがります

In [None]:
#Pythonコードのテスト
1+2
#実行はctr + enterで可能です

## PySparkのセッティング
1. !pip3 install pyspark --user jupyter　を実行

In [None]:
!pip3 install pyspark --user jupyter
# !コマンドでLinux(Mac or winwods)のコマンドを発行することができます。

In [None]:
 # 現在のディレクトリを調べる
!pwd

In [None]:
#pysparkに必要なライブラリを読み込む
from pyspark import SparkConf
from pyspark import SparkContext
from pyspark.sql import SparkSession

#spark sessionの作成
# spark.ui.enabled trueとするとSparkのGUI画面を確認することができます
# spark.eventLog.enabled true　とすると　GUIで実行ログを確認することができます
# GUIなどの確認は次のチャプターで説明を行います。
spark = SparkSession.builder \
    .appName("chapter1") \
    .config("hive.exec.dynamic.partition", "true") \
    .config("hive.exec.dynamic.partition.mode", "nonstrict") \
    .config("spark.sql.session.timeZone", "JST") \
    .config("spark.ui.enabled","true") \
    .config("spark.eventLog.enabled","true") \
    .enableHiveSupport() \
    .getOrCreate()

In [None]:
df=spark.sql("select 2 as a ,'hoge' as b")

In [None]:
# 件数をとったり
df.count()

In [None]:
# DataFrameを操作したりできます
df.select("b").show()

In [None]:
# Spark利用の停止(最後は停止を忘れずに)
spark.stop()
spark.sparkContext.stop()