# 14 データサイエンティスト中級者への道

この章では、データサイエンティスト入門レベルを卒業し、中級者の道に進むためのさまざまな分析の手法やアプローチ、ツールについて紹介します。

一部実装もありますが、最低限の基礎的な説明や概念の紹介が中心となります。深層学習を学ぶために必要となる基礎知識、Pythonの処理を高速化するためのツール群、膨大なデータをサーバーに分散処理させるためのSparkの紹介など、今後データ分析をする上で身につけておきたいスキルばかりです。

はじめは理解しにくい箇所もあるかもしれませんが、このようなアプローチやツールがあるということを知っておくだけでも、今後の学習にきっと役に立つはずです。

なお、本章は基本的に紹介のみですので、用語の解説やサンプルコードは少ししかありません。ここで紹介した手法やツール等については、あくまでリファレンス程度のものです。これらのことを本格的に学びたい場合は、本章だけのコンテンツでは不十分です。参考文献等を読んだり、他の講座で勉強して、どんどんスキルを磨いていってください。

- **[14.1 この章の概要](#14.1-この章の概要)**
<br><br>
- **[14.2 深層学習を学ぶための準備](#14.2-深層学習を学ぶための準備)**
    - [14.2.1 パーセプトロン](#14.2.1-パーセプトロン)
    - [14.2.2 ニューラルネットワーク](#14.2.2-ニューラルネットワーク)
    - [14.2.3 確率的勾配降下法と誤差逆伝播法](#14.2.3-確率的勾配降下法と誤差逆伝播法)
    - [14.2.4 深層学習のパッケージ](#14.2.4-深層学習のパッケージ)
<br><br>
- **[14.3 Pythonの高速化](#14.3-Pythonの高速化)**
    - [14.3.1 高速化するためのツール](#14.3.1-高速化するためのツール)
    - [14.3.2 並列処理](#14.3.2-並列処理)
    - [14.3.3 Numba入門](#14.3.3-Numba入門)
    - [14.3.4 Cython入門](#14.3.4-Cython入門)
<br><br>
- **[14.4 Spark入門](#14.4-Spark入門)**
    - [14.4.1 Sparkとは](#14.4.1-Sparkとは)
    - [14.4.2 PySpark入門](#14.4.2-PySpark入門)
    - [14.4.3 SparkSQL](#14.4.3-SparkSQL)
<br><br>
- **[14.5 その他の数学的手法とエンジニアリングツール](#14.5-その他の数学的手法とエンジニアリングツール)**
    - [14.5.1 数学的手法](#14.5.1-数学的手法)
    - [14.5.2 エンジニアリングツール](#14.5.2-エンジニアリングツール)
<br><br>
- **[14.6 総合問題](#14.6-総合問題)**
    - [14.6.1 総合問題1](#14.6.1-総合問題1)
    - [14.6.2 総合問題2](#14.6.2-総合問題2)
<br><br>

***

## 14.1 この章の概要
ゴール：データサイエンティスト中級者になるための様々なアプローチやツールを知る

この章ではまず、最近注目されている深層学習（ディープラーニング）を学ぶための前準備として、いくつか抑えておきたい基礎概念や実装を紹介します。この講座で学んだ統計知識（最尤法、最小二乗法など）や機械学習の考え方（教師あり学習、教師なし学習、交差検証法、混同行列など）と、ここで学ぶ概念（パーセプトロン、勾配降下法、誤差逆伝播法など）を勉強しておけば、深層学習を学ぶ前の良い準備となるでしょう。

次に、機械学習や深層学習等のモデリングの話から離れて、Pythonの処理を高速化するための方法をいくつか紹介します。

モデル作成の前に、データ加工をする必要（いわゆる前処理）が多々ありますが、その前処理の計算時間を改善することも大事です。もちろん、コーディングスキルによって、計算処理時間は異なってくるのですが、そのアルゴリズム作成にも限界があります。ここで紹介するライブラリ等を使うことで、計算コストを下げることができます。

一昔前、Pythonはスクリプト言語だから遅いという指摘もありました。ただ、昨今、Cythonや並列処理などの色々なライブラリが出てきており、下手なCプログラムを書くよりも、Pythonで実装したほうがいいこともあります。すべての高速化処理について紹介することはできず、ここで紹介する実装が必ず最適というわけではありませんが、計算時間に課題があったときには、ぜひここで使うライブラリ等を使って計算速度をあげることも検討してください。

さらに、分散処理をするためのSparkについて説明します。

ご承知の通り、現代の世の中には大量のデータがあり、そのデータは日々蓄積されています。この講座でもある程度、こうしたビッグデータに対応できるようなスキルを身に付けるため、いろいろなツールやアプローチを紹介してきました。ここではさらに、そうした膨大なデータに対して、データの加工から機械学習まで一貫して処理し、複数のサーバーを使った分散処理で計算スピードを上げ、さらにリアルタイムに分析ができるSparkを紹介します。今回は入門ということで、その機能と使い方をみていきます。

そして最後に、今後データ分析業務をやっていく上で、必要となってくるであろう数学的な手法や、エンジニアリングツール等を紹介します。

数学的な手法では、実験計画法やMCMC、エンジニアリング面では、Linuxやクラウドサービスなど簡単に紹介します。もちろん、ここですべてが網羅されているわけではありませんが、ビジネスの現場で使われている手法やツールですので、ぜひ参考にしてください（ただし、これらの手法やツールにとらわれることなく、課題に対する理解や最適なアプローチは何であるか、常に考えていくことが大事だということは忘れないでください）。

## 14.2 深層学習を学ぶための準備
ゴール：深層学習を学ぶための基礎知識をおさえる

深層学習は、ニューラルネットワークを用いた学習の応用です。真相学習を学ぶにあたっては、その基本となる論理回路やパーセプトロンなどの基礎を理解しておきましょう。


### 14.2.1 パーセプトロン
キーワード：パーセプトロン、論理回路

まずは、ニューラルネットワークや深層学習の基礎となるパーセプトロンについて学びましょう。パーセプトロンは、複数の値を受け取って処理をし、1つの結果を返す部品です。

#### AND論理回路の例
例として、ANDの論理回路（論理ゲート）の実装を考えます。AND関数は、2つの数値0か1がインプットとなって、どちらの入力も1の場合に1を返す関数です。以下の参照URLが参考になります。

AND関数の回路記号や真理表（入力0と1の演算と出力を対応させた表）は一番上の行にあります。真理表の具体的な見方は、たとえば、AとBが両方とも1の場合に、アウトプットとなるYが1になるというのが、表からわかります。

![comment](https://image.jimcdn.com/app/cms/image/transf/dimension=661x10000:format=png/path/s9a246d2d2c830e8d/image/i77bdab51b44d4889/version/1424716737/image.png)

参照URL:https://image.jimcdn.com/app/cms/image/transf/dimension=661x10000:format=png/path/s9a246d2d2c830e8d/image/i77bdab51b44d4889/version/1424716737/image.png

#### パーセプトロンでAND関数を作る

以下に示すのはAND関数をパーセプトロンとして構成した例です。ある閾値（theta）とインプット値に対する重み（w1,w2）が設定されており、それらのインプット値と重み付けの演算結果(tmp)がその閾値を超えるかどうかで結果を判定をしています。演算は内積の形になっています。

In [1]:
def and_func(x1,x2):
    w1,w2,theta = 0.5,0.5,0.7
    tmp = x1 * w1 + x2 * w2
    if tmp <= theta:
        return 0
    elif tmp > theta:
        return 1

上記の関数の実行結果は以下となり、たとえば、インプットを0と1にしたときのアウトプットは0、インプットを1と1にしたときのアウトプットは1となり、結果はAND演算のようになっていることがわかります。

In [2]:
print("0 かつ 0:",and_func(0,0))
print("0 かつ 1:",and_func(0,1))
print("1 かつ 0:",and_func(1,0))
print("1 かつ 1:",and_func(1,1))

0 かつ 0: 0
0 かつ 1: 0
1 かつ 0: 0
1 かつ 1: 1


上記はとてもシンプルな実装で、特定の重みで入力値を0と1に限定すると先ほどのような論理ゲートを模倣できますが、複数のパーセプトロンをつなぎ合わせることで、ニューラルネットワークを構築できます。

また、上の参照URLをみていただくとわかる通り、他には、OR関数やNOT関数などもありますので、以下の参考文献などを見て実装してみてください。

>**[やってみよう]**

>OR関数やNAND(NOT AND)関数はどのように実装しますか。考えて、実装してみましょう。

>[参考文献]

>『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』(斎藤 康毅  (著),オライリージャパン)

>『機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)』(瀧 雅人 (著),講談社)

>『深層学習 (機械学習プロフェッショナルシリーズ) 』(岡谷 貴之  (著),講談社)

#### <練習問題 1>

NOT AND 関数を作成して、それがあっているかどうか確かめてください。

### 14.2.2 ニューラルネットワーク
キーワード：ニューラルネットワーク、活性化関数

パーセプトロンを学んだら、ニューラルネットワークを学びましょう。

ニューラルネットワークは、順伝播型ネットワークやフォワードネットワークともいわれ、層状に並べたユニットが、隣り合った層と結合しており、入力情報から出力情報に一方的に伝播していくモデルです。先ほどのパーセプトロンでは2つの入力値を使ってシンプルな条件式で判定して出力を決定していましたが、ニューラルネットワークでは活性化関数と言われる関数を使って計算して、出力を決定します。

以下の参照URLを参考にしてください。上側の図では、入力値X1からXnが、W1からWnによって重みづけされ（掛け算され）、fを関数として計算をして、その結果を出力します。下側の図は、層が複数になっているイメージです。

/* 活性化関数と出力関数は同じものか違うものか。同じであれば、下の図中の「出力関数」は「活性化関数」と記述すべきです */

![comment](https://thinkit.co.jp/images/article/30/2/3021.gif)

参照URL:https://thinkit.co.jp/images/article/30/2/3021.gif

活性化関数には、ロジスティックシグモイド関数、正規化線形関数等が使われます。詳細は、上で紹介した参考文献『深層学習 (機械学習プロフェッショナルシリーズ) 』(岡谷 貴之  (著),講談社)や、以下の参照URLなどを見てください。

![comment](https://image.slidesharecdn.com/deep-learning-20140130-140130205750-phpapp01/95/deep-learning-12-638.jpg?cb=1391115802)

参照URL:https://image.slidesharecdn.com/deep-learning-20140130-140130205750-phpapp01/95/deep-learning-12-638.jpg?cb=1391115802

### 14.2.3 確率的勾配降下法と誤差逆伝播法
キーワード：勾配（降下）法、バッチ学習、ミニバッチ学習、確率的勾配降下法、誤差逆伝播法、

本講座の確率統計の章や機械学習の章では、予測した目的関数の値と実際の値のずれ、すなわち誤差をできる限り小さくするために、誤差関数に最小二乗法を適応するアプローチ等を学んできました。私たちがやりたいのは、この誤差関数を最小化する値（パラメータ）を求めることです。そのアプローチ方法をさらに詳しく紹介します。

#### 勾配法

誤差関数を最小化する値を探すとき、簡単な関数（二次関数の放物線など）だと求めやすいのですが、複雑な関数になってくると、どこで最小値を取るかを解析的に求めることが困難なケースがほとんどです。

そのようなときに、まずはどこかに値をとって、値が小さくなる方向の勾配を求めて最小値を探していくのが**勾配法**です。これを繰り返し計算し、最小値がどこにあるのか探していきます。傾きがその方向を決めるため、数学的には関数の偏微分を求めます。なお、最小値を求めるために下に進めていくことが多いので、勾配降下法といったりもします。

#### 確率的勾配降下法

さてデータを使って学習させるのに、訓練データをすべて使って一気に学習をさせる方法を**バッチ学習**といいます。従来はこのアルゴリズムが採用されていました。しかし、今日のデータ状況からみて、膨大なデータをすべて使って学習させるのには、かなりのコスト（時間やお金）がかかります。

そこで、訓練データの中から無作為にデータを選んで、そのデータを使って学習をしていく（重み付けしていく）方法である**ミニバッチ学習**が使われています。このアプローチを取れば、大量なデータをすべて処理する必要がなくなり、計算コストを下げることができます。（なお、データ1つ1つを取り出して学習させる**オンライン学習**もありますが、ここでは省略します。）

**確率的勾配降下法**は、このミニバッチ学習（訓練データのサンプルを一部（1つだけでも可））を使って、勾配降下法でパラメータの更新をしていく法です。すべてのデータを使っていないため、計算効率が向上し、さらに局所的な解になってしまうリスクを抑えることができます。

##### 誤差逆伝播法

ただし、確率的勾配降下法であっても改善できるとはいえ、計算時間がかかることもあります。それを解決する方法として、**誤差逆伝播法**があります。これは、重み付けのパラメータの勾配計算を効率良く計算する手法です。逆伝播とは、出力層側から入力層に誤差情報を伝えていくことをいい、誤差逆伝播法はこのアプローチをとります。上記の参照URLの図にて、下の後ろ向き演算がそのイメージです。

以上で、概念的な紹介は終わりです。同じく、詳細を知りたい方は、上で紹介した参考文献『ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装』(斎藤 康毅  (著),オライリージャパン)等を見てください。

### 14.2.4 深層学習のパッケージ
キーワード：chainer, theano,pytorch,tensorflow

さて、これまでは深層学習の前学習ということで、パーセプトロンや確率的勾配降下法などを学びました。この講座の後に深層学習を学ぶ方は、今後
chainerやtheano、tensorflowという深層学習の計算を実行するためのライブラリを使っていくことになりますので、ここで少し紹介します。

- Chainer

株式会社Preferred Infrastructure/Networksが開発するディープラーニングのフレームワークです。いろいろなニューラルネットワークの構造に対応しており、GPUもサポートしています。詳細は、以下のサイトをご覧ください。

>[参考URL]

>http://chainer.org/

- theano

モントリオール大学のBengio教授によって開発されている数値計算をするためのライブラリです。ディープラーニング自体の実装ではなく、それを計算するためのいろいろなサポート（微分計算、コンパイラ）などをしています。こちらもGPUで使うことができます。(2017年11月の1.0リリースを以て開発が終了しています。)

>[参考URL]

>http://deeplearning.net/software/theano/

- Pytorch

Pytorchは2つの特徴をもったPythonのパッケージで、1つ目がGPUを使ったテンソル計算ができることと、2つ目が深層学習の計算ができるということです。深層学習のパッケージとしては後発ですが、人気がでているようです。

>[参考URL]

>https://pytorch.org/

- Tensorflow

Googleがリリースした機械学習やディープラーニングのライブラリです。様々なOSに対応しています。詳細は以下のURLにありますので、参考にしてください。

>[参考URL]

>https://www.tensorflow.org

以上で、深層学習を学ぶための準備を終わります。近年は深層学習に関する理論的な本や実装に関する良い本も出ています。以下をお勧めします。この講座を終えられた方ならスムーズに入れるのではないかと思います。

>[参考文献]

>『詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~』(巣籠 悠輔 (著),マイナビ出版)

>『PythonとKerasによるディープラーニング』(Francois Chollet (著), 巣籠 悠輔  (その他), 株式会社クイープ (翻訳),マイナビ出版)

>『scikit-learnとTensorFlowによる実践機械学習』（Aurelien Geron (著),Oreilly & Associates Inc）

また、深層学習については以下の本がとても有名ですので、紹介します。

>[参考文献]

>『深層学習』(Ian Goodfellow (著), Yoshua Bengio (著), Aaron Courville (著), 岩澤 有祐 (監修), 鈴木 雅大 (監修), & 9 その他、KADOKAWA)

以上、翻訳本がほとんどですが、英語版だとネット上に無料で読めるサイトもありますので、参考にしてください。

## 14.3 Pythonの高速化
ゴール：Pythonを高速化するための方法を知る

ここからは、Pythonの処理を高速化するためのツールやアプローチについて学びます。Pythonを高速化するにはさまざまな方法がありますが、ここでは、並列処理をするmultiprocessing、コンパイラによるNumba、Cython等について説明します。

Pythonの高速化については、以下の参考文献があります。1つ目の『ハイパフォーマンスPython』は、全体的なコンピューターシステム視点でPython処理のボトルネックとなる箇所を探すために、プロファイリング（システムをテストして遅い箇所を特定する）を実施したり、テクニカルな視点（リストとタプルの違いと扱い方など）でも説明がされています。2つ目の『科学技術計算のためのPython入門』も高速化について、いくつかの章で解説がされていますので、参考にしてください。3つ目の『エキスパートPythonプログラミング改訂2版』にも、最適化や並行処理について述べられているので、こちらも参考にしてください。

>[参考文献]

>『ハイパフォーマンスPython』(Micha Gorelick (著), Ian Ozsvald (著), 相川 愛三 (翻訳),オライリージャパン)

>『科学技術計算のためのPython入門』(中久喜健司,技術評論社)

>『エキスパートPythonプログラミング改訂2版』(Michal Jaworski (著), Tarek Ziade (著), 稲田 直哉 (翻訳), 芝田 将 (翻訳), 渋川 よしき (翻訳), 清水川 貴之  (翻訳), 森本 哲也 (翻)、KADOKAWA）

ただし、Pythonによる高速化や処理の最適化は、まず動くコードを作成したあとに考えるのが原則です。システム全体として最適化をするためには、まずその全体的な動きをつかむことが重要で、局所的に最適化しても全体として最適化できるとは限りません。目的となるシステム、処理を作成した後、計算スピードに問題があるときに、検討するようにしましょう。

**なお、環境等によって、計算時間が変わってきますので、記載通りの結果にならないこともありますが、ご了承ください。**

### 14.3.1 並列処理
キーワード：並行処理、並列処理、プロセス、スレッド、GIL、multiprocessing

Python高速化のために、まずmultiprocessingのモジュールを使った処理をみてきます。

その前に、周辺で必要となる概念（並列処理と並行処理、スレッドとプロセス、GILなど）について紹介します。ここでは、簡単な用語の説明に留めるので、詳細は先ほど紹介した参考文献等をみてください。

#### 並列処理と並行処理

まずは並列処理と並行処理の違いからです。並列処理と並行処理は同じような用語ですが、別の概念です。並行処理は複数のタスクを非同期で実行していきます。一方、並列処理は、並行処理の1つであり、複数のCPUを使って複数のタスクを同時に処理をしてきます。

言葉の説明だけでは若干イメージがわきにくいので、以下の参照図をみてみましょう。左の図が並列処理（Parallel）で、右の図が並行処理（Concurrent）です。並列処理では、CPU1とCPU2の2つのCPUがそれぞれ同時に異なるタスクを処理していますが、並行処理では1つのCPUが2つのタスクを非同期で実行しているのがわかります。

![comment](http://www.dotnetcurry.com/images/dotnetcore/concurrent/parallel-vs-concurrent-dotnet-core.png)

参照URL:http://www.dotnetcurry.com/dotnet/1360/concurrent-programming-dotnet-core

複数のCPUコアを使うときに意識しなければいけないのが、**グローバル・インタプリタ・ロック（GIL）**です。これは、Pythonのプロセスはコア数に関わらず、一度に１つの命令しか実行しないことを言います。

しかし以下で紹介するmultiprocessingの並列処理を使えば、プロセスとスレッドを使った並列処理を実現することができ、1つのマシンで複数のコアを使うことができます。(プロセスとは、プログラムの実行単位のことで、スレッドとは、プロセスで作成される処理の単位のことをいいます。)

#### multiprocessingを使った並列処理の例

用語の説明はここまでにして、multiprocessingのサンプルコードを実際にみていきましょう。

以下のコードは、インプットの値を2乗してそれを表示し、0.5秒待つ処理をするものです。このプログラムは何も特別な処理をせず、普通に実装しているだけのコードです(ただし、あくまで並列処理のイメージをもってもらうための実装で、これがシステム的に最適であるとは限りません。)

In [22]:
import time

# インプットを二乗して結果を表示し、0.5秒待つ
def calc(x):
    a = x**2
    print(a)
    # 0.5秒待つ
    time.sleep(0.5)

# ここから処理を始める
if __name__ == '__main__':
    
    # 計算開始時間
    start_time = time.time()
    
    # リストデータの作成
    data = [t for t in range(0,10)]

    # 関数の呼び出しとリスト化
    [calc(x) for x in data]
    
    # 計算時間の測定
    print("CalcTime:",time.time() - start_time)

0
1
4
9
16
25
36
49
64
81
CalcTime: 5.036837100982666


上記の実装では、計算時間は約5秒です。

次は、multiprocessingを使って並列処理してみましょう。multiprocessing.Process等を使って、次のように実装します。

In [23]:
import time
import multiprocessing

# インプットデータから以下のcalcを使ってリスト化する関数
def worker(data):
    [calc(x) for x in data]

# インプットを二乗して結果を表示し、0.5秒待つ
def calc(x):
    a = x ** 2
    print(a)
    time.sleep(0.5)

# ここから処理開始
if __name__ == '__main__':
    
    start_time = time.time()
    
    # プロセスを分けるための設定
    split_data = [[0, 1, 2], [3, 4],[5, 6],[7, 8, 9]]

    jobs = []
    for data in split_data:
        job = multiprocessing.Process(target=worker, args=(data, ))
        jobs.append(job)
        job.start()

    [job.join() for job in jobs]
    
    print("CalcTime:",time.time() - start_time)

0
9
49
25
1
16
36
64
4
81
CalcTime: 1.5637259483337402


計算時間は約1.5秒に改善しました。

#### マルチスレッドを使った例

次に、マルチスレッドを使った処理を見ていきましょう。以下の処理では3つのURLにリクエストを送って、待ち時間の合計を計算しています。こちらは普通の実装です。

In [24]:
from urllib.request import urlopen
import time

current_time = time.time()
urls = ['http://www.google.com', 'http://www.yahoo.co.jp/', 'https://www.bing.com/']
for url in urls:
    response = urlopen(url)
    html = response.read()
print(time.time() - current_time)

2.252300977706909


上の結果から、約2.6秒かかったことがわかります。

次にこれをマルチスレッドを使って処理してみましょう。threadingを使います。

In [25]:
from urllib.request import urlopen
import threading, time

def get_html(url):
    current_time = time.time()
    response = urlopen(url)
    html = response.read()
    print(url + ': ' + str(time.time() - current_time))

urls = ['http://www.google.com', 'http://www.yahoo.co.jp/', 'https://www.bing.com/']
threads = []

# Start Threads
current_time = time.time()
for url in urls:
    thread = threading.Thread(target=get_html, args=(url,))
    thread.start()
    threads.append(thread)

# Wait Threads
for thread in threads:
    thread.join()

print('Time: ' + str(time.time() - current_time))

http://www.google.com: 0.2912478446960449
https://www.bing.com/: 0.4851679801940918
http://www.yahoo.co.jp/: 0.927203893661499
Time: 0.9304249286651611


処理時間は約1秒になり、先ほどより改善されているのがわかります。

>[参照URL]

>http://news.mynavi.jp/series/python/032/

### 14.3.2 Numba入門
キーワード：JITコンパイラ,numba

次は、JIT(Just in Time)コンパイラを使って、高速化しましょう。ここでは、LLVMベースのコンパイラ**numba**を使います。
高速化するには、高速化したい関数の前にデコレータ（入力として関数を受け取り別の関数を返す）の@jitをつけます。そうすることでJITコンパイラが機械語にコンパイルしてくれて、Cにも匹敵する計算性能が出せるようになります。

以下に示すのは、複素数の計算をする例です。ふつうにPythonの機能として実装したmulti_abs_basicとNumpyで実装したmulti_abs_numpy、そして、先頭に「@jit」を付けて、multi_abs_basicと同じ処理をJIT化したmulti_abs_numbaの3つの関数を用意しました。

In [27]:
from numba import jit
import numpy as np
import time

#それぞれの要素の掛け算を実行して、リストにする
#普通の実装
def mult_abs_basic(N,x,y):
    r = []
    for i in range(N):
        r.append(abs(x[i] * y[i]))
    return r

#numpyの実装
def mult_abs_numpy(x,y):
    return np.abs(x*y)

#JITの実装
@jit('f8[:](i8, c16[:], c16[:])',nopython=True)
def mult_abs_numba(N,x,y):
    r = np.zeros(N)
    for i in range(N):
        r[i] = abs(x[i] * y[i])
    return r

まずは、計算をするための変数の準備をします。以下のJは複素数を扱うために使っています。

In [28]:
N = 1000000

x_np = (np.random.rand(N)-0.5) + 1J*(np.random.rand(N)-0.5)
y_np = (np.random.rand(N)-0.5) + 1J*(np.random.rand(N)-0.5)

x = list(x_np)
y = list(y_np)

それではまず、普通に計算したときの処理時間を見てみましょう。

In [29]:
start_time = time.clock()
b1 = mult_abs_basic(N,x,y)
print('Calc Time:{0:0.3f}[s]'.format(time.clock()-start_time))

Calc Time:0.318[s]


処理時間は約0.3秒でした。次は、numpyを使って計算した場合です。

In [30]:
start_time = time.clock()
b1 = mult_abs_numpy(x_np,y_np)
print('Calc Time:{0:0.3f}[s]'.format(time.clock()-start_time))

Calc Time:0.047[s]


計算時間は、約0.044秒でした。以前学んだ通り、numpyを使った方が計算時間が大幅に改善されているのがわかります。

最後にJITコンパイラを使って計算した時を見てみましょう。

In [31]:
start_time = time.clock()
b1 = mult_abs_numba(N,x_np,y_np)
print('Calc Time:{0:0.3f}[s]'.format(time.clock()-start_time))

Calc Time:0.010[s]


計算時間は0.01秒になっています。Cで実装されているNumpyよりもかなり計算時間が削減されていることがわかります。

>[参考文献]

>『科学技術計算のためのPython入門』(中久喜健司,技術評論社)

>http://qiita.com/kenmatsu4/items/7c08a85e41741e95b9ba

### 14.3.3 Cython入門
キーワード：Cython、コンパイル言語、インタープリタ言語

Pythonの高速化の最後として、**Cython**を使ったサンプルコードを紹介します。

PythonとCとの違いは、Pythonがインタープリタ言語に対して、Cはコンパイラ言語であるという点です。Pythonのようなインタープリタ言語はすぐに実行、その処理結果の確認ができますが、C言語は機械語に直す過程（コンパイル）が必要であり、時間がかかります。一方、インタープリタ言語のデメリットとしては、実行速度が遅くなってしまう点が挙げられます。コンパイラ言語は、機械語に置き換えるため、実行速度が速くなるからです。

ここで扱うCythonは、Pythonのように簡単に実装でき、コンパイルは必要になりますが、実行速度を早めることができます。

CythonはNumpyやScipyなどの様々なパッケージで使われており、本来は背景やその仕組み（CPythonとの関係性等）についても詳しく記載すべきですが、本書での目的は、まずは実装して動かすということに重きをおいているために、省略します。詳細は、以下で紹介する参考文献をみてください。

#### PythonとCythonの速度を比較する

ここでは、PythonとCythonの計算スピードの比較をします。まずは、Jupyter Notebookにて、以下のようにマジックコマンドを実行します。この%load_ext Cythonと以下で述べる%%cythonを実行することで、jupyter notebook内でもコンパイルが可能になります。

In [32]:
%load_ext Cython

ここでは以前扱った素数とフィボナッチ数を計算するプログラムをPythonとCythonで実装し、それぞれの速度の違いを比較してみましょう。

#### Pythonによる実装
まずは普通のPythonによる実装です。1つ目が以前にも扱ったフィボナッチ数列の生成関数です。

In [33]:
# フィボナッチ数列の作成
def pyfib(n):
    a, b = 0.0, 1.0
    for i in range(n):
        a, b = a+b, a
    return a

2つ目は素数生成の関数です。

In [None]:
import numpy as np

# 素数の作成
def pyprimes(kmax):
    p = np.zeros(1000)
    result = []

    # 最大個数は1000個
    if kmax > 1000:
        kmax = 1000

    k = 0
    n = 2
    while k < kmax:
        i = 0
        while i < k and n % p[i] != 0:
            i += 1

        if i == k:
            p[k] = n
            k += 1
            result.append(n)
        n += 1
    return result

#### Cythonによる実装

次はCythonによる実装です。普通のPythonとの書き方の違いは、手前に%%cython マジックコマンドを記載し、変数の前に型（整数型、倍精度浮動小数点型など）が必要になるという点です。以下に示すように、「cdef int」や「cdef double」などのように、cdefの後に型を書いて、その後ろに変数名を書きます。

In [34]:
%%cython -n test_cython_code
# フィボナッチ数列生成（Cythonバージョン）
def fib(int n):
    cdef int i
    cdef double a=0.0, b=1.0

    for i in range(n):
        a, b = a+b, a
    return a

# 素数生成（Cythonバージョン）
def primes(int kmax):
    cdef int n, k, i
    cdef int p[1000]
    result = []

    if kmax > 1000:
        kmax = 1000

    k = 0
    n = 2
    while k < kmax:
        i = 0
        while i < k and n % p[i] != 0:
            i += 1

        if i == k:
            p[k] = n
            k += 1
            result.append(n)
        n += 1
    return result

##### 速度の違いを確認する

それでは、普通のコードとCythonのコードを比較してみましょう。まずは、フィボナッチ数列から計算します。

In [35]:
# フィボナッチ計算比較
%timeit fib(1000)
%timeit pyfib(1000)

1000000 loops, best of 3: 1.06 µs per loop
10000 loops, best of 3: 54.2 µs per loop


計算時間がなんと約50倍も改善しています。次は素数の計算です。

In [36]:
# 素数計算比較
%timeit primes(1000)
%timeit pyprimes(1000)

100 loops, best of 3: 2.05 ms per loop
1 loop, best of 3: 290 ms per loop


こちらは100倍以上の改善となりました。

Cythonについては以下の文献が参考になります。

>[参考文献]

>『Cython ―Cとの融合によるPythonの高速化』(Kurt W. Smith (著), 中田 秀基 (監修), 長尾 高弘  (翻訳),オライリージャパン )

>http://qiita.com/kenmatsu4/items/7c08a85e41741e95b9ba

以上で、Pythonの高速化は終わりです。他にも、Pythonで高速化するためのツールとして、分散処理をするDaskやBlazeなどがありますので、興味のある方は以下の参考URLや参考文献を調べてみてください。

>[参考URL]

>http://blaze.pydata.org/

>[参考文献]

>『Python言語によるビジネスアナリティクス 実務家のための最適化・統計解析・機械学習』(久保 幹雄  (著), 小林 和博 (著), 斉藤 努 (著), 並木 誠 (著), 橋本 英樹 (著),近代科学社)

冒頭でも述べましたが、ここで紹介した実装が必ず最適というわけではありません。Pythonでの計算に時間がかかる時は、上記のような手法を用いて、高速化できるかどうか検討して試してみてください。

## 14.4 Spark入門
ゴール：Sparkの機能について知る、PySparkの基礎的な機能を使える

Sparkは分散処理をするためのツールでビッグデータを解析するためのソフトウェアの1つです。機械学習のライブラリも扱え、しかもSQLのように簡単に集計ができたり、リアルタイムに分析できます。

SparkはScalaベースで作られていますが、Scala以外にもPythonやJavaなどからも利用可能です。本講座では、Pythonとの連携をメインとして、その処理方法の基礎を学びます。特にPysparkについて、その簡単な使い方を紹介します。

今までは、NumpyやScipy、Pandas、sklearnなどを使って、データの加工処理から機械学習のモデリングを実施してきました。扱ってきたデータもそれほど大きくなく、せいぜい数ギガ程度の大きさでした。しかし、データ分析の現場では、数百ギガやテラバイト級のデータがあり、それを扱う場面も多々あり、先ほどのライブラリだけでは、データが読み込めない、計算が終わらない、困難というケースもあります。

そこで、そのような大量のデータの読み込み、加工、機械学習まで一貫して実行するためのSparkを使うことで、ビッグデータを扱うことが可能となります。

### 14.4.1 PySpark入門
キーワード：RDD, key/value, mapreduce, sparkSQL

ここでは、PythonとSparkを連携させたPySparkの使い方について、基礎の基礎を学びましょう。PySparkはPythonからSparkを操作できるAPIです。

#### Pysparkを使うための準備

まずは、PySparkを使うために、以下のコードを実行しましょう。（PySparkを実行するための環境は準備されているものとします。）

In [1]:
import findspark
findspark.init()

import pyspark
sc = pyspark.SparkContext(appName="myAppName")

以下のようにscコマンドを入力するとパージョン番号が表示されるので、spark(pyspark)が使えるようになったことを確認できます。

In [2]:
sc

#### データの読み込み

分析対象のデータの読み込みをします。sc.textFileの後にデータのある場所を指定しています。なお、ファイル名にアスタリスク(✴︎)をつけて任意の文字を含むファイル名をまとめて読みこむことが可能です。同じような規則性のあるファイル名を扱う時は便利です。確率と統計の章で扱った「student-mat.csv」と「student-por.csv」を同時に読み込んでみましょう。ただし、ここでは重複等は気にせず、そのまま読み込みます。**なお、該当のデータがある場所は絶対パスで指定してください。**

In [None]:
merge_student_data = sc.textFile("/root/userspace/chap3/student*.csv")

In [3]:
pwd

'/root/.notebooktemp'

これはRDD（Resilient Distributed Dataset）としてデータをロードさせています。日本語では、「不変・並列実行可能な(分割された)コレクション」という意味です。RDDをベースにSparkはデータを分散処理させます。Sparkのすべての作業は、このようなRDDの生成、既存のRDDの変換、結果を集計するためにRDDに対する呼び出しをしています。この段階ではまだ集計等はしていません。

次は、行数を数えています。ここで集計を開始します。

In [40]:
# Line count
merge_student_data.count()

1046

以下でデータのはじめの行を表示します。RDDの後にfirst()をつけて実行します。

In [41]:
merge_student_data.first()

'school;sex;age;address;famsize;Pstatus;Medu;Fedu;Mjob;Fjob;reason;guardian;traveltime;studytime;failures;schoolsup;famsup;paid;activities;nursery;higher;internet;romantic;famrel;freetime;goout;Dalc;Walc;health;absences;G1;G2;G3'

take(5)で5行を抽出します。

In [42]:
merge_student_data.take(5)

['school;sex;age;address;famsize;Pstatus;Medu;Fedu;Mjob;Fjob;reason;guardian;traveltime;studytime;failures;schoolsup;famsup;paid;activities;nursery;higher;internet;romantic;famrel;freetime;goout;Dalc;Walc;health;absences;G1;G2;G3',
 '"GP";"F";18;"U";"GT3";"A";4;4;"at_home";"teacher";"course";"mother";2;2;0;"yes";"no";"no";"no";"yes";"yes";"no";"no";4;3;4;1;1;3;6;"5";"6";6',
 '"GP";"F";17;"U";"GT3";"T";1;1;"at_home";"other";"course";"father";1;2;0;"no";"yes";"no";"no";"no";"yes";"yes";"no";5;3;3;1;1;3;4;"5";"5";6',
 '"GP";"F";15;"U";"LE3";"T";1;1;"at_home";"other";"other";"mother";1;2;3;"yes";"no";"yes";"no";"yes";"yes";"yes";"no";4;3;2;2;3;3;10;"7";"8";10',
 '"GP";"F";15;"U";"GT3";"T";4;2;"health";"services";"home";"mother";1;3;0;"no";"yes";"yes";"yes";"yes";"yes";"yes";"yes";3;2;2;1;1;5;2;"15";"14";15']

次は、lambdaも組み合わせて、フィルターをします。具体的には、それぞれのラインについて、GPという文字が含まれているものを抽出します。

In [43]:
gp_lines = merge_student_data.filter(lambda line: "GP" in line)

補足ですが、まだ上のフィルターの段階では、計算はしておらず、上記のcountやfirstを実行した時に計算がされます。これはSparkの**遅延評価**によるものです。先ほどの、take()も実施した時に、計算がされます。Sparkではこの考え方がとても重要なので、抑えておいてください。

以下はレコード数をカウントしています。これを実行したときに、計算が実行されます。

In [44]:
gp_lines.count()

772

上記の結果より、GPが含まれるレコード数は772であることがわかりました。

また、先頭のカラムがあるレコードをカウントしましょう。先ほど2ファイルをそのまま読み込んでいるので、先頭のカラムは2行あるはずです。以下は、カラム名schoolが含まれているレコード数をカウントしています。

In [45]:
head_lines = merge_student_data.filter(lambda line: "school" in line)

In [46]:
head_lines.count()

2

これを応用して、MapReduceの処理を見てみましょう。以下では、それぞれのセルに入っているデータ（数字も）を1つの単語と見なし、それぞれいくつあるのかをカウントする処理をしています。

まず、splitを使って「;」で文字を分けています。

In [47]:
split_words = merge_student_data.flatMap(lambda line:line.split(";"))

次に、mapで単語1つにカウント1を対応させ、reduceの処理でそれぞれ同じ単語のカウントを足しあげています。これがMapReduceの処理です。キーとなっているのが単語(word)です。

In [48]:
word_counts = split_words.map(lambda word:(word,1)).reduceByKey(lambda a,b:a+b)

collect()でRDD全体を取り出しますので、大きなデータを扱う際は注意してください。

In [49]:
result = word_counts.collect()

返ってくる値はリスト型です。数が多いので表示結果は絞っています。

In [50]:
result[0:20]

[('24', 2),
 ('schoolsup', 2),
 ('"health"', 123),
 ('30', 2),
 ('Fjob', 2),
 ('22', 7),
 ('"U"', 759),
 ('"4"', 4),
 ('G1', 2),
 ('16', 350),
 ('54', 1),
 ('higher', 2),
 ('G3', 2),
 ('56', 1),
 ('"M"', 453),
 ('40', 1),
 ('romantic', 2),
 ('"GP"', 772),
 ('internet', 2),
 ('13', 117)]

また、Statisticsライブラリ等を使うことで、基本統計量の計算も可能です。

In [51]:
from pyspark import SparkContext
from pyspark.mllib.linalg import Vectors
from pyspark.mllib.stat import Statistics
import numpy as np

まずは、統計量を計算するためのデータを準備します。

In [52]:
rdd = sc.parallelize([Vectors.dense([2, 0, 0, -2]),Vectors.dense([4, 5, 0,  3]),Vectors.dense([6, 7, 0,  8])])

次に、 Statistics.colStatsを使って、基本統計量等を計算します。

In [53]:
summary = Statistics.colStats(rdd)

以下は、順番にベクトルの各要素の平均、分散、ゼロでない数のカウントを計算しています。

In [54]:
print (summary.mean())
print (summary.variance())
print (summary.numNonzeros())

[ 4.  4.  0.  3.]
[  4.  13.   0.  25.]
[ 3.  2.  0.  3.]


以上で、データの読み込みと簡単な集計の紹介は終わります。次は、SparkSQLを見ていきます。

#### <練習問題 1>

上のデータmerge_student_dataに対して、schoolsupを含むレコードがどれだけあるかカウントしてください。

### 14.4.3 SparkSQL
キーワード：SparkSQL

SparkはSQLも扱うことができます。以下は、そのモジュールの読み込みと準備をしています。

In [56]:
from pyspark.sql import SQLContext
from pyspark.sql.types import StructField,StringType,IntegerType,StructType,FloatType
sqlContext = SQLContext(sc)

確率統計の章で扱ったデータを対象に、データベースで学ぶSQL（SparkSQL）を使って集計してみましょう。

データを読み込みます。RDDとしてロードしています。なお、該当のデータがある場所は絶対パスで指定してください。

In [57]:
student_mat_data = sc.textFile("/root/userspace/chap3/student-mat.csv")

ヘッダーを設定するために、ヘッダー部分だけ読み込みましょう。

In [58]:
header = student_mat_data.first()
header

'school;sex;age;address;famsize;Pstatus;Medu;Fedu;Mjob;Fjob;reason;guardian;traveltime;studytime;failures;schoolsup;famsup;paid;activities;nursery;higher;internet;romantic;famrel;freetime;goout;Dalc;Walc;health;absences;G1;G2;G3'

このデータの区切り文字は特殊でした。以下のように;を置き換えましょう。replaceを使います。

In [59]:
schemaString = header.replace(';',',') 

In [60]:
schemaString

'school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3'

さて、データベースのテーブルを準備するとき、フィールド名や型を全て指定しなければいけませんが、30以上もあるので、設定するのは大変です。以下のようにプログラムを書いて、作業を効率化しましょう。取り急ぎすべて文字型にしています。個別で後で変更も可能です。

In [61]:
fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split(',')]

これをデータ構造としてスキーマを定義します。

In [62]:
schema = StructType(fields)

先ほどのカラムの行（ヘッダー）を除く、データを準備します。

In [63]:
Header = student_mat_data.filter(lambda l: "school" in l)
NoHeader = student_mat_data.subtract(Header)
NoHeader.count()

395

以下は、カラム名を除いたデータの1行目です。

In [64]:
NoHeader.first()

'"GP";"F";15;"R";"GT3";"T";1;1;"at_home";"other";"home";"mother";2;4;1;"yes";"yes";"yes";"yes";"yes";"yes";"yes";"no";3;1;2;1;1;1;2;"7";"10";10'

また次に、文字が”で囲まれているため、map関数とlambda関数を使って、その文字を消去しています。

In [65]:
NoHeader2 = NoHeader.map(lambda l: l.replace("\"",""))

In [66]:
NoHeader2.first()

'GP;F;15;R;GT3;T;1;1;at_home;other;home;mother;2;4;1;yes;yes;yes;yes;yes;yes;yes;no;3;1;2;1;1;1;2;7;10;10'

さらに、;で文字が区切られているため、分割しています。

In [67]:
NoHeader3 = NoHeader2.map(lambda l: l.split(";"))

次は、上のデータをデータフレームにします。先ほどのスキーマで設定します。sqlContext.createDataFrameを使います。

In [68]:
data_frame = sqlContext.createDataFrame(NoHeader3, schema)

最後に、SQLを使うために、上のデータフレームをテーブルにして、登録します。

In [69]:
data_frame.registerTempTable("tmp_table")

以下で、スキーマを確認します。

In [70]:
print(data_frame.printSchema())

root
 |-- school: string (nullable = true)
 |-- sex: string (nullable = true)
 |-- age: string (nullable = true)
 |-- address: string (nullable = true)
 |-- famsize: string (nullable = true)
 |-- Pstatus: string (nullable = true)
 |-- Medu: string (nullable = true)
 |-- Fedu: string (nullable = true)
 |-- Mjob: string (nullable = true)
 |-- Fjob: string (nullable = true)
 |-- reason: string (nullable = true)
 |-- guardian: string (nullable = true)
 |-- traveltime: string (nullable = true)
 |-- studytime: string (nullable = true)
 |-- failures: string (nullable = true)
 |-- schoolsup: string (nullable = true)
 |-- famsup: string (nullable = true)
 |-- paid: string (nullable = true)
 |-- activities: string (nullable = true)
 |-- nursery: string (nullable = true)
 |-- higher: string (nullable = true)
 |-- internet: string (nullable = true)
 |-- romantic: string (nullable = true)
 |-- famrel: string (nullable = true)
 |-- freetime: string (nullable = true)
 |-- goout: string (nullable = tr

それでは、SQLのselect文を使ってみましょう。基本的にsqlContext.sqlの中でSQLを記述すれば、大丈夫です。なお、集計結果としては、前半のChapterで実行した結果と同じになります。

In [71]:
count_result = sqlContext.sql("select sex,avg(age) as avgAge from tmp_table group by sex")
print(count_result.show())

+---+------------------+
|sex|            avgAge|
+---+------------------+
|  F| 16.73076923076923|
|  M|16.657754010695186|
+---+------------------+

None


以上で、Sparkの説明は終わりになります。Sparkではさらに、前に学んだ機械学習の手法もMLibを使ってRDDに適応させることが可能です。

今回は簡単な実装の紹介のみで、ここの環境ではSparkの凄さを実感できませんが、将来的にAWS（Amazonが提供するクラウドサービス）などでたくさんのサーバーが使えるときや分散処理を実施する時に、ぜひ使ってみてください。ちなみに、インストール等が少し大変だと思うので、AWSが提供するAmazon Elastic MapReduce(EMR）が便利です。ノード数の指定などが簡単に設定できるので、はじめて使う方にはEMRはオススメです。

またSparkはScalaベースで作られており、色々な面でScalaからの方が扱いやすいと思いますので、本格的に使われる場合はScalaも選択肢として考えるのも良いと思います（PySparkは制約があります）。

なお、参考文献は以下になります。

>[参考文献]

>『初めてのSpark』(Holden Karau (著), Andy Konwinski (著), Patrick Wendell (著), Matei Zaharia (著), & 1 その他,オライリージャパン )

>『入門 PySpark ―PythonとJupyterで活用するSpark 2エコシステム』(omasz Drabas (著),Denny Lee (著),Sky株式会社 玉川 竜司 (翻訳),オライリージャパン )

>『Machine Learning with Spark - Tackle Big Data with Powerful Spark Machine Learning Algorithms』(Nick Pentreath (Author),Packt Publishing )

#### <練習問題 1>

SparkSQLを使って、先ほど作ったテーブルに対して、school × sexを軸にして、それぞれのレコード数と、それぞれの平均年齢を表示するようにしてください。

## 14.5 その他の数学的手法とエンジニアリングツール
ゴール：データ分析のアプローチ方法(数学的手法とエンジニアリング)を広げる

### 14.5.1 数学的手法
キーワード：MCMC, 階層ベイズ、実験計画法、生存解析、確率過程とランダムウォーク、時系列解析、トピックモデル

この講座では、データ分析、特に機械学習の分野について、最低限必要な手法を学んできました。さらに、いろいろな課題に対するアプローチを増やすために、数学的な手法とそれらを実装するライブラリ等について紹介します。本書の冒頭で紹介したデータサイエンティストに必要なうちの1つのデータサイエンス（数学・統計モデリング）をスキルアップさせるためのコンテンツ紹介になります。ここでは、ほんの数行程度の説明ですが、この講座終了後に、業務上必要そうなもの、興味があるものをぜひ学んでいってください。

- **マルコフ連鎖モンテカルロ法（MCMC）**：この手法は乱数を使ってマルコフ連鎖（ある状態が直前の状態にのみ依存して、その連鎖を確率モデルで表したもの）を発生させる方法で、多重積分を計算するときなどに使われます。PythonのライブラリではPyMC3から使うことができます。なお、以前に紹介したEMアルゴリズムと、このMCMCの一種であるギブス標本抽出は関係しています（EステップとMステップ）ので、後で紹介する参考文献等をみてください。

- **階層ベイズ**：統計モデルにはパラメータ（母平均など）がありましたが、それに階層構造をもたせてベイズ推定する手法が階層ベイズです。単純にパラメータを固定するだけではうまく現象を説明することができないこともあるため、その背後にある確率分布をさらに考えます。ライブラリは先ほどのPyMC3などを使えば、階層ベイズを使うことができます。

- **実験計画法**：ある現象が生じた場合に、その原因は何なのか、それらには本当に因果関係があるのかどうか、実際の実験を通して観察し、その結果が妥当であるかどうかを分析するのが実験計画法です。実験計画法では少ない実験回数で効果的な情報を得られるように実験計画を工夫します。この講座の前半に、相関があるからといって因果関係があるとはいえないという話をしました。この実験計画法によって、ある現象がある要因によって生じているのかどうかを調べていきます。マーケティング分野ではコンジョイント分析という名で利用されています。具体的な例としては、消費者がパソコンを購入する際、価格や色、デザイン、品質などが購入するかしないかに影響してきますが、それらの影響の度合いを調べるための効率的な実験を、直交表という表を用いて計画します。他には、スーパーなどで発行されるクーポンの効果を見るために、ある店舗群はクーポンを配り（処置群）、別の同じような売り上げの店舗群はクーポンを発行しない（コントロール群）という実験等が行われています。

- **時系列解析**：時間とともにランダムに変動するデータを分析するのが、時系列解析です。分析対象の主なデータは、気候（気温、雨量など）、株価や地震波、売上推移など様々な時系列データです。それらの移動平均を計算したり、それ自身の過去のデータと相関をとって分析（自己相関）したり、多変量の時系列を解析して、将来の予測計算をします。Pythonのライブラリでは、statsmodelsがあります。

- **確率過程とランダムウォーク、確率解析**：ファイナンス理論（オプション価格のデリバティブ計算等）に応用されることが多く、金融業界でクオンツといわれる職種を目指される方は、これらの領域を学ぶことになります。確率微分方程式の離散化バージョンなどは以下の参考文献などに記載されています。以下の参考URL（github）に載せているコンテンツも参考になりますし、また、参考URL（**Quantopian**）もコンテンツがとても充実していますので、金融で必要な実装を学ぶことができ、オススメです。

- **生存時間解析**：その名の通り、ある分析の対象がどれだけ生き続けているか（人や製品なども含む）を解析するためのアプローチです。生存曲線という、時間と生存する確率を対応させた関数を使いますが、生存時間の分布があらかじめわかっていることは少ないため、それを推定するための手法、カプランマイヤー推定などが使われます。この手法は、あるイベントが発生するまでの時間を解析するための方法で、医療の分野では生存率を評価するときなどに使われているようです。Pythonではlifelinesがパッケージとしてあります。

- **トピックモデル**：自然言語処理の一分野でもあり、ニュースなどたくさんの記事があった時に、それらが一体何のトピックなのか分析するのがトピックモデルです。応用分野としては、ニュース記事の分類以外にも、購買行動の分析（セグメンテーションなど）もあります。Pythonのパッケージでは、gensimがあります。なお自然言語処理は、NLTKパッケージがよく使われます。

以上、簡単ではありましたが、その他の数学的な手法の紹介は終わります。他にも、さらなる応用領域（ベイジアンネットワーク、状態空間モデルとカルマンフィルタ、マリアバン解析等）もありますので、興味のある方はいろいろと調べてみてください。

特にオススメなのが、以下の参照URLの**Quantopian**のウェブサイトです。先ほども少し紹介しました。ファイナンス系のサイトですが、この講座と同様にJupyter notebookkを使って手を動かして学べる環境があります。しかも無料です。ファイナンス専門家の方はもちろん、専門外の方もいろいろと学ぶことが多いと思いますので、オススメです。

>[参照URL]

>https://www.quantopian.com/home

>https://github.com/wilsonfreitas/awesome-quant

>[参考文献]

>『Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習』(Jake VanderPlas  (著), 菊池 彰 (翻訳),オライリージャパン)

>『IPythonデータサイエンスクックブック ―対話型コンピューティングと可視化のためのレシピ集』(Cyrille Rossant (著), 菊池 彰 (翻訳),オライリージャパン)

>『統計的学習の基礎 ―データマイニング・推論・予測』(Trevor Hastie (著), Robert Tibshirani (著), Jerome Friedman (著), 杉山 将  (翻訳), & 22 その他,共立出版)

>『パターン認識と機械学習 上下』(C.M. ビショップ  (著), 元田 浩 (監訳), 栗田 多喜夫  (監訳), 樋口 知之 (監訳), & 2 その他, 丸善出版)

>『Pythonで体験するベイズ推論 PyMCによるMCMC入門』(キャメロン デビッドソン=ピロン (著), Cameron Davidson‐Pilon (原著), 玉木 徹  (翻訳),森北出版)

>『Pythonによるベイズ統計モデリング: PyMCでのデータ分析実践ガイド』(Osvaldo Martin (原著), オズワルド マーティン (著), 金子 武久 (翻訳), 共立出版)


>『機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)』(須山 敦志 (著),杉山 将 (監修)講談社)

### 14.5.2 エンジニアリングツール
キーワード：Linux, AWS, hadoop, FPGA, AWS,Scala,R, Java, OpenCV, Tableau, PowerBI

今までは主にPythonを使ってきましたが、分析に関連するソフトウェアや分析に役立つツールを、まばらではありますが紹介します。ここの講座のみですべてを学ぶことはできませんが、将来的なアンテナを張れるように単語を知っておくだけでもためになると思います。ここは、データサイエンティストになるために必要なスキルの2つ目エンジニアリング力を磨くためのコンテンツ紹介になります。


- **Linux（コマンドライン、シェル）**：OSの1つです。この講座でも少しコマンドライン等を使いました。将来、分析をするだけではなく、分析をするための環境構築等にも必要になってくるスキルです。初学者にはなかなかハードルが高いですが、Linuxを徐々に使い慣れていけば、分析環境を構築したり、実際に分析するのに、色々と選択肢が広がるでしょう。

- **Hadoop**：分散処理システムです。よく取り上げられる簡単な例が、ある文章の中に出てくる単語をそれぞれカウントするときにどうやって効率よく数えていくのかという問題です。処理としては、文章の中にある単語に数字を対応させ(Map処理)、後から集めて集計する（Reduce処理）という処理をHadoopがやります（分散処理と監視など）。単語のカウントは、上記のSparkの例でも扱いました。また、Sparkでは、このHadoopエコシステムの中で使われることも多いです。ビックデータ分析といえばHadoopというくらい、大量のデータを処理するのによく紹介されます。ただ、こちらはバッチ処理になりますので、リアルタイムに分析をする場合には、Spark等と組み合わせる必要があります。

- **FPGA**：昨今、深層学習計算などでたくさんのCPUやGPUが使われており(他、TPUも)、ソフトウェアの面からだけではなく、ハード面で実装をすることが求められています。このFPGAはプログラム可能なICで、Field Programmable Gate Arrayの略です。論理仕様をプログラムすることができ、ユーザーの思い通りの論理回路を実現できる論理デバイスです。メリットとしては、CPUが処理する段階でロジックを組むことができるので、処理スピードがかなり改善されます。ハードウェア記述言語のVHDLなどで書かれており、始めるのにかなりハードルが高いツールですが、最近はPynqなどPythonからも実装ができるようになってきているようです。FPGAは、データ分析中級者向けというより、レベル的にはかなりの上級者（トップクラスのデータサイエンティストかエンジニア）向けだと思いますが、今後この講座を受けた人の中から、データ分析の第一線で活躍している人が出てくることを期待して、紹介をしました。インフラよりの話ではありますが、Pythonからも使えるようになり、分析をするのにCPUレベルで考えなければいけない時代が来るのかもしれません。応用分野としては、MicrosoftのBingの検索エンジンやゲノム科学解析、ゲームユーザーの振り分け、金融の高頻度取引などに使われており、いろいろな企業が注目しています。ただこれも用途やデータに応じて使うものですので、FPGA（やGPUなど）を使えば必ず速くなるというものではないので注意しましょう。

- **AWS**：Amazonのクラウドサービスです。サーバー構築やデータストレージ環境など様々なサービスが提供されています。試験的に何か始める時には、コストを抑えることができるため便利です。また、一時的に大量のサーバーを立ち上げるなど、分散処理システムを構築したい場合に使いやすいです。HadoopやSparkがあらかじめインストールされるAmazon EMRや、データベースを分散処理により高速化させるRedshiftなど、分析で使われることも多いです。また、Machine Learning（機械学習）などもありますが、現状は一部だけで、ここで学んだ人には物足りないかもしれません。なお、先ほどのFPGAは、2016年12月からAWSでも使えるようになっています。

- **R**：統計ソフトウェアです。統計的な手法のライブラリが豊富です。Pythonのパッケージにはないものも、いくつかあります（変数選択法など他、多数）。もしこれらのパッケージをPythonで利用したい場合は、PythonからRのスクリプトも呼び出すことができます。

- **可視化ツール**：Tableau, PowerBIなどがあります。近年はインフォグラフィックスというデータの可視化が注目されており、これらのツールを使うことで、簡単にデータを可視化することができます。

- **OpenCV**：画像を処理するためのライブラリです。人の顔を認識したりすることもできます。Pythonと連携が可能で、このJupyterと組み合わせて実行すると便利です。

- 他：ここで紹介したツールやプログラミング言語の他にも、Java、Rudy、PHP、Scalaや機械学習や統計分析向けのJulia、Jumpも分析用のツールとしてよく使用されているようです。クラウドサービスとしてはAWSの他に、GoogleのGCPやIBMのBlueMix、マイクロソフトのAzureなどがあります。商用の統計解析ツールとしては、SAS、SPSS、Matlabなどがありますが、高額なので一般で買うのは難しいかもしれません。ただ、このような統計ソフトウェアの機能もPythonのライブラリで提供されているものが多くなってきましたので、PythonやRでもほとんど実現可能です。Pythonにはない統計手法を使いたい場合や、これらのソフトウェアに興味のある方、大学や会社で使う必要があるという方は、無償版がありますので、それらをインストールしたり、本などをみて勉強してください。

>[参考文献]

>『ビッグデータ テクノロジー完全ガイド』(Michael Manoochehri (著), 小林 啓倫  (翻訳),マイナビ)

>『FPGAの原理と構成』(天野英晴 (編集),オーム社)

>[参考URL]

>http://qiita.com/kazunori279/items/a9e97a4463cab7dda8b9

以上で、この章は終わります。お疲れ様でした。最後に用語の確認だけしましょう。

残りは、総仕上げの演習問題となります。なお、総仕上げの問題は基本的に前までの章の知識をベースにしていますので、余裕がある方は取り組んでみてください。

## 14.6 総合問題

### 14.6.1 総合問題1

深層学習に関する以下の用語について、それぞれの役割やその意味について述べてください。また、ネットや参考文献等も使って調べてみてください。
- パーセプトロン
- ニューラルネットワーク
- 勾配法
- バッチ学習
- ミニバッチ学習
- 確率的勾配降下法
- 誤差逆伝播法
- Chainer, Theano, TensorFlow

### 14.6.2 総合問題2

Pythonの高速化とSparkに関する用語について、それぞれの役割や意味について述べてください。また、ネットや参考文献等も使って調べてみてください。
- 並列処理
- JITコンパイル
- Cython
- Spark
- RDD
- PySpark
- SparkSQL