<a href="https://colab.research.google.com/github/Utree/MachineLearningSeminar/blob/master/04_%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# はじめての機械学習

アヤメのクラス分類アプリケーションを作ってみよう

ある園芸家がアヤメの花の分類をしたいとする。

彼女は花弁の長さと幅、がくの長さと幅をセンチメートル単位で測った。

また、植物学者がsetosa, versicolor, virginicaに分類したアヤメの測定結果も持っており、このデータから園芸家が見つけたアヤメの種類を予測したいとする。

植物学者のデータはすでに種類がわかっている = 答え(教師データ)がわかっているので、教師あり学習と言える

選択肢の中から一つ選ぶ = クラス分類(classification)

## データをインポート

In [0]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

## データを見る

In [0]:
# データの一覧
print("Keys of iris_dataset: \n{}".format(iris_dataset.keys()))

**DESCRキーにはデータセットの簡単な説明が書かれている**



In [0]:
# DESCRキーを表示
print(iris_dataset['DESCR'][:193] + "\n...")

**target_namesキーには予測しようとしている花の種類が格納されている**

In [0]:
print("Target names: {}".format(iris_dataset['target_names']))

**feature_namesキーには各特徴量の説明が書かれている**

In [0]:
print("Feature names: \n{}".format(iris_dataset['feature_names']))

**dataのデータ型はnumpy配列**

In [0]:
print("Type of data: {}".format(type(iris_dataset['data'])))

**dataの形状は150x4**

In [0]:
print("Shape of data: {}".format(iris_dataset['data'].shape))

**dataの中身を表示してみる**

In [0]:
print("First five columns of data: \n{}".format(iris_dataset['data'][:5]))

**targetのデータ型はnumpy配列**

In [0]:
print("Type of target: {}".format(type(iris_dataset['target'])))

**targetの形状は150x1**

In [0]:
print("Shape of target: {}".format(iris_dataset['target'].shape))

**targetの中身を表示してみる**

In [0]:
print("Target:\n{}".format(iris_dataset['target']))

**モデル** : 理想状態。現実の状態にモデルを近づけていき、モデルを利用することで、予測したり分類したりする。

**汎化** : 未知の知らないデータに対してもモデルがうまく機能すること

モデルの性能を評価するには、学習時とは別な新しいデータを使って評価する必要がある。

この時、持っているすべてのデータを２つに分けて、一方を訓練データ(training data), もう一方をテストデータ(test data)と呼ぶ。

training : test = 75 : 25とすることが一般？

## データをダウンロード

In [0]:
from sklearn.model_selection import train_test_split


# データセットを分割, random_stateはランダムシードと呼ばれ、乱数生成時に用いる
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0
)

## データの形状を表示

In [0]:
print("X_train shape: {}".format(X_train.shape))
print("y_train shape: {}".format(y_train.shape))

In [0]:
print("X_test shape: {}".format(X_test.shape))
print("y_test shape: {}".format(y_test.shape))

## グラフ化してデータを見る

In [0]:
# 著者自作のライブラリをインストール
!pip install mglearn

In [0]:
import pandas as pd
from pandas.plotting import scatter_matrix
import mglearn


# X_trainのデータからDataFrameを作る
# iris_dataset.feature_namesの文字列を使ってカラムに名前を付ける
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# データフレームからscatter matrixを作成し、y_trainに従って色を付ける
grr = scatter_matrix(
    iris_dataframe, c=y_train, figsize=(9, 9), marker='o', hist_kwds={'bins': 20},
    s=60, alpha=.8, cmap=mglearn.cm3
)

## 花の種類を予測

In [0]:
# scikit-learnから機械学習用のライブラリインポート
from sklearn.neighbors import KNeighborsClassifier

In [0]:
# モデルを構築
knn = KNeighborsClassifier(n_neighbors=1)

In [0]:
# 学習
knn.fit(X_train, y_train)

## 仮のデータをつくる

In [0]:
import numpy as np


# 仮のデータを作成
X_new = np.array([[5, 2.9, 1, 0.2]])
# 形状を表示
print("X_new.shape: {}".format(X_new.shape))

## 予測 (仮データ)

In [0]:
# 予測
prediction = knn.predict(X_new)


# 推定
print("Prediction: {}".format(prediction))
print("Predicted target name: {}".format(iris_dataset['target_names'][prediction]))

## 予測 (テストデータセット)

In [0]:
y_pred = knn.predict(X_test)
print("Test set precitions:\n {}".format(y_pred))

## テストの正答率

In [0]:
print("Test set score: {:.2f}".format(np.mean(y_pred == y_test)))

In [0]:
print("Test set score: {: .2f}".format(knn.score(X_test, y_test)))

# 機械学習

**テーマ**

「機械学習」(Machine Learning: ML)

**歴史**

OCR(Optical Character Recognition: 光学的文字認識)では古くから使われている

↓

1990年代になってからスパムフィルタで使われるようになった

↓

おすすめ商品の提案、音声検索など数百以上のアプリケーションが開発される




## 機械学習って何?

コンピュータがデータからアルゴリズムを構築するための学問分野

## なぜ機械学習を使うの?

以前は人間がルールベースにより手動でアルゴリズムを構築してきた

↓

手作業でルールを調整したり、そのルールが長くなったりする

↓

大変

↓

複雑な問題を、単純なコードで、高い精度で解決したい

↓

機械学習を使うモチベ：　データからアルゴリズムを**継続的**に**自動**で構築したい

---

また、(アルゴリズムによって難易度は違うが)MLアルゴリズムを調べれば何を学習したのかが分かる

↓

MLから人が学ぶこともある

↓

このテクニックをデータマイニングと言う。


---

機械学習を使う理由
- アルゴリズム構築の自動化
- データから知見の獲得

## 機械学習の種類

1. 人間がどれだけ訓練に関わるか
2. 訓練のタイミング
3. 予測をする方法

によって大きく分類できる

### 1. 人間が訓練にどれだけ関わるか

機械学習では、訓練データをもとに学習をすすめるが、そのデータに人間がどれだけ手を加えているかで、機械学習の種類が分かれる

1. 教師あり学習
2. 教師なし学習
3. 半教師あり学習
4. 強化学習

#### 1-1 教師あり学習

教師あり学習では、訓練データの中に**ラベル**と呼ばれる正解データが含まれる

教師あり学習のタスクには**分類**と**回帰**がある

##### 分類
訓練データには、ラベルにクラス(離散値)が明示されており、分類方法を学習させるタスク

##### 回帰
訓練データには、ラベルには連続値が明示されており、数値を予測させるタスク


##### 教師あり学習の種類
- k近傍法
- 線形回帰
- ロジスティック回帰
- サポートベクトルマシン(SVM)
- 決定木
- ニューラルネットワーク

#### 1-2 教師なし学習

教師なし学習では、訓練データの中に**ラベル**と呼ばれる正解データは含まれていない

##### 教師なし学習の種類
- クラスタリング
    - k平均
    - 階層型クラスタ分析 (HCA)
    - EMアルゴリズム (expectation maximization: 期待値最大化法)
- 可視化と次元削減
    - PCA (principal component analysis: 主成分分析)
    - カーネルPCA
    - LLE (Locally-Linear Embedding: 局所線形埋め込み)
    - t-SNE(t-distributed stochastic neighbor embedding: t分布型確率的近傍埋め込み法)
- 相関ルール学習
    - アプリオリ
    - eclat
    
##### クラスタリング
似てる者同士のグループを見つけるタスク

##### 可視化
多次元のデータを与えると、2次元や3次元表現のデータを返し、データの構造を可視化をするタスク

##### 次元削減
関連性の高い類似のデータをまとめてデータの次元を減らすタスク

##### 異常検知
外れ値などの異常なデータを見つけるタスク

##### 相関ルール学習
大量のデータから関連性強いもの同士を見つけるタスク

#### 1-3半教師あり学習

- 半教師あり学習では、訓練データの一部に**ラベル**と呼ばれる正解データは含まれている

- ほとんどの半教師あり学習のアルゴリズムは、教師あり学習と教師なし学習を組み合わせたものである

- 例) クラスタリングでグルーピングしてから、グループに対してラベル付けを行えば、すべてのデータにラベルを付けることができる。

##### DBN(deep belief network)
制限付きボルツマンマシン(restricted Boltzmann machines: RBM)という教師なし学習をした後に、教師あり学習アルゴルズムで微調整を行う


#### 1-4 強化学習

**エージェント(学習システム)**は環境を観察し、**方策**を元に行動選択をして、**報酬**または**ペナルティ**を受け取り、**方策**を更新するというアルゴリズム

### 2. 訓練のタイミング

機械学習では、訓練により学習(アルゴリズムを更新)していくが、訓練のタイミングによっても分類できる

1. バッチ学習(オフライン学習)
2. 差分学習(オンライン学習)

#### 2-1 バッチ学習(オフライン学習)

- バッチ学習では学習時にすべての訓練データを必要とする。
- 新しい知識について学習させたい場合は、新データだけでなく元データを含めたすべてのデータを使って0から学習させなければいけない


#### 2-1 差分学習(オンライン学習)

- オンライン学習では1つづつ、あるいはミニバッチと言う小さなグループ単位で学習を進める
- オンライン学習には**学習速度**と呼ばれる指標がある。学習速度が速ければシステムはすぐに新しいデータに対応可能で、学習速度が遅ければノイズなどに強くなる。
- オンライン学習の問題点は不良なデータが与えられると、システムの精度が下がることである。そのため、入力をモニタリングして、異常検出が必要な場合もある。


### 3. 予測をする方法

#### 3-1 インスタンスベース学習
既存のデータを丸暗記し、新しいデータに関しては、類似度を用いて、予測する

#### 3-2 モデルベース学習
データからモデル(理想状態)を構築し、モデルを使って予測する

## 機械学習の課題

機械学習をする上で問題となるのは

- 良くないアルゴリズム
- 良くないデータ

の2つが問題になる

### 具体的な注意点

- データの量が多いこと
- 古いデータが新しいデータを代表する値になっていること
    (小さなデータセットでは**サンプルノイズ**, 大きなデータセットでは**サンプリングバイアス**に注意しなければならない)
- データに誤りや外れ値、ノイズ、欠損値が少ないこと
- 訓練のために適切な特徴量を揃えること(**特徴量エンジニアリング**)
    - **特徴量選択**: 特徴量を選ぶ
    - **特徴量抽出**: 特徴量を組み合わせて作る
- モデルを複雑にしすぎないこと(**過学習**: 訓練データに対して過度に適応してしまうこと　を起こし、汎化性能が下がる) 
    - **ハイパーパラメータ**によって、**正則化**(モデルに制限を与える)を行い、**自由度**をコントロールする
- モデルを単純にしすぎないこと(**過小適合**: モデルが単純すぎて、予測しきれないこと　が起こる)

## テストと検証
機械学習モデルをどうやって客観的に評価するか？

持っているデータを**トレーニング**と**テスト**に分割し、調べる

↓

**テスト**で調べた結果を考慮しチューニングを行って、再度**トレーニング**する

↓

間接的に**テスト**に対して過学習してしまい、本番稼働での汎化性能が下がる

↓

**トレーニング**, **テスト**, **バリデーション**の3分割をする。そして、原則として**テスト**を行うのは最後の1回のみとする

# オープンデータセットの一覧

- [カリフォルニア大学アーバイン校MLリポジトリ](http://archive.ics.uci.edu/ml/)
- [Kaggleデータセット](https://www.kaggle.com/datasets)
- [Amazon AWSデータセット](http://aws.amazon.com/fr/datasets/)
- [http://dataportals.org/](http://dataportals.org/)
- [http://opendatamonitor.eu/](http://opendatamonitor.eu/)
- [http://quandl.com/](http://quandl.com/)
- [WikipediaのMLデータセットリスト](https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research)
- [Quora.comの質問に対する解答](https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public)
- [redditのデータセット](https://www.reddit.com/r/datasets/)
- [Googleの画像データセット](https://storage.googleapis.com/openimages/web/index.html)
- [動物の顔の写真](https://x6ud.github.io/#/)

# 機械学習プロジェクトを体験してみよう

データサイエンティストになったつもりで、プロジェクトを体験してみよう

1. 問題の全体像を把握しよう
2. データを手に入れよう
3. 大切そうなデータを見つけ、可視化しよう
4. 機械学習を行いやすいようにデータを準備しよう
5. モデルを訓練しよう
6. モデルを微調整しよう
7. プレゼンをしよう
8. 本番稼働、モニタリング、メンテナンスしてみよう

StatLibリポジトリから1990年のカリフォルニアの住宅価格データセットを使う

なおこのデータセットはカリフォルニア州の調査帰ら得られたデータである

## 1. 問題の全体像を把握しよう

### 問題設定

- あなたがこれから行う仕事は、カリフォルニア州の国勢調査データを使ってカリフォルニアの住宅価格のモデルを作ることである。
- このデータにはカリフォルニア州の各国勢調査細分区グループの人口、収入の中央値、住宅価格の中央値といった指標が含まれている
- 細分区グループとは合衆国国勢調査局が定めた最小の地理的単位で、1細分区グループには600-3000人の人口がある
- これから細分区グループのことを区域と呼ぶ
- あなたはこのデータを使って学習し、他のすべての指標から任意の区域の住宅価格の中央値を予測できなければならない



### ビジネスサイドの目標は何か?

おそらくモデルを作ることは最終的な目標ではない。

まず、モデルを
- **「どのように使って」**
- **「何を得たいのか」**

を知る必要がある。なぜなら、今後選択する以下の項目の判断基準になるからだ

- 「問題をどのように組み立てるのか」
- 「どのアルゴリズムを選ぶか」
- 「モデルの評価にどのような性能指標を使うか」
- 「どのくらい労力をかけるべきか」

上司に尋ねた結果、このモデルの出力は他のシグナル(情報)とセットにして、他の機械学習システムに与え、最終的には、投資の価値判断を行うそうだ。

**パイプライン**
: データ処理コンポーネントをつなげたものをデータ**パイプライン**と呼ぶ。機械学習システムでは、操作するデータが大量にあり、行わなければならないデータ変換もたくさんあるので、パイプラインが作られることが非常に多い。

コンポーネントは一般的に非同期的に実行されており、個々のコンポーネントは自己完結的になっている。こうすることで複数のチームが別々のコンポーネントに専念できる。また、1つのコンポーネントが壊れたとしても、最後に出力したデータを使って、実行を続けられるので、アーキテクチャとして堅牢になる

しかし、障害を起こしたことに気づきにくくなるので、モニタリングをしなければならない

次に知るべきことは、**現在のソリューション**がどのようなものかだ。既存ソリューションは性能の比較対象になることが多く、問題解決のヒントが得られることも多い。


上司に尋ねた結果、区域の住宅価格は専門家がマニュアルで推計しているそうだ。この方法は住宅価格の中央値を集められない時、区域の最新情報を集め、複雑な規則を使って推計値を導いているが、時間とコストがかかる上に、推計結果はそれほど良くない(この推定は実際の中央値と10%以上も離れている事がある。これは区域に関する他のデータを考慮し推定しているためである)

**モデルを作る目的**と**現在のソリューション**の2つが分かれば、システム設計に取り掛かれる。まずは、

- 教師あり学習/教師なし学習/強化学習
- 分類/回帰/その他のタスク
- バッチ学習/オンライン学習

から選んでいく。


- ラベル付きの訓練データが与えられているので、**教師あり学習**である。
- また、複数の特徴量をを使って値を予測するので**多変量回帰**問題である
- システムに継続的にデータが届くわけではないので、**バッチ学習**を行う

### 性能指標を選択する

回帰問題の典型的な性能指標は平均二乗誤差(Root Mean Square Error: RMSE)である。

どの程度の誤差がシステムの予測に含まれているのかを示す指標

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
RMSE(X, h) = \sqrt{ \frac{1}{m} \sum_{i=1}^{m} (h(x^{(i)}) - y^{(i)})^2}
\]
</body>

**記法**

- m: データセットのインスタンス(フィールド)数

- x^{(i)}はデータセットのi番目のインスタンスに含まれるすべての特徴量(ラベルを除く)

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
\begin{equation}
x^{(1)} = 
\begin{pmatrix}
-118.29 \\
33.91 \\
1.416 \\
38.372
\end{pmatrix}
\end{equation}
\]
</body>

- y^{(i)}はi番目のインスタンスのラベル

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
y^{(1)} = 156.400
\]
</body>

- Xはデータセットのすべての特徴量(ラベルを除く)

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
\begin{equation}
X = 
\begin{pmatrix}
(x^{(1)})^{T} \\
(x^{(2)})^{T} \\
\vdots \\
(x^{(1999)})^{T} \\
(x^{(2000)})^{T} \\
\end{pmatrix}
=
\begin{pmatrix}
-118.29 &33.91 &1.416 &38.372 \\
\vdots &\vdots &\vdots &\vdots
\end{pmatrix}
\end{equation}
\]
</body>

- hはシステムの予測関数で**仮説**とも呼ばれる

システムにインスタンスの特徴量ベクトルx^(i)を与えると、システムはインスタンスの予測値yハット = h(x^(i))を返す

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
\hat{y} = h(x^{(i)})
\]
</body>

回帰の性能指標としては一般にRMSEが望ましいものとされているが、他の関数を使ったほうが良い場合もある。たとえば外れ値となる区域が多数ある場合、平均絶対誤差, 平均絶対偏差(mean absolute error: MAE)を使うとよい

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
MAE(X, h) = 
\frac{1}{m} 
\sum_{i=1}^{m}
\left|
h(x^{(i)}) - y^{(i)}
\right|
\]
</body>

RMSEとMAEはどちらもふたつのベクトルの距離を測定する方法である。

距離の指標のことを**ノルム**という

- 誤差の二乗の総和の平方根(RMSE)は**ユークリッドノルム(Euclidian norm)**に対応しており、L2ノルムとも呼ばれ、||・||2や||・||と表記される
- 誤差の絶対値の総和(MAE)はL1ノルムで||・||1と表記される。　また**マンハッタンノルム**とも呼ばれる

In [0]:
%%html
<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax
/2.7.0/MathJax.js?config=TeX-AMS_CHTML"></script>
<body>
\[
n個の要素を含むベクトルvのl_{k}ノルムは \\

\|v\|_{k} = 
( \left| v_0 \right|^{k} + \left| v_1 \right|^{k} + \cdots + \left| v_n \right|^{k})^{ \frac{1}{k} } \cdot l_0 \\

ここで、l_0はベクトルの非ゼロの要素の数を表す
\]
</body>

- ノルムの添字が大きくなればなるほど、大きな値を重視し、小さな値を無視する方向に傾く。
- RMSEがMAEよりも外れ値の影響を受けやすい
- 外れ値が指数的に減少するときは、RMSEは高い性能を発揮する

### 前提条件をチェックする

最後に問題の全体像をリストアップし、まとめる

たとえば、私達のモデルがつくる住宅価格のデータを下流の機械学習システムが、(低、中、高)のカテゴリに変換する場合、正しい価格を計算することが求められていないということが分かる

## 2. データを手に入れる

### データをダウンロードする

データをダウンロードするための関数を作るほうが望ましい

In [0]:
import os
import tarfile
from six.moves import urllib

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

# ダウンロード用のモジュール
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    # パスの確認
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    # ダウンロード先の設定
    tgz_path = os.path.join(housing_path, "housing.tgz")
    # ダウンロード
    urllib.request.urlretrieve(housing_url, tgz_path)
    # 解凍
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

In [0]:
# ダウンロード
fetch_housing_data()

In [0]:
import pandas as pd

# CSVの読み込み用モジュール
# csvファイルからpandasのデータフレームオブジェクトへ変換する
def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

### データの構造をざっと見てみる

In [0]:
# csvを読み込んで表示
housing = load_housing_data()
housing.head()

| カラム名               |  説明       | 
|--------------------|-----------| 
| longitude          |  経度       | 
| latitude           |  緯度       | 
| housing_median_age |  築年数の中央値  | 
| total_rooms        |  部屋数      | 
| total_bedrooms     |  寝室数      | 
| population         |  人口       | 
| households         |  世帯数      | 
| median_income      |  収入の中央値   | 
| median_house_value |  住宅価格の中央値 | 
| ocean_proximity    |  海との位置関係  | 


In [0]:
# データについての情報
# データ型やnullでないデータの数がどれだけあるかなどの情報を見ることができる
housing.info()

In [0]:
# ocean_proximityカラムに含まれる値の種類とその数
housing["ocean_proximity"].value_counts()

In [0]:
# 数値属性の集計情報
# null以外を対象にしており、個数、平均値、標準偏差、最大値、第N四分位数
housing.describe()

In [0]:
%matplotlib inline
import matplotlib.pyplot as plt

# ヒストグラムを表示する
housing.hist(bins=50, figsize=(20, 15))
plt.show()

### ヒストグラムから気づくこと

- 収入の中央値(median_income)は米ドルで表現されていない。　値をスケーリングした上で上限を15.0001, 下限を0.4999に切っている。　機械学習では前処理済みの値を使うことは普通であり、必ずしも問題にはならないが、データがどのように計算されたかは理解しておくようにしたい
- 築年数の中央値と住宅価格の中央値も上限を切ってある。後者はターゲット属性(ラベル)なので、非常に重要な問題である。これが問題かどうかはクライアントチーム(あなたのシステムの出力を行うチーム)と協力してチェックする必要がある。50万ドルを超えても正確な予測が必要である場合の選択肢は以下の2つである
    - 上限を超えている区域の正しいラベルを集める
    - 訓練セットからそれらの区域を取り除く(50万ドルを超える値を予測した時にシステムの評価が下がるので、テストセットからも取り除く)
- 多くのヒストグラムが**テールヘビー**：左側よりも右側が大きく広がっている。このような形になっていると一部の機械学習アルゴリズムはパターンを見つけにくくなることがあるので、そういった属性に関しては後で、ベル型の分布に近づくように変換する

### ランダムサンプリング(テストセットを作る)
**データスヌーピングバイアス**(data snooping bias: データを盗み見る事によって入ってしまう偏見)を避けるために、この段階でトレーニングとテストデータセットに分けてしまう。

これはどのアルゴリズムを使うべきかを決める前にデータについて知りすぎると、人間が無意識のうちにパターン認識をしてしまい、過学習してしまうことがあるため。


In [0]:
import numpy as np

# データセットを分ける関数
def split_train_test(data, test_raito):
    shuffled_indices = np.random.permutation(len(data))
    test_set_size = int(len(data) * test_raito)
    test_indices = shuffled_indices[:test_set_size]
    train_indices = shuffled_indices[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

In [0]:
# データセットを分割
train_set, test_set = split_train_test(housing, 0.2)

# 表示
print(len(train_set), "train + ", len(test_set), "test")

最初の実行時に使ったテストセットを保存し、その後の実行時にも同じテストセットをロードしたい。

各データの識別子を使って、そのデータセットがテストセットに属するべきものかどうかを判断する方法がある。

各データの識別子のハッシュ値を計算し、ハッシュの最後のバイトだけを保存して、この値が51(=256\*0.2: テスト比)以下ならテストセットに送る

こうすればデータセットをリフレッシュしても、テストセットの作成関数は複数実行されても一定に保たれる。

新しいテストセットには新しいインスタンスの20%が含まれるが、以前、訓練セットに含まれていたデータは一切入らない。

In [0]:
import hashlib

# ハッシュ値を見てふるい分けする関数
def test_set_check(identifier, test_ratio, hash):
    return hash(np.int64(identifier)).digest()[-1] < 256 * test_ratio

# データセットを分ける関数
def split_train_test_by_id(data, test_ratio, id_column, hash=hashlib.md5):
    ids = data[id_column]
    in_test_set = ids.apply(lambda id_: test_set_check(id_, test_ratio, hash))
    return data.loc[~in_test_set], data.loc[in_test_set]

In [0]:
# idカラムを作成
housing_with_id = housing.reset_index() # ID列を追加する
# データセットを分ける
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "index")

In [0]:
# 緯度、経度からidカラムをつくる
housing_with_id["id"] = housing["longitude"] * 1000 + housing["latitude"]
# データセットを分ける
train_set, test_set = split_train_test_by_id(housing_with_id, 0.2, "id")

In [0]:
from sklearn.model_selection import train_test_split
# scikit-learnにもデータセット分割用のメソッドが実装されている
# 上で実装した関数よりすこし高機能
train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

### ストラティファイドサンプリング: 層化抽出法 (テストセットをつくる)

上の方法ではサンプリングバイアスを持ち込んでしまう可能性がある。

サンプリングバイアス: 不適切な標本抽出によって、母集団を代表しない特定の性質のデータがまぎれこむこと

そのためたとえば、男女比が7:3のとき、サンプルでも7:3の比率を守って抽出する。

これを**層化抽出法(stratified sampling)**という。

専門家から、収入の中央値(median_income)カラムは住宅価格の中央値を予測する上で重要な属性だといわれたとする。

そこで、収入の中央値(median_income)カラムを使って、カテゴリ変数を作る。

ここでは
0.499900〜15.000100の値を等間隔で2/3分割し、ある一定数以上であれば、1つにまとめてしまう
という手順を用いて作っている

In [0]:
housing["median_income"].hist()

In [0]:
# 2/3分割する
housing["income_cat"] = np.ceil(housing["median_income"] / 1.5)

In [0]:
housing["income_cat"].hist()

In [0]:
# 5以上の値をひとまとめにする
housing["income_cat"].where(housing["income_cat"] < 5, 5.0, inplace=True)

In [0]:
housing["income_cat"].hist()

In [0]:
from sklearn.model_selection import StratifiedShuffleSplit

# scikit-learnのStratifiedShuffleSplitを使って層化抽出を行う
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

In [0]:
strat_train_set["income_cat"].hist()

In [0]:
strat_test_set["income_cat"].hist()

In [0]:
# 各抽出方法の誤差率を算出する
def income_cat_proportions(data):
    return data["income_cat"].value_counts() / len(data)

train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

compare_props = pd.DataFrame({
    "Overall": income_cat_proportions(housing),
    "Stratified": income_cat_proportions(strat_test_set),
    "Random": income_cat_proportions(test_set),
}).sort_index()
compare_props["Rand. %error"] = 100 * compare_props["Random"] / compare_props["Overall"] - 100
compare_props["Strat. %error"] = 100 * compare_props["Stratified"] / compare_props["Overall"] - 100

In [0]:
# 無作為誤差率と層化抽出誤差率
compare_props

In [0]:
# income_cat属性を取り除いてデータを元の状態に戻す
for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

## 3. 大切そうなデータを見つけ、可視化しよう

In [0]:
# バックアップ用にコピーをとる
housing = strat_train_set.copy()

### 地理データの可視化

In [0]:
# 散布図を書く
housing.plot(kind="scatter", x="longitude", y="latitude")

In [0]:
# 密度を可視化するべく、透明度を設定する
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)

In [0]:
# 住宅価格を可視化するべく、半径を人口、価格をヒートマップの色、透明度で密度を設定する
housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
            s=housing["population"]/100, label="population", figsize=(10, 7),
            c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True)

plt.legend()

この散布図からは、海の近くや人口密度が住宅価格に大きな影響を及ぼしていることがわかる

### 相関を探す

In [0]:
corr_matrix = housing.corr()

In [0]:
corr_matrix["median_house_value"].sort_values(ascending=False)

In [0]:
from pandas.plotting import scatter_matrix

attributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]
scatter_matrix(housing[attributes], figsize=(12, 8))

In [0]:
housing.plot(kind="scatter", x="median_income", y="median_house_value", alpha=0.1)

### 属性の組み合わせを試す

In [0]:
housing["rooms_per_household"] = housing["total_rooms"] / housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"] / housing["total_rooms"]
housing["population_per_household"] = housing["population"] / housing["households"]

In [0]:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

## 4. 機械学習を行いやすいようにデータを準備しよう

In [0]:
housing = strat_train_set.drop("median_house_value", axis=1)
housing_labels = strat_train_set["median_house_value"].copy()

### データをクリーニングする

In [0]:
housing.dropna(subset=["total_bedrooms"]) # オプション1
housing.drop("total_bedrooms", axis=1)       # オプション2
median = housing["total_bedrooms"].median() # オプション3
housing["total_bedrooms"].fillna(median, inplace=True)

In [0]:
from sklearn.preprocessing import Imputer

imputer = Imputer(strategy="median")

In [0]:
housing_num = housing.drop("ocean_proximity", axis=1)

In [0]:
imputer.fit(housing_num)

In [0]:
imputer.statistics_

In [0]:
housing_num.median().values

In [0]:
X = imputer.transform(housing_num)

In [0]:
housing_tr = pd.DataFrame(X, columns=housing_num.columns)

### テキスト/カテゴリ属性の処理

In [0]:
housing_cat = housing["ocean_proximity"]
housing_cat.head(10)

In [0]:
housing_cat_encoded, housing_categories = housing_cat.factorize()
housing_cat_encoded[:10]

In [0]:
housing_categories

In [0]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
housing_cat_1hot = encoder.fit_transform(housing_cat_encoded.reshape(-1, 1))
housing_cat_1hot

In [0]:
housing_cat_1hot.toarray()

### カスタム変換

In [0]:
!pip freeze | grep sklearn

In [0]:
from sklearn.base import BaseEstimator, TransformerMixin

rooms_ix, bedrooms_ix, population_ix, household_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True): # *args, **kargsなし
        self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self # ほかにすることなし
    def transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix] / X[:, household_ix]
        population_per_household = X[:, population_ix] / X[:, household_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]

attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attribs = attr_adder.transform(housing.values)

### 変換パイプライン

In [0]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
    ('imputer', Imputer(strategy="median")),
    ('attribs_adder', CombinedAttributesAdder()),
    ('std_scaler', StandardScaler()),
])

housing_num_tr = num_pipeline.fit_transform(housing_num)

In [0]:
from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

In [0]:
num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

num_pipeline = Pipeline([
    ('selector', DataFrameSelector(num_attribs)),
    ('imputer', Imputer(strategy="median")),
    ('attribs_adder', CombinedAttributesAdder()),
    ('std_scaler', StandardScaler()),
])

cat_pipeline = Pipeline([
    ('selector', DataFrameSelector(cat_attribs)),
    ('cat_encoder', OneHotEncoder()),
])

In [0]:
from sklearn.pipeline import FeatureUnion

full_pipeline = FeatureUnion(transformer_list=[
    ("num_pipeline", num_pipeline),
    ("cat_pipeline", cat_pipeline),
])

In [0]:
housing_prepared = full_pipeline.fit_transform(housing)
housing_prepared

## モデルを選択して訓練する

## 訓練セットを訓練、評価する

In [0]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(housing_prepared, housing_labels)

In [0]:
some_data = housing.iloc[:5]
some_labels = housing_labels.iloc[:5]
some_data_prepared = full_pipeline.transform(some_data)
print("Predictions:", lin_reg.predict(some_data_prepared))

In [0]:
print("Labels:", list(some_labels))

In [0]:
from sklearn.metrics import mean_squared_error

housing_predictions = lin_reg.predict(housing_prepared)
lin_mse = mean_squared_error(housing_labels, housing_predictions)
lin_rmse = np.sqrt(lin_mse)
lin_rmse

In [0]:
from sklearn.tree import DecisionTreeRegressor

tree_reg = DecisionTreeRegressor()
tree_reg.fit(housing_prepared, housing_labels)

In [0]:
housing_predictions = tree_reg.predict(housing_prepared)
tree_mse = mean_squared_error(housing_labels, housing_predictions)
tree_rmse = np.sqrt(tree_mse)
tree_rmse

## 交差誤差検証を使ったよりよい評価

In [0]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(tree_reg, housing_prepared, housing_labels, scoring="neg_mean_squared_error", cv=10)
tree_rmse_scores = np.sqrt(-scores)

In [0]:
def display_scores(scores):
    print("Scores:", scores)
    print("Mean:", scores.mean())
    print("Standard deviation:", scores.std())

In [0]:
display_scores(tree_rmse_scores)

In [0]:
lin_scores = cross_val_score(lin_reg, housing_prepared, housing_labels,
                            scoring="neg_mean_squared_error", cv=10)

In [0]:
lin_rmse_scores = np.sqrt(-lin_scores)

In [0]:
display_scores(lin_rmse_scores)

In [0]:
from sklearn.ensemble import RandomForestRegressor

forest_reg = RandomForestRegressor()
forest_reg.fit(housing_prepared, housing_labels)

In [0]:
housing_predictions = forest_reg.predict(housing_prepared)
forest_mse = mean_squared_error(housing_labels, housing_predictions)
forest_rmse = np.sqrt(forest_mse)
forest_rmse

In [0]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(forest_reg, housing_prepared, housing_labels,
                        scoring="neg_mean_squared_error", cv=10)
forest_rmse_scores = np.sqrt(-scores)

In [0]:
display_scores(forest_rmse_scores)

## モデルを保存

In [0]:
from sklearn.externals import joblib

joblib.dump(forest_reg, "my_model.pkl")
# あとで次のようにしてロード
my_model_loaded = joblib.load("my_model.pkl")

## グリッドサーチ

In [0]:
from sklearn.model_selection import GridSearchCV

params_grid = [
    {'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},
    {'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},
]

forest_reg = RandomForestRegressor()

grid_search = GridSearchCV(forest_reg, params_grid, cv=5, scoring='neg_mean_squared_error')

grid_search.fit(housing_prepared, housing_labels)

In [0]:
grid_search.best_params_

In [0]:
grid_search.best_estimator_

In [0]:
cvres = grid_search.cv_results_
for mean_score, params in zip(cvres["mean_test_score"], cvres["params"]):
    print(np.sqrt(-mean_score), params)

## ランダムサーチ

## アンサンブルメソッド

## 最良のモデルと誤差の分析

In [0]:
feature_importances = grid_search.best_estimator_.feature_importances_
feature_importances

In [0]:
extra_attribs = ["rooms_per_hhold", "pop_per_hhold", "bedrooms_per_room"]
cat_encoder = cat_pipeline.named_steps["cat_encoder"]
cat_one_hot_attribs = list(cat_encoder.categories_[0])
attributes = num_attribs + extra_attribs + cat_one_hot_attribs
sorted(zip(feature_importances, attributes), reverse=True)

## テストセットでシステムを評価する

In [0]:
final_model = grid_search.best_estimator_

X_test = strat_test_set.drop("median_house_value", axis=1)
y_test = strat_test_set["median_house_value"].copy()

X_test_prepared = full_pipeline.transform(X_test)

final_predictions = final_model.predict(X_test_prepared)

final_mse = mean_squared_error(y_test, final_predictions)
final_rmse = np.sqrt(final_mse)

In [0]:
final_rmse

## システムを本番稼働、モニタリング、メンテナンスする

## 試してみよう

# 機械学習プロジェクト　チェックリスト
機械学習プロジェクトを行う上でのマニュアル

1. 問題の枠組みを明らかにし、全体の構図をつかむ
2. データを手に入れる
3. データを使って洞察を得る
4. 機械学習アルゴリズムがデータからパターンを見つけやすくなるようにデータを準備する
5. 異なる様々なモデルを探り、最良の数個に絞り込む
6. モデルを微調整し、それらを組み合わせて優れたソリューションにまとめる
7. ソリューションをプレゼンテーションする
8. システムを本番稼働、モニタリング、メンテナンスする

## 1. 問題の枠組みを明らかにし、全体の構図をつかむ


1. ビジネスの用語で目標を定義する
2. ソリューションはどのようにして使われるか
3. 現在のソリューション/代替ソリューションはなにか
4. この問題はどのような枠組みで処理スべきか(教師あり/教師なし, オンライン/オフライン 等)
5. 性能をどのようにして測定すべきか
6. その性能測定手段はビジネス目標に一致しているか
7. ビジネス目標に到達するために必要な最小限の性能はどのようなものか
8. 類似問題は何か。経験やツールを再利用できるか。
9. 専門知識を持つ人はいるか
10. 手作業で問題をどのように解決するか
11. あなた(または他の人々)が今までに立ててきた前提条件をリストにまとめる
12. 可能なら、前提条件をチェックする

## 2. データを手に入れる
注意: 新鮮なデータを簡単に入手できるようにするために、できる限り自動化しよう

1. 必要なデータと必要度をリストにまとめる
2. そのデータを入手できるドキュメントを見つける
3. どれだけのスペースが必要になるかをチェックする
4. 法的な義務をチェックし、必要なら権限を獲得する
5. アクセス権限を獲得する
6. 作業空間(十分な格納スペースとともに)を作る
7. データを入手する
8. 簡単に操作できる形式にデータを変換する
9. 機密情報を確実に削除または保護する(例えば匿名化する)
10. データのサイズとタイプをチェックする(時系列、サンプル、地理など)
11. データセットを抽出して別に管理し、決して中身を見ない(カンニングはだめ)

## 3. データを探る
注意: このステップでは、分野の専門家の知見を取り入れるように努力しよう

1. 探索のためにデータのコピーを作る(必要なら、扱えるサイズに縮小する)
2. データ探索の記録を残すためにJupyterノートブックを作る
3. データの属性とその特徴を調べる
    - 名前
    - タイプ(カテゴリ、整数/浮動小数点数, 有界/無界, テキスト, 構造化データなど)
    - 欠損値の割合
    - ノイズの有無とタイプ(確率的, 外れ値, 丸め誤差など)
    - タクスにとって役立ちそうか
    - 分布のタイプ
4. 教師あり学習タスクの場合、ターゲット属性を明らかにする
5. データの可視化をする
6. 属性の相関関係を調べる
7. マニュアルで問題を解決する方法を調べる
8. 適用すると良さそうな変換を明らかにする
9. 役に立ちそうな他のデータを明らかにする
10. 学んだことをドキュメントにまとめる

## 4. データを準備する
注意:
- データのコピーを使って作業しよう (オリジナルのデータセットには手をつけない)
- すべてのデータ変換のための関数を書こう
    - 次に新しいデータセットを入手した時にデータを簡単に準備できるようにするため
    - 将来のプロジェクトで同じ変換をできるようにするため
    - テストセットをクリーニング、準備するため
    - ソリューションを稼働した時に新しいデータインスタンスをクリーニング、じゅんびするため
    - 準備のための選択肢をハイパーパラメータとして簡単に扱えるようにするため

1. データのクリーニング
    - 外れ値を修正または除去する(オプション)
    - 欠損値を埋める(例えば0, 平均値, 中央値などで)かその行(または列)を取り除く
2. フィーチャーの選択(オプション)
    - タスクのために役に立つ情報を提供しない属性を取り除く
3. フィーチャーの操作(適宜)
    - 連続値のフィーチャーを離散化する
    - フィーチャーに効果が期待できる変換を加える(例えばlog(x), √x, x^2など)
    - 複数のフィーチャーを集計したりまとめたりして効果が期待できる新フィーチャーを作る
4. フィーチャーをスケーリングする: 標準化、正規化する

## 5. 有望なモデルを絞り込む
注意:
- データが膨大なものならまずまずの時間で異なる様々なモデルを訓練をできるように、小さな訓練セットを抽出するとよい。(大規模なニューラルネットやランダムフォレストなどの複雑なモデルには悪影響がおよぶので注意すること)
- ここでも、できる限りすべてのステップを自動化するよう注意しよう

1. 少々乱暴でも、様々なタイプ(線形、単純ベイズ、SVM、ランダムフォレスト、ニューラルネットなど)のモデルをすばやく訓練する
2. 性能を測定、比較する
    - 個々のモデルについて, N-fold cross validationを行い、N個のフォールドの平均と標準偏差を平均する
3. 個々のアルゴリズムでもっとも重要な変数を分析する
4. モデルが犯す誤りのタイプを分析する
5. 簡単なフィーチャーの選択と操作を行う
6. これらの5ステップをさらに1、2回手早く繰り返す
7. 3種類から5種類のもっとも有望なモデルを残す。同程度のもののなかでは、異なるタイプの誤りを犯すモデルを選ぶ

## 6. システムを微調整する
注意:
- このステップ、特に微調整の最後の局面では、できる限り覆うのデータを使うようにしよう
- ほかのステップと同様に、自動化できるものは自動化しよう

1. 交差検証を使ってハイパーパラメータを微調整する
    - データ変換方法、特にどうすべきかがはっきりと分からないもの(例えば、欠損値は0に置き換えるか中央値に置き換えるか、それとも行を取り除くか)はハイパーパラメータとして扱う
    - 探らなければならないハイパーパラメータの値が非常に少ない場合を除き、グリットサーチではなくランダムサーチを行うようにする。訓練に非常に時間がかかるなら、ベイズ最適化を使ったほうが良いかもしれない(たとえば、Jasper Snoek, Hugo Larochelle, Ryan Adamsらが論じているガウス処理を使ったもの。 https://goo.gl/PEFfGr)
2. アンサンブルメソッドを試す。最良のモデルを組み合わせると、それらを単独で実行するよりも高い性能が得られることが多い。
3. 最終的なモデルに自身が持てたら、テストセットを対象として性能を計測し、汎化誤差を推計する
※ 汎化誤差の測定後にはモデルに修正を加えてはならない。テストセットへの過学習に向かってどんどん進むだけになってしまう

## 7. ソリューションをプレゼンテーションする

1. 今までに行ってきたことをドキュメントする
2. すばらしいプレゼンテーションを作る
    - まず、全体的な構図を明らかにすることを忘れないようにする
3. ソリューションがビジネス目標を達成する理由を説明する
4. 作業の過程で気づいた面白いポイントを紹介するのを忘れないように
    - うまく機能したものとそうでないものを説明する
    - 前提条件とシステムの限界をリストにまとめる
5. 重要な発見は、見栄えの良いビジュアライゼーションか覚えやすい言葉、たとえば、【住宅価格の予測では、収入の中央値がナンバーワンの予測子です」と伝える

## 8. 本番稼働

1. ソリューションを本番稼働できる状態にする(本番データの入力を受け付けられるようにしたり、ユニットテストを書いたりすることなど)
2. 定期的にシステムの性能をチェックし、性能が落ちたらアラートを生成するモニタリングコードを書く
    - 緩やかな性能の降下に注意する。モデルはデータの発展とともに「腐って」いくことが多い
    - 性能の測定は、人間の関与を必要とすることがある(たとえば、クラウドソーシングサービスを介したもの)
    - 入力の品質もモニタリングすること(たとえば、故障したセンサーがでたらめな値を送っていないか、ほかのチームの出力が陳腐化していないか)。オンライン学習システムではこれが特に重要になる
3. 新しいデータで定期的にモデルを訓練し直す(できる限り自動化する)