各種ライブラリが必要となるため、プログラム実行時はインストールすること

py -m pip install <ライブラリ>

In [1]:
# 事前準備
import numpy as np
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

# 可視化ライブラリ
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
sns.set()
plt.style.use("ggplot")
%matplotlib inline

# 少数第3位まで表示
%precision 3

# グラフの日本語表記対応
import japanize_matplotlib

# 第４章 機械学習の実装

機械学習の実装フローは以下である。

1. 事前準備
1. 前処理
1. モデルの学習
1. モデルの評価

## 4-1 事前準備

### 4-1-1 データの準備

データはどんなものでもよいわけではなく、サービスに応じたデータであり、同じようなデータではなく多種多様なデータを用意するほうが好ましい。

### 4-1-2 手法の選択

機械学習の手法を選定する。ディープラーニングを利用するのであれば、利用するモデルも検討する。

## 4-2 前処理

### 4-2-1 データの選別・データクレンジング

データの選別：

　収集したデータから使えないデータを除き、使用するデータを選別する

データクレンジング：

　データ選別したデータを整える


### 4-2-2 特性スケーリング(Feature Scaling)

特性スケーリングは、特徴量の取り得る値の範囲(スケール)を変えることである。例えば、試験の点数を学習するとき、平均点が高い科目と低い科目に対して、点数を調整する処理が該当する。

この特性スケーリングを行うことで、学習の収束までの時間が短くなることや、モデルの性能向上が期待できる。主な特徴スケーリングは以下である。

|スケーリング方法|説明|
|---|---|
|正規化|データの値が0～1などの指定範囲に収まるように、値を加工するテクニック<br>例えば、画像処理における色の濃さを調整する処理がある|
|標準化|データの平均が0、分散が1になるように、値を加工するテクニック|


### 4-2-3 アノテーション

アノテーションは、収集したデータに意味付け(タグ付け)を与えるプロセスである。例えば、犬の画像に対して種別情報を付与する、口コミに対してよい評価/悪い評価のラベルを付与する、人の顔画像に対して、目・鼻・口の位置をポイントする、などがある。

データに対して、正しいタグ付けをすることにより、データから正確に情報を読み取ることができるようになる。これがモデルの学習精度の向上に直結する。

### 4-2-4 データの拡張

学習データを増やすために、データの拡張をすることがある。例えば、収集した犬の画像データは、拡大しても左右反転してもいぬであるので、収集したデータを加工することで学習データを数倍に増やすことができる。

## 4-3 モデルの学習

### 4-3-1 ハイパーパラメータのチューニング

#### 4-3-1-1 ハイパーパラメータ

機械学習において、学習時に更新するパラメータとは別に、学習前に予め決めておく値を**ハイパーパラメータ**という。このハイパーパラメータは、絶対的な正解があるわけではない。感覚や経験による調整が必要になる。

|項目|説明|
|---|---|
|パラメータ|重み、バイアスなど学習によって更新されるパラメータ|
|ハイパーパラメータ|学習における初期値やモデルのニューロンの数など、学習に影響する学習前に予めきめておく値|

#### 4-3-1-2 学習率

学習率は、1度の学習で「どのくらい重みを更新するか」というパラメータを指す。

||メリット|デメリット|
|---|---|---|
|学習率を大きくする|学習が早い<br>収束するまでの時間が短い|発散する傾向が強くなる|
|学習率を小さくする|収束時の誤差は小さくなる|学習までにかかる時間が長くなる|

#### 4-3-1-3 パラメータの更新単位

|学習単位|説明|例(1000件の場合)|
|---|---|---|
|バッチサイズ|訓練データをいくつかのデータセットに分割し、分割したデータセットに含まれるデータの数|200件|
|イテレーション数|訓練データに含まれるデータが少なくとも1回は学習に用いられるのに必要な学習回数|1000/200件=5回|
|エポック数|すべての訓練データを学習すると1エポック|イテレーションを全部実施(1エポック)|

### 4-3-2 学習

訓練データとして入力データと正解が与えられたとき、正解と機械学習の予測結果とがなるべく近づくように重みを更新する。これを学習という。正解と予測の差を小さくするようにハイパーパラメータをチューニングする。

|項目|説明|
|---|---|
|汎化誤差|未知のデータに対する予測と実際の差<br>バイアス、バリアンス、ノイズの3要素がある|
|誤差関数|正解ラベルと予測の近さを評価|

<br>

|汎化誤差の要素|説明|
|---|---|
|バイアス|予測モデルと学習データとの差の平均を数値化したもの<br>予測モデルが単純すぎる場合に大きくなる(汎化できていないモデルと判断)|
|バリアンス|予測モデルの複雑さを数値化したもの<br>バイアスとは逆で予測モデルが複雑すぎる場合に大きくなる(汎化できないモデルと判断)|
|ノイズ|削除不能な誤差<br>学習データ自体に余計なデータが混ざっている場合に大きくなる|

予測モデルが単純すぎるとバイアスが増え、複雑すぎるとバリアンスが増えるため、両者はトレードオフの関係があり、バランスの取れたモデルを考える必要がある。このバランスの良さを測る指標が汎化誤差である。

## 4-4 モデルの評価

### 4-4-1 評価方法

#### 4-4-1-1 交差検証

機械学習においてデータを学習した後は、学習したモデルの性能を評価する必要がある。モデルの評価は、未知のデータに対する予測精度を測ることになるため、学習データとは別のデータを用いるのが望ましい。データは手元のデータを訓練データ(学習に利用)とテストデータ(性能評価に利用)に分けることが一般的である。

#### 4-4-1-2 ホールド・アウト(holdout method)法

訓練データとテストデータの2つにランダムに分割し、訓練データでモデルを構築し、その後、テストデータでモデルを検証する方法である。

教師あり学習では、訓練データを基地のデータとみなし、テストデータを未知のデータとみなすことで、その道のデータにおける性能を評価できる。ホールドアウト法は非常にシンプルであるが、データ数が十分大きい時には、モデルの評価方法として実用的に使える。

しかし、データ数が限られるときは、以下の問題が生じる。



*   ランダムに分割された特定のテストデータによっては、たまたま高く評価される可能性がある
*   限られたデータを訓練用とテスト用に分割するため、学習データ数が削られ、肝心の学習が十分に進まない可能性がある

In [2]:
###############################################
# ホールドアウト法                              #
# 乳がんデータを決定木モデルで実施            #
###############################################

from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

# データ読み込み
cancer = load_breast_cancer()

# 決定木モデル初期化
tree = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=0)

# ホールドアウト法(データ分割)
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,
    cancer.target,
    stratify = cancer.target,
    random_state = 0
)

# 学習
tree.fit(X_train, y_train)

# 検証結果の表示
print('正解率(訓練)：{}'.format(tree.score(X_train, y_train)))
print('正解率(テスト)：{}'.format(tree.score(X_test, y_test)))

正解率(訓練)：0.9765258215962441
正解率(テスト)：0.9230769230769231


#### 4-4-1-3 k-分割交差検証(k-fold cross validation)

訓練データとテストデータの分割を複数回行い、それぞれで学習と評価を行う方法である。分割する数をkで表す。すなわち、データを分割し、分割したデータでホールドアウト法を実施し、検証結果の平均をモデルの性能とする評価方法である。

**k-分割交差検証**は、評価するということを繰り返すことでテスト結果が平均化されるため、テストデータにデータの偏りがある場合も影響を受けにくいという利点がある。

In [3]:
###############################################
# k-分割交差検証                              #
# 乳がんデータを決定木モデルで実施            #
###############################################

from sklearn.datasets import load_breast_cancer
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# データ読み込み
cancer = load_breast_cancer()

# 決定木モデル初期化
tree = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=0)

# k-分割交差検証
scores = cross_val_score(tree, cancer.data, cancer.target, cv=5)

# 検証結果の表示
print('Cross validation scores：{}'.format(scores))
print('Cross validation scores：{:.3f}+-{:.3f}'.format(scores.mean(), scores.std()))

Cross validation scores：[0.904 0.912 0.956 0.939 0.956]
Cross validation scores：0.933+-0.022


### 4-4-2 評価指標

#### 4-4-2-1 評価指標

モデルの性能を評価する際、混合行列(confusion matrix)を利用して以下のように考える。

|実際の値/予測値|陽性(Positive)|陰性(Negative)|
|---|---|---|
|陽性(Positive)|真陽性(True Positive：TP)<br>陽性を予測したが、実際は陽性|偽陰性(False Negative：FN)<br>陰性を予測したが、実際は陽性|
|陰性(Negative)|偽陽性(False Positive：FP)<br>陽性を予測したが、実際は陰性|真陰性(True Negative：TN)<br>陰性を予測したが、実際は陰性|

In [8]:
#########################################
# 混合行列                              #
#########################################

from sklearn.datasets import load_breast_cancer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

# データ読み込み
cancer = load_breast_cancer()

# データ分割
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,
    cancer.target,
    stratify=cancer.target,
    random_state=0
)

# 初期化と学習
model = SVC(gamma=0.001, C=1)
model.fit(X_train, y_train)

# 予測
y_pred = model.predict(X_test)

# 混合行列表示
labels = [1, 0]
cm = confusion_matrix(y_test, y_pred, labels=labels)
print('Confusion Matrix:\n{}'.format(cm))

# きれいに出力
columns_labels = ["pred_" + str(l) for l in labels]
index_labels = ["act_" + str(l) for l in labels]
df = pd.DataFrame(cm,
                  columns=columns_labels, index=index_labels)

print(df.to_markdown())

Confusion Matrix:
[[81  9]
 [ 4 49]]
|       |   pred_1 |   pred_0 |
|:------|---------:|---------:|
| act_1 |       81 |        9 |
| act_0 |        4 |       49 |


モデルを評価する指標として以下がある。

|評価指標|説明|メリット|デメリット|
|---|---|---|---|
|正答率/正解率(Accuracy)|予測結果と答えがどれくらい一致しているかを測る指標<br>$$正解率 = \frac{予測と正解が一致している数}{全体の数} = \frac{TP+TN}{TP+TN+FP+FN}$$<br>試験の正解率を表す場合などによく用いられる。|最もシンプルで分かりやすい|クラスごとの評価データ数が著しく異なると不適切|
|適合率(Precision)|陽性と予測した内、どれだけ実際に陽性だったかを測る指標<br>$$適合率 = \frac{実際に陽性だった数}{陽性と予測した数} = \frac{TP}{TP+FP}$$<br>誤診する可能性を低く抑えたい場合によく用いられる。|過検知を発見できる|取りこぼしを発見できない|
|再現率(Recall)|実際に陽性だったうち、どれだけ陽性を予測できていたかを測る指標<br>$$再現率 = \frac{陽性と予測できた数}{実際に陽性だった数} = \frac{TP}{TP+FN}$$<br>確実に発病している人を検知したいなど、なるべく漏れを防ぎたい場合に用いられる。|取りこぼしを発見できる|過検知を発見できない|
|F値(F-measure, F-score)|一般的に、適合率と再現率はトレードオフの関係にある。<br>そのため、適合率と再現率の調和平均をとった指標<br>$$F値 = \frac{2 \cdot 適合率 \cdot 再現率}{(適合率+再現率)}$$|取りこぼし、過検知をどちらも均等に判断できる|数値の解釈が難しくなる|

In [5]:
############################################
# 各種指標の計算                           #
############################################

accuracy = (cm[0, 0] + cm[1, 1]) / cm.sum()
precision = (cm[0, 0]) / cm[:, 0].sum()
recall = (cm[0, 0]) / cm[0, :].sum()
fmesure = 2 * (precision * recall) / (precision + recall)

print('正解率：{:.3f}'.format(accuracy))
print('適合率：{:.3f}'.format(precision))
print('再現率：{:.3f}'.format(recall))
print('F値：{:.3f}'.format(fmesure))

正解率：0.909
適合率：0.953
再現率：0.900
F値：0.926


In [6]:
############################################
# 各種指標の計算（関数利用）               #
############################################

from sklearn.metrics import precision_score, recall_score, f1_score

print('適合率：{:.3f}'.format(precision_score(y_test, y_pred)))
print('再現率：{:.3f}'.format(recall_score(y_test, y_pred)))
print('F値：{:.3f}'.format(f1_score(y_test, y_pred)))

適合率：0.953
再現率：0.900
F値：0.926


#### 4-4-2-2 過学習(Over Fitting)

ディープラーニングは訓練データをもとに学習するが、訓練データに適合しすぎた状態を**過学習**という。つまり、学習データにのみ最適化され、汎用化されていないモデルになっていることである。

一方、過学習を防ごうとするあまりモデルの予測性能が十分上がらない状態を**未学習**(Under Fitting)という。

過学習を防ぐための手法として以下がある。

|手法|説明|
|---|---|
|Lasso回帰(L1正則化)|「自動的に特徴選択を行い、重要でないと判断された特徴量を自動的にモデルから消す」効果がある|
|Ridge回帰(L2正則化)|「パラメータの大きさに応じてゼロに近づけることで、汎化された滑らかなモデルを得る」効果がある|

注意として、正則化には過学習を防ぐ効果があるが、正則化しすぎてしまうと未学習を引き起こしやすい。