# 人工知能とは
- 人間のように考えるアルゴリズム
- 車の自動運転

人工知能(機械学習(深層学習))


## 機械学習
- 世の中の特定の事象についてデータを解析して、判断や予測を行うためのアルゴリズム
- データから反復的に学習し、そこに潜むパターンを探し出すこと
  - 机のパターン
    - 四角
    - 茶色
  - りんごのパターン
    - 丸
    - 赤

しかし、人間には簡単でも、コンピュータにとっては、りんごと椅子の画像からパターンを見つけ出すことはとても難しい。</br>
「りんごは赤色で半径5cm程の球体」というパターンが分かっていたとしても、5cmの赤いボールをりんごと誤認してしまう。</br>
文字(記号)と実物を対応させることができないという問題は、 "記号接地問題" と呼ばれ、人工知能が解決すべき難題のひとつだった。</br>
コンピュータがりんごを認識するためには、大量のりんごの写真から共通するパターンを取得する必要がある。</br>
これを実現するための機械学習の主な手法は下記の3つ。</br>

- 教師あり学習(Supervised Learning)
- 教師なし学習(Unsupervised Learning)
- 強化学習(Reinforcement Learning)


### 教師あり学習
正解ラベルのついたデータを学習して、正解を予測するモデルを作る手法
- 分類
- 回帰

の2分野ある

#### 教師あり学習(分類)
データからカテゴリを予測する問題を分類問題</br>
例: 正解ラベルから数値、馬などを学習して予測

#### 教師あり学習(回帰)
データから数値を予測する問題を回帰と呼ぶ</br>
例: 広さ、駅までの距離、バス・トイレ別、オートロックなどから家賃を予測

### 教師なし学習
正解ラベルのついていないデータを学習して、規則性などを発見する手法

- クラスタリング
- 主成分分析
- アソシエーション分析

#### クラスタリング
クラスタリングではデータのグループ化が可能
#### 主成分分析
種類の多いデータを要約（次元削減）するために使用される手法
#### アソシエーション分析
「1つのパターンに当てはまるデータは、もう1つのパターンにも当てはまる」といったデータのルールを見つけ出す手法</br>
例：ネットショップなどで見かける「この商品を見た人は、こちらの商品を購入しています」といったレコメンデーションなど

教師なし学習はデータの規則性を導き出したり、グループ分けしたりする場合に使用される
実際の分析では複数の手法を組み合わせて使用されることが多い

### 強化学習
試行錯誤を通じて、価値を最大化するようなとるべき行動を決定する手法</br>
強化学習は利益を最大化するための方法で、 正解ラベルも大量のデータも必要としない自律的な機械学習</br>
例: AlphaGo Zero, 歩行ロボットの制御プログラム, ゲームなどの対戦プログラム

強化学習ではエージェント（行動主体）が与えられた環境を取得・観測し、行動を起こす。</br>
行動による環境の変化によって得られる報酬（結果）の価値を最大化する。</br>
エージェントがより価値の高い報酬を得るために、試行錯誤しながら意思決定を繰り返して自律的に学習。</br>
[強化学習のモデルサンプル](https://www.youtube.com/watch?v=a3AWpeOjkzw)

## 深層学習(ディープラーニング)
- 精度が大きく向上するブレイクスルーを巻き起こした(画像認識アルゴリズムのエラー率)
- 生物の神経細胞の仕組みを模した"アルゴリズム"ニューラルネットワークの利用が主流
- 特徴の抽出を自動で行うため、複雑なプログラミングをせずに高い精度を実現

# 機械学習を行うフロー

1. データの収集
2. データの前処理
3. 機械学習のモデリング
4. モデルのテスト
5. モデルを公開

## 「手ハガキ数字画像を自動で認識して、郵便ハガキを自動仕分けする」という教師あり学習(分類)を考える
- 1. 手書きの数字画像を約7,000枚x10カテゴリ用意
- 2. データの前処理
  - 2.1 画像のサイズを統一化
  - 2.2 全ての画像をモノクロに処理
  - 2.3 画像のノイズを取り除く
  - 2.4 ...etc
- 3. データの一部(80%)を使って機械学習モデリング
- 4. 学習に使わなかったデータ(20%)にてモデルの正解率テスト
- 5. 郵便番号ごとに自動仕分け(推論処理)


## データはどれぐらい必要なのか?
### ディープラーニング以外の場合
scikit-learnというライブラリを利用することが多い</br>
sampleが50個以上あるかどうかということをまず考えたりする</br>

![image](./images/ml_map.png)
[URL](https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)

### ディープラーニングの場合
分類問題の場合、目安は1カテゴリ1,000枚以上



## データがない場合

- データを作る
  - SNSなどから取得
  - スクレイピングの利用
- 転移学習を利用
  - 学習済みモデル + 新しいデータ => 新しい学習済みモデル
  - 例: imagenetを学習したVGG16モデル + 犬の画像データ50 & 猫の画像データ50 => 犬猫判別モデル
- APIを利用
  - 学習済みモデル(画像など、推論結果)
  - 例: Google, AWS, Azure
  - インターネット通信が必要


## データの分割
### 機械学習と統計学の違い
- 機械学習
  - モデルを構築し、未知のデータを予測・分類することを重視
  - 例: 教師あり学習(回帰)
- 統計学
  - データを解析し、そのデータに至った経緯を説明することを重視
  - 例: 重回帰分析

### データの分割方法
- 学習用データ
  - train data
  - 80%
- 検証用データ
  - test data
  - 20%
  
機械学習では多くの場合、全データの20％ほどを検証データに使用</br> 
例えば、MNIST(エムニスト)という手書き文字認識の学習用データセットでは、</br>
7万枚の画像のうち、 6万枚が訓練データ、1万枚が検証データ と分けられる。

### データ分割の注意点
テストデータを使って精度の高いモデルを恣意的に選び出すのはNG</br>
テストデータを使った後に、モデルのチューニングを行ってはいけない

- 学習用データ
- バリデーション用データ
- 検証用データ

正解率をもとにモデルのチューニングを行う場合、バリデーションデータを使って検証を行う

## ホールドアウト法の理論と実践
与えられたデータセットを訓練データと検証データの2つに分けて使用するというシンプルな手法

In [5]:
# コードの実行に必要なモジュールを読み込みます。
from sklearn import datasets
from sklearn.model_selection import train_test_split

# 「IRIS」というデータセットを読み込みます。
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 「X_train, X_test, y_train, y_test」にデータを格納します。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 訓練データと検証データのサイズを確認します。
print ("X_train :", X_train.shape)
print ("y_train :", y_train.shape)
print ("X_test :", X_test.shape)
print ("y_test :", y_test.shape)


X_train : (120, 4)
y_train : (120,)
X_test : (30, 4)
y_test : (30,)


## k-分割交差検証の理論
用意した訓練データセットをk分割し、 そのうちの1つを検証データ、残りのk-1個を訓練データとして使用</br>
学習と評価を繰り返して得られるk個のモデルと性能評価から平均性能を算出<br>

k-分割交差検証には、 一個抜き交差検証（Leave-One-Out：LOOクロスバリデーション) という手法もある</br>
LOOでは、kにデータ数と同じ値を設定して、データを1つずつ分割し、そのうちの1データのみを検証データとして扱う</br>

- Pros
  - データを最大限に利用して検証できることがk-分割交差検証の強み
  - データ分割のパターンを変えながら検証を行うので、データ分割の方法に依存しないで精度を確認可能
- Cons
  - k回の検証を行うので多くの時間が必要


![](./images/cross_division.png)

## k-分割交差検証の実践
scores = model_selection.cross_val_score(svc, X, y, cv=5)
### 交差検証法の分割数を「5分割」に指定して出力

In [6]:
from sklearn import svm, datasets, model_selection

# 「IRIS」というデータセットを読み込み
iris = datasets.load_iris()
X = iris.data
y = iris.target

# 機械学習アルゴリズムSVMを使用
svc = svm.SVC(C=1, kernel="rbf", gamma=0.001)

# 交差検証法を用いてスコアを求める
# 内部では、X、yがそれぞれ「X_train, X_test, y_train, y_test」の様に分割され処理
scores = model_selection.cross_val_score(svc, X, y, cv=5)

# 訓練データと検証データのサイズを確認
print (scores)
print ("Average score :", scores.mean())

[0.86666667 0.96666667 0.83333333 0.96666667 0.93333333]
Average score : 0.9133333333333334


## 過学習
学習データにモデルが適合されすぎていて、未知データ(テストデータ)に対して正しく答えを出力できなくなる現象</br>
正しく学習されているモデル(未知データに対して当てはありの良いモデル)を汎化しているという</br>
さらに過学習とは逆に、「データが十分に学習できていない状態」を学習不足と呼ぶ

### どのように過学習を防ぐのか?
- 正則化
  - 線形回帰式で利用可能
  - 係数が大きくなりすぎないように自動でチューニングする(係数が大きくなる場合が多い)
- ドロップアウト
  - ディープラーニングで利用可能
  - モデルの一部が抜け落ちた状態で学習することで過学習を軽減させる
- 交差検証法
  - 全ての手法で利用可能
  - テストデータの全通りの選び方を試すことでデータの偏りによる過学習を防ぐ
- ...etc

### アンサンブル学習
複数のモデルに学習させて、全ての予測結果を統合することで、汎化性能を高める手法

- バギング
  - 同時に複数のモデルに学習させて、予測結果の平均を取ることで汎化能力を向上させる
- ブースティング
  - 複数のモデルの異なる予測結果を統合することで、汎化性能を向上させる
  - 学習結果を次のモデルの学習に反映させるため同時に処理することはできないが精度が高まることが多い



# 性能評価指標
データラベルに偏りがある場合は注意が必要</br>
- 病気の診断
- 迷惑メール検知

## 混同行列
- 真陽性(TP): 正解   がんと予測し、実際にがんであった患者の数
- 偽陽性(FP): 不正解 がんではないと予測したが、実際はがんであった患者の数
- 偽陰性(FN): 不正解 がんと予測したが、実際はがんではなかった患者の数
- 真陰性(TN): 正解   がんではないと予測し、実際にがんではなかった患者の数

![](./images/result_metric.png)

## 精度評価指標
精度評価指標とは？
- 正解率(Accuracy)
  - 正解率 = TP+TN / FP+FN+TP+TN
  - 全てのケースのうち正解した数/全ての数
  - カテゴリに偏りがある場合、正解率という指標を使うと直感とずれる可能性がある
- 精度(適合率, Precision)
　 - TP / TP+FP
  - "正"と予測されたデータの中で、実際に"正"だったデータの割合
  - "顧客の好みでない商品を提案したくない"などのケースで高い精度が求められる
  - 例: WEBサービスのレコメンドなどで重要視される指標
- 再現率(Recall)
  - TP / TP+FN
  - "正"だったデータの中で、実際に"正"と予測されたデータの割合
  - "絶対にミスしてはいけない"などのケースでは、高い再現率が求められる
  - 例: 医療健診などで最重視される指標
- F値 (F-Value)
  - 2*精度*再現率 / 精度+再現率
  - 2TP / 2TP+FN+FP
  - 精度と再現率の調和平均
  - 機械学習モデルの評価の際、正解率と並んで最も使われる指標

## sklearn.metricsモジュールにあるconfusion_matrix関数を利用して、実際に混同行列の各成分の個数をみる

In [16]:
import numpy
from sklearn.metrics import confusion_matrix

# データを作成 0=陽性, 1=陰性
y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

confmat = confusion_matrix(y_true, y_pred)
# TP: 2, FN: 1, FP: 0, TN: 3
print(confmat)

accuracy = (confmat[0][0] + confmat[1][1]) / (sum(confmat[0]) + sum(confmat[1]))
precision = confmat[0][0]/(confmat[0][0]+confmat[1][0])
recall = confmat[0][0]/(confmat[0][0]+confmat[0][1])
f_value = 2*precision*recall/(precision+recall)
print("正解率: {}".format(accuracy))
print("精度: {}".format(precision))
print("再現率: {}".format(recall))
print("F-Value: {}".format(f_value))

[[2 1]
 [0 3]]
正解率: 0.8333333333333334
精度: 1.0
再現率: 0.6666666666666666
F-Value: 0.8


## scikit-learnに実装されている性能評価指標を利用

In [18]:
from sklearn.metrics import precision_score, recall_score, f1_score

y_true = [0,0,0,1,1,1]
y_pred = [1,0,0,1,1,1]

print("Precision: {:.3f}".format(precision_score(y_true, y_pred)))
print("Recall: {:.3f}".format(recall_score(y_true, y_pred)))
print("F1: {:.3f}".format(f1_score(y_true, y_pred)))
            

Precision: 0.750
Recall: 1.000
F1: 0.857


## 再現率と適合率の関係
二つの性能評価指標の関係は、トレードオフの関係になる
トレードオフの関係というのは、再現率を高くしようとすると適合率が低くなり、適合率を高くしようとすると再現率が低くなることを指す

- 適合率/精度(precision) 
  - 陽性であると予測した内の何%が当たっていたかを示す
- 再現率(recall)
  - 本当に陽性であるケースの内、何%を陽性と判定できたかを示す

![](./images/index_cases.png)

## PR曲線
横軸を再現率(recall)、縦軸を適合率/精度(precision)として、データをプロットしたグラフ

例: </br>
癌検診を受けた10人の患者に対し、それぞれについて癌である可能性を算出したうえで、それをもとに患者に陽性か陰性か宣告することを考える</br>
適合率/精度(precision)は、癌検診で陽性と宣告された患者数の内、本当に癌である患者の割合であり、再現率(recall)は、本当に癌である患者のうち、癌と宣告された割合</br>
ここで問題となってくるのは、患者10人を癌の可能性が高い順に並べたとき、上位何番目の人まで陽性と宣告するか</br>
この何番目の人まで陽性と宣告するかによって、再現率(recall)・適合率/精度(precision)はともに変わってくる</br>

![](./images/pr_curve.png)

### ブレークイーブンポイント(BEP)
PR曲線には適合率/精度(precision)と再現率(recall)が一致する点</br>
適合率/精度(precision)も再現率(recall)も高いに越したことはないが、</br>
トレードオフの関係のため、どちらかを上げようとするとどちらかが下がってしまう</br>
F値 という評価指標に触れましたが、ブレークイーブンポイントも同じような概念

- 適合率/精度(precision)が高く、再現率(recall)が低い状態
  - 無駄は少ないが，取りこぼしの多い判定になっている状態
  - 機会損失が生じている
- 適合率/精度(precision)が低く、再現率(recall)が高い状態
  - 取りこぼしが少ないが，無駄撃ちが多い判定になっている状態
  - アプローチの予算が無駄になる可能性が高い

![](./images/pr_curve_breakpoint.png)

### PR曲線を用いたモデルの評価
PR曲線によるモデルの優劣は以下のようになる</br>
つまり、BEPが右上に遷移するほど良いモデルが構築できたと言える</br>
BEPが右上に遷移するほど、適合率/精度(precision)と再現率(recall)が同時に高くなる

![](./images/pr_curve_good_bad.png)