# 11章　機械学習

## 11.1 モデリング

- モデリングとは変数間の数学的or確率的関係の仕様
- ビジネスモデル、料理のレシピなどもモデル

 ## 11.2 機械学習とは？
 
- データからモデルを作成することとその活用を機械学習と本書では呼ぶ（定義は人それぞれだが）
- 機械学習の目的は、メールのスパム予測、カードの不正使用の予測、広告のクリック率の予測、スポーツの勝敗の予測、、など
- 本書ではデータに正解ラベルが添えられ__教師あり学習モデル__と、ラベルの存在しない__教師なし学習モデル__の両方を扱う（強化学習のようなどちらにも属さないモデルもあるが扱わない）

## 11.3 過学習と未学習

- 機械学習を行う上で注意しなければならない点の１つが、学習に使ったデータには高く適合するがその他のデータには適合しない汎用性の低いもd流ができてしまうこと=__過学習（Overfitting）__
- 学習に使ったデータにさえモデルが上手く適合しない__未学習(Underfitting)__も注意すべきことの１つ
- 図11.1は未学習な定数と、学習データによくフィットした（しかしおそらく汎用性の低い）９次多項式の例。一次多項式がよりフィットする可能性が高い

In [3]:
# 学習用とテスト用でデータを分割
# TypeVarはジェネリクスの型変数を定義するための汎用的な型ヒント、、とのこと
# コンテナ内のオブジェクトの型情報を明示できる（さらにわからないが、、）

import random
from typing import TypeVar, List, Tuple
X = TypeVar('X')

# データ分割器。TypeVarを使った型ヒントにこだわる理由はよくわからない
# 順番をシャッフルし、cutまでとcut以後を返す
def  split_data(data: List[X],  prob: float) -> Tuple[List[X], List[X]]:
        data = data[:]
        random.shuffle(data)
        cut = int(len(data) * prob)
        return data[:cut], data[cut:]

In [4]:
# 1000件でテスト
data = [n for n in range(1000)]
train, test = split_data(data, 0.75)

# 1000件がこの比で分割されるはず
assert len(train)  == 750
assert len(test) == 250

In [8]:
# 入力変数と出力変数のペアを想定すると

Y = TypeVar('Y') 

def train_test_split(xs: List[X], ys: List[Y], test_pct: float) -> Tuple[List[X], List[X], List[Y], List[Y]]:
            idxs = [i for i in range(len(xs))]
            train_idxs, test_idxs = split_data(idxs, 1 - test_pct)
            return ([xs[i] for i in train_idxs],
                    [xs[i] for i in test_idxs],
                    [ys[i] for i in train_idxs],
                    [ys[i] for i in test_idxs])

In [11]:
xs = [x for x in range(1000)]
ys = [2 * x for x in xs]
x_train, y_test, y_train, y_test = train_test_split(xs, ys, 0.33)


## 11.4 正確さ

- 二項分類の予測モデルに対するラベル付きデータは以下の4カテゴリに属する
    - 真陽性
    - 偽陽性
    - 偽陰性
    - 真陰性
    
### 混同行列

**二項分類した４つのカテゴリは混同行列として表現することができる**


|   | スパム | スパムで無い |
|:-----------|------------:|:------------:|
| スパムと判断       | 真陽性        | 偽陽性         |
| スパムでは無いと判断     | 偽陰性      | 真陰性


### 「ルークが白血病になる」テストの混同行列

- 1,000人あたり5人の新生児がルークとなづけられる
- 白血病の患者数は1.4%

これらの値が独立である場合「ルークが白血病になる」テスト100万人の混同行列は

|   | 白血病である | 白血病でない | 合計 |
|:-----------|------------:|:------------:|:----------:|
| ルークである       | 70        | 4930  |   5,000    |
| ルークでは無い     | 13930      | 891070　| 995,000 |
| 合計   |  14,000 | 896,000 | 1,000,000 |

In [4]:
# 正しい予測結果の割合
# 正解率は
# correct: 真陽性 + 真陰性 トータルデータ数で割った値として返す

def accuracy(tp: int, fp: int, fn: int, tn: int) -> float:
    correct = tp +tn
    total = tp + fp + fn + tn
    return correct /total

assert accuracy(70, 4930, 13930, 981070) == 0.98114

### 上の正解率は興味深い結果（これだけみるとモデルが確からしく思える）

- ただし正解率がそまままがモデルのただしさの証拠にならない
- **適合率(precision)**と**再現率（recall）**の組み合わせをみるのが常套手段

この例のように、適合率と再現率のどの値も小さいのはモデルがよく無いことを示す。

In [7]:
# 適合率を 真陽性/(真陽性+偽陽性)　で得る

def precision(tp: int, fp: int, fn: int, tn: int) -> float:
    return tp /(tp + fp)

assert precision(70, 4930, 13930, 981070) == 0.014

In [9]:
# 再現率を 真陽性/(真陽性＋偽陰性)で得る

def recall(tp: int, fp: int, fn: int, tn: int) -> float:
    return tp / (tp + fn)

assert recall(70, 4930, 13930, 981070)  == 0.005 

- F1値は適合率と再現率の調和平均（ただ適切なトレードオフ？がこの関数にどう関連づくのはよくわからない。。。）
- モデルの選択は適合率と再現率のトレードオフを伴う（偽陽性と偽陰性のトレードオフ）
- 域値を上げれば適合率を上がる（ex.多くの危険因子を持つ程発症の可能性が上がる等）が再現率は下がる（域値に適合する患者の数は少なくなる）
- このように適切な域値を設定することで、適切なトレードオフをみつけることになる

In [11]:
# 適合率と再現率の調和平均
# ただ適切なトレードオフとは？をこの関数にどう関連づくのはよくわからない。。。

def f1_score(tp: int, fp: int, fn: int, tn: int) -> float:
    p = precision(tp, fp, fn, tn)
    r = recall(tp, fp, fn, tn)
    return 2 * p *r / (p + r)

f1_score(70, 4930, 13930, 981070) 

0.00736842105263158

## 11.5 バイアス-バリアント　トレードオフ

- バイアス、バリアントはどちらも学習を異なるデータで何度も行なった場合の振る舞いを評価するもの
- 過学習の問題は、バイアスとバリアンスのトレードオフとして考えることができる
- 無作為に抽出した２つの学習用データおはおおよそ同じような平均値を持ち、低いバリアンスを示すと言える
- 高いバイアスと低いバリアンスはだいたい未学習に相当する
- 9次多項式のモデルのような低いバイアス、高いバリアンスは過学習に相当する
- モデルが高いバイアスを持つ場合は別の特徴を考える
- 高いバリアンスを持つ場合は特徴を除くこと、より多くの学習データを投入することを考える

※重要な用語と思うのだがバイアス・バリアントの概念が上手くイメージできない。。。



## 11.6 特徴抽出と特徴選択

- 特徴とは：モデルに対するあらゆる入力に相当する
- データに十分な特徴がなければモデルが未学習になる傾向にあり、多くの特徴があると過学習になりがち
- 特徴はYes/No(1or 0), 数値、個別の選択肢から概ねえらぶことになる（スパムメールフィルターを考えた場合）
- どのような種類の特徴を使うかは、どのようなモデルを使うに依存する（※使うモデルに依存するというところに留意）
    - ベイズ分類機はYes/No型
    - 回帰モデルは数値（0/1を含む）
    - 決定木は数値または分類されたデータ
- 何百個もの数値で構成されるベクトルがあるとしたら、場合により次元圧縮のような次元を絞り少数の特徴を扱うことが適切
