# 機械学習の流れ

## 教師あり学習の流れ
- データ収集
- データクレンジング(データの欠損値などを取り除いてデータを精製する。いわゆる前処理)
- 学習アルゴリズムでデータを学習
- テストデータで性能をテスト
- 機械学習モデルをWebなどに実装

## ホールドアウト法
- データをトレーニングデータとテストデータの二つに分割する手法
- train_test_split関数を使用する

## k-分割交差検証(クロスバリデーション)
- 用意したデータをk分割し、そのうちの一つをテストデータ、残りのk-1個をトレーニングデータにする方法

### 1個抜き交差検証（Leave-One-Out：LOOクロスバリデーション) 
- データセットの数と同じだけ分割し、そのうちの一つをテストデータとする手法
- 50~100程度のデータセットを扱う場合には、この手法が適する

In [5]:
# k-分割交差検証(クロスバリデーション)の例

from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score

iris = load_iris()
X = iris.data
y = iris.target

svc = SVC(C=1, kernel='rbf', gamma=0.001)
scores = cross_val_score(svc, X, y, cv=5)

print (scores)
print ("平均スコア :", scores.mean())

[0.86666667 0.96666667 0.83333333 0.96666667 0.93333333]
平均スコア : 0.9133333333333334


## アンサンブル学習
- 複数のモデルに学習させて、予測結果を統合することで、汎化性能を高める手法
- 代表的な手法にはバギングとブースティングの2つ
    - **バギング** : 同時に復習のモデルに学習させて、予測結果の平均をとることで汎化能力を向上させる
    - **ブースティング** : 複数のモデルの異なる予測結果を統合することで、汎化性能を高める
      

## Precision
TP / FP + TP

## Recall
TP / FN + TP

## F値
2 x (Precision x Recall) / (Precision + Recall)


#### TP : 陽性クラスと予測され結果も陽性クラスであった個数
#### TN : 陰性クラスと予測され結果も陰性クラスであった個数
#### FP : 陽性クラスと予測されたが結果は陰性クラスであった個数
#### FN : 陰性クラスと予測されたが結果は陽性クラスであった個数