# scikit-learn

## トレーニングデータとテストデータ

教師あり機械学習によるモデルを作成するには、準備したデータセットを**トレーニングデータ**（訓練用データ、学習用データ）とテストデータ（検証用データ、評価用データ）の２つに分割して予測モデルの作成、評価を行うのが一般的。一定の割合でトレーニングデータとテストデータを分割することを**ホールドアウト**という。  

トレーニングデータとテストデータの割合は、80:20、75:25、70:30の比率で分割されるのが一般的。  

トレーニングデータを用いて、説明変数(x)と目的変数(y)の関係性を学習し、説明変数(x)が与えられた時に、目的変数(y)を返す機械学習モデルを作成する。

説明変数(x)のみを用いて、予測結果を算出し、その結果がどれだけ正確に予測できるかを確認することで、機械学習モデルの予測性能を測る。

※データの特性に偏りのあるトレーニングデータやテストデータを使って機械学習モデルを作成すると、精度の悪いモデルができてしまうので、それを防ぐためにランダムに並び替えたデータからデータセットを抽出する。そのような作業を**サンプリング**と呼び、ランダムに抽出することを**ランダムサンプリング**と呼ぶ。

### train_test_split
トレーニングデータとテストデータを分割するメソッド  
指定された条件に基づいてトレーニングデータとテストデータを分割する。

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

namelist = pd.DataFrame({
    "name" : ["Suzuki", "Tanaka", "Yamada", "Watanabe", "Yamamoto",
                      "Okada", "Ueda", "Inoue", "Hayashi", "Sato",
                      "Hirayama", "Shimada"],
    "age": [30, 40, 55, 29, 41, 28, 42, 24, 33, 39, 49, 53],
    "department": ["HR", "Legal", "IT", "HR", "HR", "IT",
                                "Legal", "Legal", "IT", "HR", "Legal", "Legal"],
    "attendance": [1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1]
})
namelist

Unnamed: 0,name,age,department,attendance
0,Suzuki,30,HR,1
1,Tanaka,40,Legal,1
2,Yamada,55,IT,1
3,Watanabe,29,HR,0
4,Yamamoto,41,HR,1
5,Okada,28,IT,1
6,Ueda,42,Legal,1
7,Inoue,24,Legal,0
8,Hayashi,33,IT,0
9,Sato,39,HR,1


In [2]:
#  テストデータを30%にする
namelist_train, namelist_test = train_test_split(namelist, test_size=0.3)
namelist_train

Unnamed: 0,name,age,department,attendance
10,Hirayama,49,Legal,1
7,Inoue,24,Legal,0
9,Sato,39,HR,1
5,Okada,28,IT,1
11,Shimada,53,Legal,1
3,Watanabe,29,HR,0
0,Suzuki,30,HR,1
6,Ueda,42,Legal,1


In [3]:
namelist_test

Unnamed: 0,name,age,department,attendance
1,Tanaka,40,Legal,1
4,Yamamoto,41,HR,1
2,Yamada,55,IT,1
8,Hayashi,33,IT,0


In [5]:
# テストデータを具体的な数値で分割する
namelist_train, namelist_test = train_test_split(namelist, test_size=5)
namelist_train

Unnamed: 0,name,age,department,attendance
9,Sato,39,HR,1
10,Hirayama,49,Legal,1
5,Okada,28,IT,1
2,Yamada,55,IT,1
8,Hayashi,33,IT,0
6,Ueda,42,Legal,1
0,Suzuki,30,HR,1


In [6]:
namelist_test

Unnamed: 0,name,age,department,attendance
11,Shimada,53,Legal,1
7,Inoue,24,Legal,0
4,Yamamoto,41,HR,1
3,Watanabe,29,HR,0
1,Tanaka,40,Legal,1


In [7]:
# トレーニングデータを50%で分割する
namelist_train, namelist_test = train_test_split(namelist, test_size=None, train_size=0.5)
namelist_train

Unnamed: 0,name,age,department,attendance
9,Sato,39,HR,1
4,Yamamoto,41,HR,1
2,Yamada,55,IT,1
3,Watanabe,29,HR,0
11,Shimada,53,Legal,1
6,Ueda,42,Legal,1


In [8]:
namelist_test

Unnamed: 0,name,age,department,attendance
0,Suzuki,30,HR,1
7,Inoue,24,Legal,0
8,Hayashi,33,IT,0
10,Hirayama,49,Legal,1
1,Tanaka,40,Legal,1
5,Okada,28,IT,1


In [9]:
# データの並び替えは行わず、分割のみ
namelist_train, namelist_test = train_test_split(namelist, shuffle=False)
namelist_train

Unnamed: 0,name,age,department,attendance
0,Suzuki,30,HR,1
1,Tanaka,40,Legal,1
2,Yamada,55,IT,1
3,Watanabe,29,HR,0
4,Yamamoto,41,HR,1
5,Okada,28,IT,1
6,Ueda,42,Legal,1
7,Inoue,24,Legal,0
8,Hayashi,33,IT,0


In [10]:
namelist_test

Unnamed: 0,name,age,department,attendance
9,Sato,39,HR,1
10,Hirayama,49,Legal,1
11,Shimada,53,Legal,1


### "department"のクラスによる層化サンプリング

**層化サンプリング**：サンプリングしたデータが偏らないよう、指定した変数の出現頻度が一定になるように調整した上でサンプリングを行うこと  

"department"の全体分布が同じになるように抽出される。


In [11]:
namelist_train, namelist_test = train_test_split(namelist, stratify=namelist['department'])
namelist_train

Unnamed: 0,name,age,department,attendance
4,Yamamoto,41,HR,1
0,Suzuki,30,HR,1
8,Hayashi,33,IT,0
1,Tanaka,40,Legal,1
10,Hirayama,49,Legal,1
11,Shimada,53,Legal,1
6,Ueda,42,Legal,1
5,Okada,28,IT,1
3,Watanabe,29,HR,0


In [12]:
namelist_test

Unnamed: 0,name,age,department,attendance
9,Sato,39,HR,1
2,Yamada,55,IT,1
7,Inoue,24,Legal,0


In [15]:
# "attendance"の場合
namelist_train, namelist_test = train_test_split(namelist, stratify=namelist['attendance'])
namelist_train

Unnamed: 0,name,age,department,attendance
11,Shimada,53,Legal,1
0,Suzuki,30,HR,1
3,Watanabe,29,HR,0
2,Yamada,55,IT,1
8,Hayashi,33,IT,0
9,Sato,39,HR,1
5,Okada,28,IT,1
4,Yamamoto,41,HR,1
1,Tanaka,40,Legal,1


In [16]:
namelist_test

Unnamed: 0,name,age,department,attendance
6,Ueda,42,Legal,1
10,Hirayama,49,Legal,1
7,Inoue,24,Legal,0


In [17]:
# 説明変数(attendance以外)と目的変数(attendance)を分割し、train_test_splitに2以上の引数を与えることも可能
namelist2_x = namelist.drop("attendance", axis=1)
namelist2_y = namelist['attendance']
namelist2_x

Unnamed: 0,name,age,department
0,Suzuki,30,HR
1,Tanaka,40,Legal
2,Yamada,55,IT
3,Watanabe,29,HR
4,Yamamoto,41,HR
5,Okada,28,IT
6,Ueda,42,Legal
7,Inoue,24,Legal
8,Hayashi,33,IT
9,Sato,39,HR


In [18]:
namelist2_y

0     1
1     1
2     1
3     0
4     1
5     1
6     1
7     0
8     0
9     1
10    1
11    1
Name: attendance, dtype: int64

In [19]:
x_train, x_test, y_train, y_test = train_test_split(namelist2_x, namelist2_y, test_size=0.3)
x_train

Unnamed: 0,name,age,department
4,Yamamoto,41,HR
3,Watanabe,29,HR
11,Shimada,53,Legal
7,Inoue,24,Legal
0,Suzuki,30,HR
5,Okada,28,IT
9,Sato,39,HR
2,Yamada,55,IT


In [20]:
x_test

Unnamed: 0,name,age,department
6,Ueda,42,Legal
1,Tanaka,40,Legal
10,Hirayama,49,Legal
8,Hayashi,33,IT


In [21]:
y_train

4     1
3     0
11    1
7     0
0     1
5     1
9     1
2     1
Name: attendance, dtype: int64

In [22]:
y_test

6     1
1     1
10    1
8     0
Name: attendance, dtype: int64