# 分類の機械学習モデルを作ろう（P223）



**モデルの作成はP10のとおりの流れで行う。具体例は以下のとおり。**

①データから、何を予測すべきなのかを明確にする。

②説明変数、目的変数を決める。

③説明変数の内容を確認する

　・欠損値がないか

　・外れ値がないか

　・数値でないデータがないか

　・不要な列はないか

④説明変数の中から、目的変数との相関を可視化し、さらに不要なデータがないか等を確認する。

⑤予測データから、具体的な機械学習アルゴリズムを決定し、モデルを作成する。

⑥教師データを**「学習データ」「テストデータ」に分割し**、「学習データ」でモデルにデータを学習させる。

```
# 学習データとテストデータに分ける
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)

```

⑦テストデータで、学習済みモデルを実行

⑧モデルのチューニング


**学習データ、テストデータに分割する例**

In [24]:
# pandas のインポート
import pandas as pd
# yachin.csvを読み込み、df という変数に格納する。
df = pd.read_csv('yachin.csv')
df

Unnamed: 0,hirosa,eki,chikunen,yachin
0,41.3,7,33,9.5
1,37.6,5,2,15.3
2,12.4,9,43,3.9
3,40.0,25,30,4.0
4,67.3,9,10,22.0
5,25.0,30,19,5.0
6,87.0,11,10,27.0
7,55.0,12,7,15.0
8,45.0,10,20,12.0
9,40.0,15,20,11.0


In [16]:
# 説明変数の列（=hirosa,eki,chikunenの3つの列）のみ取り出して、Xに代入する
X =df.iloc[:,0:3]
# 目的変数の列（=yachin列）のみ取り出して、yに代入する
y =df.iloc[:, -1]

# データ分割（学習データとテストデータ）のための train_test_split 関数のインポート
from sklearn.model_selection import train_test_split

# 学習データとテストデータに分ける
# test_size=0.4の意味：分割は 60%を学習データにし、40%をテストデータにする
# random_state=0：乱数の制御。seed と同じ機能で、毎回同じようにデータを分割する必要がある場合に値を設定する
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=0)

In [21]:
# X_train の内容
X_train

Unnamed: 0,hirosa,eki,chikunen
4,67.3,9,10
2,12.4,9,43
5,25.0,30,19
14,60.8,12,22
9,40.0,15,20
7,55.0,12,7
16,20.5,11,7
11,42.0,15,18
3,40.0,25,30
0,41.3,7,33


In [22]:
# X_test の内容
X_test

Unnamed: 0,hirosa,eki,chikunen
18,32.0,11,1
1,37.6,5,2
19,10.5,15,1
8,45.0,10,20
10,38.0,3,15
17,35.0,10,44
6,87.0,11,10
13,59.4,7,34


In [23]:
# y_train の内容
y_train

4     22.0
2      3.9
5      5.0
14    14.5
9     11.0
7     15.0
16     7.3
11     9.0
3      4.0
0      9.5
15    17.4
12    11.0
Name: yachin, dtype: float64

In [25]:
# y_test の内容
y_test

18     9.6
1     15.3
19     5.9
8     12.0
10    15.0
17     9.2
6     27.0
13    18.3
Name: yachin, dtype: float64