# 機械学習の前処理を行なう

## 機械学習で予測する Data を設定しよう

In [1]:
import seaborn as sns
dataset = sns.load_dataset('titanic')
dataset

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


- 先頭の survived が生還したのかの情報。
- 機械学習は、実際に起きた過去の情報をもとに、こういった場合は生還できるのかを予測することになる。
- もし海難事故にあった場合どういった顧客が生存できるのかを予測する Model を作る。
- 目的変数（予測する対象）: survived
- 説明変数（予測するために使う Data）: 中身を分析しながら目的変数に寄与する変数を選定していく

In [2]:
# 目的変数を Label として分ける
label = dataset.pop('survived')  # DataFrame.pop() を使って１列のみ取り出す
label

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: survived, Length: 891, dtype: int64

- 目的変数を明確に分けておくことで、説明変数の吟味がよりやりやすくなる。
- 目的変数を y と定義し、説明変数を x と定義することもある。
- 目的変数を分けるという作業は教師あり学習特有の作業になる。
- 分類では label という名前を使うことが多く、回帰では y　を使うことが多い。

## Train data と Test data に分割しよう

- 機械学習では、Train data のみで学習を行ない、Test data で精度の評価を行なうことが多い。
- Data の分割も教師あり学習特有の Task.
- Data の分割方法は多岐にわたり、Data の件数や機械学習Model の要件等によっても変わってくる。
    - Train / Test の２分割
    - Train / Test / Validation の３分割を Random に抽出
    - 交差検証法（５分割したうえで１つずつ Test data をずらしながら、学習、評価を実施していく）

今回は、最も Simple な２分割に分けていく。

In [5]:
from sklearn.model_selection import train_test_split
train_ds, test_ds, train_label, test_label = train_test_split(dataset, label, random_state=2021, stratify=label)
"""
train_test_split() で Data分割が可能。Default で train:test = 7:3 となるようになっている。
- random_state=: Random Data の値を固定
- stratify=: 均等に分割したい Data を指定。多くは目的変数にすることが多い。
"""

In [6]:
train_ds

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
293,3,female,24.0,0,0,8.8500,S,Third,woman,False,,Southampton,no,True
201,3,male,,8,2,69.5500,S,Third,man,True,,Southampton,no,False
322,2,female,30.0,0,0,12.3500,Q,Second,woman,False,,Queenstown,yes,True
266,3,male,16.0,4,1,39.6875,S,Third,man,True,,Southampton,no,False
540,1,female,36.0,0,2,71.0000,S,First,woman,False,B,Southampton,yes,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
218,1,female,32.0,0,0,76.2917,C,First,woman,False,D,Cherbourg,yes,True
800,2,male,34.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
68,3,female,17.0,4,2,7.9250,S,Third,woman,False,,Southampton,yes,False
92,1,male,46.0,1,0,61.1750,S,First,man,True,E,Southampton,no,False


In [7]:
test_ds

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
404,3,female,20.0,0,0,8.6625,S,Third,woman,False,,Southampton,no,True
521,3,male,22.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True
130,3,male,33.0,0,0,7.8958,C,Third,man,True,,Cherbourg,no,True
14,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
610,3,female,39.0,1,5,31.2750,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
833,3,male,23.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
238,2,male,19.0,0,0,10.5000,S,Second,man,True,,Southampton,no,True
824,3,male,2.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
486,1,female,35.0,1,0,90.0000,S,First,woman,False,C,Southampton,yes,False


Train data: 668, Test data: 223 と、およそ７対３に分割できている。