# 7 機械学習の前処理を行う 10本

## 7.1 機械学習で予測するデータを設定

In [None]:
import seaborn as sns
dataset = sns.load_dataset('titanic')
display(dataset)
label = dataset.pop('survived')
display(label)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: survived, Length: 891, dtype: int64

## 7.2 Train/Test データの分割

Train/Testデータを分けることで、modelsの精度を確認することができる。
Training Dataで精度を確認してしまうと、Training Dataに対して過学習しているかなどを確認することができない。そこでテスト用のデータを用意することでより正確に精度の検証を実行することが可能

- テストデータを分割する方法
  - 2分割 (Train/Test)
  - 3分割 (Train/Test/Validation)
  - 5分割

などの手法が存在する

In [None]:
from sklearn.model_selection import train_test_split
# 分割比率: default= 7:3 (test_size=0.2などと指定することで比率を変更することが可能)
# stratify: 均等に分割したいデータを指定している
train_ds, test_ds, train_label, test_label = train_test_split(dataset, label, test_size=0.2, random_state=0, stratify=label)
print(train_ds.shape)
print(test_ds.shape)

(712, 14)
(179, 14)


## 7.3 データを機械学習に適した形式へ変換

- 機械学習に使用すべきでない変数
  - 目的変数と直接的に関係のあるデータ
    - 目的変数と直接的に関係のあるデータは必ず除去すること 
    - **e.g.: alive column** これは現在生きているかどうかという情報であるため、生還したかどうかが前提になっている
  - 長さ(cm)、長さ(m)のように説明変数でほぼ同じデータである変数
    - 未知のデータを予測する際に知り得ない情報や直接的に関係のある情報は使用できない(データリーク)
    - **e.g.: embark_town column** embarkedと同じ事柄を表すデータなので使用しないこと

In [None]:
train_ds.drop(columns=['alive', 'embark_town'])
train_ds.head(5)

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
502,3,female,,0,0,7.6292,Q,Third,woman,False,,Queenstown,no,True
464,3,male,,0,0,8.05,S,Third,man,True,,Southampton,no,True
198,3,female,,0,0,7.75,Q,Third,woman,False,,Queenstown,yes,True
765,1,female,51.0,1,0,77.9583,S,First,woman,False,D,Southampton,yes,False
421,3,male,21.0,0,0,7.7333,Q,Third,man,True,,Queenstown,no,True


機械学習においては、通常は文字列をそのまま扱うことはできず、

変数として使用したい場合は何からの方法で数値データに変換する必要がある。

encode categorical data by one-hot

`pd.get_dummies`により、文字列データを横に変換することが可能

1columnのみ1(=true)となり、それぞれの行の特徴を表す

In [None]:
import pandas as pd
one_hot_encoded = pd.get_dummies(train_ds)
one_hot_encoded.head(5)

Unnamed: 0,pclass,age,sibsp,parch,fare,adult_male,alone,sex_female,sex_male,embarked_C,...,deck_C,deck_D,deck_E,deck_F,deck_G,embark_town_Cherbourg,embark_town_Queenstown,embark_town_Southampton,alive_no,alive_yes
502,3,,0,0,7.6292,False,True,1,0,0,...,0,0,0,0,0,0,1,0,1,0
464,3,,0,0,8.05,True,True,0,1,0,...,0,0,0,0,0,0,0,1,1,0
198,3,,0,0,7.75,False,True,1,0,0,...,0,0,0,0,0,0,1,0,0,1
765,1,51.0,1,0,77.9583,False,False,1,0,0,...,0,1,0,0,0,0,0,1,0,1
421,3,21.0,0,0,7.7333,True,True,0,1,0,...,0,0,0,0,0,0,1,0,1,0


encode categorical data by label encoding

LabelEncoderを宣言した後、fit_transformを用いてclass列を作成している。もともと文字列だった情報が数値データに置き換わることで、順番や大小関係の情報が付加されてしまう。また欠損値もその他の文字列と同様に扱われているが、one-hotエンコーディングでは欠損があってもなくても影響は変わらない

In [None]:
from sklearn.preprocessing import LabelEncoder
label_encoded = train_ds.copy()
class_encoder = LabelEncoder()
label_encoded['class'] = class_encoder.fit_transform(label_encoded['class'])
label_encoded.head(5)

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
502,3,female,,0,0,7.6292,Q,2,woman,False,,Queenstown,no,True
464,3,male,,0,0,8.05,S,2,man,True,,Southampton,no,True
198,3,female,,0,0,7.75,Q,2,woman,False,,Queenstown,yes,True
765,1,female,51.0,1,0,77.9583,S,0,woman,False,D,Southampton,yes,False
421,3,male,21.0,0,0,7.7333,Q,2,man,True,,Queenstown,no,True


In [None]:
one_hot_encoded = pd.get_dummies(one_hot_encoded, columns=['pclass'])
one_hot_encoded.head(5)

Unnamed: 0,age,sibsp,parch,fare,adult_male,alone,sex_female,sex_male,embarked_C,embarked_Q,...,deck_F,deck_G,embark_town_Cherbourg,embark_town_Queenstown,embark_town_Southampton,alive_no,alive_yes,pclass_1,pclass_2,pclass_3
502,,0,0,7.6292,False,True,1,0,0,1,...,0,0,0,1,0,1,0,0,0,1
464,,0,0,8.05,True,True,0,1,0,0,...,0,0,0,0,1,1,0,0,0,1
198,,0,0,7.75,False,True,1,0,0,1,...,0,0,0,1,0,0,1,0,0,1
765,51.0,1,0,77.9583,False,False,1,0,0,0,...,0,0,0,0,1,0,1,1,0,0
421,21.0,0,0,7.7333,True,True,0,1,0,1,...,0,0,0,1,0,1,0,0,0,1


In [None]:
one_hot_encoded = one_hot_encoded.replace({True: 1, False: 0})
one_hot_encoded.head(5)

Unnamed: 0,age,sibsp,parch,fare,adult_male,alone,sex_female,sex_male,embarked_C,embarked_Q,...,deck_F,deck_G,embark_town_Cherbourg,embark_town_Queenstown,embark_town_Southampton,alive_no,alive_yes,pclass_1,pclass_2,pclass_3
502,,0,0,7.6292,0,1,1,0,0,1,...,0,0,0,1,0,1,0,0,0,1
464,,0,0,8.05,1,1,0,1,0,0,...,0,0,0,0,1,1,0,0,0,1
198,,0,0,7.75,0,1,1,0,0,1,...,0,0,0,1,0,0,1,0,0,1
765,51.0,1,0,77.9583,0,0,1,0,0,0,...,0,0,0,0,1,0,1,1,0,0
421,21.0,0,0,7.7333,1,1,0,1,0,1,...,0,0,0,1,0,1,0,0,0,1


In [None]:
train_ds = one_hot_encoded
train_ds.head(5)

Unnamed: 0,age,sibsp,parch,fare,adult_male,alone,sex_female,sex_male,embarked_C,embarked_Q,...,deck_F,deck_G,embark_town_Cherbourg,embark_town_Queenstown,embark_town_Southampton,alive_no,alive_yes,pclass_1,pclass_2,pclass_3
502,,0,0,7.6292,0,1,1,0,0,1,...,0,0,0,1,0,1,0,0,0,1
464,,0,0,8.05,1,1,0,1,0,0,...,0,0,0,0,1,1,0,0,0,1
198,,0,0,7.75,0,1,1,0,0,1,...,0,0,0,1,0,0,1,0,0,1
765,51.0,1,0,77.9583,0,0,1,0,0,0,...,0,0,0,0,1,0,1,1,0,0
421,21.0,0,0,7.7333,1,1,0,1,0,1,...,0,0,0,1,0,1,0,0,0,1


## 7.4 外れ値の検出

統計的に標準のサンプルとは大きくかけ離れている値を外れ値と呼ぶ。機械学習モデルでは、データの分布によりますが、外れ値があるとそれが原因となり、精度が出ないケースがある。そのため、外れ値に統計的な手法を用いて解析する

- IQR
  - 箱ひげ図を描いたときに下から1/4番目(1/4quantile)のサンプル値を3/4のサンプル値(3/4quantile)という
  - 下限を1/4quantileより`1.5IQR`小さい値、上限を3/4quantileより`1.5IQR`大きい値としたとき、この下限から上限に収まっていない値を外れ値と呼ぶ

- 正規化による検出
- クラスタリングによる検出
- ...etc

In [None]:
q = train_ds.quantile([1 / 4, 3 / 4])
q1, q3 = q.loc[1 / 4], q.loc[3 / 4]
iqr = q3 - q1

mx = q3 + 1.5 * iqr
mn = q3 - 1.5 * iqr

print('#####################################################')
display(mx)
print('#####################################################')
display(mn)
print('#####################################################')

#####################################################


age                        65.0000
sibsp                       2.5000
parch                       0.0000
fare                       64.3625
adult_male                  2.5000
alone                       2.5000
sex_female                  2.5000
sex_male                    2.5000
embarked_C                  0.0000
embarked_Q                  0.0000
embarked_S                  2.5000
class_First                 0.0000
class_Second                0.0000
class_Third                 2.5000
who_child                   0.0000
who_man                     2.5000
who_woman                   2.5000
deck_A                      0.0000
deck_B                      0.0000
deck_C                      0.0000
deck_D                      0.0000
deck_E                      0.0000
deck_F                      0.0000
deck_G                      0.0000
embark_town_Cherbourg       0.0000
embark_town_Queenstown      0.0000
embark_town_Southampton     2.5000
alive_no                    2.5000
alive_yes           

#####################################################


age                        11.0000
sibsp                      -0.5000
parch                       0.0000
fare                       -3.3625
adult_male                 -0.5000
alone                      -0.5000
sex_female                 -0.5000
sex_male                   -0.5000
embarked_C                  0.0000
embarked_Q                  0.0000
embarked_S                 -0.5000
class_First                 0.0000
class_Second                0.0000
class_Third                -0.5000
who_child                   0.0000
who_man                    -0.5000
who_woman                  -0.5000
deck_A                      0.0000
deck_B                      0.0000
deck_C                      0.0000
deck_D                      0.0000
deck_E                      0.0000
deck_F                      0.0000
deck_G                      0.0000
embark_town_Cherbourg       0.0000
embark_town_Queenstown      0.0000
embark_town_Southampton    -0.5000
alive_no                   -0.5000
alive_yes           

#####################################################


In [None]:
# display((train_ds > mx))
# display((train_ds < mn))
# display((train_ds > mx) | (train_ds < mn))
display(((train_ds > mx) | (train_ds < mn)).sum())

age                         56
sibsp                       39
parch                      166
fare                        95
adult_male                   0
alone                        0
sex_female                   0
sex_male                     0
embarked_C                 131
embarked_Q                  61
embarked_S                   0
class_First                173
class_Second               150
class_Third                  0
who_child                   67
who_man                      0
who_woman                    0
deck_A                       6
deck_B                      44
deck_C                      46
deck_D                      28
deck_E                      24
deck_F                       8
deck_G                       3
embark_town_Cherbourg      131
embark_town_Queenstown      61
embark_town_Southampton      0
alive_no                     0
alive_yes                    0
pclass_1                   173
pclass_2                   150
pclass_3                     0
dtype: i

## 7.5 データの分布をみてスケーリング手法

a
