In [12]:
#前処理

#余分な警告を非表示にする
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

import japanize_matplotlib

#データフレーム表示用関数
from IPython.display import display

#オプションの調節
#浮動小数点の表示精度
np.set_printoptions(suppress=True, precision = 4)


#浮動小数点の表示精度
pd.set_option('display.max_columns',None)

#グラフのフォント設定
plt.rcParams['font.size'] = 14

#乱数
random_seed = 123


In [13]:
#seabornのインポート
import seaborn as sns

#データの読み込み
df_titanic = sns.load_dataset('titanic')

#項目名の日本語化
columns_t = ['生存', '等室', '性別', '年齢', '兄弟配偶者数', 
             '両親子供数', '料金', '乗船港コード', '等室名', 
             '男女子供', '成人男子', 'デッキ', '乗船港', '生存可否', '独身']


df_titanic.columns = columns_t


In [14]:
display(df_titanic.head())

Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,乗船港コード,等室名,男女子供,成人男子,デッキ,乗船港,生存可否,独身
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [15]:
#行数列数の取得
df_titanic.shape

(891, 15)

In [16]:
#余分な列の削除

#等室名、乗船港、生存可否の列を削除する
df1 = df_titanic.drop('等室名', axis=1)

df2 = df1.drop('乗船港', axis=1)

df3 = df2.drop('生存可否', axis=1)

display(df3.head())

Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,乗船港コード,男女子供,成人男子,デッキ,独身
0,0,3,male,22.0,1,0,7.25,S,man,True,,False
1,1,1,female,38.0,1,0,71.2833,C,woman,False,C,False
2,1,3,female,26.0,0,0,7.925,S,woman,False,,True
3,1,1,female,35.0,1,0,53.1,S,woman,False,C,False
4,0,3,male,35.0,0,0,8.05,S,man,True,,True


In [17]:
#欠損値の確認
display(df3.isnull().sum())

生存          0
等室          0
性別          0
年齢        177
兄弟配偶者数      0
両親子供数       0
料金          0
乗船港コード      2
男女子供        0
成人男子        0
デッキ       688
独身          0
dtype: int64

In [18]:
display(df3['デッキ'].value_counts())

C    59
B    47
D    33
E    32
A    15
F    13
G     4
Name: デッキ, dtype: int64

In [19]:
#乗船港コードの欠損値の行は削除する
#年齢の欠損値は対象項目の平均値を割り当てる
#デッキ欠損値は欠損を意味するダミーコードを割り当てる

df4 = df3.dropna(subset= ['乗船港コード'])

#平均値を計算する
age_average = df4['年齢'].mean()

#計算した平均値を入れる
df5 = df4.fillna({'年齢':age_average})

#いろいろあってデータ型を変換する
df5['デッキ'] = df5['デッキ'].astype(np.str) 

#nanの置換処理
df6 = df5.fillna({'デッキ':'N'})


In [20]:
#欠損値が消えたか確認する
display(df6.isnull().sum())
display(df6.head())

生存        0
等室        0
性別        0
年齢        0
兄弟配偶者数    0
両親子供数     0
料金        0
乗船港コード    0
男女子供      0
成人男子      0
デッキ       0
独身        0
dtype: int64

Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,乗船港コード,男女子供,成人男子,デッキ,独身
0,0,3,male,22.0,1,0,7.25,S,man,True,N,False
1,1,1,female,38.0,1,0,71.2833,C,woman,False,C,False
2,1,3,female,26.0,0,0,7.925,S,woman,False,N,True
3,1,1,female,35.0,1,0,53.1,S,woman,False,C,False
4,0,3,male,35.0,0,0,8.05,S,man,True,N,True


In [21]:
display(df6['性別'].value_counts())

male      577
female    312
Name: 性別, dtype: int64

In [22]:
#ラベル値の数値化map関数を利用すれば行けるらしい

#キーバリュータイプの辞書を定義
mf_map = {'male':1, 'female':0}

#map関数を利用して数値化する
df7 = df6.copy()

df7['性別'] = df7['性別'].map(mf_map)

#出力する
display(df7.head())


Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,乗船港コード,男女子供,成人男子,デッキ,独身
0,0,3,1,22.0,1,0,7.25,S,man,True,N,False
1,1,1,0,38.0,1,0,71.2833,C,woman,False,C,False
2,1,3,0,26.0,0,0,7.925,S,woman,False,N,True
3,1,1,0,35.0,1,0,53.1,S,woman,False,C,False
4,0,3,1,35.0,0,0,8.05,S,man,True,N,True


In [26]:
#成人男子と独身に対しても同じ処理を実施する

tf_map = {True:1, False:0}

df8 = df7.copy()
df8['成人男子'] = df8['成人男子'].map(tf_map)

df9 = df8.copy()
df9['独身'] = df9['独身'].map(tf_map)

display(df9.head())


Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,乗船港コード,男女子供,成人男子,デッキ,独身
0,0,3,1,22.0,1,0,7.25,S,man,1,N,0
1,1,1,0,38.0,1,0,71.2833,C,woman,0,C,0
2,1,3,0,26.0,0,0,7.925,S,woman,0,N,1
3,1,1,0,35.0,1,0,53.1,S,woman,0,C,0
4,0,3,1,35.0,0,0,8.05,S,man,1,N,1


In [28]:
#多値ラベルの数値化
#one-hotエンコーディングで対応する

#変換前の確認
display(df9[['男女子供']].head(30))

Unnamed: 0,男女子供
0,man
1,woman
2,woman
3,woman
4,man
5,man
6,man
7,child
8,woman
9,child


In [31]:
#get_dummies関数を利用する

w = pd.get_dummies(df9[['男女子供']], prefix='男女子供')
display(w.head(30))

Unnamed: 0,男女子供_child,男女子供_man,男女子供_woman
0,0,1,0
1,0,0,1
2,0,0,1
3,0,0,1
4,0,1,0
5,0,1,0
6,0,1,0
7,1,0,0
8,0,0,1
9,1,0,0


上のようにエンコーディングした列を学習データへ追加したら  
エンコーディングに使用した列は削除する必要がある。  
この一連の処理（エンコーディング→エンコーディングの元とした列の削除）  
はパターン化できるので関数化してしまう。

In [32]:
#get_dummies関数でカテゴリ値をone hot vectorに展開する関数を作る
#df:対象データフレーム
#column:対象列

def enc(df, column):
    df_dummy = pd.get_dummies(df[column], prefix=column)
    df_drop = df.drop([column], axis=1)
    
    df1 = pd.concat([df_drop,df_dummy],axis=1)
    return df1


In [33]:
#上で定義した関数を使ってみましょう
#対象列の状態を確認する
display(df9[['男女子供']].value_counts())

男女子供 
man      537
woman    269
child     83
dtype: int64

In [35]:
df10 = enc(df9, '男女子供')

display(df10.head(10))

Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,乗船港コード,成人男子,デッキ,独身,男女子供_child,男女子供_man,男女子供_woman
0,0,3,1,22.0,1,0,7.25,S,1,N,0,0,1,0
1,1,1,0,38.0,1,0,71.2833,C,0,C,0,0,0,1
2,1,3,0,26.0,0,0,7.925,S,0,N,1,0,0,1
3,1,1,0,35.0,1,0,53.1,S,0,C,0,0,0,1
4,0,3,1,35.0,0,0,8.05,S,1,N,1,0,1,0
5,0,3,1,29.642093,0,0,8.4583,Q,1,N,1,0,1,0
6,0,1,1,54.0,0,0,51.8625,S,1,E,1,0,1,0
7,0,3,1,2.0,3,1,21.075,S,0,N,0,1,0,0
8,1,3,0,27.0,0,2,11.1333,S,0,N,0,0,0,1
9,1,2,0,14.0,1,0,30.0708,C,0,N,0,1,0,0


In [36]:
#ほかのラベル値に対しても処理を進める
df11 = enc(df10, '乗船港コード')

df12 = enc(df11, 'デッキ')

display(df12.head(10))

Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,成人男子,独身,男女子供_child,男女子供_man,男女子供_woman,乗船港コード_C,乗船港コード_Q,乗船港コード_S,デッキ_A,デッキ_B,デッキ_C,デッキ_D,デッキ_E,デッキ_F,デッキ_G,デッキ_N
0,0,3,1,22.0,1,0,7.25,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0,1
1,1,1,0,38.0,1,0,71.2833,0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,0
2,1,3,0,26.0,0,0,7.925,0,1,0,0,1,0,0,1,0,0,0,0,0,0,0,1
3,1,1,0,35.0,1,0,53.1,0,0,0,0,1,0,0,1,0,0,1,0,0,0,0,0
4,0,3,1,35.0,0,0,8.05,1,1,0,1,0,0,0,1,0,0,0,0,0,0,0,1
5,0,3,1,29.642093,0,0,8.4583,1,1,0,1,0,0,1,0,0,0,0,0,0,0,0,1
6,0,1,1,54.0,0,0,51.8625,1,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0
7,0,3,1,2.0,3,1,21.075,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1
8,1,3,0,27.0,0,2,11.1333,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,1
9,1,2,0,14.0,1,0,30.0708,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,1


値の正規化の処理を進める  
方法は2つあるが、今回はstandardizationの方法で正規化を進める  
詳しくはノートに収めた

In [38]:
#standardizationを使った正規表現
#サイキットラーンのStandardScalerを利用する

df13 = df12.copy()
from sklearn.preprocessing import StandardScaler
stdsc = StandardScaler()
df13[['年齢', '料金']] = stdsc.fit_transform(df13[['年齢', '料金']])

#結果確認
display(df13.head(10))


Unnamed: 0,生存,等室,性別,年齢,兄弟配偶者数,両親子供数,料金,成人男子,独身,男女子供_child,男女子供_man,男女子供_woman,乗船港コード_C,乗船港コード_Q,乗船港コード_S,デッキ_A,デッキ_B,デッキ_C,デッキ_D,デッキ_E,デッキ_F,デッキ_G,デッキ_N
0,0,3,1,-0.5896199,1,0,-0.50024,1,0,0,1,0,0,0,1,0,0,0,0,0,0,0,1
1,1,1,0,0.644848,1,0,0.788947,0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,0
2,1,3,0,-0.2810029,0,0,-0.48665,0,1,0,0,1,0,0,1,0,0,0,0,0,0,0,1
3,1,1,0,0.4133853,1,0,0.422861,0,0,0,0,1,0,0,1,0,0,1,0,0,0,0,0
4,0,3,1,0.4133853,0,0,-0.484133,1,1,0,1,0,0,0,1,0,0,0,0,0,0,0,1
5,0,3,1,-5.482138e-16,0,0,-0.475913,1,1,0,1,0,0,1,0,0,0,0,0,0,0,0,1
6,0,1,1,1.879316,0,0,0.397946,1,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0
7,0,3,1,-2.132705,3,1,-0.2219,0,0,1,0,0,0,0,1,0,0,0,0,0,0,0,1
8,1,3,0,-0.2038487,0,2,-0.422057,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,1
9,1,2,0,-1.206854,1,0,-0.040787,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,1


In [None]:
難易度