In [1]:
import numpy as np
import pandas as pd
from pandas import Series
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')
sns.set(font_scale = 2.5)

import plotly.offline as py
py.init_notebook_mode(connected=True) # 노트북을 실행시키는 명령
import plotly.graph_objs as go
import plotly.tools as tls

#ignore warnings
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

In [2]:
# 데이터 불러오기
df_train = pd.read_csv("./data/train.csv")
df_test = pd.read_csv("./data/test.csv")

df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch'] + 1
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1

df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean()

df_train['Fare'] = df_train['Fare'].map(lambda i : np.log(i) if i > 0 else 0)
df_train['Fare'] = df_train['Fare'].map(lambda i : np.log(i) if i > 0 else 0)

FileNotFoundError: [Errno 2] No such file or directory: './data/train.csv'

## Feature engineering 
- dataset 에 존재하는 null data를 채우고자 한다.
- null data 를 어떻게 채우느냐에 따라 모델의 성능이 달라질 수 있다.
- Feature enginnering은 실제 모델의 학습에 사용되기 때문에, train 뿐 아니라 실제 모델의 학습에 쓰려고 하는 것이므로, 두 데이터 셋 모두 적용해주어야 한다.

## Fill Null

### Fill Null in Embarked
- Age 에는 null data가 177 개가 있다.
- 영어이름의 특성상 이름 앞에 타이틀이 존재한다. 
- 타이틀을 추출해 이용하겠다.

In [None]:
# name 컬럼에서 miss, mr, mrs 등  추출
df_train['Initial'] = df_train.Name.str.extract('([A-Za-z]+)\.')
df_test['Initial'] = df_test.Name.str.extract('([A-Za-z]+)\.')

In [None]:
pd.crosstab(df_train['Initial'] , df_train['Sex']).T.style.background_gradient(cmap = 'summer_r')

- 위 테이블을 참고하여, 남자, 여자가 쓰는 initail(Miss , Mr, other 로 구분)

In [None]:
df_train['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don', 'Dona'],
                        ['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr', 'Mr'],inplace=True)

df_test['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don', 'Dona'],
                        ['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr', 'Mr'],inplace=True)

In [None]:
df_train.groupby('Initial').mean()

- 여성과 관련있는 miss, mrs 가 생존률이 높은 걸 알 수 있음

In [None]:
df_train.groupby('Initial')['Survived'].mean().plot.bar()

- null data 를 채우는 방법은 정말 많이 존재한다. statisitcs를 활용하는 방법도 있고, null data 가 없는 데이터를 기반으로 새로운 머신러닝 알고리즘을 만들어 예측해 채워넣는 방법도 있다.
- 여기서는 statistics 는 train data 를 활용한다.

In [None]:
df_train.groupby('Initial').mean()

- 각 Initial을 기준으로 Age의 평균을 이용해 Null value를 채우겠다.
- Pandas dataframe 을 다룰 때 boolean array 를 이용해 indexing 하는 방법이 편하다.

In [None]:
initial_df = df_train.groupby('Initial').mean()
initial_df['Age'].round()

In [None]:
df_train.loc[(df_train.Age.isnull())&(df_train.Initial == 'Master'),'Age'] = 5
df_train.loc[(df_train.Age.isnull())&(df_train.Initial == 'Miss'),'Age'] = 22
df_train.loc[(df_train.Age.isnull())&(df_train.Initial == 'Mr'),'Age'] = 33
df_train.loc[(df_train.Age.isnull())&(df_train.Initial == 'Mrs'),'Age'] = 36
df_train.loc[(df_train.Age.isnull())&(df_train.Initial == 'Other'),'Age'] = 46

df_test.loc[(df_test.Age.isnull())&(df_test.Initial == 'Master'),'Age'] = 5
df_test.loc[(df_test.Age.isnull())&(df_test.Initial == 'Miss'),'Age'] = 22
df_test.loc[(df_test.Age.isnull())&(df_test.Initial == 'Mr'),'Age'] = 33
df_test.loc[(df_test.Age.isnull())&(df_test.Initial == 'Mrs'),'Age'] = 36
df_test.loc[(df_test.Age.isnull())&(df_test.Initial == 'Other'),'Age'] = 46

- null 을 채우는 다양한 방법을 쓴 예시는 아래 링크 참조
https://www.kaggle.com/yassineghouzam/titanic-top-4-with-ensemble-modeling 

### Fill Null in Embarked

In [None]:
print('Embarked has', sum(df_train['Embarked'].isnull()), 'Null values')

- Embarked 는 Null Values가 2개 이고, S에 가장 많은 탑승객이 있었으므로, 간단하게 Null 값을 S로 채우겠다

In [None]:
df_train['Embarked'].fillna('S', inplace = True)

#### change Age 
- 나이를 연속형 변수에서 범주형 변수로 변경하겠다.

In [None]:
df_train['Age_cat'] = 0
df_train.loc[df]