In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')
sns.set(font_scale=2.5) # 이 두줄은 본 필자가 항상 쓰는 방법입니다. matplotlib 의 기본 scheme 말고 seaborn scheme 을 세팅하고, 일일이 graph 의 font size 를 지정할 필요 없이 seaborn 의 font_scale 을 사용하면 편합니다.
import missingno as msno

#ignore warnings
import warnings
warnings.filterwarnings('ignore')

#%matplotlib inline

In [None]:
df_train = pd.read_csv('../input/d/datasets/rahulsah06/titanic/train.csv')
df_test = pd.read_csv('../input/d/datasets/rahulsah06/titanic/test.csv')
df_train.head()

In [None]:
df_train.shape

**describe()** method는 각 feature가 가진 통계치들을 반환해줌

In [None]:
df_train.describe()

In [None]:
df_train.columns

In [None]:
df_train.Age.unique()

In [None]:
df_test.describe()

# Null data check

In [None]:
for col in df_train.columns:
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_train[col].isnull().sum() / df_train[col].shape[0]))
    print(msg)

In [None]:
for col in df_test.columns:
    msg = 'column: {:>10}\t Percent of NaN value: {:.2f}%'.format(col, 100 * (df_test[col].isnull().sum() / df_test[col].shape[0]))
    print(msg)

### **MSNO** 라이브러리 사용하면 null data 더 쉽게 볼 수 있음

* import missingno as msmo

```msno.matrix(df=df_train.iloc[:, :], color=(0.1, 0.6, 0.8))```

* df_train에 대한 결측치를 ```martriz```, ```bar```로 시각화 해줌. 


In [None]:
msno.matrix(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8,0.5,0.2))

In [None]:
msno.bar(df=df_train.iloc[:, :], figsize=(8, 8), color=(0.8, 0.5, 0.2))

In [None]:
# subplot써서 그림 여러개
f, ax = plt.subplots(1, 2, figsize=(18, 8))

# Pie차트 그리기
df_train['Survived'].value_counts().plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)
ax[0].set_title('Pie plot - Survived')
ax[0].set_ylabel('')

# count차트 그리기
sns.countplot('Survived', data=df_train, ax=ax[1])
ax[1].set_title('Count plot - Survived')

plt.show()

## groupby

* Pclass기준으로 생존자 확인
    * 전체 count
    * 1이 생존이므로 sum해서 생존인원 파악

In [None]:

df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).count()

In [None]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).sum()

## pandas crosstab 

**범주형 변수를 기준으로 개수 파악, 수치형 데이터 넣어 계산할 때 사용**

* values, aggfunc 함께 사용
* margins: 총합 볼 때
* fillna: 결측치 채울 때
* rownames, colnames, margins_name: 데이터 이름 바꾸고 싶을 때
* nomalize = True: 정규화

In [None]:
pd.crosstab(df_train['Pclass'], df_train['Survived'], margins=True).style.background_gradient(cmap='winter_r')

### groupby 객체에 mean()해서 각 클래스 별 생존률 보기

In [None]:
df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar()

In [None]:
# sex에 따라 어떻게 달라지는 지 확인
# groupby, seaborn, countplot 사용

f, ax = plt.subplots(1, 2, figsize=(18, 8))
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=True).mean().plot.bar(ax=ax[0])
ax[0].set_title('Survived vs Sex')
sns.countplot('Sex', hue='Survived', data=df_train, ax=ax[1])
ax[1].set_title('Sex: Survived vs Dead')
plt.show()

###  seaborn facotrplot

* sex, pclass 따라 생존 확인
* hue, column 사용

In [None]:
sns.factorplot('Pclass', 'Survived', hue='Sex', data=df_train, 
               size=6, aspect=1.5)

In [None]:
sns.factorplot(x='Sex', y='Survived', col='Pclass',
              data=df_train, satureation=.5,
               size=9, aspect=1
              )

In [None]:
df_train.Survived.isnull().sum()


In [None]:
df_train.head()

In [None]:
#그림 그리기
'''
subplots은 여러개 그림 그리는 함수(행,열, 그림사이즈=(가로,세로))
violinplot("볼 column들", hue="요거기준으로 분류할것임", 데이터, ax=ax[0번째])
set_yticks(ranne(0부터 110까지 10 단위))
'''
f,ax=plt.subplots(1,3,figsize=(30,10))
sns.violinplot("Pclass", "Age", hue="Survived", data=df_train, scale='count', split=True,ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,10))

sns.violinplot("Survived", "Age", hue="Sex", data=df_train, scale='count', split=True,ax=ax[1])
ax[1].set_title('hi nam woo~ JAMESON JonMat')
ax[1].set_yticks(range(0,100,5))

sns.violinplot("Sex" , "Age", hue="Survived", data=df_train, scale='count', split=True, ax=ax[2])
ax[2].set_title('Saida')
ax[2].set_yticks(range(0,110,10))
plt.show()

In [None]:
#groupby 함수 공부
f, ax = plt.subplots(1, 1, figsize=(7, 7))
df_train[['Embarked', 'Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)

In [None]:
f,ax=plt.subplots(2, 2, figsize=(20,15))
sns.countplot('Embarked', data=df_train, ax=ax[0,0])
ax[0,0].set_title('(1) No. Of Passengers Boarded')
sns.countplot('Embarked', hue='Sex', data=df_train, ax=ax[0,1])
ax[0,1].set_title('(2) Male-Female Split for Embarked')
sns.countplot('Embarked', hue='Survived', data=df_train, ax=ax[1,0])
ax[1,0].set_title('(3) Embarked vs Survived')
sns.countplot('Age', hue='Pclass', data=df_train, ax=ax[1,1])
ax[1,1].set_title('(4) Embarked vs Pclass')
plt.subplots_adjust(wspace=0.1, hspace=0.8)
plt.show()

In [None]:
df_train.Embarked.unique()

In [None]:
df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch'] + 1 # 자신을 포함해야하니 1을 더합니다
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch'] + 1 # 자신을 포함해야하니 1을 더합니다
print("Maximum size of Family: ", df_train['FamilySize'].max())
print("Minimum size of Family: ", df_train['FamilySize'].min())

In [None]:
f,ax=plt.subplots(1, 3, figsize=(40,10))
sns.countplot('FamilySize', data=df_train, ax=ax[0])
ax[0].set_title('(1) No. Of Passengers Boarded', y=1.02)

sns.countplot('FamilySize', hue='Survived', data=df_train, ax=ax[1])
ax[1].set_title('(2) Survived countplot depending on FamilySize',  y=1.02)

df_train[['FamilySize', 'Survived']].groupby(['FamilySize'], as_index=False).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax[2])
ax[2].set_title('(3) Survived rate depending on FamilySize',  y=1.02)

plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

In [None]:
#legend 범례 넣어주기(location='베스트에넣어주삼')
#Skewness 왜도
'''
그래서, 언제 Skewness(왜도)가 과도하게 커질까?

경험에 근거한 법칙은 다음과 같다.

skewness가 -0.5 ~ 0,5 일 경우 데이터는 상당히 대칭적이다.
skewness가 -1~-0.5 이거나 0.5~1 일 경우 데이터는 적당히 치우쳐있다.
skewness가 -1보다 작거나 1보다 클 경우 데이터는 상당히 치우쳐있다.
'''

fig, ax = plt.subplots(1, 1, figsize=(8, 8))
g = sns.distplot(df_train['Fare'], color='r', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend()#(loc='best')

In [None]:
# loc는 보고싶은것만 뽑아냄. df_test 중 Fare에서 isnull인것만 보고 mean값으로 치환함
# map lambda 나중에
# 결측치 평균으로 만들고 fare값 크니까 log씌워서 값 줄임

df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean() # testset 에 있는 nan value 를 평균값으로 치환합니다.

df_train['Fare'] = df_train['Fare'].map(lambda i: np.log(i) if i > 0 else 0)
df_test['Fare'] = df_test['Fare'].map(lambda i: np.log(i) if i > 0 else 0)
fig, ax = plt.subplots(1, 1, figsize=(8, 8))
g = sns.distplot(df_train['Fare'], color='b', label='Skewness : {:.2f}'.format(df_train['Fare'].skew()), ax=ax)
g = g.legend(loc='best')

In [None]:
df_test.loc[df_test.Fare.isnull(), 'Fare'] = df_test['Fare'].mean() 

In [None]:
df_test.loc[df_test.Fare.isnull(),]

In [None]:
df_test['Fare'].mean()

In [None]:
#value_counts() column에 있는 값들 몇개가 들어있는지 카운트 
df_train['Ticket'].value_counts()


In [None]:
import plotly.offline as py
import plotly.graph_objs as go
import plotly.tools as tls

In [None]:
df_train.Name

# Feature engineering

* dataset에 존재하는 null data 채우기
+ null data 포함하는 feaure의 statistics 참고하거나 다른 방법 사용
- train, test 동일하게 적용

In [None]:
# title + statistics(탑승객 이름으로 진행)
# 탑승객 이름 option으로 되어있는걸 str.extract써서 string convert
#  What is 'extract method' ??  

df_train['Initial']= df_train.Name.str.extract('([A-Za-z]+)\.') #lets extract the Salutations
    
df_test['Initial']= df_test.Name.str.extract('([A-Za-z]+)\.') #lets extract the Salutations

In [None]:
#crosstab Initial와 Sex와 교차표 만듬 null값 처리할라고 그러는데 굳|이 age와 sex???
pd.crosstab(df_train['Initial'], df_train['Sex']).T.style.background_gradient(cmap='summer_r') #Checking the Initials with the Sex

# repalce Method

In [None]:
df_train['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don', 'Dona'],
                        ['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr', 'Mr'],inplace=True)

df_test['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don', 'Dona'],
                        ['Miss','Miss','Miss','Mr',
                         'Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr', 'Mr'],inplace=True)
df_train.groupby('Initial').mean()

In [None]:
df_train.groupby('Initial')['Survived'].mean().plot.bar()

* Based on 'train data'
* 'test data' should be unseened

In [None]:
df_train.groupby('Initial').mean()

### Using Age average to fill out Null value

 #### boolean array indexing
If satisfy  `df_train.Age.isnull()&(df_train.Inistial=='Mr')`  change `Age` Value to `= 33` etc.



**other examples** 
https://www.kaggle.com/yassineghouzam/titanic-top-4-with-ensemble-modeling 

In [None]:
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mr'),'Age'] = 33
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mrs'),'Age'] = 36
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Master'),'Age'] = 5
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Miss'),'Age'] = 22
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Other'),'Age'] = 46

df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Mr'),'Age'] = 33
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Mrs'),'Age'] = 36
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Master'),'Age'] = 5
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Miss'),'Age'] = 22
df_test.loc[(df_test.Age.isnull())&(df_test.Initial=='Other'),'Age'] = 46

In [None]:
print('Embarked has ', sum(df_train['Embarked'].isnull()), ' Null values')

In [None]:
df_train['Embarked'].fillna('S', inplace=True)

## Change Age(Continuous to categorical)

#### dataframe indexing 방법인 loc 사용, 10살 간격으로 나누깅

In [None]:

df_train['Age_cat'] = 0
df_train.loc[df_train['Age'] < 10, 'Age_cat'] = 0
df_train.loc[(10 <= df_train['Age']) & (df_train['Age'] < 20), 'Age_cat'] = 1
df_train.loc[(20 <= df_train['Age']) & (df_train['Age'] < 30), 'Age_cat'] = 2
df_train.loc[(30 <= df_train['Age']) & (df_train['Age'] < 40), 'Age_cat'] = 3
df_train.loc[(40 <= df_train['Age']) & (df_train['Age'] < 50), 'Age_cat'] = 4
df_train.loc[(50 <= df_train['Age']) & (df_train['Age'] < 60), 'Age_cat'] = 5
df_train.loc[(60 <= df_train['Age']) & (df_train['Age'] < 70), 'Age_cat'] = 6
df_train.loc[70 <= df_train['Age'], 'Age_cat'] = 7

df_test['Age_cat'] = 0
df_test.loc[df_test['Age'] < 10, 'Age_cat'] = 0
df_test.loc[(10 <= df_test['Age']) & (df_test['Age'] < 20), 'Age_cat'] = 1
df_test.loc[(20 <= df_test['Age']) & (df_test['Age'] < 30), 'Age_cat'] = 2
df_test.loc[(30 <= df_test['Age']) & (df_test['Age'] < 40), 'Age_cat'] = 3
df_test.loc[(40 <= df_test['Age']) & (df_test['Age'] < 50), 'Age_cat'] = 4
df_test.loc[(50 <= df_test['Age']) & (df_test['Age'] < 60), 'Age_cat'] = 5
df_test.loc[(60 <= df_test['Age']) & (df_test['Age'] < 70), 'Age_cat'] = 6
df_test.loc[70 <= df_test['Age'], 'Age_cat'] = 7

### Apply method 사용

In [None]:
def category_age(x):
    if x < 10:
        return 0
    elif x < 20:
        return 1
    elif x < 30:
        return 2
    elif x < 40:
        return 3
    elif x < 50:
        return 4
    elif x < 60:
        return 5
    elif x < 70:
        return 6
    else:
        return 7  
    
df_train['Age_cat_2'] = df_train['Age'].apply(category_age)

In [None]:
print('1번 방법, 2번 방법 둘다 같은 결과를 내면 True 줘야함 -> ', (df_train['Age_cat'] == df_train['Age_cat_2']).all())

In [None]:
# 위에서 같은 방법 2개 사용했으니 중복되는 Age_cat 컬럼과 원래 Age 제거

df_train.drop(['Age', 'Age_cat_2'], axis=1, inplace=True)
df_test.drop(['Age'], axis=1, inplace=True)


## Change Initial Embarked and Sex

### Map method

#### String to numerical



In [None]:
df_train['Initial'] = df_train['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4})
df_test['Initial'] = df_test['Initial'].map({'Master': 0, 'Miss': 1, 'Mr': 2, 'Mrs': 3, 'Other': 4})

In [None]:
df_train['Embarked'].unique()

In [None]:
df_train['Embarked'].value_counts()

In [None]:
df_train['Embarked'] = df_train['Embarked'].map({'C':0, 'Q':1, 'S':2})
df_test['Embarked'] = df_test['Embarked'].map({'C':0, 'Q':1, 'S':2})

In [None]:
df_train['Embarked']

In [None]:
# Null 있는지 체크
df_train['Embarked'].isnull().any()


In [None]:
df_train['Sex'] = df_train['Sex'].map({'female': 0, 'male': 1})
df_test['Sex'] = df_test['Sex'].map({'female': 0, 'male': 1})

In [None]:
heatmap_data = df_train[['Survived', 'Pclass', 'Sex', 'Fare', 'Embarked', 'FamilySize', 'Initial', 'Age_cat']] 

colormap = plt.cm.RdBu
plt.figure(figsize=(14, 12))
plt.title('Pearson Correlation of Features', y=1.05, size=15)
sns.heatmap(heatmap_data.astype(float).corr(), linewidths=0.1, vmax=1.0,
           square=True, cmap=colormap, linecolor='white', annot=True, annot_kws={"size": 16})

del heatmap_data

## One-hot encoding on Initial and Embarked

### *get_dummies 함수 이용하여 간단하게 더미변수 만들어주기

* One-hot encoding은 카테고리를 아래와 같이 (0,1)로 이루어진 5차원의 벡터로 나타내는 것

In [None]:
df_train.columns

In [None]:
df_train.head()

In [None]:
# Initial 을 prefix로 두어서 구분이 쉽게 만들어 줌

df_trian = pd.get_dummies(df_train, columns=['Initial'], prefix='Initial')
df_test = pd.get_dummies(df_test, columns=['Initial'], prefix='Initial')

df_train.head()

In [None]:
df_train.head()

In [None]:
df_train = pd.get_dummies(df_train, columns=['Embarked'], prefix='Embarked')
df_test = pd.get_dummies(df_test, columns=['Embarked'], prefix='Embarked')

In [None]:
df_train.head()

In [None]:
df_train.head()

In [None]:
# 필요한 columns만 남기고 지우기 drop

df_train.drop(['PassengerId', 'Name', 'SibSp', 'Parch', 'Ticket', 'Cabin'], axis=1, inplace=True)
df_test.drop(['PassengerId', 'Name',  'SibSp', 'Parch', 'Ticket', 'Cabin'], axis=1, inplace=True)

In [None]:
df_train.head()
df_test.head()

# 머신러닝 시작!

* 타이타닉 문제는 tatget class(survived)가 0,1로 이루어져 있으니까 **binary calssification**
* train set에 survived를 제외한 input을 가지고 탑승객의 생존유무를 판단하는 모델 만들기
* 그 후 모델이 학습하지 않았던 test set을 input으로 주어서 test set의 탑승객의 생존 유무를 예측해보자

In [None]:
#importing all the required ML packages
from sklearn.ensemble import RandomForestClassifier # 유명한 randomforestclassfier 입니다. 
from sklearn import metrics # 모델의 평가를 위해서 씁니다
from sklearn.model_selection import train_test_split # traning set을 쉽게 나눠주는 함수입니다.

## 준비 - Split dataset into train, valid, test set

* 보통 train, test만 언급되지만 실제 좋은 모델을 만들기 위해서는 **vaild set**을 따로 만들어 모델을 평가하자
* 먼저 학습에 쓰일 데이터와 target label(survived)를 **drop**을 사용해서 분리하자

In [None]:
X_train = df_train.drop('Survived', axis = 1).values
target_label = df_train['Survived'].values
X_test = df_test.values

In [None]:
X_tr, X_vld, y_tr, y_vld = train_test_split(X_train, target_label, test_size=0.3, random_state=2018)

### 랜덤포레스트 모델 사용

*  **n_estimators, max_features, max_depth, min_samples_split, min_samples_leaf** 등 여러 파라미터들이 존재함. 셋팅에 따라 모델 성능 달라짐.
+ 모델 객체를 만들고 fit 메소드로 학습시킴
+ 그리고 vaild set input을 넣어주고 탑승객의 생존여부를 얻기

In [None]:
model = RandomForestClassifier()
model.fit(X_tr, y_tr)
prediction = model.predict(X_vld)

In [None]:
print('총 {}명 중 {:.2f}% 정확도로 생존을 맞췄다!'.format(y_vld.shape[0], 100 * metrics.accuracy_score(prediction, y_vld)))

## Feature importance

* 모델이 어떤 feautre에 영향을 받았는지 확인
* **pandas series** 를 이용하여 sorting 해서 그래프 그리기

In [None]:
from pandas import Series

feature_importance = model.feature_importances_
Series_feat_imp = Series(feature_importance, index=df_test.columns)

In [None]:
plt.figure(figsize=(8, 8))
Series_feat_imp.sort_values(ascending=True).plot.barh()
plt.xlabel('Feature importance')
plt.ylabel('Feature')
plt.show()

### Prediction on Test set

* 모델이 학습하지 않은 테스트셋을 모델에 줘서 생존여부 예측하기
* submission(제출용) 결과는 leaderborad에서 확인하기
* 캐글에서 준 파일 gender_submission.csv 파일 읽어오기

In [None]:
submission = pd.read_csv('../input/titanic/gender_submission.csv')

In [None]:
submission.head()

In [None]:
# testset 예측하고 결과 csv파일로 저장

prediction = model.predict(X_test)
submission['Survived'] = prediction

In [None]:
submission.to_csv('sumbit.csv', index=False)