# 예측을 위한 탐색적 데이터 분석 (죽음의 타이타닉호)


### *Sometimes life has a cruel sense of humor, giving you the thing you always wanted at the worst time possible.*
                                                                                       -Lisa Kleypas

                                                                                                                                     

멋진 말입니다.

"때때로 인생은 잔인한 유머감각이 있어, 가능하다면 최악의 순간에도 여러분이 얻고자 하는것을 줍니다." 

On the verge of COVID-19 pandemic, keep your chin up!!

타이타닉호 침몰은 해양 재난 역사상 가장 엄청난 재앙중의 하나입니다. 1912년 4월 15일, 첫 출항한 타이타닉호는 빙산과 충돌 후 2224명의 승객과 승무원 중에 1502명이 사망하여, 말 그대로 "죽음의 타이타닉호" 라고 불립니다. 
90년대 말에서 2000년대 초반, 우리에게 레오나르도 디카프리오로 잘 알려진 영화 타이타닉이 이 해양 재난을 테마로 한 영화이기도 합니다.

배 건조에만 7천5백만달러가 들었고, 충돌로 인한 침몰로 바닷속으로 가라앉았고, 현재도 대서양 4000미터 바다속에 가라앉아 있습니다.
사고원인은 표면적으로 빙산과의 충돌로 알려져있지만 , 최근의 연구에 의하면 불량자재를 사용한 것으로 결과가 발표된 자료도 있음을 아셨으면 합니다. 

[관련 기사](https://news.joins.com/article/3112549)

2014년 4월16일 우리나라 진도해역에서 침몰한 세월호( Sinking of MV Sewol)의 재난사고가 대충주의와 인재였다는 사실은 다 아실겁니다. 

이 커널의 목적은 단순합니다. 생존자 예측 모델을 생성하는 절차 및 이에 필요한 피처를 추가 및 확인하는 방법을 익히는데 있습니다.

## 분석 절차 :

#### Part1: 탐색적 데이터 분석(EDA):
1)피처 분석

2)다중 피처를 고려하기 위한 추세 및 연관관계 파악
#### Part2: 피처 엔지니어링 및 데이터 정제:
1)신규 피처의 추가 

2)중복 피처 제거

3)문자형 피처의 변환
#### Part3: 예측 모델링
1)ML기본 모델 익히기

2)교차검증(Cross Validation)

3)앙상블 기법(Ensemble)

4)중요 피처 추출(Feature Extraction)

## Part1: Exploratory Data Analysis(EDA)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# seaborn - font style set
plt.style.use('seaborn')
sns.set(font_scale=1.5)

import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [None]:
# 컬럼맵
cmaps = ['Accent', 'Accent_r', 'Blues', 'Blues_r', 'BrBG', 'BrBG_r', 'BuGn', 'BuGn_r', 'BuPu', 'BuPu_r', 'CMRmap', 'CMRmap_r', 'Dark2', 'Dark2_r', 'GnBu', 'GnBu_r', 'Greens', 'Greens_r', 'Greys', 'Greys_r', 'OrRd', 'OrRd_r', 'Oranges', 'Oranges_r', 'PRGn', 'PRGn_r', 'Paired', 'Paired_r', 'Pastel1', 'Pastel1_r', 'Pastel2', 'Pastel2_r', 'PiYG', 'PiYG_r', 'PuBu', 'PuBuGn', 'PuBuGn_r', 'PuBu_r', 'PuOr', 'PuOr_r', 'PuRd', 'PuRd_r', 'Purples', 'Purples_r', 'RdBu', 'RdBu_r', 'RdGy', 'RdGy_r', 'RdPu', 'RdPu_r', 'RdYlBu', 'RdYlBu_r', 'RdYlGn', 'RdYlGn_r', 'Reds', 'Reds_r', 'Set1', 'Set1_r', 'Set2', 'Set2_r', 'Set3', 'Set3_r', 'Spectral', 'Spectral_r', 'Wistia', 'Wistia_r', 'YlGn', 'YlGnBu', 'YlGnBu_r', 'YlGn_r', 'YlOrBr', 'YlOrBr_r', 'YlOrRd', 'YlOrRd_r', 'afmhot', 'afmhot_r', 'autumn', 'autumn_r', 'binary', 'binary_r', 'bone', 'bone_r', 'brg', 'brg_r', 'bwr', 'bwr_r', 'cividis', 'cividis_r', 'cool', 'cool_r', 'coolwarm', 'coolwarm_r', 'copper', 'copper_r', 'crest', 'crest_r', 'cubehelix', 'cubehelix_r', 'flag', 'flag_r', 'flare', 'flare_r', 'gist_earth', 'gist_earth_r', 'gist_gray', 'gist_gray_r', 'gist_heat', 'gist_heat_r', 'gist_ncar', 'gist_ncar_r', 'gist_rainbow', 'gist_rainbow_r', 'gist_stern', 'gist_stern_r', 'gist_yarg', 'gist_yarg_r', 'gnuplot', 'gnuplot2', 'gnuplot2_r', 'gnuplot_r', 'gray', 'gray_r', 'hot', 'hot_r', 'hsv', 'hsv_r', 'icefire', 'icefire_r', 'inferno', 'inferno_r', 'jet', 'jet_r', 'magma', 'magma_r', 'mako', 'mako_r', 'nipy_spectral', 'nipy_spectral_r', 'ocean', 'ocean_r', 'pink', 'pink_r', 'plasma', 'plasma_r', 'prism', 'prism_r', 'rainbow', 'rainbow_r', 'rocket', 'rocket_r', 'seismic', 'seismic_r', 'spring', 'spring_r', 'summer', 'summer_r', 'tab10', 'tab10_r', 'tab20', 'tab20_r', 'tab20b', 'tab20b_r', 'tab20c', 'tab20c_r', 'terrain', 'terrain_r', 'turbo', 'turbo_r', 'twilight', 'twilight_r', 'twilight_shifted', 'twilight_shifted_r', 'viridis', 'viridis_r', 'vlag', 'vlag_r', 'winter', 'winter_r']
len(cmaps)

In [None]:
def dataset_info():
    """
    데이터셋 로드
    널 데이터 확인    
    """
    path = "../input/titanic/"
    data = pd.read_csv(path+"train.csv")
    display(data.head(n=3))
    
    display(data.isnull().sum())  # 널 데이터 확인
    return data

In [None]:
df_train = dataset_info()

* Age, Cabin 피처는 널값이 있으면 피처 엔지니어링 단계에서 널값을 대체할수 있도록 모색

### How many Survived??

In [None]:
def visualize_survivor(df_train):
    """
    생존자 확인
    1)bar chart
    2)countplot
    두개의 방법으로 시각화
    """
    fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(18, 8))
    survivor_cnt = df_train['Survived'].value_counts()
    
    survivor_cnt.plot.pie(explode=[0, 0.1], autopct='%1.1f%%', ax=ax[0], shadow=True)
    ax[0].set_title("Survived")
    ax[0].set_ylabel('')
    sns.countplot(x='Survived', data=df_train, ax=ax[1])
    ax[1].set_title("Survived")
    plt.subplots_adjust(hspace=0.5, wspace=0.25)
    plt.show()

# 수행
visualize_survivor(df_train)

38.4퍼센트의 승선한 인원만 살아남았으며,생존률 예측에 영향을 주는 피처를 추가적으로 파보겠습니다. 
* Age, Sex , Embarked(승선한 항구) , Pclass(객실등급)

## 피처 유형

### 범주형 피처:
범주형 피처는 피처의 값들이 구분될 수 있는 값들로 이루어진 피처들을 의미하며 다음과 같이 예를 들 수 있다.
예) Sex(남자 혹은 여자), 항구(Embarked)

### 순서가 있는 범주형 피처(Ordinal Features):
예) **Height** ( Tall, Medium, Short), **Pclass**

### 연속형 피처:
예) **Age**

## 피처 분석

## Sex--> 범주형 피처

In [None]:
# 남여의 생존자 수
display(df_train.groupby(['Sex','Survived'])['Survived'].count())

In [None]:
def visualize_survivor_ratio(tCols, gCols,df):
    """
    tCols - 보고자 하는 피처
    gCols - Groupby 피처
    df - 대상이 되는 데이터셋
    기능 : 바차트와 countplot차로 보여줌
    """
    fig, ax = plt.subplots(1, 2, figsize=(18, 8))
    df[tCols].groupby(gCols).mean().plot.bar(ax = ax[0])
    sns.countplot(x= tCols[0], hue=tCols[1], data = df, ax=ax[1])
    ax[1].set_title('{0} : {1} v.s Dead'.format(tCols[0], tCols[1]))
    plt.show()   

# 성별 생존자 수     
visualize_survivor_ratio(['Sex','Survived'], ['Sex'],df_train)    

75퍼센트 이상의 여성이 생존했고, 오직 18% ~ 19%의 남성만이 생존하였음을 알 수 있음

300명이 넘는 생존자 중에서 70% 가까이 되는 생존자가 모두 여성임을 알 수 있다.

이로써 **성별** 이 중요피처임을 알 수 있다. 

다른 피처들도 알아보겠다.

## Pclass(객실등급) --> 순서가 있는 피처
* Pivot table과 유사하다고 볼 수 있다.

In [None]:
def visualize_crosstab(index_col: list, col_name: list, transPose=False):
    """
    index_col : 인덱스의 컬럼을 리스트 포맷으로 받음
    col_name  : 컬럼이 될 대상을 리스트 포맷으로 받음
    기능       : 두개 이상의 인자를 받아서 빈도수를 크로스탭으로 보여준다(crosstab의 return type은 dataFrame임을 유의)
    """
    crosstab_df = pd.DataFrame()
    if transPose:
        crosstab_df = pd.crosstab(index = index_col, columns=col_name, margins=True).T.style.background_gradient(cmap="summer_r")
    else:
        crosstab_df = pd.crosstab(index = index_col, columns=col_name, margins=True).style.background_gradient(cmap="summer_r")
    return crosstab_df 

# 성별에 따른 생존자 수 비교
sex_survived = visualize_crosstab([df_train['Pclass']], [df_train['Survived']])
sex_survived

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(18, 8))

# 객실등급별 승객수
df_train['Pclass'].value_counts().plot.bar(color=['#CD7F32','#FFDF00','#D3D3D3'], ax=ax[0])
ax[0].set_title("Nbr of Passengers by Pclass")
ax[0].set_ylabel('')

# 객실등급별 생존자 수 
sns.countplot(x='Pclass', hue='Survived', data=df_train, ax=ax[1])
ax[1].set_title("Pclass:Survived v.s Dead")
plt.subplots_adjust(wspace=0.2, hspace=0.5)
plt.show()

"돈이 모든것을 말해준다. Money talks."

생존률이 가장 낮은 객실등급은 3등급, 생존률이 가장 좋은 객실은 1등급 객실이다. 

전체 사망자의 70%이상이 3등 객실에서 발생했으며, 배의 구조상 객실등급이 좋은 곳은 구조되기가 용이한 상층에 존재하는 배의 특성을 볼때 

구조가 용이하지 않았으리라는 것을 추측해볼 수 있다.

성별(Sex)와 객실등급(Pclass)을 조합하여 생존률을 알아보도록 하자.

In [None]:
index_col = [df_train['Sex'], df_train['Survived']]
col_name = [df_train['Pclass']]

# 성별_객실등급에 따른 생존자 비교
sex_pclass_survived = visualize_crosstab(index_col, col_name)
display(sex_pclass_survived)

In [None]:
sns.factorplot(x='Pclass', y='Survived', hue='Sex', data = df_train)
plt.show()

범주형피처들간의 구분을 쉽게 하기 위해서 **FactorPlot**를 사용합니다. 

**CrossTab** 및 **FactorPlot**을 통해 한 눈에 거의 대부분의 여성이 구조되었음을 알 수 있습니다. (객실등급이 1등급인 경우엔 3명의 여성분만 생존하지 못함)

보시는 바와 같이 객실등급(Pclass)와 성별은 중요한 피처로 보입니다.다른 피처도 같이 보도록 하겠습니다.

## Age--> 연속형 피처


In [None]:
display("가장 연장자 : {} 세.".format(df_train['Age'].max()))
display("가장 어린 승선자의 나이 : {} 세.".format(df_train['Age'].min()))
display("승선객의 평균 나이 : {} 세.".format(df_train['Age'].mean()))

In [None]:
def visualize_violin(df, x: list, y: str):
    """
    x피처와 y피처간의 생존자의 분포 비교
    """
    fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(18, 8))
    
    for i in range(2):
        sns.violinplot(x=x[0] if i==0 else x[1], y=y, hue='Survived', data = df, split=True, ax=ax[i])
        ax[i].set_title("{0} and {1} v.s Survived".format(x[0] if i==0 else x[1], y))
        ax[i].set_yticks(range(0, 110, 10))
    plt.show()
    
# 객실등급, 성별을 연령과 비교해 생존자 분포 비교
visualize_violin(df_train, ['Pclass','Sex'], 'Age')    

#### Observations:

1)객실등급 및 성별에 상관없이 10살 이하의 아이의 경우엔, 생존률이 사망률을 앞지른다. (어린 아이들을 먼저 대피시킨것을 알 수 있다)

2)1등급 객실에 있는 연령대가 20대 ~ 50대 승객의 생존률이 여성에 비해 높은 것을 알 수 있다

3)남자의 경우엔, 높은 연령대 일수록 생존률이 감소함을 알 수 있다

In [None]:
display(df_train.isnull().sum(), df_train.describe())

위에서도 보듯이, Age의 경우 177개의 널값이 있습니다. 이 널값을 평균값으로 대치하기 위해선 몇가지 문제점이 있습니다.

연령대가 다양한 승객들이 있기때문에 아이들의 경우에도 평균값으로 대치될 수 있는 가능성이 있습니다. 

이러한 가능성을 조금은 더 없애기 위해, **이름**에 나오는 존칭을 가지고 연령대를 추론해보고자 합니다.

In [None]:
def feature_engineering(df, dropCols = None, InitialOpt=False, EmbarkedOpt=False, FamilyOpt=False, StringOpt=False, FeatureDrop=False):
    """
    피처엔지니어링 및 데이터 정제
    1.추가된 호칭의 오기된 호칭 정리
    2.Embarked피처 널 값 처리 
    3.문자형피처의 숫자값 처리 
    """ 
    if InitialOpt:
        df['Initial'].replace(['Mlle','Mme','Ms','Dr','Major','Lady','Countess','Jonkheer','Col','Rev','Capt','Sir','Don'],['Miss','Miss','Miss','Mr','Mr','Mrs','Mrs','Other','Other','Other','Mr','Mr','Mr'],inplace=True)
    
    # 2.Embarked
    if EmbarkedOpt:
        df['Embarked'].fillna('S', inplace=True)
        
    if FamilyOpt:
        df['Family_Size'] = df['SibSp'] + df['Parch']
        df['Alone'] = df['Family_Size'].apply(lambda x: 1 if x == 0 else 0)
    
    # 3.문자형 피처의 값을 숫자형으로 변환 
    if StringOpt:
        df['Sex'].replace(['male','female'], [0, 1], inplace=True)
        df['Embarked'].replace(['S', 'C', 'Q'], [0, 1, 2], inplace=True)
        df['Initial'].replace(['Mr','Mrs','Miss','Master','Other'], [0, 1, 2, 3, 4], inplace=True)
        
    if FeatureDrop:
        df.drop(labels = dropCols, axis = 1, inplace = True, errors='ignore')
    
    display(df.head(n=3))   
    return df  

* Age 피처 널값 대치를 위한 작업

In [None]:
df_train['Initial'] = None
for i in df_train:
    df_train['Initial'] = df_train['Name'].str.extract('([A-Za-z]+)\.')  # Name피처에서 대소문자를 가지지 않고 .(dot)으로 끝나는 부분만 추출

In [None]:
# 성별에 따른 호칭 비교
sex_initial = visualize_crosstab([df_train['Initial']], [df_train['Sex']], True)
display(sex_initial)

철자가 틀린것 - Mlle, Mme를 Miss로 대치하도록 관련 함수 로직 추가

In [None]:
df_train = feature_engineering(df_train, InitialOpt=True)

In [None]:
sex_initial = visualize_crosstab([df_train['Initial']], [df_train['Sex']], True)
display(sex_initial)

### Age피처 널값 처리 

In [None]:
def get_Initial_age_mean(df):
    """
    호칭별 평균 나이 구하기
    """    
    df_age_mean = df.groupby('Initial')['Age'].mean().reset_index()
    ## Assigning the NaN Values with the Ceil values of the mean ages
    master_age_mean = df_age_mean.loc[df_age_mean['Initial']=='Master', 'Age']
    mr_age_mean = df_age_mean.loc[df_age_mean['Initial']=='Mr', 'Age']
    mrs_age_mean = df_age_mean.loc[df_age_mean['Initial']=='Mrs', 'Age']
    miss_age_mean = df_age_mean.loc[df_age_mean['Initial']=='Miss', 'Age']
    other_age_mean = df_age_mean.loc[df_age_mean['Initial']=='Other', 'Age']
    display(df_age_mean)
    return master_age_mean, mr_age_mean, mrs_age_mean, miss_age_mean, other_age_mean

# 호칭별 평균 나이 구하기 
master_age_mean, mr_age_mean, mrs_age_mean, miss_age_mean, other_age_mean = get_Initial_age_mean(df_train)

In [None]:
display(mr_age_mean)
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mr'),'Age']=33
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Mrs'),'Age']=36
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Master'),'Age']=5
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Miss'),'Age']=22
df_train.loc[(df_train.Age.isnull())&(df_train.Initial=='Other'),'Age']=46

In [None]:
display(df_train['Age'].isnull().any())
display(df_train['Age'].isnull().sum())

In [None]:
def plot_histogram_alive_deceased(alive, deceased):
    """
    연령대별 생존자와 사망자 히스토그램 비교
    """
    fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(20, 10))
    alive['Age'].plot.hist(ax=ax[0], edgecolor='black', color='red', bins=20)
    ax[0].set_title("Survived = 0")
    ax[0].set_xticks(list(range(0, 85, 5)))  
    
    deceased['Age'].plot.hist(ax=ax[1], edgecolor='black', color='green', bins=20)
    ax[1].set_title("Survived = 1")
    ax[1].set_xticks(list(range(0, 85, 5)))  
    plt.show()

# 연령대별로 보는 사망자, 생존자 비교 
alive= df_train[df_train['Survived']== 0]
display(type(alive), alive.head(n=2))
deceased = df_train[df_train['Survived']== 1]
display(type(deceased), deceased.head(n=2))    
plot_histogram_alive_deceased(alive, deceased)

### Observations:
1)5살 이하의 유아가 대다수가 생존함(여성 및 아이먼저 구조)

2)최고령 생존자는 80세

3)가장 많은 사망자는 연령대가 30대에서 40대에 분포함

In [None]:
sns.factorplot(x='Pclass', y='Survived', col='Initial', data=df_train)
plt.show()

여자 및 아이먼저 구조한다는 정책은 객실등급에 상관없이 일관되게 유지되고있다.

## Embarked(경유 항구)--> 범주형 값

In [None]:
index_col = [df_train.Embarked,df_train.Pclass]
col_name = [df_train.Sex,df_train.Survived]
visualize_crosstab(index_col, col_name)

### 승선한 경유 항구별로 본 생존률 비교

In [None]:
sns.factorplot(x='Embarked', y='Survived', data =df_train)
fig = plt.gcf()
fig.set_size_inches(5, 3)
plt.show()

사우스 햄튼(S)에 탄 승객의 생존률은 현저히 낮은 반면, 셰르부르옥트빌(C - 프랑스 항구도시)에서 탑승한 승객의 생존률은 높다.

In [None]:
fig, ax = plt.subplots(2, 2, figsize = (20, 10))

sns.countplot(x='Embarked', data=df_train, ax=ax[0][0])
ax[0][0].set_title("No. of Passengers on board.")

sns.countplot(x='Embarked', hue='Sex', data=df_train, ax=ax[0][1])
ax[0][1].set_title("Male-Female Split for Embarked")

sns.countplot(x='Embarked', hue='Survived', data=df_train, ax=ax[1][0])
ax[1][0].set_title("Survived for Embarked")

sns.countplot(x='Embarked', hue='Pclass', data=df_train, ax=ax[1][1])
ax[1][1].set_title("Pclass for Embarked")
plt.subplots_adjust(wspace=0.25, hspace=0.5)
plt.show()

### Observations:
1)전체 승객의 60퍼센트가 넘는 승객이 사우스햄튼(S)에서 승선한 승객이며, 50% 이상의 승객이 3등급 객실에 투숙했으며, 60퍼센트 가까운 승객이 사망한 것으로 파악됨

2)객실등급 1등급, 2등급에 묵은 승객의 생존률이 높다. 사망자가 3등급 객실에 집중되어 있고, 객실의 구조상 아래층에 위치할수 밖에 없어 구조의 손길이 미치지 못했음을 알 수 있다.

3)사우스햄튼에서 승선한 승객의 60% 이상은 3등급 객실에 투숙했으며, 대부분이 가난한 이주민이지 않았을까 하는 추측이다. 

4)퀸스타운(Q)에서 승선한 승객의 90%이상은 3등급 객실에 투숙했으며,50%이상이 사망.

In [None]:
sns.factorplot(x='Pclass', y='Survived', data = df_train, col = 'Embarked', hue='Sex')
plt.show()

### Observations:

1)객실등급에 관계없이 여성인 경우의 생존률은 1에 가까울 수록 높다고 할수있다.

2)"Money talks"만 말은 지금과 과거는 다름이 없다.그래서 사람들의 시선이 돈에 머물러 있을 수 밖에 없다.데이터 속에 보이지 않는 수많은 희생들에 대한 이야기들을 끄집어 내는것이 필요하다.(Story telling behind data)

### Embarked(경유 항구)
* 가장 많은 승객이 탄 사우스햄튼(S)로 널 값을 대치하기로 하자(2개의 널값이 존재하였음)

In [None]:
df_train = feature_engineering(df_train, EmbarkedOpt=True)

In [None]:
# 널값이 없음
df_train['Embarked'].isnull().any()

## SibSip--> 비연속적인 피처
혼자인지 동반한 형제 , 자매가 있는지 알려주는 피처로 혼자이면 0이고, 0보다 크면 1명이상인 경우이다.

자녀 = 형제, 자매, 배다른 형제, 자매

배우자 = 남편 혹은 아내

In [None]:
index_col = df_train['SibSp']
col_name = df_train['Survived']
visualize_crosstab(index_col, col_name)

In [None]:
f, ax = plt.subplots(1, 2, figsize=(20, 8))
sns.barplot(x='SibSp', y= 'Survived', data = df_train, ax=ax[0])
ax[0].set_title("SibSp v.s Survived")

sns.factorplot(x='SibSp', y='Survived', data = df_train, ax = ax[1])
ax[1].set_title("SibSp v.s Survived")
plt.close(2)
plt.show()

In [None]:
visualize_crosstab([df_train['SibSp']], [df_train['Pclass']])

### Observations:

타이타닉 침몰시간 : on 14, April, 1914 at 11:40 P.M

잠을 잘 수 있는 시간일수도있고 아닐수도 있지만 동반 가족이 없는 경우의 생존률이 동반가족이 1~2명 있는 경우보다 생존률이 떨어짐을 알 수 있다. 

3명이하인 경우라면, 대응할 수 있는 수준이라고 볼 수 있지만, **동반가족이 3명이상으로 늘어나게 되면 생존이 쉽지 않음**을 보여준다.(3명이상을 기점으로 생존률이 하락)

동반가족이 5인 ~ 8인은 생존율이 0% 비율로 떨어진다.

## Parch
- 부모 동반

In [None]:
visualize_crosstab([df_train['Parch']], [df_train['Pclass']])

3등급 객실에 3인 이상의 동반가족이 집중되어 있음을 보여준다. 

1등급 객실 혹은 2등급 객실에 3인 이상의 동반가족을 위한 객실이 준비되지 않았음을 추론이 가능하다. 왜?

Business is business. business is first before human life.

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(20, 8))
sns.barplot(x='Parch', y='Survived', data = df_train, ax= ax[0])
ax[0].set_title("Survived depends on Parch")

sns.factorplot(x='Parch', y='Survived', data = df_train, ax= ax[1])
ax[1].set_title("Survived depends on Parch")
plt.tight_layout()
plt.close(2)
plt.show()

### Observations:

부모 동반자가 있는 경우는 생존할 확률이 상당히 높지만 , 이 수치도 동반 숫자가 늘어나면 급격하게 생존 가능성이 감소함을 보인다.

또한 동반 가족이 없는 경우는 생존 확률이 상당히 낮음을 알 수 있다. 비상시에는 도움을 받을 수 있는 존재가 있느냐 없느냐의 차이는 여기서 나타난다고 할 수 있겠다.

## Fare--> 연속형 피처
* 객실등급별 요금의 히스토그램과 Kde Plot을 함께 시각화
* Fare의 최대값, 최소값, 평균값

In [None]:
print('Highest Fare was:',df_train['Fare'].max())
print('Lowest Fare was:',df_train['Fare'].min())
print('Average Fare was:',df_train['Fare'].mean())

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(20, 8))
cond_pclass1 = df_train[df_train['Pclass']== 1]['Fare']
cond_pclass2 = df_train[df_train['Pclass']== 2]['Fare']
cond_pclass3 = df_train[df_train['Pclass']== 3]['Fare']

sns.distplot(a =cond_pclass1, ax = ax[0])
ax[0].set_title("Fare in Pclass 1")

sns.distplot(a =cond_pclass2, ax = ax[1])
ax[1].set_title("Fare in Pclass 2")

sns.distplot(a =cond_pclass3, ax = ax[2])
ax[2].set_title("Fare in Pclass 3")

plt.show()

## 생존률에 영향을 줄수 있는 피처 :
**Sex:** 남자에 비해 여성의 생존비율이 훨씬 높다.

**Pclass:**1등급 객실의 승객의 생존률이 높다*  **3등급 객실의 경우는 생존률이 낮음**. 


**Age:** 5세 이하의 아이의 경우는 생존 할 가능성이 높았음. 15 ~ 35세의 연령대의 생존률이 낮았음

**Embarked:** 사우스햄튼(S)에 승선한 승객의 대부분은 3등급 객실에 묵었으며, 많은 사망자가 나왔음. 반면에 프랑스 셰르부르옥트빌(C)의 승객들도 3등급 객실에 많았으나 사우스햄튼보다는 생존률이 더 나았음.

**Parch+SibSp:** 동반 가족의 수가 생존률에 영향을 주는것으로 확인이 됨(3명 이상의 동반 가족이 있을 경우엔 생존 할 가능성이 낮아짐), 3명 이하인 경우는 오히려 생존 가능성이 좋은 것으로 확인됨.

## 피처간의 상관관계
* 히트맵으로 피처간의 상관관계를 보기

In [None]:
heatmap = df_train.corr()
sns.heatmap(heatmap, cmap = cmaps[np.random.randint(1, 178)], annot=True, linewidths=0.2)
fig = plt.gcf()
fig.set_size_inches(10, 8)
plt.show()

### 히트맵 해석

**양의 상관관계(POSITIVE CORRELATION) :** **B피처가 증가함에 따라 A피처도 증가하면 , 우리는 이것을 양의 상관관계라고 한다.**. 

**1 - 강한 양의 상관관계를 의미**.

**음의 상관관계(NEGATIVE CORRELATION):** If an **B피처가 감소함에 따라 A피처도 감소할때 우리를 이것을 음의 상관관계라 한다**. 

**-1 - 강한 음의 상관관계**.

두 피처가 높은 상관관계를 갖으면, 두 피처는 상당한 정도로 유사한 정보를 갖고있다고 볼수 있으며 통계학에서는 이러한 것들 다중공선성(multicolinearity)라 부른다.
그래서 이러한 다중 공선성을 갖는 피처들은 예측 모델을 생성하는 단계에서는 삭제하는 것을 고려해보아야 한다.

하지만, 위의 히트맵에서는 그러한것들이 특별하게 보이지는 않아서 모든 피처들을 고려하기로 한다.

## Part2: 피처엔지니어링 및 데이터 정제
* 피처의 추가 및 삭제
* 중복된 피처 혹은 불필요한 피처 삭제

## Age_band(연령대)

#### 나이 피처 고려사항:

**연속형 값을 범주형 값으로 변환을 고려(구간분할 혹은 이산화, binning)**

나이의 최대값이 80이고, 0세부터 80세까지 잡아서 5개의 빈으로 나누면 80/ 5 = 16개의 빈으로 나뉠수 있다

In [None]:
def get_age_band(age):
    """
    나이를 파라미터로 받아 연령대를 리턴
    """
    age_band = 0
    if age <= float(16):
        age_band = 0
    elif (age > float(16)) & (age <= float(32)):
        age_band = 1
    elif (age > float(32)) & (age <= float(48)):
        age_band = 2
    elif (age > float(48)) & (age <= float(64)):
        age_band = 3
    elif age > float(64):
        age_band = 4
    return age_band

In [None]:
df_train['age_band'] = df_train['Age'].apply(lambda x: get_age_band(x))
display(df_train.tail(2))

In [None]:
# age_band의 빈도표를 DataFrame으로 변환해 보여주기
df_train['age_band'].value_counts().to_frame().style.background_gradient(cmap='summer_r')

In [None]:
sns.factorplot(x='age_band', y='Survived', col='Pclass', data = df_train)
plt.show()

객실등급에 상관없이 나이가 들수록 생존율은 감소

## Family_Size and Alone
Family_Size : 동반 가족수(SibSp + Parch)

Alone : 혼자여부(1 - 혼자, 0 - 동반가족있음)

In [None]:
# Family_Size와 Alone피처 추가 
df_train = feature_engineering(df_train, FamilyOpt=True)

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(20, 8))
sns.factorplot(x='Family_Size', y='Survived', data=df_train, ax=ax[0])
ax[0].set_title("Family_Size v.s Survived")

sns.factorplot(x='Alone', y='Survived', data=df_train, ax=ax[1])
ax[1].set_title("Alone v.s Survived")
plt.close(2)
plt.close(3)
plt.show()

**Family_Size=0  - 동반가족없이 혼자인 승선객** 
* 가족없이 혼자 승선한 탑승객의 경우는 생존률이 현저하게 떨어짐(Alone값이 1)
* Family_Size가 4인 이상인 경우도 생존률이 감소함(예측모델을 생성시에 중요한 피처로 작용할 것으로 판단됨)

In [None]:
sns.factorplot(x='Alone', y='Survived', data = df_train, col='Pclass', hue='Sex')
plt.show()

보는바와 같이 동반 가족이 없는 나홀로 승객의 생존률은 객실등급과는 상관없이 낮은것을 알수 있다.반면에 객실등급이 3등급의 경우는 , 나홀로 탑승객일지라도 여자의 경우는 생존율이 높다.

## Fare_Range(요금 영역대 분류)

요금 피처는 연속형 피처이므로 , ML에서 사용하기 위해서는 순서형 데이터로 변환해야 한다(이산화를 위한 분위수)

이를 위해서는 우리는 판다스에서 제공하는 **pandas.qcut**을 사용하려고 한다.

[pandas.qcut 참조](https://pandas.pydata.org/docs/reference/api/pandas.qcut.html?highlight=qcut#pandas.qcut)

In [None]:
qcut = pd.qcut(range(5), 4)
display(len(qcut), qcut)

pd.qcut(range(5), 3, labels=["good", "medium", "bad"])

In [None]:
# 요금대의 4개의 빈으로 균등하게 나눈다
df_train['Fare_Range'] = pd.qcut(df_train['Fare'], 4) 

df_train['Fare_Range'].value_counts()

In [None]:
# 요금이 고액으로 올라갈수록 생존율이 높아짐을 보임
# 중요피처로 추가하는것이 중요
df_train['Fare_Range'] = pd.qcut(df_train['Fare'], 4)
df_train.groupby('Fare_Range')['Survived'].mean().to_frame().style.background_gradient(cmap="summer_r")

요금대(Fare-Range)가 고액으로 올라갈수록 생존률도 높아짐을 알수있다. 예측 모델에 중요 피처로 넣어야 함을 알수있다.

Age_band 피처와 마찬가지로 피처엔지니어링 필요

In [None]:
def get_fare_cate(fare):
    """
    categorized Fare feature into Fare band
    """
    fare_cat = 0
    if fare <= 7.91:
        fare_cat = 0
    elif (fare > 7.91) & (fare <= 14.454):
        fare_cat = 1
    elif (fare > 14.454) & (fare <= 31.0):
        fare_cat = 2
    elif (fare > 31) & (fare <= 513):
        fare_cat = 3
    return fare_cat

In [None]:
df_train['fare_cat'] = df_train['Fare'].apply(lambda x: get_fare_cate(x))

In [None]:
sns.factorplot(x='fare_cat', y='Survived', hue='Sex', data = df_train)
plt.show()

In [None]:
sns.factorplot(x='fare_cat', y='Survived', hue='Sex', col='Pclass', data = df_train)
plt.show()

성별(Sex)피처와 함께 요금대(Fare band)피처도 생존률을 예측하는데 중요피처로 고려해야 함을 보여줌

## 문자열 피처를 숫자형으로 변환

* ML모델에 문자형을 학습시킬수 없기 때문에 문자형 데이터타입을 숫자형으로 바꾸어야 한다.
* 판다스에서 제공하는 pandas.get_dummies API도 있으나 피처늘어나기 때문에 여기서는 값을 대치하는방법 사용


In [None]:
df_train = feature_engineering(df_train, StringOpt=True)

### 불필요한 피처 삭제 

**Name**--> Name피처를 통해 Initial피처 도출했으므로 Name피처의 역할은 다했다.

**Age**--> Age_band피처를 도출했으므로 역할은 다했음

**Ticket**--> 불필요함

**Fare**--> Fare_cat피처를 도출했으므로 역할을 다 했음

**Cabin**--> 널값이 많으므로 무의미한 피처로 삭제

**Fare_Range**--> Fare_cate피처가 있으므로 불필요

**PassengerId**--> 의미없는 일련번호의 성격이므로 삭제

In [None]:
dropCols = ['Name','Age','Ticket','Fare','Cabin','Fare_Range','PassengerId']
df_train = feature_engineering(df_train, dropCols, FeatureDrop=True)

In [None]:
sns.heatmap(df_train.corr(), annot=True, cmap='RdYlGn', linewidths=0.2, annot_kws={'size':20})
fig = plt.gcf()
fig.set_size_inches(18, 15)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.show()

위의 상관관계를 보면 **SibSp와 Family_Size** 그리고 **Parch와 Family_Size**는 강력한 양의 상관계를 갖고 **Alone과 Family_Size**음의 상관관계를 갖는다.

# Part3: 예측 모델링

예측해보고자 하는 ML모델:

1)Logistic Regression

2)Support Vector Machines(Linear and radial)

3)Random Forest

4)K-Nearest Neighbours

5)Naive Bayes

6)Decision Tree

7)Logistic Regression

* Importing all the required packages

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn import svm
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB  # Naive bayes
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
#정확도 평가 및 오차행렬
from sklearn.metrics import accuracy_score, confusion_matrix  

In [None]:
X = df_train.iloc[:,1:]
y = df_train.iloc[:, 0]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0, stratify=df_train['Survived'])

display(X_train.shape)
display(X_test.shape)
display(y_train.shape)
display(y_test.shape)

In [None]:
def split_train_test_dataset(df):
    """
    데이터프레임을 학습용, 테스트용 데이터셋으로 분리 
    """
    X = df.iloc[:, 1:]  # 피처 
    y = df.iloc[:, 0]    # 레이블
    
    X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size = .3, random_state = 0, stratify=df['Survived'])
    display(X_train.shape)
    display(X_test.shape)
    display(y_train.shape)
    display(y_test.shape)
    
    return X_train, X_test, y_train, y_test, X, y

# 학습, 테스트 데이터셋 분리
X_train, X_test, y_train, y_test, X, y  = split_train_test_dataset(df_train)

In [None]:
models = []
def fit_predict_model(models: list):
    """
    모델을 입력받아 학습 및 테스트 데이터셋을 인자를 학습, 예측, 평가 
    """
    accuracy_scores = dict()
    for model in models:
        model.fit(X_train, y_train)
        prediction = model.predict(X_test)
        accuracy_point = accuracy_score(prediction, y_test)
        print("Accuracy for {} is {}".format(model.__class__.__name__, accuracy_point))
        accuracy_scores[model] = accuracy_point
    return accuracy_scores

### Radial Support Vector Machines(rbf-SVM)

In [None]:
SVM = svm.SVC(C = 1.0,kernel='rbf', gamma=0.1)

### Linear Support Vector Machine(linear-SVM)

In [None]:
linearSVM = svm.SVC(kernel='linear', C=0.1, gamma=0.1)

### Logistic Regression - 로지스틱회귀

In [None]:
lr = LogisticRegression()

### Decision Tree - 의사결정트리

In [None]:
dt_clf = DecisionTreeClassifier()

### K-Nearest Neighbours(KNN) - K최근접이웃 기법

In [None]:
KNN = KNeighborsClassifier()

Now the accuracy for the KNN model changes as we change the values for **n_neighbours** attribute. The default value is **5**. Lets check the accuracies over various values of n_neighbours.

In [None]:
# 각 ML모델 학습 , 예측 및 평가 수행 
models = [KNN, dt_clf, lr, linearSVM, SVM]
accuracy_socres = fit_predict_model(models)

* K최근접이웃기법 : n_neighbors갯수를 늘리면서 수행

In [None]:
a_index = list(range(1, 11))
scores = pd.Series()

x = [0,1,2,3,4,5,6,7,8,9,10]

for i in list(range(1, 11)):
    model = KNeighborsClassifier(n_neighbors=i, n_jobs = -1)
    model.fit(X_train, y_train)
    prediction = model.predict(X_test)
    scores = scores.append(pd.Series(accuracy_score(prediction, y_test)))
    
plt.plot(a_index, scores)
plt.xlabel("n_neighbors")
plt.ylabel("Accuracy")
plt.xticks(x)
fig = plt.gcf()
fig.set_size_inches(12, 6)
plt.show()

print('Accuracies for different values of n are:',scores.values,'with the max value as ',scores.values.max())

### Gaussian Naive Bayes  v.s Random Forests

In [None]:
models = []

gnb = GaussianNB()
rf = RandomForestClassifier(n_estimators = 100)
models = [gnb, rf]
accuracy_scores = fit_predict_model(models)

Accuracy for GaussianNB is **0.8134328358208955**

Accuracy for RandomForestClassifier is **0.8208955223880597**

### Random Forests

모델의 정확도가 Classifier의 안정성을 결정하는 유일한 결정요인은 아닙니다. 
분류기가 학습데이터로 학습되고 , 테스트 데이터로 검증된 결과, 정확도가 90%된다고 하고 가정해봅시다.


분류기에게는 아주 좋은 정확도처럼 보이지만, 이 모델의 정확도가 모든 테스트 데이터셋에서도 그러한 결과를 나온다는 것은 보장할 수 있을까요?

대답은 "아닙니다." 입니다. 

왜냐하면, 학습 및 테스트 데이터셋이 변경되면 해당 모델의 정확도 또한 변경되기 마련이기 때문입니다.

정확도는 증가할수 도있고, 혹은 감소할 수 도 있습니다.

이런 정확도의 변동을 모델 변동성(model variance)이라고 합니다.

이러한 model variance를 극복하기 위해 이제는 교차검증(cross validation)을 해보도록 하겠습니다.

# 교차검증(Cross Validation)

In [None]:
from sklearn.model_selection import KFold # k-fold crsoss validation
from sklearn.model_selection import cross_val_score # score evaluation
from sklearn.model_selection import cross_val_predict # prediction
from sklearn.linear_model import Lasso
from sklearn.datasets import load_diabetes
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
import numpy as np

* crosss vlaidation example

In [None]:
diabetes = load_diabetes()

X_data = diabetes.data[:150]
y_data = diabetes.target[:150]

lasso = Lasso()
cross_val_score(lasso, X_data, y_data)

In [None]:
def get_validation_score(models, X_train, y_train, n_splits= None):
    """
    models - estimator
    n_splits - 폴드를 나뉠 갯수 
    """
    kfold = KFold(n_splits = n_splits, shuffle=False, random_state=22)    
    xyz = []
    accuracy = []
    std = []
    classifiers = ['Linear SVM', 'Radial SVM', 'Logistic Regression', 'KNeighborsClassifier', 'DecisionTreeClassifier', 'GaussianNB', 'RandomForest']
    for i in models:
        model = i
        cv_result = cross_val_score(model, X, y, scoring='accuracy', cv = kfold, n_jobs = -1, verbose=True)
        cv_result = cv_result
        
        xyz.append(cv_result.mean())
        std.append(cv_result.std())
        accuracy.append(cv_result)
    model_df = pd.DataFrame(data= {'CV Mean': xyz, 'Std': std}, index = classifiers)
    return model_df, classifiers, accuracy

In [None]:
# 수행
Linear_SVM = svm.SVC(kernel='linear')
Radial_SVM = svm.SVC(kernel='rbf')
lr_clf = LogisticRegression()
knn_clf = KNeighborsClassifier(n_neighbors=9)
dt_clf = DecisionTreeClassifier()
gaussianNB = GaussianNB()
rf_clf = RandomForestClassifier(n_estimators = 100)   
models = [Linear_SVM, Radial_SVM, lr_clf, knn_clf, dt_clf, gaussianNB, rf_clf]

model_dataframe, classifiers, accuracy = get_validation_score(models, X, y, 10)

In [None]:
model_dataframe

In [None]:
plt.subplots(figsize=(12, 6))
box = pd.DataFrame(accuracy, index=classifiers)
display(box)

box.T.boxplot(rot=90) # transpose()행렬로 변환

In [None]:
model_dataframe['CV Mean'].plot.barh()
plt.title("Average CV Mean Accuracy")
fig = plt.gcf()
fig.set_size_inches(8, 5)
plt.show()

결정분류기의 정확도는 데이터의 불균형때문에 잘못된 해석이 될수도있다. 

정확도가 가지는 이러한 한계점을 극복하기 위해 여러가진 분류지표가 있는데 ,오차행렬을 이용해 어느 모델이 잘못 예측하고 있는지 확인해 보겠습니다.

## 오차행렬(Confusion Matrix)

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import Lasso
from sklearn.model_selection import cross_val_predict


diabets = load_diabetes()

X_data = diabetes.data[:150]
y_data = diabetes.target[:150]

lasso = Lasso()

# 리턴값은 prediction값을 ndarray로 리턴
prediction = cross_val_predict(lasso, X_data, y_data)
display(prediction, prediction.shape)

In [None]:
help(cross_val_predict)

In [None]:
def gt_clf_eval(clf, y, y_pred):
    """
    각 모델의 평가지표(Accuracy - 정확도, Precision - 정밀도, Recall - 재현율)
    """
    accuracy = accuracy_score(y, y_pred)
    precision = precision_score(y, y_pred)
    recall = recall_score(y, y_pred)
    return np.round(accuracy,3), np.round(precision,3), np.round(recall,3)

In [None]:
rbf_SVM = svm.SVC(kernel='rbf')
linear_SVM  = svm.SVC(kernel='linear')
knn_clf = KNeighborsClassifier(n_neighbors = 9)
rf_clf  = RandomForestClassifier(n_estimators=100)
lr_clf =  LogisticRegression()
dt_clf = DecisionTreeClassifier()
gaussianNB = GaussianNB()

models = [rbf_SVM, linear_SVM, knn_clf, rf_clf, lr_clf, dt_clf, gaussianNB]

classifiers = ['Radius SVM', 'Linear-SVM', 'KNN', 'Random-Forests', 'Logistic Regression', 'Decision Tree', 'Naive Bayes']

def visualize_confusion_matrix(models, classifiers):
    """
    모델에 대한 교차검증을 통해 예측치에 대한 오차행렬표 디스플레이하고 , 
    평가지표를 리턴함
    """    
    fig, ax = plt.subplots(nrows=3, ncols=3, figsize=(12, 10))
    evaluation_result = dict()
    
    for i in list(range(3)):
        for j in list(range(3)):
            title = None
            if (i==0) & (j ==0):
                y_pred = cross_val_predict(models[0], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i,j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[0])
                ax[i][j].set_title(title)
                accuracy, precision, recall = gt_clf_eval(classifiers[0], y, y_pred)
                evaluation_result[classifiers[0]] = [accuracy, precision, recall]
            elif (i==0)& (j ==1):
                y_pred = cross_val_predict(models[1], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i,j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[1])
                ax[i][j].set_title(title)
                accuracy, precision, recall = gt_clf_eval(classifiers[1], y, y_pred)
                evaluation_result[classifiers[1]] = [accuracy, precision, recall]
            elif (i==0) & (j ==2):
                y_pred = cross_val_predict(models[2], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i,j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[2])
                accuracy, precision, recall = gt_clf_eval(classifiers[2], y, y_pred)
                evaluation_result[classifiers[2]] = [accuracy, precision, recall]
                ax[i,j].set_title(title)
            elif (i == 1) & (j==0):
                y_pred = cross_val_predict(models[3], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i,j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[3])
                ax[i,j].set_title(title)
                accuracy, precision, recall = gt_clf_eval(classifiers[3], y, y_pred)
                evaluation_result[classifiers[3]] = [accuracy, precision, recall]
            elif (i == 1) & (j==1):
                y_pred = cross_val_predict(models[4], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i,j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[4])
                accuracy, precision, recall = gt_clf_eval(classifiers[4], y, y_pred)
                evaluation_result[classifiers[4]] = [accuracy, precision, recall]
                ax[i,j].set_title(title)
            elif (i == 1) & (j==2):
                y_pred = cross_val_predict(models[5], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i][j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[5])
                accuracy, precision, recall = gt_clf_eval(classifiers[5], y, y_pred)
                evaluation_result[classifiers[5]] = [accuracy, precision, recall]
                ax[i,j].set_title(title)
            elif (i == 2) & (j==0):
                y_pred = cross_val_predict(models[6], X, y, cv=10)
                sns.heatmap(confusion_matrix(y, y_pred), ax = ax[i,j], annot=True, fmt='2.0f')
                title = 'Matrix for {}'.format(classifiers[6])
                accuracy, precision, recall = gt_clf_eval(classifiers[6], y, y_pred)
                evaluation_result[classifiers[6]] = [accuracy, precision, recall]
                ax[i,j].set_title(title)
            else:
                pass

    plt.tight_layout()
    plt.subplots_adjust(hspace=0.4, wspace=0.4)
    plt.show()      
    
    return evaluation_result
    
# 오차행렬
evaluation_result = visualize_confusion_matrix(models, classifiers)

In [None]:
for k, v in evaluation_result.items():
    print("{0} model's accuracy score {1:.3f} , precision score {2:.3f}, recall socre {3:.3f}".format(k, v[0], v[1], v[2]))

### 오차행렬 해석

첫번째 rbf-SVM을 가지고 계산:

1)Accuracy :  **(491(for dead) + 247(for survived))  / 891 = 82.8%

2) Precision : **247(for Survived) / (58 : 사망자를 생존자로 예측  + 247 : 생존자를 생존자로 예측) = 81%**

2)**Errors**-->  58명(사망자를 생존자로 예측), 95명(생존자를 사망자로 예측)

가장 높은 예측 성능을 보이는 것은 rbf-SVM이다. 나이브베이즈 방법은 재현률이 rbf-SVM에 비해 좋다.(생존자를 정확하게 예측하는 확률)

### 하이퍼 파라미터 튜닝

머신머닝 모델은 블랙박스와 유사합니다. 이 블랙박스를 위한 기본값 파라미터가 있는데, 이 파라미터를 변경을 통해 좀 더 성능이 좋은 모델을 도출할 수 있습니다.

SVM모델에서 C 파라미터, gamma파라미터가 대표적이며, 분류기에 따라서 저마다의 하이퍼 파라미터가 존재합니다.

이번엔 이러한 값들을 변경해봄으로써 모델 성능을 향상시키는 방법을 고찰해보고자 합니다.

#### SVM

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
C = [0.05,0.1,0.2,0.3,0.25,0.4,0.5,0.6,0.7,0.8,0.9,1]
gamma = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]
hyper = {'kernel': ['rbf', 'linear'], 'C': C, 'gamma': gamma}

svm = SVC()
models = [svm]
def hyper_parameter_tune(models, hyper: dict):
    """
    GridSearchCV를 이용한 하이퍼 파라미터 튜닝
    """
    for model in models:
        gd = GridSearchCV(estimator= model, param_grid=hyper, verbose=True)
        gd.fit(X, y)
        print("Best parameter :", gd.best_params_) 
        print("Best Score : ", gd.best_score_)
        print("Best Estimator ", gd.best_estimator_)

In [None]:
# 그리드 서치 수행
hyper_parameter_tune(models, hyper)

**결과**

Best parameter : {'C': 0.5, 'gamma': 0.1, 'kernel': 'rbf'}

Best Score :  0.828282828283

Best Estimator  SVC(C=0.5, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.1, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

#### Random Forests

In [None]:
n_estimators = list(range(100,1000,100))
hyper = {'n_estimators': n_estimators}
rf_clf = RandomForestClassifier(n_estimators=hyper, random_state=0, verbose=True)

models = [rf_clf]
hyper_parameter_tune(models, hyper)

* 수행결과

Best parameter : {'n_estimators': 900}

Best Score :  0.817059483726

Best Estimator  RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=900, n_jobs=1,
            oob_score=False, random_state=0, verbose=True,
            warm_start=False)

# Ensembling

앙상블이 ML모델의 성능 혹은 정확도를 높이기 위한 좋은 방법이다. 

단순히 표현하면, 하나의 예측 성능이 좋은 모델을 만들기 위해 다양한 분류기의 조합을 이용하는 것이다.

예를 든다면, 하나의 제품을 출시하기에 앞어 해당 제품을 구해할 의향이 있는 다양한 분야의 사람들에게 미리 준비된 다양한 인자들을 바탕으로 의견을 구하고 , 이 의견을 취합에 제품 출시시 반영한다. 

그렇다면 해당 제품은 더욱 안정성, 품질을 보장하는 되는 것이다. 

앙상블 기법도 이와 동일하다고 볼 수 있다.

1)Voting Classifier

2)Bagging

3)Boosting.

In [None]:
def get_ensemble_score(estimator):
    """
    앙상블로 결정된 분류기를 인자로 받아 학습데이터와 레이블 데이터로 학습 후 
    주어진 테스트데이터에 대한 평균 정확도를 리턴
    피처데이터와 레이블 기반으로 교차검증 점수 계산    
    """
    name = estimator.__class__.__name__
    estimator.fit(X_train, y_train)
    
    if name =="VotingClassifier":
        display("Voting Score : ", estimator.score(X_test, y_test))
    elif name=="BaggingClassifier":
        prediction = estimator.predict(X_test)
        print("The accuracy for {0} is {1:.3f}".format(name, accuracy_score(prediction, y_test)))
    cross_score= cross_val_score(estimator, X, y, scoring='accuracy', cv = 10, n_jobs=-1, verbose=True)
    display("Cross Validated Score for {0} : {1:.3f}".format(name, cross_score.mean()))

## Voting Classifier

여러개의 결정분류기(서로 다른 알고리즘을 가진 모델)가 예측한 결과치를 바탕으로 평균값을 도출하는 방법

In [None]:
from sklearn.ensemble import VotingClassifier
from sklearn.svm import SVC

knn = KNeighborsClassifier(n_neighbors = 10)
rbf = SVC(probability = True, C=0.5, gamma=0.1,kernel='rbf')
lr  = LogisticRegression(C=0.05)
rf = RandomForestClassifier(n_estimators=500, random_state=0)
dt = DecisionTreeClassifier(random_state=0)
nb = GaussianNB()
svm = SVC(kernel='linear', probability=True)

classifiers = [knn, rbf, lr, rf, dt, nb]

# 리스트안에 튜플로 구성해야 하므로 중복된 값이 있으면 안됨.
estimators = [(cls.__class__.__name__, cls)for cls in classifiers]

ensemble_clf = VotingClassifier(estimators = estimators, voting='soft')

get_ensemble_score(ensemble_clf)

## Bagging

유사한 여러개의 분류기가 한 데이터셋을 바탕으로 학습하고하는 데이터셋을 각각 샘플링 비율을 달리하여 샘플링한 데이터셋을 가지고 학습 및 예측하여 예측 결과값의 평균값으로 최종 예측 결과값을 취하는 방법

#### Bagged KNN

모델간의 예측 결과값의 변동성이 큰 경우,배깅이 가장 잘 동작합니다.(결정트리 혹은 RandomForest기법이 한 예임)

An example for this can be Decision Tree or Random Forests. We can use KNN with small value of **n_neighbours**, as small value of n_neighbours.

In [None]:
from sklearn.ensemble import BaggingClassifier
model = BaggingClassifier(base_estimator=KNeighborsClassifier(n_neighbors=3), random_state=0,n_estimators=700)
get_ensemble_score(model)

#### Bagged DecisionTree


In [None]:
model = BaggingClassifier(base_estimator=DecisionTreeClassifier(), random_state=0, n_estimators=100)
get_ensemble_score(model)

## Boosting

부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식

성능은 좋지만, 수행시간이 오래걸린다. 왜냐하면 약한 학습기를 순차적으로 학습하는데 ,데이터를 읽고 데이터에 대해서 잘못 예측한 데이터에 대해서 가중치를 부여하고 그 다음에 다른 학습기가 또 그 데이터를 학습을 진행한다. 

#### AdaBoost(Adaptive Boosting)

AdaBoost의 Default estimator는 DecisionTree이지만, 변경이 가능.

In [None]:
from sklearn.ensemble import AdaBoostClassifier
ada = AdaBoostClassifier(n_estimators=200, random_state=0, learning_rate=0.1)
get_ensemble_score(ada)

#### Stochastic Gradient Boosting

Here too the weak learner is a Decision Tree.

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
grad = GradientBoostingClassifier(n_estimators=500, random_state=0, learning_rate=0.1)

# 수행 
get_ensemble_score(grad)

#### XGBoost

In [None]:
import xgboost as xg

xgboost = xg.XGBClassifier(n_estimaros=900, learnig_rate=0.1)
get_ensemble_score(xgboost)

가장 높은 정확도를 갖는 AdaBoost를 가지고,하이퍼 파라미터 튜닝을 진행

#### Hyper-Parameter Tuning for AdaBoost

In [None]:
n_estimators = list(range(100, 1100, 100))
learn_rate = [0.05, 0.1, 0.2, 0.3, 0.25, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]
hyper = {'n_estimators': n_estimators, 'learning_rate': learn_rate}
models = [AdaBoostClassifier()]
hyper_parameter_tune(models, hyper)

* 결과

**Maximum Accuracy : 0.83164983165**

AdaBoostClassifier(algorithm='SAMME.R', base_estimator=None,learning_rate=0.05, n_estimators=200,random_state=None)

### Confusion Matrix for the Best Model

In [None]:
def show_heatmapAdaBoost(estimator, X, y):
    """
    실제 타겟값과 예측값을 오차행렬로 표시
    """
    result = cross_val_predict(estimator, X, y, cv = 10)
    sns.heatmap(confusion_matrix(y, result), cmap="winter_r", annot=True, fmt='2.0f')
    return result
def main(estimator, X, y):
    """
    레이블 데이터셋과 타겟 데이터셋을 받아 히트맵과 평가지표를 리턴
    """    
    result = show_heatmapAdaBoost(ada, X, y)
    evaluation_result = dict()
    accuracy, precision, recall = gt_clf_eval(ada, y, result)
    evaluation_result['AdaBoost'] = [accuracy, precision, recall]
    
    for k, v in evaluation_result.items():
        print("Evaluation result for {0}, Accuracy : {1:.3f}, Precision : {2:.3f}, Recall : {3:.3f}".format(k, v[0], v[1], v[2]))

In [None]:
ada = AdaBoostClassifier(n_estimators = 200, learning_rate=0.05, random_state=0)
main(ada, X, y)

## Feature Importance

In [None]:
def plot_feature_importance(estimators, X, y):
    """
    분류기를 학습 및 레이블 데이터 학습 후 Feature Importance 시각화 
    """
    fig, ax = plt.subplots(nrows=2, ncols=2, figsize=(15, 12))
    for i in range(2):
        for j in range(2):
            if (i == 0) & (j ==0):
                estimators[0].fit(X, y)
                feature_importance = pd.Series(estimators[0].feature_importances_, X.columns)
                feature_importance = feature_importance.sort_values(ascending=True)
                feature_importance.plot.barh(width=0.8, ax=ax[i, j], cmap=cmaps[np.random.randint(1, 178)])
                ax[i, j].set_title("Feature Importance in {}".format(estimators[0].__class__.__name__))
            elif (i==0) & (j ==1):
                estimators[1].fit(X, y)
                feature_importance = pd.Series(estimators[1].feature_importances_, X.columns)
                feature_importance = feature_importance.sort_values(ascending=True)
                feature_importance.plot.barh(width=0.8, ax=ax[i, j], cmap=cmaps[np.random.randint(1, 178)])
                ax[i, j].set_title("Feature Importance in {}".format(estimators[1].__class__.__name__))
            elif (i==1) & (j ==0):
                estimators[2].fit(X, y)
                feature_importance = pd.Series(estimators[2].feature_importances_, X.columns)
                feature_importance = feature_importance.sort_values(ascending=True)
                feature_importance.plot.barh(width=0.8, ax=ax[i, j], cmap=cmaps[np.random.randint(1, 178)])
                ax[i, j].set_title("Feature Importance in {}".format(estimators[2].__class__.__name__))
            elif (i==1) & (j ==1):
                estimators[3].fit(X, y)
                feature_importance = pd.Series(estimators[3].feature_importances_, X.columns)
                feature_importance = feature_importance.sort_values(ascending=True)
                feature_importance.plot.barh(width=0.8, ax=ax[i, j], cmap=cmaps[np.random.randint(1, 178)])
                ax[i, j].set_title("Feature Importance in {}".format(estimators[3].__class__.__name__))
    plt.show()        

In [None]:
classfiers = ['RandomForest', 'AdaBoost', 'GradientBoost', 'XGB']
rf_clf = RandomForestClassifier(n_estimators=500, random_state=0)
ada_clf = AdaBoostClassifier(n_estimators=200, learning_rate=0.05, random_state=0)
gd_clf = GradientBoostingClassifier(n_estimators=500, learning_rate=0.1, random_state=0)
xgb_clf = xg.XGBClassifier(n_estimators=900, learning_rate=0.1, random_state=0)
estimators = [rf_clf, ada_clf, gd_clf, xgb_clf]

plot_feature_importance(estimators, X, y)

We can see the important features for various classifiers like RandomForests, AdaBoost,etc.
우리는 랜덤포레스트,AdaBoost와 같은 다양한 분류기에 대한 중요 피처들을 알 수 있다.

#### Observations:

1)가장 중요한 피처 -  Initial,Fare_cat,Pclass,Family_Size순.

2)성별 피처는 더 이상 중요해보이지가 않습니다. Sex와 Pclass조합해본 것을 보면 확실히 구별되는 피처의 조합으로 보입니다.

성별은 RandomForest에서는 중요한 피처로 간주됩니다.

하지만, Initial피처가 많은 분류기에서 맨 상단에 위치함을 볼 수 있습니다.

히트맵에서 본것 처럼 Sex와 Initial은 양의 상관관계를 갖고있습니다. 

그래서 우리는 이 두 피처를 Sex로 간주해도 무방하지 않을까요?

3)유사하게 Pclass와 Fare_cat도 승객의 상태와 관련되어 있고, Alone, Parch 그리고 SibSp는 Family_Size와 연관되어 있습니다.

1) For R:[Divide and Conquer by Oscar Takeshita](https://www.kaggle.com/pliptor/divide-and-conquer-0-82297/notebook)

2)For Python:[Pytanic by Heads and Tails](https://www.kaggle.com/headsortails/pytanic)

3)For Python:[Introduction to Ensembling/Stacking by Anisotropic](https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python)