# Titanic_GBC

## Import the libraries

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Uploading data

In [None]:
# 讀取資料
train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

# 查看資料大小
print('train data :', train.shape)
print('test data :', test.shape)

# 將訓練和測試資料合併為一個資料
full=train.append(test, ignore_index=True)
print('full :', full.shape)
full.tail()

## Exploratory Data Analysis (EDA) & Feature Engineering

#### 查看資料

In [None]:
full.head()

In [None]:
train.describe()

## EDA and Feature Engineering

#### 繪製 Pclass(艙位)  與 Survived(生存率)的關係

In [None]:
# 查看'艙位'與'生存率'的關係。
# Survived : 0 = No, 1 = Yes
# Pclass : 1 = 1st, 2 = 2nd, 3 = 3rd
sns.barplot(data=train, x='Pclass', y='Survived')

# 計算不同'艙位'，其乘客'生存率'。
# 一等艙的存活率最高。
print('艙位為"1"，其乘客生存率為%.2f' %train['Survived'][train['Pclass']==1].value_counts(normalize=True)[1])
print('艙位為"2"，其乘客生存率為%.2f' %train['Survived'][train['Pclass']==2].value_counts(normalize=True)[1])
print('艙位為"3"，其乘客生存率為%.2f' %train['Survived'][train['Pclass']==3].value_counts(normalize=True)[1])

#### 繪製 Sex(性別) 與 Survived(生存率)的關係

In [None]:
# 查看'性別'與'生存率'的關係。
sns.barplot(data=train, x='Sex', y='Survived')

# 計算不同'性別'，其乘客'生存率'。
# Survived : 0 = No, 1 = Yes
# 女性存活率最高。
print('性別為"male"，其乘客生存率為%.2f' %train['Survived'][train['Sex']=='male'].value_counts(normalize=True)[1])
print('性別為"female"，其乘客生存率為%.2f' %train['Survived'][train['Sex']=='female'].value_counts(normalize=True)[1])

#### 繪製 SibSp(兄弟姐妹/配偶人數) 與 Survived(生存率)的關係

In [None]:
# 查看'兄弟姐妹/配偶人數'與'生存率'的關係。
# 兄弟姐妹/配偶人數少的人生存率較高。
sns.barplot(data=train, x='SibSp', y='Survived')

#### 繪製 Parch(父母/小孩人數) 與 Survived(生存率)的關係

In [None]:
# 查看'父母/小孩人數'與'生存率'的關係。
# 父母/小孩人數'少的人生存率較高。
sns.barplot(data=train, x='Parch', y='Survived')

#### 繪製 Embarked(登船地) 與 Survived(生存率)的關係

In [None]:
# 查看'登船地'與'生存率'的關係。
sns.barplot(data=train , x='Embarked', y='Survived')

# 計算不同'登船地'，其乘客'生存率'。
# Survived : 0 = No, 1 = Yes
# Embarked : C = Cherbourg, Q = Queenstown, S = Southampton
# 登船地C的生存率最高。
print('登船地為"S"，其乘客生存率為%.2f' %train['Survived'][train['Embarked']=='S'].value_counts(normalize=True)[1])
print('登船地為"C"，其乘客生存率為%.2f' %train['Survived'][train['Embarked']=='C'].value_counts(normalize=True)[1])
print('登船地為"Q"，其乘客生存率為%.2f' %train['Survived'][train['Embarked']=='Q'].value_counts(normalize=True)[1])

In [None]:
# 查看'機票艙位'與'登船地'的關係。
# 買一等艙的人較少
# sns.factorplot('Pclass', col='Embarked', data=train ,kind='count', size=3)

#### 確認 full data 哪些資料有空白值

In [None]:
# 確認還有哪些資料有空白值
# 確認 Survived 有 418 個空白值
# 確認 Age 有 263 個空白值
# 確認 Fare 有 1 個空白值
# 確認 Cabin 有 1014 個空白值
# 確認 Embarked 有 2 個空白值
full.isnull().sum()

#### 填補 Embarked(登船地) 的空白資料

In [None]:
# 填補 Embarked 資料
# 查看 full 資料集裡的 Embarked 資料，確認 'S' 為最多筆。
print(full['Embarked'].value_counts())
# 將 full 資料集裡 Embarked 為空白值的資料填補為 'S' 。
full['Embarked']=full['Embarked'].fillna('S')

#### 填補 Fare(票價) 的空白資料

In [None]:
# 填補 Fare 的空白資料
# Pclass 為 1 和 Embarked 為 'S' 跟票價相關性高。
''' 將 full 資料集裡 Pclass 為 1 且 Embarked 為 'S' 的 Fare 的資料的平均值，
填補到 full 資料集裡 Fare 為空白值的資料。'''
full['Fare']=full['Fare'].fillna(full[(full['Pclass']==1)&(full['Embarked']=='S')]['Fare'].mean())

In [None]:
# Fare(票價) 與 Survived(生存率) 的關係
# train : 讀取 train 資料
# hue : 配合 add_legend() 使用，標題設為'Survived'
# aspect : 調整 X 軸的大小
ageFacet = sns.FacetGrid(train, hue='Survived', aspect=3)
# 增加使用 sns.kdeplot 
# 'Fare' : 指定 x 軸上的位置的變量。
# shade : 將圖型填補顏色
ageFacet.map(sns.kdeplot, 'Fare', shade=True)
# 添加圖示說明
ageFacet.add_legend()
# 設定X軸範圍為0歲到150
ageFacet.set(xlim=(0,150))

#### 確認 full data 哪些資料有空白值

In [None]:
# 查看哪些資料是空白值
# 確認 Survived 有 418 個空白值
# 確認 Age 有 263 個空白值
# 確認 Cabin 有 1014 個空白值
full.isnull().sum()

#### 新增 Title 欄位，將相同姓氏做資料合併

In [None]:
# 整理姓名
full['Title']=full['Name'].map(lambda x:x.split(',')[1].split('.')[0].strip())
# 查看 Title 做分類且計算數量
full['Title'].value_counts()

In [None]:
# 為姓氏的關係做標記
TitleDict={}
TitleDict['Mr']='Mr'
TitleDict['Mlle']='Miss'
TitleDict['Miss']='Miss'
TitleDict['Master']='Master'
TitleDict['Jonkheer']='Master'
TitleDict['Mme']='Mrs'
TitleDict['Ms']='Mrs'
TitleDict['Mrs']='Mrs'
TitleDict['Don']='Royalty'
TitleDict['Sir']='Royalty'
TitleDict['the Countess']='Royalty'
TitleDict['Dona']='Royalty'
TitleDict['Lady']='Royalty'
TitleDict['Capt']='Officer'
TitleDict['Col']='Officer'
TitleDict['Major']='Officer'
TitleDict['Dr']='Officer'
TitleDict['Rev']='Officer'

# TDict = [(['Mr'], 'Mr'), 
#           (['Mlle', 'Miss'], 'Miss'),
#           (['Master', 'Jonkheer'], 'Master'),
#           (['Mme', 'Ms', 'Mrs'], 'Mrs'),
#           (['Don', 'the Countess', 'Dona', 'Lady'], 'Royalty'),
#           (['Capt', 'Col', 'Major', 'Dr', 'Rev'], 'Officer')
#           ]
# TitleDict = {
#     new_key: new_val
#     for keys, new_val in TDict
#     for new_key in keys
#     }

# 新增 title 欄位，將相同姓氏做資料合併
full['Title']=full['Title'].map(TitleDict)
# 計算 Title 做分類且計算數量
full['Title'].value_counts()

In [None]:
### 確認 full data 的資料，是否有新增 Title 欄位
full.head()

In [None]:
### 繪製Title(姓氏) 與 Survived(生存率)的關係
sns.barplot(data=full, x='Title', y='Survived')

#### 新增 familyNum 欄位，將家族成員生存率接近的資料分類，且數值化表示

In [None]:
### 新增 familyNum 欄位，將 Parch(父母/小孩人數) 和 SibSp(兄弟姐妹/配偶人數) 做資料合併
full['familyNum']=full['Parch']+full['SibSp']+1

In [None]:
### 繪製 familyNum 與 Survived(生存率)的關係
sns.barplot(data=full, x='familyNum', y='Survived')

In [None]:
# 定義 function 名稱為 familysize，
# 將存活率接近的 familyNum 資料做分類，且數值化表示
def familysize(familyNum):
    # 家族成員 1,7 生存率接近分為同一類，且數值化表示
    if (familyNum==1) | (familyNum==7):
        return 0
    
    # 家族成員 2,3,4 生存率接近分為同一類，且數值化表示
    elif (familyNum>=2) & (familyNum<=4):
        return 1
    
    # 家族成員 5,6 生存率接近分為同一類，且數值化表示
    else:
        return 2

# 新增 familyNum 欄位，將家族成員生存率接近的資料分類，且數值化表示
full['familySize']=full['familyNum'].map(familysize)
# 查看 familySize 做分類且計算數量
full['familySize'].value_counts()

In [None]:
# 繪製 familySize 與 Survived(生存率)的關係
sns.barplot(data=full, x='familySize', y='Survived')

#### 新增 TicketGroup 欄位，將TickCot存活率接近的資料分類，且數值化表示

In [None]:
# 查看Ticket(票號)做分類且計算數量
full['Ticket'].value_counts()

In [None]:
# 宣告名為 TicketCountDict 的字典變數
TicketCountDict={}
# 將 Ticket(票號) 資料分類且計算數量，給值到 TicketCountDict 變數裡
TicketCountDict=full['Ticket'].value_counts()
# 查看 TicketCountDict 資料
TicketCountDict

In [None]:
# 在 full 資料集新增欄位 TickCot ，
# 將 Ticket 資料做分類且計算數量，給值到新欄位 TickCot 
full['TickCot']=full['Ticket'].map(TicketCountDict)
# 查看 TickCot 資料
full['TickCot']

In [None]:
# 繪製 TickCot 與 Survived(生存率)的關係
sns.barplot(data=full, x='TickCot', y='Survived')

In [None]:
# 定義 function 名稱為 TicketCountGroup，
# 將存活率接近的 TickCot 資料做分類，且數值化表示
def TicketCountGroup(TickCot):

    # 將存活率接近的 2,3,4 資料做分類，且數值化表示
    if (TickCot>=2) & (TickCot<=4):
        return 0
    
    # 將存活率接近的 1,5,8 資料做分類，且數值化表示
    elif(TickCot==1) | (TickCot==5) | (TickCot==8):
        return 1
    
    # 將存活率接近的 6,7,11 資料做分類，且數值化表示
    else:
        return 2

# 新增 TicketGroup 欄位，將TickCot存活率接近的資料分類，且數值化表示
full['TicketGroup']=full['TickCot'].map(TicketCountGroup)
# 查看 TicketGroup 做分類且計算數量
full['TicketGroup'].value_counts()

In [None]:
# 繪製 TicketGroup 與 Survived(生存率)的關係
sns.barplot(data=full, x='TicketGroup', y='Survived')

#### 建立模型，填補 Age(年齡) 空白資料

In [None]:
### 確認 full data 的資料，是否有新增 TicketGroup 欄位
full.head()

In [None]:
# 繪製 Age(年齡) 與 Survived(生存率) 的關係
# train : 讀取 train 資料
# hue : 配合 add_legend() 使用，標題設為'Survived'
# aspect : 調整 X 軸的大小
ageFacet = sns.FacetGrid(train, hue='Survived', aspect=3)
# 增加使用 sns.kdeplot 
# Fare : 指定 x 軸上的位置的變量。
# shade : 將圖型填補顏色
ageFacet.map(sns.kdeplot,'Age', shade=True)
# 添加圖示說明
ageFacet.add_legend()
# 設定X軸範圍為0歲到最大的年齡
ageFacet.set(xlim=(0,train['Age'].max()))

In [None]:
''' 新增變數 AgePre ，將 full 裡面的 'Age','Pclass','Title','TickCot',
    'familyNum','Parch','SibSp' 資料給變數 AgePre'''
AgePre =full[['Age','Pclass','Title','TickCot','familyNum','Parch','SibSp']]
# one-hot encoding
# 將類別變量轉換為標籤變量，不會受到級別影響
AgePre=pd.get_dummies(AgePre)
# 新增變數 AgeCorrDf 設為 DataFrame 的二維資料結構
AgeCorrDf=pd.DataFrame()
# 計算 AgePre 的相關係數求取
AgeCorrDf=AgePre.corr()
# 查看 Age 欄位的相關係數求取
# 取值接近-1，表示反相關，類似反比例函數，取值接近1，表正相關
AgeCorrDf['Age'].sort_values()

In [None]:
# one-hot encoding
# 將類別變量轉換為標籤變量
ParAge=pd.get_dummies(AgePre['Parch'],prefix='Parch')
SibAge=pd.get_dummies(AgePre['SibSp'],prefix='SibSp')
PclAge=pd.get_dummies(AgePre['Pclass'],prefix='Pclass')

# 將資料 AgePre,ParAge,SibAge,PclAge 作合併
AgePre=pd.concat([AgePre,ParAge,SibAge,PclAge],axis=1)

# 查看 AgePre 資料前5筆資料內容
AgePre.head()

In [None]:
# 拆分資料
# 將 age 為有值的資料集，全部取出
AgeKnown=AgePre[AgePre['Age'].notnull()]

# 生成Features和Label
AgeKnown_X=AgeKnown.drop(['Age'],axis=1) # Features
AgeKnown_y=AgeKnown['Age'] # Label

# 利用RF建模型
from sklearn.ensemble import RandomForestRegressor
# random_state : 不設定控製樣本自舉的隨機性
# n_estimators : 森林中的樹木數量設為500。
# n_jobs : 要並行運行的作業數。-1 表示使用所有處理器。
rfr=RandomForestRegressor(random_state=None,n_estimators=500,n_jobs=-1)
# 訓練資料
rfr.fit(AgeKnown_X,AgeKnown_y)

In [None]:
#score Age 預測模型
rfr.score(AgeKnown_X,AgeKnown_y)

In [None]:
# 將 age 為 null 的資料集，全部取出
AgeUnKnown=AgePre[AgePre['Age'].isnull()]
# 製作生成Prediction資料的features
AgeUnKnown_X=AgeUnKnown.drop(['Age'],axis=1)

# 預測 Age
AgeUnKnown_y=rfr.predict(AgeUnKnown_X)
# 將預測 Age 寫入原 Dataframe
full.loc[full['Age'].isnull(),['Age']]=AgeUnKnown_y
# 查看 full 資料集資訊
full.info()

In [None]:
# 查看 full 資料有哪些欄位名稱
full.head()

#### 姓氏為'男性' 跟 姓氏為'女性及兒童' 分別做資料修正

In [None]:
# 切出姓氏
# 在 full 資料集裡，新增欄位'Surname'，
# 並選擇 full 資料集裡欄位為 'Name' 的資料，將資料給欄位'Surname'
full['Surname']=full['Name'].map(lambda x:x.split(',')[0].strip())

# 創建名稱為 SurNameDict 的字典變數
SurNameDict={}
# 將 full 資料集的 'Surname' 欄位做分類計算數量，並給值到 SurNameDict
SurNameDict=full['Surname'].value_counts()
# 在 full 資料集裡，新增欄位'SurnameNum'，
# 並選擇 full 資料集裡欄位為 'Surname' 的資料，
# 將資料給欄位'SurnameNum'
full['SurnameNum']=full['Surname'].map(SurNameDict)

# MaleDf 為 '家庭成員大於等於2' 且 '年齡大於12歲' 的男性
MaleDf=full[(full['Sex']=='male')&(full['Age']>12)&(full['familyNum']>=2)]
# FemChildDf 為 '家庭成員大於等於2' 而且 '為女性 或 年齡小於等於12歲' 的人
FemChildDf=full[((full['Sex']=='female')|(full['Age']<=12))&(full['familyNum']>=2)]

In [None]:
# 分析男性
MSurNamDf=MaleDf['Survived'].groupby(MaleDf['Surname']).mean()
# 計算生存率總數
print(MSurNamDf.value_counts())

In [None]:
# 取出生存率為1的姓氏
# 1 為生存下來的
MSurNamDict={}
MSurNamDict=MSurNamDf[MSurNamDf.values==1].index
MSurNamDict

In [None]:
# 分析女性及兒童同组效應
FCSurNamDf=FemChildDf['Survived'].groupby(FemChildDf['Surname']).mean()
# 計算生存率總數
FCSurNamDf.value_counts()

In [None]:
# 取出生存率為0的姓氏
# 0 為不會生存下來的
FCSurNamDict={}
FCSurNamDict=FCSurNamDf[FCSurNamDf.values==0].index
FCSurNamDict

In [None]:
#對資料集中的這些姓氏的男性資料進行修正：1、性别改為女；2、Age改為5。
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(MSurNamDict))&(full['Sex']=='male'),'Sex']='female'
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(MSurNamDict))&(full['Sex']=='male'),'Age']=5

#對資料集中的這些姓氏的女性及兒童資料進行修正：1、性别改為男；2、Age改為60。
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(FCSurNamDict))&((full['Sex']=='female')|(full['Age']<=12)),'Sex']='male'
full.loc[(full['Survived'].isnull())&(full['Surname'].isin(FCSurNamDict))&((full['Sex']=='female')|(full['Age']<=12)),'Age']=60

#### 整理訓練資料

In [None]:
# 查看各Feature與Label的相關性
fullSel=full.drop(['Cabin','Name','Ticket','PassengerId','Surname','SurnameNum'],axis=1)
# 新建變數 corrDf
corrDf=pd.DataFrame()
# 計算 AgePre 的相關係數求取
corrDf=fullSel.corr()
# 查看 Survived 欄位的相關係數求取
# 取值接近-1，表示反相關，類似反比例函數，取值接近1，表正相關
corrDf['Survived'].sort_values(ascending=True)

In [None]:
fullSel.info()

In [None]:
# 設定圖片大小為 10 X 10
plt.figure(figsize=(10,10))

# HeatMap 查看Survived與其他Feature間相關性大小
sns.heatmap(fullSel.corr(), # fullSel 資料欄位的相關係數求取
            cmap='BrBG', # 顏色黃到綠
            annot=True, # 顯示在每個單位格內資料的值
            linewidths=1) # 設定分割每個單元格的線的寬度為 1

In [None]:
# 將相關性太高的資料欄位刪除
fullSel=fullSel.drop(['SibSp','Parch','familyNum','TickCot'],axis=1)

# one-hot Encoding
# 將類別變量轉換為標籤變量，不會受到級別影響
fullSel=pd.get_dummies(fullSel)
PclassDf=pd.get_dummies(full['Pclass'],prefix='Pclass')
TickGroupDf=pd.get_dummies(full['TicketGroup'],prefix='TicketGroup')
familySizeDf=pd.get_dummies(full['familySize'],prefix='familySize')

# 將資料 fullSel,PclassDf,TickGroupDf,familySizeDf 作合併
fullSel=pd.concat([fullSel,PclassDf,TickGroupDf,familySizeDf],axis=1)

In [None]:
# 訓練集
experData=fullSel[fullSel['Survived'].notnull()]
# 測試集
preData=fullSel[fullSel['Survived'].isnull()]

# 訓練集 Features
experData_X=experData.drop('Survived',axis=1)
# 訓練集 Label
experData_y=experData['Survived']
# 測試集 Features
preData_X=preData.drop('Survived',axis=1)

#### 訓練資料

In [None]:
#用集成
from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier,ExtraTreesClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold

# n_splits : 設定折叠次数為 10 次
kfold=StratifiedKFold(n_splits=10)

classifiers=[]
classifiers.append(SVC())
classifiers.append(DecisionTreeClassifier())
classifiers.append(RandomForestClassifier())
classifiers.append(ExtraTreesClassifier())
classifiers.append(GradientBoostingClassifier())
classifiers.append(KNeighborsClassifier())
classifiers.append(LogisticRegression())
classifiers.append(LinearDiscriminantAnalysis())

In [None]:
# 進行每個演算法計算
cv_results=[]
for classifier in classifiers:
    cv_results.append(cross_val_score(classifier,experData_X,experData_y,
                                      scoring='accuracy', # 返回正確分類樣本的比例
                                      cv=kfold, # kfold : 設定折叠次数為 10 次
                                      n_jobs=-1)) # n_jobs=-1 : 使用所有處理器執行運算
# cv_results

In [None]:
# 計算每個演算法結果的平均值、標準差
cv_means=[]
cv_std=[]
for cv_result in cv_results:
    cv_means.append(cv_result.mean())
    cv_std.append(cv_result.std())
    
# 新增 DataFrame 紀錄每個演算的的結果
cvResDf=pd.DataFrame({'cv_mean':cv_means,
                      'cv_std':cv_std,
                      'algorithm':['SVC',
                      'DecisionTreeClassifier',
                      'RandomForestClassifier',
                      'ExtraTreesClassifier',
                      'GradientBoostingClassifier',
                      'KNN',
                      'LR',
                      'LinearDiscriminantAnalysis']})
cvResDf

In [None]:
# Model Selection
# 結果為 GradientBoostingClassifier 最好
cvResFacet=sns.FacetGrid(
                         # by : 經由欄位 'cv_means' 進行排序
                         # ascending : 使用降序排列
                         cvResDf.sort_values(by='cv_mean',ascending=False),
                         sharex=False, # 將分享關掉
                         sharey=False, # 將分享關掉
                         height=5, # 設定圖片高度
                         aspect=2) # 定度圖片寬度
cvResFacet.map(sns.barplot, # 繪製條形圖
               'cv_mean', # 使用 'cv_mean' 欄位的資料
               'algorithm', # 使用 'algorithm' 欄位的資料
               **{'xerr':cv_std}, # 每個條的對稱 +/- 值
               palette='muted') # 設定 seaborn 的顏色
cvResFacet.set(xlim=(0.7,0.9)) # 設定X軸範圍

In [None]:
# 使用演算法 GradientBoostingClassifier
GBC = GradientBoostingClassifier()
# 設定進行訓練用的參數列表
gb_param_grid = {'loss' : ["deviance"],
                 'learning_rate': [0.1, 0.05, 0.01],
                 'n_estimators' : [100,200,300],
                 'min_samples_leaf': [100,150],
                 'max_depth': [4, 8],
                 'max_features': [0.3, 0.1]
                }
modelgsGBC = GridSearchCV(GBC, 
                          param_grid=gb_param_grid, # 進行訓練用的參數列表
                          cv=kfold, # kfold : 設定折叠次数為 10 次
                          scoring="accuracy", # 返回正確分類樣本的比例
                          n_jobs= -1, # n_jobs=-1 : 使用所有處理器執行運算
                          verbose = 1) # 控制訊息的詳細程度，1為最小訊息
# 訓練資料
modelgsGBC.fit(experData_X,experData_y)

In [None]:
# 印出給出最佳結果的參數設置
print(modelgsGBC.best_params_)

In [None]:
# 預測資料
GBCpreData_y=modelgsGBC.predict(preData_X)
# 將資料類型轉換為 int 格式
GBCpreData_y=GBCpreData_y.astype(int)

#### 評估結果

In [None]:
# import 評分用的模組
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

# 讀取測試資料
y_test = pd.read_csv('data/gender_submission.csv')
y_test_final = y_test['Survived']

# 計算混淆矩陣
cm = confusion_matrix(y_test_final, GBCpreData_y)
# 對分類的準確性評分
acc = accuracy_score(y_test_final, GBCpreData_y)
# 顯示主要分類指標的文本報告
cr = classification_report(y_test_final,
                           GBCpreData_y,
                           )

print(cm)
print('=' * 80)
print("Accuracy: ", acc)
print('=' * 80)
print(cr)

#### 導出結果

In [None]:
# 導出結果
GBCpreResultDf=pd.DataFrame()
GBCpreResultDf['PassengerId']=full['PassengerId'][full['Survived'].isnull()]
GBCpreResultDf['Survived']=GBCpreData_y
GBCpreResultDf

In [None]:
# 預測結果導出為csv文件
GBCpreResultDf.to_csv('data/submission.csv',index=False)