データセットの読み込み

（ kaggle の「Titanic - Machine Learning from Disaster」を使用）


In [1]:
# Load in our libraries
import re
import sklearn
import xgboost as xgb
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls

import warnings
warnings.filterwarnings('ignore')

# Going to use these 5 base models for the stacking
from sklearn.ensemble import (RandomForestClassifier, AdaBoostClassifier, 
                              GradientBoostingClassifier, ExtraTreesClassifier)
from sklearn.svm import SVC


In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# データセットの読み込み
csv_path = "../../../input/titanic/train.csv" # ファイル名（パス）を指定する
csv_path2 = "../../../input/titanic/test.csv" # ファイル名（パス）を指定する

train = pd.read_csv(csv_path)

test = pd.read_csv(csv_path2)
PassengerId = test['PassengerId']
# df = df.loc[:, ["GrLivArea", "YearBuilt", "SalePrice"]]
print(train.head())
print(test.head())

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  
  

In [3]:
train.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [4]:
test.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sex              0
Age             86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [5]:
full_data = [train, test]

# Feature that tells whether a passenger had a cabin on the Titanic
train['Has_Cabin'] = train["Cabin"].apply(lambda x: 0 if type(x) == float else 1)
test['Has_Cabin'] = test["Cabin"].apply(lambda x: 0 if type(x) == float else 1)

# Remove all NULLS in the Embarked column
for dataset in full_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')
# Remove all NULLS in the Fare column and create a new feature CategoricalFare
for dataset in full_data:
    dataset['Fare'] = dataset['Fare'].fillna(train['Fare'].median())
train['CategoricalFare'] = pd.qcut(train['Fare'], 4)
# Create a New feature CategoricalAge
for dataset in full_data:
    age_avg = dataset['Age'].mean()
    age_std = dataset['Age'].std()
    age_null_count = dataset['Age'].isnull().sum()
    age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)
    dataset['Age'][np.isnan(dataset['Age'])] = age_null_random_list
    dataset['Age'] = dataset['Age'].astype(int)
train['CategoricalAge'] = pd.cut(train['Age'], 5)

for dataset in full_data:

    # Mapping Embarked
    dataset['Embarked'] = dataset['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)
    
    # Mapping Fare
    dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] 						        = 0
    dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
    dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2
    dataset.loc[ dataset['Fare'] > 31, 'Fare'] 							        = 3
    dataset['Fare'] = dataset['Fare'].astype(int)
    
    # Mapping Age
    dataset.loc[ dataset['Age'] <= 16, 'Age'] 					       = 0
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
    dataset.loc[ dataset['Age'] > 64, 'Age'] = 4 ;

# Feature selection
drop_elements = ['Cabin']
train = train.drop(drop_elements, axis = 1)
train = train.drop(['CategoricalAge', 'CategoricalFare'], axis = 1)
test  = test.drop(drop_elements, axis = 1)

In [6]:
train.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Has_Cabin
0,1,0,3,"Braund, Mr. Owen Harris",male,1,1,0,A/5 21171,0,0,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,2,1,0,PC 17599,3,1,1
2,3,1,3,"Heikkinen, Miss. Laina",female,1,0,0,STON/O2. 3101282,1,0,0


ベースライン（ランダムフォレスト）

In [7]:
# データを選択
X = train.loc[:, ["PassengerId", "Pclass", "Age", "SibSp", "Parch", "Fare", "Embarked", "Has_Cabin"]]
y = train.loc[:, ["Survived"]]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

import numpy as np
from sklearn.ensemble import RandomForestClassifier

# パラメータは一先ずなし
forest = RandomForestClassifier().fit(X_train, y_train)

# テストデータを使ったモデルの検証
score = forest.score(X_test, y_test)

# out[score depth3 leaf5:  1.000]
print('score :  {:0.3f}'.format(score))

score :  0.740


In [8]:
# 実行結果を格納する表を作成
result_table = pd.DataFrame(columns = ['model', 'score', 'description'])

result_table = result_table.append({'model': 'RandomForestClassifier', 'score': score, 'description': 'チューニングなし'}, ignore_index=True)
print(result_table)

                    model    score description
0  RandomForestClassifier  0.73991    チューニングなし


**【問題1】クロスバリデーション**

事前学習期間では検証データをはじめに分割しておき、それに対して指標値を計算することで検証を行っていました。（ホールドアウト法）しかし、分割の仕方により精度は変化します。実践的には クロスバリデーション（交差検証） を行います。分割を複数回行い、それぞれに対して学習と検証を行う方法です。複数回の分割のためにscikit-learnにはKFoldクラスが用意されています。


事前学習期間の課題で作成したベースラインモデルに対してKFoldクラスによるクロスバリデーションを行うコードを作成し実行してください。

In [9]:
from sklearn.model_selection import KFold

scores = np.arange(0)

kf = KFold(n_splits=10)
for train_index, test_index in kf.split(X, y):
    # print("train_index:", train_index, "test_index:", test_index)

    # train_df = df.iloc[train_index]
    # test_df = df.iloc[test_index]
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]

    # インスタンス作成から学習
    forest = RandomForestClassifier().fit(X_train, y_train)

    # テストデータを使ったモデルの検証
    score = forest.score(X_test, y_test)

    scores = np.append(scores, score)

    # out[score depth3 leaf5:  1.000]
    print('score :  {:0.3f}'.format(score))

print('score平均 :  {:0.3f}'.format(np.average(scores)))

score :  0.611
score :  0.697
score :  0.640
score :  0.663
score :  0.719
score :  0.629
score :  0.652
score :  0.663
score :  0.596
score :  0.685
score平均 :  0.655


**【問題2】グリッドサーチ**
これまで分類器のパラメータには触れず、デフォルトの設定を使用していました。

パラメータの詳細は今後のSprintで学んでいくことになります。

機械学習の前提として、パラメータは状況に応じて最適なものを選ぶ必要があります。

最適なパラメータを探していくことを パラメータチューニング と呼びます。

パラメータチューニングをある程度自動化する単純な方法としては グリッドサーチ があります。


scikit-learnのGridSearchCVを使い、グリッドサーチを行うコードを作成してください。

そして、ベースラインモデルに対して何らかしらのパラメータチューニングを行なってください。

どのパラメータをチューニングするかは、使用した手法の公式ドキュメントを参考にしてください。

In [10]:
from sklearn.model_selection import GridSearchCV

# グリッドサーチ用のパラメータを辞書型で設定
param = {'max_depth':[5, 8, 15, 25, 30, None],
         'min_samples_leaf':[1, 2, 5, 10],
         'min_samples_split':[1, 2, 5, 10, 15, 100]}

clf = GridSearchCV(RandomForestClassifier(),   # グリッドサーチで決定木を定義
                   param,
                   cv=5,
                   iid=False)

clf.fit(X_train, y_train)

GridSearchCV(cv=5, estimator=RandomForestClassifier(), iid=False,
             param_grid={'max_depth': [5, 8, 15, 25, 30, None],
                         'min_samples_leaf': [1, 2, 5, 10],
                         'min_samples_split': [1, 2, 5, 10, 15, 100]})

In [11]:
# スコアとパラメータの組み合わせ
scores = clf.cv_results_['mean_test_score']
params = clf.cv_results_['params']

# 結果の確認
best_clf = clf.best_estimator_
print('最良条件:\n', best_clf)
print('訓練スコア:\n', best_clf.score(X_train, y_train))
print('テストスコア:\n', best_clf.score(X_test, y_test))
for i in range(len(scores)):
    # print(scores[i], params[i])
    pass

最良条件:
 RandomForestClassifier(min_samples_leaf=2, min_samples_split=15)
訓練スコア:
 0.8042394014962594
テストスコア:
 0.7865168539325843


In [None]:
result_table = result_table.append({'model': 'RandomForestClassifier',
                                    'score': best_clf.score(X_test, y_test),
                                    'description': 'グリッドサーチ'}, ignore_index=True)
print(result_table)

**【問題3】Kaggle Notebooksからの調査**

KaggleのNotebooksから様々なアイデアを見つけ出して、列挙してください。

参考ノートブック

https://www.kaggle.com/imoore/titanic-the-only-notebook-you-need-to-see

・現在使用していない特徴量（name等）に対して、特徴量エンジニアリングを行い、機械学習に使用する

・他のモデル（XGboost)を使用する

・アンサンブル学習を行う

*クロスバリデーション、グリッドサーチを実行する関数を作成しておく*

In [13]:
from sklearn.model_selection import KFold

# クロスバリデーションを行う関数
def cross_val(X, y, model, n):

  print("【クロスバリデーション】")
  scores = np.arange(0)

  kf = KFold(n_splits=n)
  for train_index, test_index in kf.split(X, y):
      # print("train_index:", train_index, "test_index:", test_index)

      # train_df = df.iloc[train_index]
      # test_df = df.iloc[test_index]
      X_train, X_test = X.iloc[train_index], X.iloc[test_index]
      y_train, y_test = y.iloc[train_index], y.iloc[test_index]

      # インスタンス作成から学習
      model = model.fit(X_train, y_train)

      # テストデータを使ったモデルの検証
      score = model.score(X_test, y_test)

      scores = np.append(scores, score)

      # out[score depth3 leaf5:  1.000]
      print('score :  {:0.3f}'.format(score))

  print('score平均 :  {:0.3f}'.format(np.average(scores)))

In [14]:
from sklearn.model_selection import GridSearchCV

# グリッドサーチを実行する関数
def gredSerch(model, param, cv_n, X_train, y_train, X_test, y_test):

  print("【グリッドサーチ】")

  # グリッドサーチ
  clf = GridSearchCV(model,
                     param,
                     cv=cv_n
                     )

  clf.fit(X_train, y_train)

  # スコアとパラメータの組み合わせ
  scores = clf.cv_results_['mean_test_score']
  params = clf.cv_results_['params']

  # 結果の確認
  best_clf = clf.best_estimator_
  print('最良条件:\n', best_clf)
  print('訓練スコア:\n', best_clf.score(X_train, y_train))
  print('テストスコア:\n', best_clf.score(X_test, y_test))
  # for i in range(len(scores)):
      # print(scores[i], params[i])
    #  pass
  return best_clf.score(X_test, y_test)

***・他のモデル（XGboost)を使用する***

In [15]:
# XGboostのベースライン
gbm = xgb.XGBClassifier().fit(X_train, y_train)

# テストデータを使ったモデルの検証
score = gbm.score(X_test, y_test)

# out[score depth3 leaf5:  1.000]
print('score :  {:0.3f}'.format(score))

score :  0.674


In [16]:
result_table = result_table.append({'model': 'XGBClassifier',
                                    'score': score,
                                    'description': 'チューニングなし'}, ignore_index=True)
print(result_table)

                    model     score description
0  RandomForestClassifier  0.739910    チューニングなし
1  RandomForestClassifier  0.786517     グリッドサーチ
2           XGBClassifier  0.674157    チューニングなし


In [17]:
# XGboostでクロスバリデーション
gbm = xgb.XGBClassifier()

cross_val(X, y, gbm, 5)

【クロスバリデーション】
score :  0.721
score :  0.652
score :  0.697
score :  0.708
score :  0.624
score平均 :  0.680


In [18]:
# グリッドサーチ
gbm = xgb.XGBClassifier()

# グリッドサーチ用のパラメータを辞書型で設定
param = {'eta':[0.01, 0.015, 0.025, 0.3],
         'max_depth':[3, 5, 6, 7, 9, 12],
         'min_child_weight':[1, 3, 5, 7],
         'subsample':[0.6, 0.7, 0.8, 0.9, 1],
         'colsample_bytree':[0.6, 0.7, 0.8, 0.9, 1]}

score = gredSerch(gbm, param, 4, X_train, y_train, X_test, y_test)

【グリッドサーチ】
最良条件:
 XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=0.6, eta=0.025, gamma=0,
              gpu_id=-1, importance_type='gain', interaction_constraints='',
              learning_rate=0.0250000004, max_delta_step=0, max_depth=3,
              min_child_weight=5, missing=nan, monotone_constraints='()',
              n_estimators=100, n_jobs=0, num_parallel_tree=1, random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=1,
              tree_method='exact', validate_parameters=1, verbosity=None)
訓練スコア:
 0.7468827930174564
テストスコア:
 0.7415730337078652


In [19]:
result_table = result_table.append({'model': 'XGBClassifier',
                                    'score': score,
                                    'description': 'グリッドサーチ'}, ignore_index=True)
print(result_table)

                    model     score description
0  RandomForestClassifier  0.739910    チューニングなし
1  RandomForestClassifier  0.786517     グリッドサーチ
2           XGBClassifier  0.674157    チューニングなし
3           XGBClassifier  0.741573     グリッドサーチ


In [20]:
# XGboostでクロスバリデーション
gbm = xgb.XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=0.9, eta=0.01, gamma=0,
              learning_rate=0.1, max_delta_step=0, max_depth=3,
              min_child_weight=7, missing=None, n_estimators=100, n_jobs=1,
              nthread=None, objective='binary:logistic', random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
              silent=None, subsample=0.7, verbosity=1)

cross_val(X, y, gbm, 5)

【クロスバリデーション】
score :  0.637
score :  0.607
score :  0.736
score :  0.747
score :  0.775
score平均 :  0.700


*現在使用していない特徴量（name等）に対して、特徴量エンジニアリングを行い、機械学習に使用する*

In [21]:
train = pd.read_csv(csv_path)
test = pd.read_csv(csv_path2)

full_data = [train, test]

# Some extra features, not necessarily important
# Gives the length of the name
# train['Name_length'] = train['Name'].apply(len)
# test['Name_length'] = test['Name'].apply(len)
train['Words_Count'] = train['Name'].apply(lambda x: len(x.split()))
test['Words_Count'] = test['Name'].apply(lambda x: len(x.split()))

# Feature that tells whether a passenger had a cabin on the Titanic
train['Has_Cabin'] = train["Cabin"].apply(lambda x: 0 if type(x) == float else 1)
test['Has_Cabin'] = test["Cabin"].apply(lambda x: 0 if type(x) == float else 1)

# Feature engineering steps taken from Sina
# Create new feature FamilySize as a combination of SibSp and Parch
for dataset in full_data:
    dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
# Create new feature IsAlone from FamilySize
for dataset in full_data:
    dataset['IsAlone'] = 0
    dataset.loc[dataset['FamilySize'] == 1, 'IsAlone'] = 1
# Remove all NULLS in the Embarked column
for dataset in full_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')
# Remove all NULLS in the Fare column and create a new feature CategoricalFare
for dataset in full_data:
    dataset['Fare'] = dataset['Fare'].fillna(train['Fare'].median())
train['CategoricalFare'] = pd.qcut(train['Fare'], 4)
# Create a New feature CategoricalAge
for dataset in full_data:
    age_avg = dataset['Age'].mean()
    age_std = dataset['Age'].std()
    age_null_count = dataset['Age'].isnull().sum()
    age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)
    dataset['Age'][np.isnan(dataset['Age'])] = age_null_random_list
    dataset['Age'] = dataset['Age'].astype(int)
train['CategoricalAge'] = pd.cut(train['Age'], 5)
# Define function to extract titles from passenger names
def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
    # If the title exists, extract and return it.
    if title_search:
        return title_search.group(1)
    return ""
# Create a new feature Title, containing the titles of passenger names
for dataset in full_data:
    dataset['Title'] = dataset['Name'].apply(get_title)
# Group all non-common titles into one single grouping "Rare"
for dataset in full_data:
    dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')

    dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')

for dataset in full_data:
    # Mapping Sex
    dataset['Sex'] = dataset['Sex'].map( {'female': 0, 'male': 1} ).astype(int)
    
    # Mapping titles
    title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}
    dataset['Title'] = dataset['Title'].map(title_mapping)
    dataset['Title'] = dataset['Title'].fillna(0)
    
    # Mapping Embarked
    dataset['Embarked'] = dataset['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)
    
    # Mapping Fare
    dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] 						        = 0
    dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
    dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2
    dataset.loc[ dataset['Fare'] > 31, 'Fare'] 							        = 3
    dataset['Fare'] = dataset['Fare'].astype(int)
    
    # Mapping Age
    dataset.loc[ dataset['Age'] <= 16, 'Age'] 					       = 0
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
    dataset.loc[ dataset['Age'] > 64, 'Age'] = 4 ;

# Feature selection
drop_elements = ['PassengerId', 'Name', 'Ticket', 'Cabin', 'SibSp']
train = train.drop(drop_elements, axis = 1)
train = train.drop(['CategoricalAge', 'CategoricalFare'], axis = 1)
test  = test.drop(drop_elements, axis = 1)

train.head()

Unnamed: 0,Survived,Pclass,Sex,Age,Parch,Fare,Embarked,Words_Count,Has_Cabin,FamilySize,IsAlone,Title
0,0,3,1,1,0,0,0,4,0,2,0,1
1,1,1,0,2,0,3,1,7,1,2,0,3
2,1,3,0,1,0,1,0,3,0,1,1,2
3,1,1,0,2,0,3,0,7,1,2,0,3
4,0,3,1,2,0,1,0,4,0,1,1,1


In [22]:
# 分割
y = train['Survived'].ravel()
train = train.drop(['Survived'], axis=1)
X = train.values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)


In [23]:
# グリッドサーチ
gbm = xgb.XGBClassifier()

# グリッドサーチ用のパラメータを辞書型で設定
param = {'eta':[0.01, 0.015, 0.025, 0.3],
         'max_depth':[3, 5, 6, 7, 9, 12],
         'min_child_weight':[1, 3, 5, 7],
         'subsample':[0.6, 0.7, 0.8, 0.9, 1],
         'colsample_bytree':[0.6, 0.7, 0.8, 0.9, 1]}

score = gredSerch(gbm, param, 4, X_train, y_train, X_test, y_test)

【グリッドサーチ】
最良条件:
 XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=0.6, eta=0.015, gamma=0,
              gpu_id=-1, importance_type='gain', interaction_constraints='',
              learning_rate=0.0149999997, max_delta_step=0, max_depth=7,
              min_child_weight=3, missing=nan, monotone_constraints='()',
              n_estimators=100, n_jobs=0, num_parallel_tree=1, random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, subsample=0.8,
              tree_method='exact', validate_parameters=1, verbosity=None)
訓練スコア:
 0.8517964071856288
テストスコア:
 0.8340807174887892


In [24]:
result_table = result_table.append({'model': 'XGBClassifier',
                                    'score': score,
                                    'description': 'グリッドサーチ & 特徴量エンジニアリング'}, ignore_index=True)
print(result_table)

                    model     score            description
0  RandomForestClassifier  0.739910               チューニングなし
1  RandomForestClassifier  0.786517                グリッドサーチ
2           XGBClassifier  0.674157               チューニングなし
3           XGBClassifier  0.741573                グリッドサーチ
4           XGBClassifier  0.834081  グリッドサーチ & 特徴量エンジニアリング


In [25]:
# グリッドサーチ用のパラメータを辞書型で設定
param = {'max_depth':[5, 8, 15, 25, 30, None],
         'min_samples_leaf':[1, 2, 5, 10],
         'min_samples_split':[1, 2, 5, 10, 15, 100]}

score = gredSerch(RandomForestClassifier(), param, 4, X_train, y_train, X_test, y_test)

【グリッドサーチ】
最良条件:
 RandomForestClassifier(max_depth=8, min_samples_leaf=5)
訓練スコア:
 0.8517964071856288
テストスコア:
 0.8295964125560538


In [26]:
result_table = result_table.append({'model': 'RandomForestClassifier',
                                    'score': score,
                                    'description': 'グリッドサーチ & 特徴量エンジニアリング'}, ignore_index=True)
print(result_table)

                    model     score            description
0  RandomForestClassifier  0.739910               チューニングなし
1  RandomForestClassifier  0.786517                グリッドサーチ
2           XGBClassifier  0.674157               チューニングなし
3           XGBClassifier  0.741573                グリッドサーチ
4           XGBClassifier  0.834081  グリッドサーチ & 特徴量エンジニアリング
5  RandomForestClassifier  0.829596  グリッドサーチ & 特徴量エンジニアリング


XGboostの場合はグリッドサーチにてチューニングを行うと精度が上がった。
しかし、ランダムフォレストの場合は精度が下がった（過学習が起きた）。

特徴量エンジニアリングを行うと、両者ともに精度が大きく上がった。
データの前処理をどのように行うかが、結果に大きく影響するということが分かった。

一番精度の良かった４番のモデルで、kaggleへの提出を行う。

In [27]:
model = xgb.XGBClassifier(colsample_bytree=0.7,
                          eta=0.01,
                          max_depth=6,
                          min_child_weight=1,
                          subsample=0.6)

model.fit(X_train, y_train)

# テストデータを使ったモデルの検証
score = model.score(X_test, y_test)

# out[score depth3 leaf5:  1.000]
print('score :  {:0.3f}'.format(score))

score :  0.834


In [28]:
prediction_XG = model.predict(test.values)

In [29]:
out_df = pd.DataFrame({'PassengerId':PassengerId, 'Survived': prediction_XG})
out_df.to_csv('submission.csv', index=False)

kaggleに提出した結果、スコアは
「0.77990」だった。