# kaggle - Titanic: Machine Learning from Disaster

In [23]:
import numpy as np
import pandas as pd

In [39]:
# データの読み込み
df_train = pd.read_csv('data/train.csv') # トレーニングデータ
df_test = pd.read_csv('data/test.csv') # テストデータ

In [40]:
# 学習モデルは数値しか扱えない。Sexはmale, femailと入っているので数値化する

# SexId を追加
df_train['SexId'] = df_train['Sex'].map({'male': 1, 'female': 0})
df_test['SexId'] = df_test['Sex'].map({'male': 1, 'female': 0})

In [41]:
# ２つのSeriasを合わせてみる

# FamilySize = SibSp + Parch
df_train['FamilySize'] = df_train['SibSp'] + df_train['Parch']
df_test['FamilySize'] = df_test['SibSp'] + df_test['Parch']

In [42]:
# 機械学習は欠損値(NaN)を扱えない。
# 欠損値を扱う方法は
# * 欠損値のあるデータを取り除く
# * 欠損値をある数値で埋める
#   * 中央値で埋める
#   * 平均値で埋める
#   * 0で埋める

# Ageの欠損値を中央値で補完する
df_train['AgeNull'] = df_train['Age'].isnull()
age_median = df_train['Age'].median()
df_train['Age'].fillna(age_median, inplace=True)
df_test['Age'].fillna(age_median, inplace=True)

In [43]:
inputs = ['FamilySize', 'SexId', 'Age']

In [44]:
# X_train: 学習用の説明変数
# y_train: 学習用の目的変数

X_train = df_train[inputs].values.astype('float32')
y_train = df_train['Survived'].values

In [45]:
# X_test: 予測するデータの説明変数
X_test = df_test[['SexId', 'Age']].values.astype('float32')

# y_test: ないの？y_testを予測するのが機械学習のやりたいこと！

# 機械学習

### RandomForestClassifier

In [46]:
# ランダムフォレスト
from sklearn.ensemble import RandomForestClassifier

In [47]:
# モデルの構築
model = RandomForestClassifier(random_state=42)

In [48]:
# モデルの学習
model.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=42, verbose=0, warm_start=False)

In [49]:
# トレーニングデータに対する予測精度
print("mean accuracy (train): {0:.4f}".format(model.score(X_train, y_train)))

mean accuracy (train): 0.8676
