# 1. 必要なライブラリをimportする

In [1]:
# データを扱うライブラリ
import numpy as np
import pandas as pd
import sklearn

# データを分割する関数
from sklearn.model_selection import train_test_split

# 分類問題を解くことのできるモジュール Random Forest Classifier(RFC)
from sklearn.ensemble import RandomForestClassifier

# 分類問題の予測精度を測る関数
from sklearn.metrics import accuracy_score

# 2.データを準備する

In [2]:
# 学習に使用するデータをPandasで読み込む
titanic = pd.read_csv('titanic_text.csv')
# head()関数を使って読み込んだデータの先頭5行を確認
titanic.head()

Unnamed: 0,PassengerId,Survived,Sex,Pclass,Fare
0,1,0,0,3,7.25
1,3,1,1,3,7.925
2,4,1,1,1,53.1
3,5,0,0,3,8.05
4,7,0,0,1,51.8625


＊　PassengerIdというcolumn : 乗客のID  
＊　Survivedというcolumn    : 0が死亡者、1が生存者   
＊　Sexというcolumn         : 0が男性、1が女性   
＊　Pclassというcolumn      : チケットのクラス(1が高く、3が低いクラス)  
＊　Fareというcolumn        : チケットの価格  

# 3. データの変換と分割

データを読み込んだら、データを行列に変換し、  
目的変数(予測したい値)と説明変数(予測するために使いたいデータ)に分け、  
さらに学習用データとテスト用データに分割。

In [3]:
# 目的変数と説明変数に分割
y = titanic["Survived"]
x = np.array(titanic.drop(["Survived", "PassengerId"], axis=1))

In [4]:
# データを行列(NumPy型の配列)に変換
y_array = np.array(y)
x_array = np.array(x)

In [5]:
# 行列の形を確認
print("y_array: ", y_array.shape)
print("x_array: ", x_array.shape)

y_array:  (712,)
x_array:  (712, 3)


yが712行のベクトル(つまり712行1列の行列)、xが712行3列の行列になっていることがわかる。

In [6]:
# train_test_split()関数を使ってこのy_arrayとx_arrayをそれぞれ学習用データとテスト用データに分割
x_train, x_test, y_train, y_test = train_test_split(x_array, y_array, test_size=0.4, random_state=0)

### 機械学習においては再現性というのは重要です。  
実行するたびに結果が変わったり、他の人の環境で結果が変わってしまうことはそのモデルの確からしさを損なってしまいます。
そのため、random_stateを定めておくことでランダムに分割するときの擬似乱数表を指定しておきます。

* test_sizeという引数: 分割の比率
* random_stateという引数: 再現性を確保するため、擬似乱数表を指定。
* train_test_split()関数:ランダムにデータを分割するため、実行するたびに結果が変わってしまう。  
  分割された学習用データの内容が変わると、学習した結果のモデルの精度も変わってしまう。


In [7]:
# 分割された配列の形を見てみるときちんと分割されていることを確認
print("x_train: ", x_train.shape)
print("y_train: ", y_train.shape)
print("x_test: ", x_test.shape)
print("y_test: ", y_test.shape)

x_train:  (427, 3)
y_train:  (427,)
x_test:  (285, 3)
y_test:  (285,)


# 4. Random Forest モデルの作成

* 回帰問題にも使える便利なアルゴリズム
* データが少ないときにも多いときにも使える

In [8]:
# モデルを生成
rfc = RandomForestClassifier(random_state=0)

In [9]:
# fit()関数を使って学習(fitting)
rfc.fit(x_train, y_train)



RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

今回作成したモデルのパラメート一覧が出力されました。random_state=0が反映されていることが確認できる。  
他のパラメータは設定していないので、デフォルトのものが設定されている。

# 5. データの予測

In [10]:
# predict()関数を使って予測
y_pred = rfc.predict(x_test)

# y_predに予測結果(NumPy型の1次元配列)が代入
# predとはpredict(予測)されたデータであることを表す

In [11]:
# y_predの形を見ると1次元配列であることを確認
y_pred.shape

(285,)

# 6. 精度を測る

In [12]:
accuracy_score(y_pred, y_test)

0.7684210526315789

学習したモデルが x_test を入力した場合の予測結果であるy_predと、正解データである y_test は 76.8% 一致していた。  
つまり、このモデルは 76.8% のデータに対しては正しく予測することができたという意味になる。  
この数字はあくまで一例なので、予測精度は人によって変わることもある。

# 7. titanicの生存者の予測

In [43]:
# 予測するデータをPandasで読み込む
titanic_assignment = pd.read_csv('titanic_assignment_question.csv')
# head()関数を使って読み込んだデータの先頭5行を確認
titanic_assignment.head()

Unnamed: 0,PassengerId,Sex,Pclass,Fare
0,2,1,1,71.2833
1,6,0,3,8.4583
2,9,1,3,11.1333
3,15,1,3,7.8542
4,28,0,1,263.0


In [14]:
# 行列の形を確認
titanic_assignment.shape

(179, 4)

In [15]:
# データを行列(NumPy型の配列)に変換
y_test_assignment = np.array(titanic_assignment.drop(["PassengerId"], axis=1))

In [16]:
# predict()関数を使って予測
y_pred_assignment = rfc.predict(y_test_assignment)
y_pred_assignment.shape

(179,)

In [26]:
# 予測した結果をDataFrameに変換
y_pred_assignment = pd.DataFrame(y_pred_assignment)
y_pred_assignment.head()

Unnamed: 0,0
0,1
1,0
2,1
3,1
4,0


In [38]:
y_pred_assignment.shape

(179, 1)

In [39]:
# 乗客のIDというcolumnと予測した結果というcolumnを合併
y_pred_assignment_submit = pd.DataFrame({'PassengerId': titanic_assignment['PassengerId'], 'Survived': y_pred_assignment[0]})
y_pred_assignment_submit.head()

Unnamed: 0,PassengerId,Survived
0,2,1
1,6,0
2,9,1
3,15,1
4,28,0


In [41]:
# DataFrameをCSVとして書き出す
# 引数index=Falseがないと、indexも一緒に書き出すので、要注意！
y_pred_assignment_submit.to_csv('y_pred_assignment_submit.csv', index=False)
y_pred_assignment_submit.head()

Unnamed: 0,PassengerId,Survived
0,2,1
1,6,0
2,9,1
3,15,1
4,28,0


In [42]:
y_pred_assignment_submit.shape

(179, 2)