[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/matsunagadaiki151/Kaggle_Titanic_Tutorial/blob/main/Answer/Titanic_lightgbm_answer.ipynb)

## 準備

1. KaggleのTitanic Datasetは必要なのでダウンロードしてGoogle Driveに上げる。 \
https://www.kaggle.com/c/titanic/data よりダウンロードが可能(Kaggleアカウントが必要)

以下を`drive/MyDrive/Kaggle` 下に配置する。
- gender_submission.csv
- train.csv
- test.csv

2. ドライブをマウントする。 \
左のフォルダのアイコンからやる。

## 以下コード

### データの読み込み

In [1]:
# 必要なものをインストール
!pip install matplotlib==3.3.3
!pip install category_encoders



In [2]:
# データセットが入っているフォルダに移動
%cd /content/drive/MyDrive/Kaggle

[Errno 2] No such file or directory: '/content/drive/MyDrive/Kaggle'
/Users/daiki/Kaggle/Kaggle_Titanic_Tutorial/Answer


In [3]:
# 必要なライブラリをインストール
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import lightgbm as lgb
import category_encoders as ce
import os

In [4]:
issubmit = True  # Kaggleにサブミットするかどうか

In [None]:
# 学習データを読み込む
train = pd.read_csv('train.csv')
print(train.shape) # 形状を確認
train.head()  # 最初の5行を見る。 

In [None]:
# テストデータを読み込む
test = pd.read_csv('test.csv')
print(test.shape) # 形状を確認
test.head()  # 最初の5行を見る。 

In [None]:
## 型を確認する。
train.dtypes

In [None]:
# 欠損値の数を確認する。
print(train.isnull().sum())
print('-'*40)
print(test.isnull().sum())

## 前処理

データがobject型のままではモデルが処理できないのでエンコーディングを行う。今回は一番標準的と思われるLabel Encodingを行う。

なお、trainとtestでラベルの相違があったら困るので一度全データを結合してからエンコーディングする。

In [None]:
## trainとtestを結合する。
df_cat = pd.concat([train, test])

In [None]:
# object型のcolumnを定義する。
obj_columns = ['Sex', 'Ticket', 'Cabin', 'Embarked']
# LabelEncodingを適用する(category_encodersではOrdinalEncoderという名前なので注意)
oe = ce.OrdinalEncoder(cols=obj_columns)
df_cat_oe = oe.fit_transform(df_cat)
df_cat_oe.head()

## モデル構築

機械学習にはさまざまなモデルがあり、どのモデルが適切か、試行錯誤しなければならない。

...というのは建前であり基本的に最初はLightGBMを使うのが基本である。

LightGBMの強みとして以下が挙げられる
- 単純に多くのテーブルデータで最もパフォーマンスが優れている。(最近はCatBoostといい勝負)
- 欠損値を無視できる。
- エンコーディングされた数値の序列を無視できる(OnehotEncodingの必要がない。)
- XGBoostと比較して学習が早い。

というわけで今回はLightGBMを用いてモデルを構築する。

In [None]:
## df_cat_oeをtrainとtestに分離する。
train = df_cat_oe[:len(train)]
test = df_cat_oe[len(train):]

In [None]:
# 学習に用いない特徴を定義する。
drop_cols = ['PassengerId', 'Survived', 'Name']
# 学習データを定義する。
X = train.drop(drop_cols, axis=1)
y = train['Survived'].values
X_test = test.drop(drop_cols, axis=1)

In [None]:
from sklearn.model_selection import train_test_split
# 評価用データを作成する。今回は一番簡単なHoldOut法で行う。
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=42)

In [None]:
# lightgbmのデータセットを定義する。
train_data = lgb.Dataset(X_train, y_train)
val_data = lgb.Dataset(X_val, y_val)

# lightgbmのパラメータを定義する。
lgb_params = {"objective":"binary", 
            "metric":"binary_logloss", 
            "verbosity": -1}

# 学習
model = lgb.train(lgb_params, train_data,
                  num_boost_round=100000,
                  valid_sets=val_data,
                  early_stopping_rounds=100,
                  verbose_eval=100)

In [None]:
# モデルの重要度を可視化する。
lgb.plot_importance(model)

### valデータの評価

In [None]:
from sklearn.metrics import accuracy_score
# valデータを予測する。
val_probs = model.predict(X_val, num_iteration=model.best_iteration)
print(val_probs)

モデルの出力はfloat型で出力される。
ただし、今回は二値分類なので以下のルールでint型に変更する。
1. thershold=0.5
2. 値がthresholdを下回ったら0
3. それ以上の場合は1 

これらの処理は、np.whereを用いると便利である。

ちなみに上級者はこのtheresholdの値を最適化したりする。

In [None]:
thershold = 0.5
# 予測を二値化する。
val_preds = np.where(val_probs < thershold, 0, 1)

準備が終わったので精度を評価する。 \
評価指標はf1やfbetaなどが用いられることが多いがタイタニックコンペのルールではAccuracyスコアを用いるようなので(おそらく初心者向けだから?)、今回はそれに準じる。

In [None]:
from sklearn.metrics import accuracy_score
# スコアを出力
print(accuracy_score(y_val, val_preds))

### テストデータの予測とKaggleへの提出ファイルの作成。

In [None]:
# valデータと同じように予測
test_probs = model.predict(X_test, num_iteration=model.best_iteration)
# valデータと同じように予測を二値にする。
thershold = 0.5
test_preds = np.where(test_probs < thershold, 0, 1)

In [None]:
print(len(test_preds))
print(test_preds)

In [None]:
if issubmit:
    # submit フォルダを作る．
    os.makedirs('submit/', exist_ok=True)
    # submissionのサンプルファイルを読み込む
    submit = pd.read_csv('gender_submission.csv')
    submit['Survived'] = test_preds
     # submissionのサンプルファイルを読み込む
    submit = pd.read_csv('gender_submission.csv')
    submit['Survived'] = test_preds   

### Cross Validationを作ろう

valデータが一つだけでは正当な評価が難しい。 \
また、全データで学習ができないなどの問題がある。 \
そこで、基本的にはHoldOutではなく、Cross Validation(CV)が用いられる。 \
基本的にはscikit-learnのKFoldで実装できるが分類問題では、ターゲットの比率を維持してKFoldできる。Stratified KFoldが用いられることが多い。

In [None]:
from sklearn.model_selection import StratifiedKFold

FOLD = 5
# StratifiedKFoldのインスタンスを定義する。
skf = StratifiedKFold(n_splits=FOLD, shuffle=True, random_state=42)
# うまく分割できるているか中身を確認する。
print(next(skf.split(X, y)))

In [None]:
oof_preds = np.zeros(len(X))
test_probs = np.zeros(len(X_test))  # testデータの予測を格納するnumpy配列

# lightgbmのパラメータを定義する。
lgb_params = {"objective":"binary", 
            "metric":"binary_logloss", 
            "verbosity": -1}
# 各FOLDで学習を行う。
for i, (tr_idx, va_idx) in enumerate(skf.split(X, y)):
  print(f'fold{i+1}')
  # データを定義
  X_train, X_val = X.iloc[tr_idx], X.iloc[va_idx]
  y_train, y_val = y[tr_idx], y[va_idx]

  # lightgbmのデータセットを定義する。
  train_data = lgb.Dataset(X_train, y_train)
  val_data = lgb.Dataset(X_val, y_val)

  # 学習
  model = lgb.train(lgb_params, train_data,
                    num_boost_round=100000,
                    valid_sets=val_data,
                    early_stopping_rounds=100,
                    verbose_eval=0)
  
  # valデータを予測する。
  val_probs = model.predict(X_val, num_iteration=model.best_iteration)
  
  # 予測を二値化する。
  threshold = 0.5
  val_preds = np.where(val_probs < threshold, 0, 1)

  # スコアを出力
  print(accuracy_score(y_val, val_preds))

  # 予測結果をoof_predsに格納
  oof_preds[va_idx] = val_preds

  # testデータを予測しtest_probsに加算
  test_probs += model.predict(X_test, num_iteration=model.best_iteration)
  print('-'*40)


# test_probsをFOLD数で割る
test_probs /= FOLD
# 予測を二値化する
test_preds = np.where(test_probs < threshold, 0, 1)

# oofのスコアを算出
print('oof score : ', accuracy_score(y, oof_preds))

In [None]:
test_preds

In [None]:
if issubmit:
    # submissionのサンプルファイルを読み込む
    submit = pd.read_csv('gender_submission.csv')
    submit['Survived'] = test_preds
    # 提出
    submit.to_csv('submit/my_submit2.csv', index=False)

## 参考サイト
- LightGBM公式ドキュメント : https://lightgbm.readthedocs.io/en/latest/ \
ハイパーパラメータやモデルの学習時のオプションが明確に記載されているので、ぜひ覗いてみよう。