### 4.1 모델은 무엇인가?

### 4.1.1~4.1.2

In [20]:
import tensorflow as tf
import keras

Using TensorFlow backend.


In [21]:
print(tf.__version__)
print(keras.__version__)

1.15.0
2.3.1


### 사전 코딩

In [1]:
# ---------------------------------
# データ等の準備
# ----------------------------------
import numpy as np
import pandas as pd

# train_xは学習データ、train_yは目的変数、test_xはテストデータ
# pandasのDataFrame, Seriesで保持します。（numpyのarrayで保持することもあります）

train = pd.read_csv('../input/sample-data/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed.csv')

import xgboost as xgb


# コードの動作を確認するためのモデル
class Model:

    def __init__(self, params=None):
        self.model = None
        if params is None:
            self.params = {}
        else:
            self.params = params

    def fit(self, tr_x, tr_y):
        params = {'objective': 'binary:logistic', 'silent': 1, 'random_state': 71}
        params.update(self.params)
        num_round = 10
        dtrain = xgb.DMatrix(tr_x, label=tr_y)
        self.model = xgb.train(params, dtrain, num_round)

    def predict(self, x):
        data = xgb.DMatrix(x)
        pred = self.model.predict(data)
        return pred


#### -----------------------------------
#### モデルの学習と予測
#### -----------------------------------

In [2]:
# モデルのハイパーパラメータを指定する
params = {'param1': 10, 'param2': 100}

# Modelクラスを定義しているものとする
# Modelクラスは、fitで学習し、predictで予測値の確率を出力する

# モデルを定義する
model = Model(params)

# 学習データに対してモデルを学習させる
model.fit(train_x, train_y)

# テストデータに対して予測結果を出力する
pred = model.predict(test_x)

In [3]:
# -----------------------------------
# バリデーション
# -----------------------------------

In [4]:
from sklearn.metrics import log_loss
from sklearn.model_selection import KFold

# 学習データ・バリデーションデータを分けるためのインデックスを作成する
# 学習データを4つに分割し、うち1つをバリデーションデータとする
kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]

# 学習データを学習データとバリデーションデータに分ける
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

# モデルを定義する
model = Model(params)

# 学習データに対してモデルを学習させる
# モデルによっては、バリデーションデータを同時に与えてスコアをモニタリングすることができる
model.fit(tr_x, tr_y)

# バリデーションデータに対して予測し、評価を行う
va_pred = model.predict(va_x)
score = log_loss(va_y, va_pred)
print(f'logloss: {score:.4f}')

logloss: 0.3009


In [5]:
# -----------------------------------
# クロスバリデーション
# -----------------------------------

In [6]:
from sklearn.metrics import log_loss
from sklearn.model_selection import KFold

# 学習データを4つに分け、うち1つをバリデーションデータとする
# どれをバリデーションデータとするかを変えて学習・評価を4回行う
scores = []
kf = KFold(n_splits=4, shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x):
    tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]
    model = Model(params)
    model.fit(tr_x, tr_y)
    va_pred = model.predict(va_x)
    score = log_loss(va_y, va_pred)
    scores.append(score)

# クロスバリデーションの平均のスコアを出力する
print(f'logloss: {np.mean(scores):.4f}')

logloss: 0.2967


### ch04-02-run_xgb.py

### 4.2 분석 대회에 사용되는 모델

In [7]:
# ---------------------------------
# データ等の準備
# ----------------------------------
import numpy as np
import pandas as pd

# train_xは学習データ、train_yは目的変数、test_xはテストデータ
# pandasのDataFrame, Seriesで保持します。（numpyのarrayで保持することもあります）

train = pd.read_csv('../input/sample-data/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed.csv')

# 学習データを学習データとバリデーションデータに分ける
from sklearn.model_selection import KFold

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]


### 4.3.4  xgboostの実装

In [8]:
import xgboost as xgb
from sklearn.metrics import log_loss

# 特徴量と目的変数をxgboostのデータ構造に変換する
dtrain = xgb.DMatrix(tr_x, label=tr_y)
dvalid = xgb.DMatrix(va_x, label=va_y)
dtest = xgb.DMatrix(test_x)

# ハイパーパラメータの設定
params = {'objective': 'binary:logistic', 'silent': 1, 'random_state': 71}
num_round = 50

# 学習の実行
# バリデーションデータもモデルに渡し、学習の進行とともにスコアがどう変わるかモニタリングする
# watchlistには学習データおよびバリデーションデータをセットする
watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
model = xgb.train(params, dtrain, num_round, evals=watchlist)

# バリデーションデータでのスコアの確認
va_pred = model.predict(dvalid)
score = log_loss(va_y, va_pred)
print(f'logloss: {score:.4f}')

# 予測（二値の予測値ではなく、1である確率を出力するようにしている）
pred = model.predict(dtest)

[0]	train-error:0.128533	eval-error:0.1516
[1]	train-error:0.115333	eval-error:0.146
[2]	train-error:0.109333	eval-error:0.1376
[3]	train-error:0.105333	eval-error:0.1364
[4]	train-error:0.096933	eval-error:0.1384
[5]	train-error:0.094667	eval-error:0.1364
[6]	train-error:0.087333	eval-error:0.1296
[7]	train-error:0.084933	eval-error:0.1244
[8]	train-error:0.078133	eval-error:0.1208
[9]	train-error:0.073733	eval-error:0.1172
[10]	train-error:0.068667	eval-error:0.116
[11]	train-error:0.064933	eval-error:0.1164
[12]	train-error:0.062267	eval-error:0.1112
[13]	train-error:0.060533	eval-error:0.1116
[14]	train-error:0.0568	eval-error:0.1112
[15]	train-error:0.0504	eval-error:0.1048
[16]	train-error:0.0492	eval-error:0.1004
[17]	train-error:0.0464	eval-error:0.1016
[18]	train-error:0.044267	eval-error:0.1028
[19]	train-error:0.043467	eval-error:0.1012
[20]	train-error:0.038667	eval-error:0.1016
[21]	train-error:0.036533	eval-error:0.1004
[22]	train-error:0.034933	eval-error:0.0996
[23]	tra

### 4.3.5 xgboost의 사용방법의 포인트

In [9]:
# -----------------------------------
# 学習データとバリデーションデータのスコアのモニタリング
# -----------------------------------

In [10]:
# モニタリングをloglossで行い、アーリーストッピングの観察するroundを20とする
params = {'objective': 'binary:logistic', 'silent': 1, 'random_state': 71,
          'eval_metric': 'logloss'}
num_round = 500
watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
model = xgb.train(params, dtrain, num_round, evals=watchlist,
                  early_stopping_rounds=20)

# 最適な決定木の本数で予測を行う
pred = model.predict(dtest, ntree_limit=model.best_ntree_limit)

[0]	train-logloss:0.540881	eval-logloss:0.550034
Multiple eval metrics have been passed: 'eval-logloss' will be used for early stopping.

Will train until eval-logloss hasn't improved in 20 rounds.
[1]	train-logloss:0.452691	eval-logloss:0.47182
[2]	train-logloss:0.394817	eval-logloss:0.42026
[3]	train-logloss:0.351976	eval-logloss:0.385202
[4]	train-logloss:0.320213	eval-logloss:0.361498
[5]	train-logloss:0.296733	eval-logloss:0.344634
[6]	train-logloss:0.276105	eval-logloss:0.329003
[7]	train-logloss:0.258857	eval-logloss:0.316697
[8]	train-logloss:0.243628	eval-logloss:0.30775
[9]	train-logloss:0.231528	eval-logloss:0.300925
[10]	train-logloss:0.220163	eval-logloss:0.294131
[11]	train-logloss:0.209625	eval-logloss:0.285281
[12]	train-logloss:0.199507	eval-logloss:0.279123
[13]	train-logloss:0.193238	eval-logloss:0.276415
[14]	train-logloss:0.185473	eval-logloss:0.271543
[15]	train-logloss:0.174737	eval-logloss:0.265163
[16]	train-logloss:0.168997	eval-logloss:0.260891
[17]	train-log

### 4.3.6 lightgbm 모델

In [13]:
# -----------------------------------
# lightgbmの実装
# -----------------------------------

In [14]:
import lightgbm as lgb
from sklearn.metrics import log_loss

# 特徴量と目的変数をlightgbmのデータ構造に変換する
lgb_train = lgb.Dataset(tr_x, tr_y)
lgb_eval = lgb.Dataset(va_x, va_y)

# ハイパーパラメータの設定
params = {'objective': 'binary', 'seed': 71, 'verbose': 0, 'metrics': 'binary_logloss'}
num_round = 100

# 学習の実行
# カテゴリ変数をパラメータで指定している
# バリデーションデータもモデルに渡し、学習の進行とともにスコアがどう変わるかモニタリングする
categorical_features = ['product', 'medical_info_b2', 'medical_info_b3']
model = lgb.train(params, lgb_train, num_boost_round=num_round,
                  categorical_feature=categorical_features,
                  valid_names=['train', 'valid'], valid_sets=[lgb_train, lgb_eval])

# バリデーションデータでのスコアの確認
va_pred = model.predict(va_x)
score = log_loss(va_y, va_pred)
print(f'logloss: {score:.4f}')

# 予測
pred = model.predict(test_x)

New categorical_feature is ['medical_info_b2', 'medical_info_b3', 'product']
  'New categorical_feature is {}'.format(sorted(list(categorical_feature))))


[1]	train's binary_logloss: 0.454286	valid's binary_logloss: 0.4654
[2]	train's binary_logloss: 0.429417	valid's binary_logloss: 0.443487
[3]	train's binary_logloss: 0.410142	valid's binary_logloss: 0.426359
[4]	train's binary_logloss: 0.393494	valid's binary_logloss: 0.411015
[5]	train's binary_logloss: 0.379488	valid's binary_logloss: 0.398589
[6]	train's binary_logloss: 0.366857	valid's binary_logloss: 0.386944
[7]	train's binary_logloss: 0.354417	valid's binary_logloss: 0.376575
[8]	train's binary_logloss: 0.34379	valid's binary_logloss: 0.367472
[9]	train's binary_logloss: 0.334998	valid's binary_logloss: 0.359954
[10]	train's binary_logloss: 0.325439	valid's binary_logloss: 0.35231
[11]	train's binary_logloss: 0.316396	valid's binary_logloss: 0.345017
[12]	train's binary_logloss: 0.309224	valid's binary_logloss: 0.340222
[13]	train's binary_logloss: 0.301732	valid's binary_logloss: 0.333364
[14]	train's binary_logloss: 0.294708	valid's binary_logloss: 0.328792
[15]	train's binary

### 4.4 신경망

In [25]:
# ---------------------------------
# データ等の準備
# ----------------------------------
import numpy as np
import pandas as pd

# train_xは学習データ、train_yは目的変数、test_xはテストデータ
# pandasのDataFrame, Seriesで保持します。（numpyのarrayで保持することもあります）
# one-hot encodingされたものを読み込む

# train = pd.read_csv('../input/sample-data/train_preprocessed_onehot.csv')
train = pd.read_csv('../input/sample-data/train_preprocessed_onehot_01.csv')  # 에러 해결
train_x = train.drop(['target'], axis=1)
train_y = train['target']
# test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot.csv')
test_x = pd.read_csv('../input/sample-data/test_preprocessed_onehot_01.csv')

# 学習データを学習データとバリデーションデータに分ける
from sklearn.model_selection import KFold

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

# tensorflowの警告抑制
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '1'
import tensorflow as tf
tf.compat.v1.logging.set_verbosity(tf.compat.v1.logging.ERROR)

In [26]:
# -----------------------------------
# ニューラルネットの実装
# -----------------------------------

In [27]:
from keras.layers import Dense, Dropout
from keras.models import Sequential
from sklearn.metrics import log_loss
from sklearn.preprocessing import StandardScaler

# データのスケーリング
scaler = StandardScaler()
tr_x = scaler.fit_transform(tr_x)
va_x = scaler.transform(va_x)
test_x = scaler.transform(test_x)

# ニューラルネットモデルの構築
model = Sequential()
model.add(Dense(256, activation='relu', input_shape=(train_x.shape[1],)))
model.add(Dropout(0.2))
model.add(Dense(256, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='adam', metrics=['accuracy'])

# 学習の実行
# バリデーションデータもモデルに渡し、学習の進行とともにスコアがどう変わるかモニタリングする
batch_size = 128
epochs = 10
history = model.fit(tr_x, tr_y,
                    batch_size=batch_size, epochs=epochs,
                    verbose=1, validation_data=(va_x, va_y))

# バリデーションデータでのスコアの確認
va_pred = model.predict(va_x)
score = log_loss(va_y, va_pred, eps=1e-7)
print(f'logloss: {score:.4f}')

# 予測
pred = model.predict(test_x)

Train on 7500 samples, validate on 2500 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
logloss: 0.2934
