In [None]:
!pip install https://github.com/ipython-contrib/jupyter_contrib_nbextensions/tarball/master
!jupyter contrib nbextension install --user
!jupyter nbextension enable hinterland/hinterland

In [None]:
import numpy as np
import pandas as pd

# **分析コンペにおけるタスクの種類**

## **回帰タスク**

---

* 数値を予測するのが回帰タスク.




## **分類タスク**

---

### **二値分類**
- レコードがある属性に属しているかどうかを予測するのが分類タスク.

### **多クラス分類**
- レコードが複数のクラスのうちどれか一つに属している場合はマルチクラス分類.
 - 分析で使用される主なモデルはマルチクラス分類に対応している.
- レコードが同時に複数のクラスに属する可能性がある場合はマルチラベル分類.
 - マルチラベル分類では二値分類をクラスの数だけ繰り返すのが基本的な解法.



# **評価指標**

## **回帰における評価指標**

---




### **RMSE (Root Mean Squared Error)**
回帰タスクで最も代表的な評価指標. 誤差の $l^2$ ノルム.
\begin{align*}
\mathrm{RMSE} = \sqrt{\frac{1}{N} \sum^{N}_{i = 1}(y_{i} - \hat{y}_{i})^2}
\end{align*}

- 誤差が正規分布に従う場合は, 最小二乗解 $\Leftrightarrow$ 最尤解.
実際, $y_i - \hat{y}_i \sim N(0, \sigma)$ ならば, 
\begin{align*}
l(y-\hat{y}) = - \log L(y-\hat{y}) = - \frac{N}{2} \log(2 \pi \sigma^2) - \frac{1}{2\sigma^2}\sum^N_{i=1}(y_i - \hat{y}_i)^2.
\end{align*}

- MAE (誤差の $l^1$ ノルム) と比較すると外れ値の影響を受けやすい. 外れ値を除く等の処理をしておかないと外れ値に過剰に適合したモデルを作成してしまう可能性がある.


In [None]:
from sklearn.metrics import mean_squared_error

y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 3.0]

rmse = np.sqrt(mean_squared_error(y_true, y_pred))
print(rmse)

0.5531726674375732


### **RMSLE (Root Mean Squared Logarithmic Error)**
対数での誤差の $l^2$ ノルム.

\begin{align*}
\mathrm{RMSLE} = \sqrt{\frac{1}{N} \sum^{N}_{i = 1} (\log(1 + y_{i}) - \log(1 + \hat{y}_{i}))^2}
\end{align*}

- 目的変数が裾の重い分布を持ち変換しないままだと大きな値の影響が強い場合や, 真の値と予測値の比率に着目したい場合に用いられる.


In [None]:
from sklearn.metrics import mean_squared_log_error

y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 3.0]

rmsle = np.sqrt(mean_squared_log_error(y_true, y_pred))
print(rmsle)

0.17032547044118185


### **MAE (Mean Absolute Error)**
誤差の $l^1$ ノルム.

\begin{align*}
\mathrm{MAE} = \frac{1}{N} \sum^{N}_{i = 1} |y_i - \hat{y}_i|
\end{align*}

- 外れ値の影響を低減した形での評価に適している.

- $\hat{y}_i = y_i$ で $\hat{y}_i$ について微分不可能であったり, 2階微分が常に $0$ となるという扱いづらい性質を持っている.


In [None]:
from sklearn.metrics import mean_absolute_error

y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 3.0]

mse = np.sqrt(mean_absolute_error(y_true, y_pred))
print(mse)

0.58309518948453


### **決定係数 ($\mathrm{R}^2$)**
回帰分析の当てはまりの良さを表す指標.
\begin{align*}
& \mathrm{R}^2 = 1 - \frac{\sum^{N}_{i=1} (y_i - \hat{y}_i)^2}{\sum^{N}_{i=1} (y_i - \bar{y})^2} \\
& \bar{y} = \frac{1}{N} \sum^{N}_{i = 1} y_i
\end{align*}


- 最大で $1$ をとり, $1$ に近づくほど精度の高い予測になっている.

- 分母は予測値に依らず, 分子は二乗誤差であるため, $\mathrm{R}^2$ を最大化することは $\mathrm{RMSE}$ を最小化することと同値.




In [None]:
from sklearn.metrics import r2_score

y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 2.0]

r2 = r2_score(y_true, y_pred)
print(r2)

0.8088235294117648


## **二値分類における評価指標～正例か負例かを予測値とする場合～**

---

### **混同行列 (confusion matrix)**

予測値を正例としたか負例としたか, 予測が正しいか誤りかによって, レコードを以下の4つのグループに分け, それぞれのレコード数を行列表示したもの.

- TP (True Positive, 真陽性)：予測値を正例として, その予測が正しい場合

- TN (True Negative, 真陰性)：予測値を負例として, その予測が正しい場合

- FP (False Positive, 偽陽性)：予測値を正例として, その予測が誤りの場合

- FN (False Negative, 偽陰性)：予測値を負例として, その予測が誤りの場合

In [None]:
from sklearn.metrics import confusion_matrix

y_true = [0, 1, 1, 1, 1, 0, 0, 0, 0, 1]
y_pred = [0, 0, 0, 1, 1, 0, 1, 0, 0, 1]
labels = list(set(y_true) | set(y_pred))
if len(labels) > 2:
  labels.sort(reverse=False)
else:
  labels.sort(reverse=True)

confusion_matrix = confusion_matrix(y_true, y_pred, labels = labels).T
print(confusion_matrix)

[[3 1]
 [2 4]]


### **accuracy (正答率) と error rate (誤答率)**

accuracy は予測が正しい割合を表す指標, error rate は予測が誤っている割合を表す指標.

\begin{align*}
& \mathrm{accuracy} = \frac{TP + TN}{TP + TN + FP + FN} \\
& \mathrm{error \ rate} = 1 - \mathrm{accuracy}
\end{align*}

- 不均衡なデータ, すなわち目的変数のクラスの割合が均一でないデータの場合には, モデルの性能を評価しづらい.

In [None]:
from sklearn.metrics import accuracy_score

y_true = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 0, 1, 1, 0, 0, 1, 1]

accuracy = accuracy_score(y_true, y_pred)
print(accuracy)

0.625


### **precision (適合率) と recall (再現率)**
precision は正例と予測したもののうち真の値も正例であるものの割合を表す指標, recall は真の値が正例のもののうち正例と予測されたものの割合を表す指標.

\begin{align*}
& \mathrm{precision} = \frac{TP}{TP + FP}\\
& \mathrm{recall} = \frac{TP}{TP + FN}
\end{align*}

- precision と recall は互いにトレードオフの関係になっており, どちらかの値を高くしようとすると, もう一方の値は低くなる.

- 誤検知を少なくしたい場合は precision を重視し, 正例の見逃しを避けたい場合は recall を重視することになる.

In [None]:
from sklearn.metrics import precision_score, recall_score

y_true = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 0, 1, 1, 0, 0, 1, 1]

precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
print(precision)
print(recall)

0.75
0.6


### **F1-score と Fβ-score**

F1-score は precision と recall の調和平均で計算される指標, Fβ-score は F1-score から recall と precision のバランスを, recall をどれだけ重視するかを表す係数βによって調整した指標.

\begin{align*}
& F_1 = \frac{2}{\frac{1}{\mathrm{recall}} + \frac{1}{\mathrm{precision}}} = \frac{2 \cdot \mathrm{recall} \cdot \mathrm{precision}}{\mathrm{recall} + \mathrm{precision}} = \frac{2TP}{2TP + FP + FN} \\
& F_{\beta} = \frac{(1 + \beta^2)}{\frac{\beta^2}{\mathrm{recall}} + \frac{1}{\mathrm{precision}}} = \frac{(1 + \beta^2) \cdot \mathrm{recall} \cdot \mathrm{precision}}{\mathrm{recall} + \beta^2 \mathrm{precision}} = \frac{(1 + \beta^2)TP}{(1 + \beta^2)TP + FP + \beta^2FN}
\end{align*}

- 分子に $TP$ のみが含まれることから分かるように, 正例と負例について対称ではなく, 真の値と予測値の正例と負例を入れ替えるとスコアやその振る舞いが変わる.

In [None]:
from sklearn.metrics import f1_score, fbeta_score

y_true = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 0, 1, 1, 0, 0, 1, 1]
beta = 2.0

f1 = f1_score(y_true, y_pred)
fbeta = fbeta_score(y_true, y_pred, beta=beta)

print(f1)
print(fbeta)

0.6666666666666665
0.625


## **二値分類における評価指標～正例である確率を予測値とする場合～**

---

### **logloss**

分類タスクでの代表的な評価指標. cross entropy と呼ばれることもある.

\begin{align*}
\mathrm{logloss} = -\frac{1}{N} \sum^{N}_{i=1}(y_i \log p_i + (1 - y_i) \log (1 - p_i))
\end{align*}

ここで, $y_i$ は正例かどうかを表すラベル (正例が $1$, 負例が $0$) を, $p_i$ は各レコードが正例である予測確率を表す.


In [None]:
from sklearn.metrics import log_loss

y_true = [1, 0, 1, 1, 0, 1]
y_pred = [0.1, 0.2, 0.8, 0.8, 0.1, 0.3]

logloss = log_loss(y_true, y_pred)
print(logloss)

0.7135581778200728


### **AUC (Area Under the ROC Curve)**

AUC は ROC 曲線の下部の面積で表される指標. ROC 曲線は, 予測値を正例とする閾値を1から0に動かし, そのときの偽陽性率, 真陽性率を (x, y) としてプロットすることで定義される. 

- 偽陽性率：$\frac{FP}{FP + TN} = \frac{1}{1 + \frac{TN}{FP}}$ 

- 真陽性率：$\frac{TP}{TP + FN} = \frac{1}{1 + \frac{FN}{TP}}$

- 偽陽性率, 真陽性率ともに, 閾値に対して広義単調減少.

- 閾値が1で (偽陽性率, 真陽性率) = (0.0, 0.0), 閾値が0で (偽陽性率, 真陽性率) = (1.0, 1.0).

- 完全な予測を行った場合には, ROC 曲線は (偽陽性率, 真陽性率) = (0.0, 1.0) の点を通り, AUC は1.0となる. ランダムな予測の場合は, 偽陽性率 = 真陽性率 = 1.0 - 閾値 と考えられ, AUC は0.5程度となる.

- 予測値を反対にした場合 (すなわち, 1.0 - 元の予測値 とした場合) は, AUC は 1.0 - 元のAUC となる.
 - $\tilde{\cdot}$ で新しい値を表すと, 
\begin{align*}
& \frac{\tilde{FP}}{\tilde{FP} + \tilde{TN}} = \frac{TN}{TN + FP} = 1.0 - \frac{FP}{FP + TN} \\
& \frac{\tilde{TP}}{\tilde{TP} + \tilde{FN}} = \frac{FN}{FN + TP} = 1.0 - \frac{TP}{TP + FN}.
\end{align*}

- AUC は正例と負例をそれぞれ独立にランダムサンプリングしたときに正例の予測値が負例の予測値より大きい確率で近似することができる. 
これを確認する.
偽陽性率, 真陽性率ともに, 閾値に対して狭義単調減少であると仮定する.
予測確率 $p$ が連続の値であるから, 自然な仮定である.
正例と負例の条件下における分布関数を
\begin{align*}
& F_0(s) = P(p \le s | y = 0) \\
& F_1(s) = P(p \le s | y = 1)
\end{align*}
で定義し, $f_0(s)$, $f_1(s)$ をそれぞれの密度関数とする. ここで, $s$ は閾値である. 偽陽性率を $x$, 新陽性率を $y$ で表すと, それぞれ
\begin{align*}
& x(s) = P(p > s | y = 0) = 1 - F_0(s) \\
& y(s) = P(p > s | y = 1) = 1 - F_1(s) 
\end{align*}
と書ける. 仮定より, $x(s)$, $y(s)$ は $s$ について狭義単調減少であるから, 
変数変換を行って, 
\begin{align*}
\mathrm{AUC} & = \int^{1}_{0} y(x) dx \\
& = \int^{1}_{0} y(s) x^{\prime}(s) ds \\
& = \int^{1}_{0} (1 - F_1(s)) f_0(s) ds \\
\end{align*}
を得る. 
\begin{align*}
1 - F_1(s) = \int^{1}_{s} f_1(t) dt
\end{align*}
に注意すると, 
\begin{align*}
\int^{1}_{0} \left( \int^{1}_{s} f_1(t) dt \right) f_0(s) ds 
& = \int^{1}_{0} \int^{1}_{0} \chi_{\{ s \le t \}}(s, t) f_0(s) f_1(t) ds dt \\
& = P_{f_0, f_1}(S \le T)
\end{align*}
が分かる. したがって, 
\begin{align*}
AUC = P_{f_0, f_1}(S \le T) \simeq \frac{\# \{ y^{0}_i = 0, y^{1}_j = 1, s_i \le t_j \}}{\# \{ y^{0}_i = 0, y^{1}_j = 1 \}}.
\end{align*}








In [None]:
from sklearn.metrics import roc_auc_score

y_true = np.array([0, 0, 0, 0, 1, 1, 1, 1])
y_pred = np.array([0.2, 0.3, 0.6, 0.8, 0.4, 0.5, 0.7, 0.9])

auc = roc_auc_score(y_true, y_pred)
print(auc)

0.6875


## **多クラス分類における評価指標**

---

### **multi-class accuracy**

二値分類の accuracy を多クラスへ拡張したもので, 予測が正しい割合を表す指標. 予測が正解であるレコード数をすべてのレコード数で割った値として定義される.
\begin{align*}
\mathrm{multiclass \ accuracy} = \frac{\# \{ y_i = \hat{y}_i \} }{N}
\end{align*}

In [None]:
from sklearn.metrics import accuracy_score

y_true = [1, 0, 1, 1, 2, 1, 1, 0, 2, 3]
y_pred = [0, 0, 1, 1, 2, 0, 1, 1, 1, 3]

accuracy = accuracy_score(y_true, y_pred)
print(accuracy)

0.6


### **multi-class logloss**

logloss をマルチクラス分類に拡張した指標. 
\begin{align*}
\mathrm{multiclass \ logloss} = - \frac{1}{N} \sum^{N}_{i=1} \sum^{M}_{m=1} y_{i, m} \log p_{i, m}
\end{align*}
$M$ はクラス数. $y_{i, m}$ はレコード $i$ がクラス $m$ に属する場合は1, 属さない場合は0となる. $p_{i, m}$ はレコード $i$ がクラス $m$ に属する予測確率.

In [None]:
from sklearn.metrics import log_loss

y_true = [0, 2, 1, 2, 2]
y_pred = [[0.68, 0.32, 0.00],
          [0.00, 0.00, 1.00],
          [0.60, 0.40, 0.00],
          [0.00, 0.00, 1.00],
          [0.28, 0.12, 0.60]]

logloss = log_loss(y_true, y_pred)
print(logloss)

0.3625557672904274


### **mean-F1 と macro-F1 と micro-F1**

それぞれ, F1-score を多クラス分類に拡張したもの. 主にマルチラベル分類で用いられる.

- mean-F1：レコード単位で F1-score を計算し, その行方向の平均値を評価指標のスコアとする.

- macro-F1：クラス単位で F1-score を計算し, その列方向の平均値を評価指標のスコアとする. この指標は, それぞれのクラスで二値分類を行い, その F1-score を平均しているのと同じため, 各クラスで独立に閾値を最適化することができる.

- micro-F1：レコード×クラスのベクトルを1次元ベクトルに変換し, そのベクトルに対する二値分類用の F1-score を評価指標とする.




In [None]:
from sklearn.metrics import f1_score

# 真の値 - [[1, 2], [1], [1, 2, 3], [2, 3], [3]]
y_true = np.array([[1, 1, 0], 
          [1, 0, 0], 
          [1, 1, 1], 
          [0, 1, 1], 
          [0, 0, 1]])

# 予測値 - [[1, 3], [2], [1, 3], [3], [3]]
y_pred = np.array([[1, 0, 1], 
          [0, 1, 0], 
          [1, 0, 1], 
          [0, 0, 1], 
          [0, 0, 1]])

mean_f1 = np.mean([f1_score(y_true[i, :], y_pred[i, :]) for i in range(len(y_true))])
macro_f1 = np.mean([f1_score(y_true[:, c], y_pred[:, c]) for c in range(y_true.shape[1])])
micro_f1 = f1_score(y_true.reshape(-1), y_pred.reshape(-1))
print(mean_f1, macro_f1, micro_f1)

f1 = f1_score(y_true, y_pred, average=None)
mean_f1 = f1_score(y_true, y_pred, average='samples')
macro_f1 = f1_score(y_true, y_pred, average='macro')
micro_f1 = f1_score(y_true, y_pred, average='micro')
print(f1, mean_f1, macro_f1, micro_f1)



0.5933333333333334 0.5523809523809523 0.6250000000000001
[0.8        0.         0.85714286] 0.5933333333333334 0.5523809523809523 0.6250000000000001


# **評価指標と目的関数**

## **評価指標と目的関数の違い**

---

- 目的関数：モデルの学習において最適化される関数.
 - モデルに応じて, 微分可能性などの制約が課される.
 - 回帰タスクでは RMSE, 分類タスクでは logloss が基本的.

- 評価指標：モデルや予測値の性能の良し悪しを測る指標.
 - 真の値と予測値から計算できれば特に制約はない.
 - ビジネス上の価値判断などから決定する.



# **評価指標の最適化**

## **評価指標の最適化のアプローチ**

---

- 単に正しくモデリングを行う. 
 - 評価指標と目的関数が同じ場合は, 単にモデルを学習・予測させることで評価指標に最適化される. 

- 学習データの前処理をして, 異なる評価指標を最適化する.
 - 例えば, 評価指標が RMSLE の場合に, 与えられた学習データの目的変数の対数をとって変換し, 目的関数を RMSE として学習させたあと, 指数関数で変換をもとに戻す方法が挙げられる.

- 異なる評価指標の最適化を行い, 後処理を行う.
 - モデルを学習・予測させたあと, 評価指標の性質に基づいて計算したり, 最適化アルゴリズムを用いて閾値などを最適化する方法.

- カスタム指標を使用する. 

- 異なる評価指標を最適化し, アーリーストッピングを行う.
 - アーリーストッピングの評価対象に最適化したい評価指標を設定し, その指標が最適になるような時点で学習を止める方法.







## **閾値の最適化**

---

- 最適化アルゴリズムを用いる方法
 - scipy.optimizeモジュールなどを用いて, 「閾値を引数にしてスコアを返す関数」を最適化する.




In [None]:
from sklearn.metrics import f1_score
from scipy.optimize import minimize

rand = np.random.RandomState(seed=71)
train_y_prob = np.linspace(0, 1.0, 10000)

train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_normal(train_y_prob.shape) * 0.3), 0.0, 1.0)

init_threshold = 0.5
init_score = f1_score(train_y, train_pred_prob >= init_threshold)
print(init_threshold, init_score)

def f1_opt(x):
  return -f1_score(train_y, train_pred_prob >= x)


result = minimize(f1_opt, x0=np.array([init_threshold]), method='Nelder-Mead')
best_threshold = result['x'].item()
best_score = f1_score(train_y, train_pred_prob >= best_threshold)
print(best_threshold, best_score)


0.5 0.7224831529507862
0.32324218749999983 0.7557317703844165


## **out-of-fold による閾値の最適化**

---

In [None]:
from scipy.optimize import minimize
from sklearn.metrics import f1_score
from sklearn.model_selection import KFold

rand = np.random.RandomState(seed=71)
train_y_prob = np.linspace(0, 1.0, 10000)

train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_normal(train_y_prob.shape) * 0.3), 0.0, 1.0)

init_threshold = 0.5

thresholds = []
scores_tr = []
scores_va = []

kf = KFold(n_splits=4, random_state=71, shuffle=True)
for i, (tr_idx, va_idx) in enumerate(kf.split(train_pred_prob)):
  tr_pred_prob, va_pred_prob = train_pred_prob[tr_idx], train_pred_prob[va_idx]
  tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

  def f1_opt(x):
    return -f1_score(tr_y, tr_pred_prob >= x)


  result = minimize(f1_opt, x0=np.array([init_threshold]), method='Nelder-Mead')
  threshold = result['x'].item()
  score_tr = f1_score(tr_y, tr_pred_prob >= threshold)
  score_va = f1_score(va_y, va_pred_prob >= threshold)
  print(threshold, score_tr, score_va)

  thresholds.append(threshold)
  scores_tr.append(score_tr)
  scores_va.append(score_va)

threshold_test = np.mean(thresholds)
print(threshold_test)
  

0.34257812499999984 0.7559183673469387 0.7570422535211268
0.34277343749999983 0.7598457403295548 0.7450980392156863
0.31787109374999983 0.7548253676470588 0.7584803256445047
0.3234374999999998 0.7545569184913447 0.7588603196664351
0.33166503906249983


## **予測確率とその調整**

---

### **予測確率が歪んでいる場合**

- データが十分でない場合.
 - データが少ない時は, 特に極端に0や1に近い確率を予測することは難しい.

- モデルの学習のアルゴリズム上, 妥当な確率を予測するように最適化されない場合

### **予測確率の調整**

- 予測値をn乗する.
 - nは0.9～1.1程度として, 予測値をn乗する処理を最後に加えることがある. 確率を十分に予測できていないと考えて, 補正を試みていると言える.

- 極端に0や1に近い確率のクリップ
 - 大きなペナルティを避けるためなどの理由で, 出力する確率の範囲を0.1%～99.9%等に制限する方法がある.

- スタッキング

# **欠損値の扱い**

## **欠損値が発生する理由**

---

- 値が存在しないケース.
 - 個人と法人が混在しているデータでの法人の年齢, 人数が0の場合の平均など.

- 何らかの意図があるケース.
 - 入力フォームにユーザが入力してくれない, その場所や時間については観測していないなど.

- 値を取得するのに失敗したケース.
 - 人為的ミスや観測機器のエラーで値があるにも関わらず取得できなかったなど.

## **欠損値のまま取り扱う**

---

- GBDTでは欠損値を埋めずにそのまま取り扱うことができるため, そのまま取り扱うのが自然な方法.

## **欠損値を代表値で埋める**

---

- 欠損の発生がランダムであることを前提としている. ランダムでなければ, あまり適切でない可能性がある. 

- 代表値はデータの特性に応じて決定する. 
 - 平均値. もっとも典型的.
 - 中央値. 分布が歪んでいる場合.
 - 変数変換後に平均値. 対数変換などにより歪みの少ない分布に変換.
 - 別のカテゴリ変数でグループ分けし1, 平均値. 欠損している変数の分布がグループごとに大きく変わることが想定される場合.


## **欠損値を他の変数から予測する**

---

1. 欠損を補完したい変数を目的変数とみなして, その他の変数を特徴量とした補完のためのモデルを作成し, 学習を行う. 補完したい変数が欠損していないレコードを学習データとし, 欠損しているデータを予測対象のデータとする.
 - 補完のためのモデルの特徴量に本来の目的変数を含めると, テストデータを補完できなくなるため, 含めない. 逆に, 本来のテストデータで補完したい変数が欠損していないレコードは, 補完のためのモデルの学習データとして利用できる.

1. 補完のためのモデルで予測した値で欠損値を埋める.



## **欠損値から新たな特徴量を作成する**

---

- 欠損値の発生が完全にランダムに起こることはあまりなく, 発生に何らかの理由がある場合は欠損していること自体に情報があるため, 欠損値から特徴量を作成することが有効.

 - 欠損値がある各変数に対して, 欠損しているか否かの二値変数を作成する.
 
 - レコードごとに欠損している変数の数をカウントする. 

 - 複数の変数の欠損の組み合わせを調べ, それらがいくつかのパターンに分類できるのであれば, どのパターンであるかを特徴量とする.


# **数値変数の変換**

## **標準化 (standardization)**

---

線形変換をして, 変数の平均を0, 標準偏差を1にする操作.

\begin{align*}
x^{\prime} = \frac{x - \mu}{\sigma}
\end{align*}

- 線形モデルにおいては, スケールが大きい変数ほどその回帰係数が小さくなり, 標準化を行わないとそのような変数に対して正則化がかかりにくくなってしまう.

- ニューラルネットにおいては, 変数同士のスケールの差が大きいままでは学習が上手く進まないことが多い.

- 変換の方法は以下のいずれか. 
 - 学習データで平均と分散を計算し, それを用いて学習データ・テストデータを変換する. 
 - 学習データとテストデータを結合して平均と分散を計算し, それを用いて学習データ・テストデータを変換する. 

- スパースな変数に対して変換を行った場合, スパース性が壊れることがあるため, 注意が必要.


In [None]:
from sklearn.preprocessing import StandardScaler

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

num_cols = ['age', 'height', 'weight', 'amount',
            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']

# パターン1
scaler = StandardScaler()
scaler.fit(train_x[num_cols])

train_x[num_cols] = scaler.transform(train_x[num_cols])
test_x[num_cols] = scaler.transform(test_x[num_cols])

# パターン2
# scaler = StandardScaler()
# scaler.fit(pd.concat([train_x[num_cols], test_x[num_cols]]))

# train_x[num_cols] = scaler.transform(train_x[num_cols])
# test_x[num_cols] = scaler.transform(test_x[num_cols])

## **Min-Maxスケーリング**

---

変数のとる範囲を0から1の区間に押し込める操作.

\begin{align*}
x^{\prime} = \frac{x - x_{min}}{x_{max} - x_{min}}
\end{align*}

- 変換後の平均がちょうど0にならない, 外れ値の影響をより受けやすいなどのデメリットがあるため, 標準化の方がよく使われる.

- スパースな変数に対して変換を行った場合, スパース性が壊れることがあるため, 注意が必要.



In [None]:
from sklearn.preprocessing import MinMaxScaler

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

num_cols = ['age', 'height', 'weight', 'amount',
            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']

scaler = MinMaxScaler()
scaler.fit(train_x[num_cols])

train_x[num_cols] = scaler.transform(train_x[num_cols])
test_x[num_cols] = scaler.transform(test_x[num_cols])

## **非線形変換**

---

### **対数変換**

裾の重い分布に対して有効な変換.

\begin{align*}
& x_1 = \log x \\
& x_2 = \log (1 + x) \\
& x_3 = \mathrm{sgn} \, x \ \log |x| 
\end{align*}

- 通常の対数変換.
- 0が値として含まれる場合には, 1を足してから対数変換. 
- 負の値が含まれる場合には, 絶対値を対数変換した後に符号をかけて変換.




In [None]:
x = np.array([1.0, 10.0, 100.0, 1000.0, 10000.0])

x1 = np.log(x)

x2 = np.log1p(x)

x3 = np.sign(x) * np.log(np.abs(x))

### **Box-Cox変換**

対数変換の一般化. 正の値のみを持つ変数に適用可能.

\begin{align*}
x^{\prime} =
\left \{
\begin{aligned}
& \frac{x^{\lambda} - 1}{\lambda} \qquad \lambda \neq 0  \\
& \log x \qquad \lambda = 0
\end{aligned}
\right.
\end{align*}


### **Yeo-Johnson変換**

対数変換の一般化. 負の値を持つ変数にも適用可能.

\begin{align*}
x^{\prime} =
\left \{
\begin{aligned}
& \frac{(1 + x)^{\lambda} - 1}{\lambda} \qquad \lambda \neq 0, x_i \ge 0  \\
& \log (1 + x) \qquad \lambda = 0, x_i \ge 0 \\
& \frac{-\left((1-x)^{2-\lambda} - 1\right)}{2 - \lambda} \qquad \lambda \neq 2, x_i < 0 \\
& - \log (1 - x) \qquad \lambda = 2, x_i < 0 
\end{aligned}
\right.
\end{align*}


In [None]:
from sklearn.preprocessing import PowerTransformer

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

num_cols = ['age', 'height', 'weight', 'amount',
            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']

pt = PowerTransformer(method='yeo-johnson')
pt.fit(train_x[num_cols])

train_x = pt.transform(train_x[num_cols])
test_x = pt.transform(test_x[num_cols])

### **その他の非線形変換**

- 絶対値をとる.
- 平方根をとる.
- べき乗をとる.
- 正の値かどうか, ゼロかどうかなどの二値変数とする.
- 数値の端数をとる. 
- 四捨五入, 切り上げ, 切り捨てを行う.

**#平方根変換がポアソン分布に対する分散安定化変換になっていることを記載すること**

## **clipping**

---

上限や下限を設定し, それを外れた値は上限や下限の値で置き換える操作.

- 外れ値を排除することができる.

- 適当に閾値を設定することもできるが, 分位点を閾値とすることで機械的に外れ値を置き換えることもできる.

In [None]:
train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

num_cols = ['age', 'height', 'weight', 'amount',
            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']

p01 = train_x[num_cols].quantile(0.01)
p99 = train_x[num_cols].quantile(0.99)

train_x[num_cols] = train_x[num_cols].clip(p01, p99, axis=1)
test_x[num_cols] = test_x[num_cols].clip(p01, p99, axis=1)

## **binning**

---

数値変数を区間ごとにグループ分けして, あえてカテゴリ変数として扱う方法.

- 等間隔に分割する方法.
- 分位点を用いて分割する方法.
- 区間の区切りを明示的に指定して分割する方法.

In [None]:
x = np.array([1, 7, 5, 4, 6, 3])

binned_1 = pd.cut(x, 3, labels=False)
print(binned_1)

bin_edges_2 = [-float('inf'), np.quantile(x, 0.01), np.quantile(x, 0.99), float('inf')]
binned_2 = pd.cut(x, bin_edges_2, labels=False)
print(binned_2)

bin_edges_3 = [-float('inf'), 3.0, 4.0, 5.0, 5.5, float('inf')]
binned_3 = pd.cut(x, bin_edges_3, labels=False)
print(binned_3)

[0 2 1 1 2 0]
[0 2 1 1 1 1]
[0 4 2 1 4 0]


## **順位への変換**

---

数値変数を大小関係に基づいた順位へと変換する方法.

- 数値の大きさや感覚の情報をあえて捨てて, 大小関係のみを抽出する方法.
 - 単に順位に変換する.
 - 順位をレコード数で割り, 0から1の範囲にスケーリングする.

In [None]:
x = [10, 20, 30, 0, 40, 40]

rank = pd.Series(x).rank()
print(rank.values)


[2.  3.  4.  1.  5.5 5.5]


## **RankGauss**

---

数値変数を順位に変換し, 0～1にスケーリングした後, 正規分布の分布関数の逆関数で変換することで, 正規分布に従う変数に変換する方法. 

In [None]:
from sklearn.preprocessing import QuantileTransformer

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

num_cols = ['age', 'height', 'weight', 'amount',
            'medical_info_a1', 'medical_info_a2', 'medical_info_a3', 'medical_info_b1']

transformer = QuantileTransformer(n_quantiles=100, random_state=0, output_distribution='normal')
transformer.fit(train_x[num_cols])

train_x[num_cols] = transformer.transform(train_x[num_cols])
test_x[num_cols] = transformer.transform(test_x[num_cols])

# **カテゴリ変数の変換**

- カテゴリ変数は, 多くの機械学習モデルでそのまま分析に用いることができず, モデルごとに適した形への変換が必要. 

- 変数が文字列で表されているケースだけではなく, データ上は数値であっても値の大きさや順序に意味が無い場合には, カテゴリ変数として扱うべき.

- テストデータにのみ存在するカテゴリがある場合, 何らかの考慮が必要. 
 - 影響が微小であることを確認し, 特に対応しない.
 - 最頻値や予測によって補完する.


## **one-hot encoding**

---

カテゴリ変数に対する最も代表的なハンドリング方法で, カテゴリ変数の各水準に対して, その水準かどうかを表す0, 1の二値変数をそれぞれ作成する方法. 

- n個の水準を持つカテゴリ変数にone-hot encodingを適用すると, n個の二値変数の特徴量が作成される. これらの二値変数はダミー変数と呼ばれる.

- one-hot encodingの重大な欠点は, 特徴量の数がカテゴリ変数の水準数に応じて増加する点. 特徴量が増えすぎると, 学習の計算時間や必要なメモリが大きく増えたり, モデルの性能に悪影響を与える. 
 - one-hot encoding以外のencoding手法を検討する.
 - 何らかの規則でグルーピングして, カテゴリ変数の水準の数を減らす.
 - 頻度の少ないカテゴリをすべて「その他のカテゴリ」のようにまとめてしまう.

- n-1個のダミー変数で十分であるが, 特に問題が生じないこと, 分析がしやすいことからn個のダミー変数を作成するのが一般的.


In [None]:
train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

cat_cols = ['sex', 'product', 'medical_info_b2', 'medical_info_b3']

all_x = pd.concat([train_x, test_x])
all_x = pd.get_dummies(all_x, columns=cat_cols)

train_x = all_x.iloc[:train_x.shape[0], :].reset_index(drop=True)
test_x = all_x.iloc[train_x.shape[0]:, :].reset_index(drop=True)


## **label encoding**

---

カテゴリ変数の各水準を単純に整数に置き換える方法. 

- 通常, 水準を文字列として辞書順に並べた順のインデックスで置き換える.

- 辞書順に並べたときのインデックスの数値は, ほとんどの場合本質的な意味を持たない. そのため, 決定木をベースにした手法以外では, label encodingによる特徴量を直接学習に用いるのは適切でない. 







In [None]:
from sklearn.preprocessing import LabelEncoder

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

cat_cols = ['sex', 'product', 'medical_info_b2', 'medical_info_b3']

for c in cat_cols:
  le = LabelEncoder()
  le.fit(train_x[c])
  train_x[c] = le.transform(train_x[c])
  test_x[c] = le.transform(test_x[c])

## **frequency encoding**

---

カテゴリ変数の各水準の出現回数もしくは出現頻度でカテゴリ変数を置き換える方法.
- label encodingの変形として, 辞書順に並べた順のインデックスでなく, 出現頻度順のインデックスで並べることができる. 
 - 同率の値が発生することに注意.

In [None]:
train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

cat_cols = ['sex', 'product', 'medical_info_b2', 'medical_info_b3']

for c in cat_cols:
  freq = train_x[c].value_counts()
  train_x[c] = train_x[c].map(freq)
  test_x[c] = test_x[c].map(freq)

## **target encoding**

---

目的変数を用いてカテゴリ変数を数値に変換する方法.

- 基本的には, カテゴリ変数の各水準における目的変数の平均値を学習データで集計し, その値で置換する.

- GBDTなどの決定木ベースのモデルでは, label encodingよりtarget encodingの方が有効な場合が多い.




### **target encodingの手法・実装**

- 単純にデータ全体から平均をとってしまうと, 自身のレコードの目的変数をカテゴリ変数に取り込んでしまうため, リークしてしまう. 

- 学習データをtarget-encoding用のfoldに分割し, 各foldごとに自身のfold以外のデータで目的変数の平均値を計算することで, 自身のレコードの目的変数の値を含めずに変換を行うことができる.

- target encoding用のfoldの数は, 4～10くらい.

- テストデータに対しては, 学習データ全体の目的変数の平均値を計算して変換する.





In [None]:
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

cat_cols = ['sex', 'product', 'medical_info_b2', 'medical_info_b3']

for c in cat_cols:
  data_tmp = pd.DataFrame({c:train_x[c], 'target': train_y})
  target_mean = data_tmp.groupby(c)['target'].mean()
  test_x[c] = test_x[c].map(target_mean)

  tmp = np.repeat(np.nan, train_x.shape[0])

  kf = KFold(n_splits=4, shuffle=True, random_state=72)
  for idx_1, idx_2 in kf.split(train_x):
    target_mean = data_tmp.iloc[idx_1].groupby(c)['target'].mean()
    tmp[idx_2] = train_x[c].iloc[idx_2].map(target_mean)

  train_x[c] = tmp


### **target encodingの手法・実装～クロスバリデーションを行う場合～**

- クロスバリデーションで上記と同じようにtarget encodingを行うためには, クロスバリデーションのfoldごとに変換をかけ直す必要がある. 

In [None]:
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test.csv')

cat_cols = ['sex', 'product', 'medical_info_b2', 'medical_info_b3']

kf = KFold(n_splits=4, shuffle=True, random_state=71)
for i, (tr_idx, va_idx) in enumerate(kf.split(train_x)):
  tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
  tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]
  for c in cat_cols:
    data_tmp = pd.DataFrame({c:tr_x[c], 'target': tr_y})
    target_mean = data_tmp.groupby(c)['target'].mean()
    va_x.loc[:, c] = va_x[c].map(target_mean)

    tmp = np.repeat(np.nan, tr_x.shape[0])

    kf_encoding = KFold(n_splits=4, shuffle=True, random_state=72)
    for idx_1, idx_2 in kf_encoding.split(tr_x):
      target_mean = data_tmp.iloc[idx_1].groupby(c)['target'].mean()
      tmp[idx_2] = tr_x[c].iloc[idx_2].map(target_mean)

    tr_x.loc[:, c] = tmp

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(ilocs[0], value)


### **目的変数の平均の取り方**

- 回帰の場合は, 目的変数の平均をとる. 
- 二値分類の場合は, 正例のときは1, 負例のときは0として平均をとる.
- 多クラス分類の場合は, クラスの数だけ二値分類があると考えて, クラスの数だけtarget encodingによる特徴量を作る.
- 外れ値がある場合など, 目的変数の分布によっては, 平均値ではなく中央値などをとる.
- 評価指標がRMSLEであるなど, 対数をとって評価される場合は, 対数をとったうえで目的変数の平均を計算する.

### **順序変数の扱い**

- 決定木系のモデルでは, 序列をそのまま整数に置き換えて数値変数として扱えば良い.



### **カテゴリ変数の値の意味を抽出する**
カテゴリ変数の水準が無意味な記号でなく, 何かの意味を持っている場合, 単にencodingをおこなってしまうとその情報が消えてしまうため, その意味を抽出する処理を行って特徴量を作成する.

- ABC-00123やXYZ-00200のような型番の場合, 前半の英字3文字と後半の数字5文字に分割する.

- 3, Eのように数字のものと英字のものが混じっている場合, 数字か否かを特徴量にする.

- AB, ACE, BCDEのように文字数に違いがある場合, 文字数を特徴量にする.

# **変数の組み合わせ**

複数の変数を組み合わせることで, 変数同士の相互作用を表現する特徴量を作成できる. 

- データに関する背景知識を利用して, 組み合わせを考える.

- モデルから出力される特徴量や相互作用の重要度を基にして, 組み合わせを考える.

### **数値変数×カテゴリ変数**

- カテゴリ変数の水準ごとに, 数値変数の平均や分散といった統計量をとり, 新たな特徴量とする.

### **数値変数×数値変数**

- 数値変数を加減乗除する, 余りをとる, 比較するといった方法で新たな特徴量を作成する. 

- GBDTは加法的なモデルであるため, 加減よりも乗除の特徴量を加えた方が有効であると考えられる.

### **カテゴリ変数×カテゴリ変数**

- 複数のカテゴリ変数の組み合わせを新たなカテゴリ変数とする.
 - 文字列として変数同士を連結する.

- カテゴリ変数同士の組み合わせで作成した変数の変換は, target encodingが有効.
 - 目的変数の平均を計算するグループがより細分化され, より特徴的な傾向をとらえることができる可能性が高まるため.
 - その分, 過学習のリスクは高まる.


### **行の統計量をとる**

- 行方向, つまりレコードごとに複数の変数を対象として統計量をとり, 新たな特徴量とする. 
 - 欠損値, ゼロ, 負の値の数をカウントする.
 - 平均, 分散, 最大, 最小などの統計量を計算する.

# ***抽出***

## **データ列指定による抽出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result = reserve_tb[["reserve_id","hotel_id","customer_id","reserve_datetime","checkin_date","checkin_time","checkout_date"]]

reserve_tb.drop(["people_num","total_price"], axis=1, inplace=True)

## **条件指定による抽出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

date1 = "2016-10-13"
date2 = "2016-10-14"
result = reserve_tb.query('@date1 <= checkout_date <= @date2')

## **データ値に基づかないサンプリング**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result_1 = reserve_tb.sample(frac=0.5)

result_2 = reserve_tb.sample(n=100)

## **集約IDに基づくサンプリング**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

target = pd.Series(reserve_tb["customer_id"].unique()).sample(frac=0.5)
result = reserve_tb[reserve_tb["customer_id"].isin(target)]

# **集約**

## **データ数、種類数の算出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result = reserve_tb.groupby('hotel_id').agg({'reserve_id': 'count', 'customer_id': 'nunique'})
result.reset_index(inplace=True)
result.columns = ['hotel_id', 'rsv_cnt', 'cus_cnt']



## **合計値の算出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result = reserve_tb.groupby(['hotel_id', 'people_num'])['total_price'].sum().reset_index()
result.rename(columns={'total_price': 'price_num'}, inplace=True)

## **極値、代表値の算出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result = reserve_tb \
  .groupby('hotel_id') \
  .agg({'total_price': ['max', 'min', 'mean', 'median', lambda x: np.percentile(x, q=20)]}) \
  .reset_index()
result.columns = ['hotel_id', 'price_max', 'price_min', 'price_mean', 'price_median', 'price_20per']

## **ばらつき具合の算出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result = reserve_tb \
  .groupby('hotel_id') \
  .agg({'total_price': ['var', 'std']}).reset_index()
result.columns = ['hotel_id', 'price_var', 'price_std']
result.fillna(value={'price_var': 0, 'price_std': 0}, inplace=True)

## **最頻値の算出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

result = reserve_tb['total_price'].round(-3).mode()

## **順位の算出**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

reserve_tb['reserve_datetime'] = pd.to_datetime(reserve_tb['reserve_datetime'], format='%Y-%m-%d %H:%M:%S')
reserve_tb['log_no'] = reserve_tb \
  .groupby('customer_id')['reserve_datetime'] \
  .rank(ascending=True, method='first')

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')

rsv_cnt_tb = reserve_tb.groupby('hotel_id').size().reset_index()
rsv_cnt_tb.columns = ['hotel_id', 'rsv_cnt']
rsv_cnt_tb['rsv_cnt_rank'] = rsv_cnt_tb['rsv_cnt'] \
        .rank(ascending=False, method='min')
rsv_cnt_tb.drop('rsv_cnt', axis=1, inplace=True)

# **結合**

## **マスタテーブルの結合**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')
hotel_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/hotel.csv')

result = pd.merge(reserve_tb.query('people_num == 1'), hotel_tb.query('is_business'), on='hotel_id', how='inner')

## **条件に応じた結合テーブルの切り替え**

---

In [None]:
reserve_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/reserve.csv')
hotel_tb = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/hotel.csv')

small_area_mst = hotel_tb \
  .groupby(['big_area_name', 'small_area_name']) \
  .size().reset_index()
small_area_mst.columns = ['big_area_name', 'small_area_name', 'hotel_cnt']
small_area_mst['join_area_id'] = \
  np.where(small_area_mst['hotel_cnt'] - 1 >= 20, 
    small_area_mst['small_area_name'], small_area_mst['big_area_name'])
small_area_mst.drop(['hotel_cnt', 'big_area_name'], axis=1, inplace=True)
base_hotel_mst = pd.merge(hotel_tb, small_area_mst, on='small_area_name') \
  .loc[:, ['hotel_id', 'join_area_id']]
recommend_hotel_mst = pd.concat([
  hotel_tb[['small_area_name', 'hotel_id']].rename(columns={'small_area_name': 'join_area_id'}, inplace=False),
  hotel_tb[['big_area_name', 'hotel_id']].rename(columns={'big_area_name': 'join_area_id'}, inplace=False)
]
)
recommend_hotel_mst.rename(columns={'hotel_id': 'rec_hotel_id'}, inplace=True)
result = pd.merge(base_hotel_mst, recommend_hotel_mst, on='join_area_id') \
  .loc[:, ['hotel_id', 'rec_hotel_id']] \
    .query('hotel_id != rec_hotel_id')

# **モデルの作成**

## **モデルに関連する用語とポイント**

---

### **過学習 (オーバーフィッティング)**

- 学習データのランダムなノイズまで学習してしまい, 汎化性能が劣化すること.

**※バイアス・バリアンス分解について記載すること**

### **正則化 (regularization)**
 - モデルの目的関数に正則化項を付与し, モデルの過度な複雑化を防ぎ, 過学習を抑えること






### **アーリーストッピング**

- 学習時にバリデーションデータのスコアをモニタリングし, 一定の間スコアが上がらない場合, 途中で学習を打ち切ること. 

- 過学習を防ぎ, 最適なイテレーション数を自動で求めるために利用する.

- 本来, バリデーションで適切な評価を行うためには, 学習時にバリデーションデータの情報を使ってはいけないが, アーリーストッピングではイテレーション回数を決めるための参考として使ってしまっているため, フェアな評価よりバリデーションのスコアが良くなってしまう点に注意が必要.

### **バギング**

- 同じ種類のモデルを並列に複数作成し, 組み合わせる. 各モデルの予測値の平均を取るなどして, 一つの予測値とする.

- データや特徴量のランダムサンプリングを行う場合が多いが, 学習に用いる乱数シードを変えるだけのこともある.


### **ブースティング**

- 同じ種類のモデルを直列的に複数作成し, 組み合わせる. それまでの学習による予測値を補正しながら, 順に1つずつモデルを学習させる.


# **GBDT (勾配ブースティング木)**

## **GBDTの特徴**

---





- 特徴量は数値.
 - ある特徴量がある値より大きいか小さいかによって, 決定木の分岐で振り分けられるため, 特徴量は数値である必要がある.

- 特徴量をスケーリングする必要がない.
 - 決定木ではそれぞれの特徴量について値の大小のみが問題となるため, スケーリングを行う必要がない.

- カテゴリ変数の前処理において, one-hot encodingでなく, label encodingでよい.

- 欠損値を扱うことができる.
 - 欠損値のときにも決定木の分岐でどちらかに振り分けられるため, 補完などの処理をせずに欠損値をそのまま扱うことができる.

 - 変数間の相互作用が反映される. 
  - 分岐の繰り返しによって, 変数間の相互作用が反映される.

- 精度が高い.

- パラメータチューニングをしなくても精度が出やすい.

- 不要な特徴量を追加しても精度が落ちにくい.

## **xgboost**

---

In [None]:
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

dtrain = xgb.DMatrix(tr_x, label=tr_y)
dvalid = xgb.DMatrix(va_x, label=va_y)
dtest = xgb.DMatrix(test_x)

params = {'objective': 'reg:squarederror', 'silent': 1, 'random_state': 71, 
          'eval_metric': ['rmse', 'mae']}
num_round = 500

watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
model = xgb.train(params, dtrain, num_round, evals=watchlist, early_stopping_rounds=20)

va_pred = model.predict(dvalid, ntree_limit=model.best_ntree_limit)
score = np.sqrt(mean_squared_error(va_y, va_pred))
print(score)

pred = model.predict(dtest, ntree_limit=model.best_ntree_limit)


[0]	train-rmse:0.415819	train-mae:0.409378	eval-rmse:0.42246	eval-mae:0.415129
Multiple eval metrics have been passed: 'eval-mae' will be used for early stopping.

Will train until eval-mae hasn't improved in 20 rounds.
[1]	train-rmse:0.363124	train-mae:0.344053	eval-rmse:0.377034	eval-mae:0.355165
[2]	train-rmse:0.328561	train-mae:0.295569	eval-rmse:0.347089	eval-mae:0.309185
[3]	train-rmse:0.304118	train-mae:0.258982	eval-rmse:0.329484	eval-mae:0.276763
[4]	train-rmse:0.28739	train-mae:0.231324	eval-rmse:0.318412	eval-mae:0.25268
[5]	train-rmse:0.272308	train-mae:0.208294	eval-rmse:0.310191	eval-mae:0.233516
[6]	train-rmse:0.26212	train-mae:0.191438	eval-rmse:0.306795	eval-mae:0.220609
[7]	train-rmse:0.254324	train-mae:0.178455	eval-rmse:0.303963	eval-mae:0.210765
[8]	train-rmse:0.247447	train-mae:0.168119	eval-rmse:0.302157	eval-mae:0.203558
[9]	train-rmse:0.241156	train-mae:0.160043	eval-rmse:0.299341	eval-mae:0.197842
[10]	train-rmse:0.236214	train-mae:0.154721	eval-rmse:0.29755	e

## **lightgbm**

---

In [None]:
import lightgbm as lgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

lgb_train = lgb.Dataset(tr_x, tr_y)
lgb_eval = lgb.Dataset(va_x, va_y)

params = {'objective': 'regression', 'seed': 71, 'verbose': 0, 'metrics': ['l1', 'l2']}
num_round = 500

model = lgb.train(params, lgb_train, num_boost_round=num_round, 
                  valid_names=['train', 'valid'], valid_sets=[lgb_train, lgb_eval], 
                  early_stopping_rounds=20)

va_pred = model.predict(va_x, num_iteration=model.best_iteration)
score = np.sqrt(mean_squared_error(va_y, va_pred))
print(score)

pred = model.predict(test_x, num_iteration=model.best_iteration)

[1]	train's l2: 0.144155	train's l1: 0.298012	valid's l2: 0.148649	valid's l1: 0.302593
Training until validation scores don't improve for 20 rounds.
[2]	train's l2: 0.135615	train's l1: 0.288178	valid's l2: 0.140439	valid's l1: 0.293427
[3]	train's l2: 0.128532	train's l1: 0.279298	valid's l2: 0.13465	valid's l1: 0.28589
[4]	train's l2: 0.122351	train's l1: 0.271028	valid's l2: 0.128931	valid's l1: 0.278559
[5]	train's l2: 0.11703	train's l1: 0.2633	valid's l2: 0.124222	valid's l1: 0.271601
[6]	train's l2: 0.112223	train's l1: 0.255997	valid's l2: 0.120011	valid's l1: 0.264942
[7]	train's l2: 0.107873	train's l1: 0.24922	valid's l2: 0.116515	valid's l1: 0.259252
[8]	train's l2: 0.104128	train's l1: 0.242916	valid's l2: 0.113325	valid's l1: 0.253602
[9]	train's l2: 0.100812	train's l1: 0.237399	valid's l2: 0.110685	valid's l1: 0.249135
[10]	train's l2: 0.0976968	train's l1: 0.232159	valid's l2: 0.108185	valid's l1: 0.244438
[11]	train's l2: 0.0951578	train's l1: 0.227392	valid's l2: 0.

# **モデルの評価**

- 予測モデルを作成する主な目的は, 未知のデータに対して高い精度で予測を行うこと.

- モデルの汎化性能を改善していくためには, 汎化性能を適切に評価することが必要. 

- モデルの汎化性能を評価することをバリデーションと呼ぶ.



# **バリデーションの手法**

## **hold-out法**

---

- 学習データを学習用データとバリデーションデータに分割した後, 学習用データでモデルを学習し, バリデーションデータでモデルを評価する.

- クロスバリデーションと比較すると, データを有効に使えていない欠点がある. 

- 最終的に学習データ全体でモデルを作成し直すことができるが, データ数が違うと最適なハイパーパラメータや特徴量が変わってくることもあるため, バリデーションにおいても学習用データはある程度確保することが望ましい.

- データはシャッフルして用いる.

In [None]:
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

## **クロスバリデーション**

---

- 学習データを分割し, hold-out法の手続きを複数回繰り返す手法. 

- 分割されたデータをfoldと呼び, 分割数をfold数と呼ぶ.

- fold数を増やすほど学習用データの量を確保でき, データ全体で学習させた場合に近い精度評価ができる. 一方, fold数を増やすほど計算時間が増える.

- fold数は4もしくは5とする場合が多い.

- モデルの汎化性能を評価する際は, 通常は各foldにおけるスコアを平均して行う. 場合によっては, それぞれのfoldの目的変数と予測値を集めてデータ全体でスコアを算出する.

- 最終的な予測モデルの作成方法は以下の2つに分けられる. 
 - 各foldで学習したモデルを保存しておき, それらのモデルの予測値の平均などをとる.
 - 同様のハイパーパラメータで, 学習データ全体に対して改めてモデルを学習させて, 予測モデルを作成する.

**※情報量基準との関係など詳細を記載すること**


In [None]:
import lightgbm as lgb
from sklearn.metrics import log_loss
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

scores = []

kf = KFold(n_splits=4, shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x):
  tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
  tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

  lgb_train = lgb.Dataset(tr_x, tr_y)
  lgb_eval = lgb.Dataset(va_x, va_y)

  params = {'objective': 'binary', 'seed': 71, 'verbose': 0, 'metrics': 'binary_logloss'}
  num_round = 500

  model = lgb.train(params, lgb_train, num_boost_round=num_round, 
                    valid_names=['train', 'valid'], valid_sets=[lgb_train, lgb_eval], 
                    early_stopping_rounds=20)

  va_pred = model.predict(va_x)
  score = log_loss(va_y, va_pred)
  scores.append(score)

print(np.mean(score))


[1]	train's binary_logloss: 0.454308	valid's binary_logloss: 0.465515
Training until validation scores don't improve for 20 rounds.
[2]	train's binary_logloss: 0.429565	valid's binary_logloss: 0.443444
[3]	train's binary_logloss: 0.410077	valid's binary_logloss: 0.425543
[4]	train's binary_logloss: 0.39358	valid's binary_logloss: 0.410625
[5]	train's binary_logloss: 0.379354	valid's binary_logloss: 0.397666
[6]	train's binary_logloss: 0.365913	valid's binary_logloss: 0.387422
[7]	train's binary_logloss: 0.354309	valid's binary_logloss: 0.376037
[8]	train's binary_logloss: 0.344354	valid's binary_logloss: 0.366734
[9]	train's binary_logloss: 0.334834	valid's binary_logloss: 0.35898
[10]	train's binary_logloss: 0.326209	valid's binary_logloss: 0.351612
[11]	train's binary_logloss: 0.317809	valid's binary_logloss: 0.34563
[12]	train's binary_logloss: 0.310845	valid's binary_logloss: 0.340564
[13]	train's binary_logloss: 0.30401	valid's binary_logloss: 0.334274
[14]	train's binary_logloss:

## **stratified k-fold**

---

- 分類タスクの場合に, foldごとに含まれるクラスの割合を等しくすることがしばしば行われ, これを層化抽出 (stratified sampling) と呼ぶ. 

- テストデータに含まれる各クラスの割合は, 学習データに含まれる各クラスの割合とほぼ同じであろうという仮定に基づき, バリデーションの評価を安定させようとする手法.

- 特に多クラス分類で極端に頻度の少ないクラスがある際は, ランダムに分割した場合には各クラスの割合にむらが生じ, 評価のぶれが大きくなる可能性があるため, 層化抽出を行うことが重要.

- 基本的に, 分類問題の場合は層化抽出を行う方が良い.




In [None]:
from sklearn.model_selection import StratifiedKFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

kf = StratifiedKFold(n_splits=4, shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x, train_y):
  tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
  tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

## **group k-fold**

---

- 学習データとテストデータがランダムに分割されていない場合に, バリデーションにおいても同様の条件とするため, 学習データをグループ化して学習用データとバリデーションデータへの分割を行うこと.

- 学習データとテストデータに同一単位のデータが混在しないように分割されることがよくある. これは, 別単位のデータのみを使って新たな単位の予測を行う状況を想定している.
 - 他の顧客のデータのみを使って新たな顧客の予測を行う状況などが挙げられる.
 - この場合にランダムにデータを分割してバリデーションを行ってしまうと, 本来の性能よりも過大評価してしまう恐れがある. バリデーションデータに存在する顧客のデータが学習データに含まれることで, 本来知り得ない情報を知ることができ, 予測しやするなるからである. 




In [None]:
from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

train_x['user_id'] = np.arange(0, len(train_x)) // 4
user_id = train_x['user_id']
unique_user_ids = user_id.unique()

kf = KFold(n_splits=4, shuffle=True, random_state=71)
for tr_group_idx, va_group_idx in kf.split(unique_user_ids):
  tr_groups, va_groups = unique_user_ids[tr_group_idx], unique_user_ids[va_group_idx]

  is_tr, is_va = user_id.isin(tr_groups), user_id.isin(va_groups)
  tr_x, va_x = train_x[is_tr], train_x[is_va]
  tr_y, va_y = train_y[is_tr], train_y[is_va]

## **leave-one-out**

---

- クロスバリデーションにおいて, fold数を学習データのレコード数と同じにし, バリデーションデータをそれぞれ1件とする手法. 

- leave-one-outのようなfold数が大きい, すなわち各foldのバリデーションデータが少ないクロスバリデーションにおいて, アーリーストッピングを用いると, バリデーションデータへの適合が強くなり, モデルの精度が過大評価される問題が顕著になる.
 - 対処法の1つとしては, 一度各foldでアーリーストッピングを行い, その平均などで適切なイテレーション数を見積もった後に, イテレーション数を固定して再度クロスバリデーションを行う方法が考えられる.

In [None]:

from sklearn.model_selection import KFold

train = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/input/test_preprocessed.csv')

kf = KFold(n_splits=len(train_x), shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x):
  tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
  tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]


# **バリデーションのポイントとテクニック**

## **バリデーションを行う目的**

---

- モデルを改善していく上での指針となるスコアを示す.
 - 正しくバリデーションが出来ていない場合には,　誤った方向にモデルの修正を進めてしまう.
- テストデータに対するスコアやそのばらつきを見積もる.

## **学習データとテストデータの分割をまねる**

---

- どのようなバリデーションを行うべきか迷った際には, 学習データとテストデータの分割をまねるという考え方が有効.

- データの分割が典型的な場合には, 主なバリデーション手法にあてはまることが多い.



## **学習データとテストデータの分布が違う場合**

---

- 学習データとテストデータの傾向の違いについて, データの作成過程やEDAを基に考察する.

- モデルを複雑にしすぎないことや効く理由が説明できる特徴量を使うことで, 分布の違いに頑強な予測にする.

- さまざまなモデルの平均をとるアンサンブルによって予測を安定させ, 分布の違いに頑強な予測にする.

- adversarial validationの結果を参考にして, 適切なバリデーション方法を確立する. 

- adversarial validationのスコアが低くなるように特徴量を変換することで, 分布の違いに影響されづらい予測とする.



### **adversarial validation**

- 学習データとテストデータを結合し, テストデータか否かを目的変数とする二値分類を行うことで, 学習データとテストデータの分布が同じかどうかを判断することができる.
 - 同じ分布であれば, それらの見分けはできないので, その二値分類でのAUCは0.5に近くなる. 一方, AUCが1に近くなった場合は, テストデータか否かを見分けられる情報があることになる.

- AUCが0.5を十分上回るような, 学習データとテストデータが異なる分布の場合に, テストデータに近い学習データをバリデーションデータとすることで, テストデータを上手く模倣したデータでの評価が期待できる.　このバリデーション手法をadversarial validationと呼ぶ.
 - 特徴量の作成などはせず, 与えられたデータをそのまま結合して入力データとするのが良い.

1. 学習データとテストデータを結合し, テストデータか否かを目的変数とする二値分類を行うモデルを作成する.
1. それぞれのレコードがテストデータである確率の予測値を出力する.
1. テストデータである確率が高いと予測された学習データを一定数選んでバリデーションデータとする.
1. 選んだバリデーションデータで, 本来のタスクのバリデーションを行う.