# 不均衡データのサンプリング

参考文献;\
http://tekenuko.hatenablog.com/entry/2017/12/11/214522

  - Under Sampling：負例を減らす
  - Over Sampling：正例を増やす

## 必要なライブラリのインポート

In [34]:
import pandas as pd
import numpy as np

from matplotlib import pyplot as plt
# ジュピターノートブック上でグラフを表示させるための処理
%matplotlib inline

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler
from imblearn.over_sampling import SMOTE

## サンプルデータの取得

不均衡データを人工的に生成する。
  - 今回は、10万件のデータで、正例が10件のデータを生成する。

In [2]:
df = make_classification(
    n_samples = 100000, n_features = 10, n_informative = 2, n_redundant = 0, 
    n_repeated = 0, n_classes = 2, n_clusters_per_class = 2, weights = [0.9999, 0.0001], 
    flip_y = 0, class_sep = 1.0, hypercube = True, shift = 0.0, 
    scale = 1.0, shuffle = True, random_state = 71)

In [3]:
df[1][:5]

array([0, 0, 0, 0, 0])

In [4]:
df_raw = pd.DataFrame(df[0], columns = ['var1', 'var2', 'var3', 'var4', 'var5', 'var6', 'var7', 'var8', 'var9', 'var10'])
df_raw['Class'] = df[1]

In [5]:
df_raw.head()

Unnamed: 0,var1,var2,var3,var4,var5,var6,var7,var8,var9,var10,Class
0,-0.503992,0.464303,-0.006417,2.056608,-0.096649,-0.672563,-0.657623,-1.119386,-0.810968,1.031397,0
1,0.498462,0.18987,0.412015,0.379025,0.737429,-0.534282,0.254222,0.057172,0.091774,0.49141,0
2,1.376955,0.210956,-0.782417,-0.888292,-0.1815,-0.322114,0.626845,-1.009424,1.233034,-0.005474,0
3,0.822917,0.537098,-0.095162,-1.644453,-0.585895,0.075398,1.514316,-1.380059,-0.023705,0.781185,0
4,0.622078,-0.95795,-0.713356,-0.561813,-1.032842,-0.479583,-0.249271,-0.662862,0.462246,-0.450706,0


In [6]:
df_raw.tail()

Unnamed: 0,var1,var2,var3,var4,var5,var6,var7,var8,var9,var10,Class
99995,-0.290064,-1.323599,0.556524,-0.927455,0.18607,-0.969655,0.26688,-0.075464,0.177064,0.457382,0
99996,-0.108113,0.404205,-0.197977,2.380506,0.69412,-0.527115,0.00454,-1.719724,1.377191,-0.088662,0
99997,0.901356,0.835339,0.063863,0.843403,0.222197,-0.099863,0.880229,0.618599,-0.993613,0.38742,0
99998,-1.569808,0.214372,-0.680219,0.412022,-0.860036,-1.108246,0.17331,0.248247,1.317108,-0.220288,0
99999,-0.518021,-0.098463,0.33294,1.284996,-0.954497,-0.147086,0.188895,-0.63052,1.655579,-1.736762,0


### クラスの割合の確認

In [7]:
df_raw['Class'].value_counts()

0    99990
1       10
Name: Class, dtype: int64

## プロトタイプモデルの作成

不均衡データをサンプリングしないまま、分類のためのロジスティック回帰モデルを作成する。

### 学習用と検証用にデータを分割

In [8]:
X = df_raw.iloc[:, 0:10]
y = df_raw['Class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 71)

### モデル構築

In [9]:
model = LogisticRegression()
model.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### 予測値の算出

In [10]:
y_pred = model.predict(X_test)

### 評価指標: 正解率(accuracy)で評価

In [11]:
print('Accuracy(test) : %.5f' %accuracy_score(y_test, y_pred))

Accuracy(test) : 0.99990


⬆︎このように、正解率99.99%という、一見精度の良さそうなモデルができます。
しかし、混同行列を出力して確認すると、

In [12]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
(tn, fp, fn, tp)

(29997, 0, 3, 0)

のように、TN(真陰性)とFN（偽陰性）のみに値があり、FP（偽陽性）とTP（真陽性）が0となっています。\
つまり、単にすべて0と予測するモデルになっています

次に
- Precision（正と予測したデータのうち，実際に正であるものの割合：TP / （TP + FP））
- Recall（実際に正であるもののうち，正であると予測されたものの割合：TP / （TP + FN））

を評価してみます。

In [13]:
print('precision : %.4f'%(tp / (tp + fp)))
print('recall : %.4f'%(tp / (tp + fn)))

precision : nan
recall : 0.0000


  """Entry point for launching an IPython kernel.


⬆︎計算が不能になっているか、0になっているという、ひどい結果です。

## Under Sampling

RandomUnderSampler: 負例サンプルをランダムに減らし、正例サンプルの割合を10%まで上げる。

### 正例の数を保存

In [14]:
# 正例が1、負例が0のため、sum関数で数値の合計を取ることで、正例の数が分かる。
positive_count_train = y_train.sum()
print('positive count:{}'.format(positive_count_train))

positive count:7


### 正例が10%になるまで負例をダウンサンプリング

In [16]:
# 今回の場合は、positive_count_train=7のため、positive_count_train*9 = 63になる。
rus = RandomUnderSampler(sampling_strategy={0:positive_count_train*9, 1:positive_count_train}, random_state=71)

In [17]:
rus

RandomUnderSampler(random_state=71, replacement=False,
                   sampling_strategy={0: 63, 1: 7})

### 学習用データに反映

In [18]:
X_train_resampled, y_train_resampled = rus.fit_sample(X_train, y_train)

### モデルに反映

In [20]:
model2 = LogisticRegression()
model2.fit(X_train_resampled, y_train_resampled)

# 予測値算出
y_pred = model2.predict(X_test)

### Accuracyと混同行列

In [21]:
print('Confusion matrix(test):\n{}'.format(confusion_matrix(y_test, y_pred)))
print('Accuracy(test) : %.5f' %accuracy_score(y_test, y_pred))

Confusion matrix(test):
[[29515   482]
 [    1     2]]
Accuracy(test) : 0.98390


### PrecisionとRecall

In [22]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
print('precision : %.4f'%(tp / (tp + fp)))
print('recall : %.4f'%(tp / (tp + fn)))

precision : 0.0041
recall : 0.6667


正解率は落ちたものの、PrecisionとRecallが0でない値になりました。混同行列を見ても、TPが0でなくなっており、FNが小さくなっていることがわかります。しかし、その代償としてFPが927件と大きくなってしまい、それが小さいPrecisionとして跳ね返っています。

## Over Sampling

次は、逆に正例を水増しして正例サンプルの割合を10%まで上げる。

### 正例を10%まであげる

In [27]:
# 「//」 は切り捨て除算
# shape[0]で行数を取得して、切り捨て除算をしている
ros = RandomOverSampler(sampling_strategy = {0:X_train.shape[0], 1:X_train.shape[0]//9}, random_state = 71)

In [28]:
X_train.shape[0]//9

7777

In [29]:
X_train.shape[0]

70000

### 学習用データに反映

In [30]:
X_train_resampled, y_train_resampled = ros.fit_sample(X_train, y_train)

  n_samples_majority,


### モデルに反映

In [31]:
# モデル作成
model3 = LogisticRegression()
model3.fit(X_train_resampled, y_train_resampled)

# 予測値算出
y_pred = model3.predict(X_test)

### Accuracyと混同行列

In [32]:
print('Confusion matrix(test):\n{}'.format(confusion_matrix(y_test, y_pred)))
print('Accuracy(test) : %.5f' %accuracy_score(y_test, y_pred))

Confusion matrix(test):
[[29694   303]
 [    1     2]]
Accuracy(test) : 0.98987


### PrecisionとRecall

In [33]:
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
print('precision : %.4f'%(tp / (tp + fp)))
print('recall : %.4f'%(tp / (tp + fn)))

precision : 0.0066
recall : 0.6667


Under Samplingの場合と比較して、FPの数が若干抑えられており（304件）、Precisionが若干良くなっています。

## SMOTE

上記のOver Samplingでは、正例を単に水増ししていたのですが、負例を減らし、正例を増やす、といった考えもある。

こういった方法の一つに、SMOTE(Synthetic Minority Over-sampling Technique)というアルゴリズムがある。

In [35]:
smote = SMOTE(sampling_strategy={0:X_train.shape[0], 1:X_train.shape[0]//9}, random_state=71)
X_train_resampled, y_train_resampled = smote.fit_sample(X_train, y_train)

  n_samples_majority,


### モデルに反映

In [None]:
# モデル作成
model4 = LogisticRegression()
model4.fit(X_train_resampled, y_train_resampled)

# 予測値算出
y_pred = model4.predict(X_test)