In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE

### 不均衡データを生成

In [2]:
'''make_classification関数の返り値はタプル型になっている'''
''' 今回はデータ数が10000で特徴量の数が10個の2値分類データを生成'''
'''tuple[0]に特徴量(10000, 10)、tuple[1]に0,1ラベル(10000,)のnummpy.arrayオブジェクトを返す'''

sample_tuple = make_classification(
    n_samples=10000,# 生成するサンプルサイズ
    n_features=10,# 生成する特徴量の数
    n_informative=2,# 目的変数のラベルと相関が強い特徴量(Informative fearture）の数
    n_redundant=0,# Informative featureの線形結合から作られる特徴量(Redundant fearture）の数
    n_repeated=0,# Infomative、Redundant featureのコピーからなる特徴量の数(Repeated feature)
    n_classes=2,# 分類するクラス数
    n_clusters_per_class=2,# 1クラスあたりのクラスタ数
    weights=[0.8,0.2],# クラスの比率 例えば、2値分類問題の場合、Noneとすると0と1が50%ずつだが、[0.9, 0.1] と与えると0が90%、1が10%になる
    flip_y=0,#クラスのフリップ率で、例えば0.01とすると各クラスの1%の符号がランダムに変更される
    class_sep=1.0,#
    hypercube=True,
    shift=0.0,# 全ての特徴量にshiftを加算する。Noneが指定された場合、[-class_sep, class_sep]の一様乱数を加算する
    scale=1.0,# 全ての特徴量にscaleを乗算、Noneが指定された場合、 [1, 100]の一様乱数を乗算する
    shuffle=True,# Trueにすると行と列をシャッフルする
    random_state=0# 乱数を制御するパラメータで、Noneにすると毎回違うデータが生成されが、整数をシードとして渡すと毎回同じデータが生成される
)

In [3]:
df = pd.DataFrame(
    sample_tuple[0],
    columns = ['feature1', 'feature2', 'feature3', 'feature4', 'feature5', 'feature6', 'feature7', 'feature8', 'feature9', 'feature10']
)

df['label'] = sample_tuple[1]

display(df.head(), df.tail())

Unnamed: 0,feature1,feature2,feature3,feature4,feature5,feature6,feature7,feature8,feature9,feature10,label
0,0.816287,-0.139045,0.018994,-0.036648,-1.13845,-0.325999,0.142047,0.129547,-0.56852,0.077755,0
1,-1.273545,1.289346,0.313829,0.442706,0.901476,0.335221,-0.16054,-0.627416,0.044498,0.331668,1
2,1.100432,2.23042,-0.370878,-0.555314,0.287594,-0.176547,-1.143621,-0.476902,-0.077695,0.136673,0
3,-1.347767,-1.695182,1.498963,0.220853,-0.697995,-1.037833,-0.074883,-0.65864,-1.739479,0.334915,1
4,-0.123829,0.985498,-0.343744,-1.573451,1.240281,-1.97733,-0.676114,-2.031301,-2.117098,0.148379,0


Unnamed: 0,feature1,feature2,feature3,feature4,feature5,feature6,feature7,feature8,feature9,feature10,label
9995,-0.708704,-1.434699,-1.041849,0.82649,1.030935,-1.140579,0.846821,-0.62597,-1.001335,1.674589,0
9996,-0.466609,2.136676,-0.649788,1.386893,0.39053,-0.489459,0.32874,0.313474,-1.298719,1.44518,0
9997,-0.653944,0.274619,-0.982599,0.893593,0.95382,0.843044,-0.857943,0.879207,-0.191407,-0.745003,0
9998,1.216568,-0.86538,-2.977779,-0.296825,-1.45343,1.267117,0.285247,-0.526219,1.216049,0.386086,0
9999,1.475198,0.696876,-0.328941,-2.410436,-0.675101,-0.193835,-0.026474,-1.326299,0.02377,-1.16606,0


In [4]:
df['label'].value_counts()

0    8000
1    2000
Name: label, dtype: int64

#### 参考URL：http://overlap.hatenablog.jp/entry/2015/10/08/022246
#### 参考URL：http://tekenuko.hatenablog.com/entry/2017/12/11/214522

## オーバーサンプリング実行
SMOTE関数→smote.fit_sample(train_X, train_y)

In [5]:
'''SMOTE関数の設定'''
smote = SMOTE(ratio='auto',# 不均衡データにおける少ない方のデータを多いほうのデータの何割まで増やすかを設定 autoの場合は同じ数まで増やす
             k_neighbors=5,# SMOTEのkパラメータ
             random_state=0
             )

In [6]:
'''オーバーサンプリング実行'''
train_X = df.drop('label', axis=1)
train_y = df['label']

train_X_resampled, train_y_resampled = smote.fit_sample(train_X, train_y)

In [7]:
'''0,1データの数が等しくなっているか確認'''
check_df = pd.DataFrame(train_y_resampled, columns=['label'])
check_df['label'].value_counts()

1    8000
0    8000
Name: label, dtype: int64