# オーバーサンプリングの機能比較

scikit-learn の派生プロジェクト imbalanced-learn の <b>Over-sampling methods</b> について、オーバーサンプリングのされ方の違いを比較します。

いずれも本件問題解決には利用できないと判断しております。

## (1) テストデータ／環境準備

マイオペで使用しているテストデータ（learning/tests/engine/fixtures/ 配下のCSVファイル）をベースに動作確認を行います。

動作確認にあたっては、MySQLdb に接続できないため、ローカル環境テスト用の Bot クラスを使用しています。

In [1]:
'''
    テスト環境を準備するためのモジュールを使用します。
'''
import sys
import os
learning_dir = os.path.abspath("../../") #<--- donusagi-bot/learning
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

from prototype.modules import TestTool

In [2]:
'''
    データファイルは、既存の訓練データを別場所にコピーしてから使用します
    テストデータは、csv_file_name で指定したものを使用します。
'''
csv_file_name = 'test_benefitone_conversation.csv'
copied_csv_file_path = TestTool.copy_testdata_csv(learning_dir, csv_file_name)

CSV file for test=[/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_benefitone_conversation.csv]


## (2) TF-IDFベクターの準備

Bot クラス内に組み込まれている __build_training_set_from_csv 関数をバラして実行しています。

In [3]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

bot_id = 7777
csv_file_path = copied_csv_file_path
csv_file_encoding = 'utf-8'

In [4]:
'''
    訓練データの生成（内部で TF-IDF 処理を実行）
'''
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv
training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/14 PM 07:59:48 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
TextArray#__init__ start
2017/03/14 PM 07:59:48 TextArray#__init__ start
TextArray#to_vec start
2017/03/14 PM 07:59:48 TextArray#to_vec start
TextArray#to_vec end
2017/03/14 PM 07:59:51 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
2017/03/14 PM 07:59:51 [[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]


In [5]:
'''
    ラベルごとのサンプル数を調査します。
'''
X = build_training_set_from_csv.x
y = build_training_set_from_csv.y
count = TestTool.count_sample_by_label(y)
count

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44],
 [4693, 30],
 [4700, 12],
 [4707, 18],
 [4708, 14],
 [4709, 14],
 [4710, 14],
 [4711, 14],
 [4712, 16],
 [4713, 14],
 [4718, 20],
 [4719, 8],
 [4720, 20],
 [4721, 8],
 [4724, 8],
 [4727, 14],
 [4728, 62],
 [4729, 26],
 [4730, 20],
 [4731, 14],
 [4732, 22],
 [4733, 14],
 [4734, 34],
 [4735, 12],
 [4738, 14],
 [4739, 14],
 [4740, 14],
 [4741, 8],
 [4742, 20],
 [4743, 14],
 [4744, 14],
 [4745, 20],
 [4750, 22],
 [4751, 20],
 [4752, 14],
 [4753, 8],
 [4754, 8],
 [4755, 14],
 [4756, 20],
 [4757, 8],
 [4758, 28],
 [4759, 14],
 [4760, 8],
 [4761, 20],
 [4762, 8],
 [4766, 14],
 [4767, 14],
 [4772, 60],
 [4776, 8],
 [4781, 14],
 [4782, 14],
 [4783, 20],
 [4786, 8],
 [4792, 20],
 [4793, 8],
 [4794, 8],
 [4795, 14],
 [4797, 42],
 [4798, 36],
 [4800, 14],
 [4802, 14],
 [4804, 14],
 [4807, 8],
 [4808, 106],
 [4817, 26],
 [4821, 24],
 [4824, 16],
 [4827, 8],
 [4830, 22],


## (3) 各種オーバーサンプリングの実行

### (3-1) ADASYN　<---使えません

２項ラベル以外には適用できないようです（警告ご参照）。多項ラベルを渡すと、処理が異常終了してしまいます。

In [6]:
'''
    ADASYN with default
'''
from imblearn.over_sampling import ADASYN
ada = ADASYN()
_, y_resampled = ada.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]



RuntimeError: Not any neigbours belong to the majority class. This case will induce a NaN case with a division by zero. ADASYN is not suited for this specific dataset. Use SMOTE.

### (3-2) Random over-sampling

最大サンプル数に合わせてオーバーサンプリングされる動きとなりました。

In [7]:
'''
    Random over-sampling with default
'''
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler()
X_resampled, y_resampled = ros.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 2584],
 [4678, 2584],
 [4679, 2584],
 [4680, 2584],
 [4683, 2584],
 [4686, 2584],
 [4687, 2584],
 [4690, 2584],
 [4691, 2584],
 [4692, 2584]]

### (3-2-1) Random over-sampling、ratio を指定

minority のサンプル件数を、(majorityのサンプル数 * ratio) の数に強引に合わせようとする挙動が確認されました。

　ratio の指定の効果については<a href="01.ipynb"><b>前述の通り</b></a>です。

  （「(3-2) NearMiss ver.2 （パラメータ ratio を追加指定）」の節をご参照）

こちらも ratio の値をうまく指定しないと、サンプルが無意味に増大する結果、正しい分類が出来なくなる可能性が出てくるかと存じます。

In [8]:
'''
    Random over-sampling with default
'''
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(ratio=0.1)
X_resampled, y_resampled = ros.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 258],
 [4678, 2584],
 [4679, 258],
 [4680, 258],
 [4683, 258],
 [4686, 258],
 [4687, 258],
 [4690, 258],
 [4691, 258],
 [4692, 258]]

### (3-3) SMOTE regular　<---使えません

２項ラベル以外には適用できないようです（警告ご参照）。多項ラベルを渡すと、サンプルがそのまま戻ってしまいます。

In [9]:
'''
    SMOTE regular
'''
from imblearn.over_sampling import SMOTE
sm = SMOTE(kind='regular')
X_resampled, y_resampled = sm.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]



[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44]]

### (3-4) SMOTE SVM　<---使えません

２項ラベル以外には適用できないようです（警告ご参照）。多項ラベルを渡すと、サンプルがそのまま戻ってしまいます。

In [10]:
'''
    SMOTE SVM
'''
from imblearn.over_sampling import SMOTE
sm = SMOTE(kind='svm')
X_resampled, y_resampled = sm.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]



[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44]]