# アンダーサンプリングの機能比較（NearMiss）

scikit-learn の派生プロジェクト imbalanced-learn の <b>Under-sampling methods</b> について、アンダーサンプリングのされ方の違いを比較します。

まずは NearMiss について調査しました。

## (1) テストデータ／環境準備

マイオペで使用しているテストデータ（learning/tests/engine/fixtures/ 配下のCSVファイル）をベースに動作確認を行います。

動作確認にあたっては、MySQLdb に接続できないため、ローカル環境テスト用の Bot クラスを使用しています。

In [1]:
'''
    テスト環境を準備するためのモジュールを使用します。
'''
import sys
import os
learning_dir = os.path.abspath("../../") #<--- donusagi-bot/learning
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

from prototype.modules import TestTool

In [2]:
'''
    データファイルは、既存の訓練データを別場所にコピーしてから使用します
    テストデータは、csv_file_name で指定したものを使用します。
'''
csv_file_name = 'test_benefitone_conversation.csv'
copied_csv_file_path = TestTool.copy_testdata_csv(learning_dir, csv_file_name)

CSV file for test=[/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_benefitone_conversation.csv]


## (2) TF-IDFベクターの準備

Bot クラス内に組み込まれている __build_training_set_from_csv 関数をバラして実行しています。

In [3]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

bot_id = 7777
csv_file_path = copied_csv_file_path
csv_file_encoding = 'utf-8'

In [4]:
'''
    訓練データの生成（内部で TF-IDF 処理を実行）
'''
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv
training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/13 PM 04:10:48 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
TextArray#__init__ start
2017/03/13 PM 04:10:48 TextArray#__init__ start
TextArray#to_vec start
2017/03/13 PM 04:10:48 TextArray#to_vec start
TextArray#to_vec end
2017/03/13 PM 04:10:52 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
2017/03/13 PM 04:10:52 [[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]


In [5]:
'''
    ラベルごとのサンプル数を調査します。
'''
X = build_training_set_from_csv.x
y = build_training_set_from_csv.y
count = TestTool.count_sample_by_label(y)
count

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44],
 [4693, 30],
 [4700, 12],
 [4707, 18],
 [4708, 14],
 [4709, 14],
 [4710, 14],
 [4711, 14],
 [4712, 16],
 [4713, 14],
 [4718, 20],
 [4719, 8],
 [4720, 20],
 [4721, 8],
 [4724, 8],
 [4727, 14],
 [4728, 62],
 [4729, 26],
 [4730, 20],
 [4731, 14],
 [4732, 22],
 [4733, 14],
 [4734, 34],
 [4735, 12],
 [4738, 14],
 [4739, 14],
 [4740, 14],
 [4741, 8],
 [4742, 20],
 [4743, 14],
 [4744, 14],
 [4745, 20],
 [4750, 22],
 [4751, 20],
 [4752, 14],
 [4753, 8],
 [4754, 8],
 [4755, 14],
 [4756, 20],
 [4757, 8],
 [4758, 28],
 [4759, 14],
 [4760, 8],
 [4761, 20],
 [4762, 8],
 [4766, 14],
 [4767, 14],
 [4772, 60],
 [4776, 8],
 [4781, 14],
 [4782, 14],
 [4783, 20],
 [4786, 8],
 [4792, 20],
 [4793, 8],
 [4794, 8],
 [4795, 14],
 [4797, 42],
 [4798, 36],
 [4800, 14],
 [4802, 14],
 [4804, 14],
 [4807, 8],
 [4808, 106],
 [4817, 26],
 [4821, 24],
 [4824, 16],
 [4827, 8],
 [4830, 22],


## (3) 各種アンダーサンプリングの実行

### (3-1) NearMiss ver.2

デフォルトパラメータで実行すると、サンプルが最も少ないクラスのサンプル数（最小サンプル数）に合わせてアンダーサンプリングされてしまうようです。

In [6]:
'''
    NearMiss ver.2 with default
'''
from imblearn.under_sampling import NearMiss

nearMiss2 = NearMiss(version=2)
resampled_X, resampled_y = nearMiss2.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(resampled_y)
count[:10]

[[4677, 8],
 [4678, 8],
 [4679, 8],
 [4680, 8],
 [4683, 8],
 [4686, 8],
 [4687, 8],
 [4690, 8],
 [4691, 8],
 [4692, 8]]

### (3-2) NearMiss ver.2 （パラメータ ratio を追加指定）

パラメータ ratio を追加指定すると、少し回避できるようです。

以下を参考にしました。

http://contrib.scikit-learn.org/imbalanced-learn/generated/imblearn.under_sampling.NearMiss.html#imblearn-under-sampling-nearmiss
~~~
the ratio is defined as the number of samples in the minority class over the the number of samples in the majority class.

最大サンプル数（本件ではラベル=4678）に対する、最小サンプル数（本件ではラベル=4687など）の比率・・・とのことです。

例えば最小サンプル数が８件の場合、最大サンプル数は８０件と計算されることになります。

　最小サンプル数（8件）= 最大サンプル数（80件） * ratio値（0.1）
 
すなわちサンプリング数が８〜８０件の間にアンダーサンプリングされる、という結果になるかと存じます。
~~~


いずれにしても<b>NearMiss ver.2の場合は、最小サンプル数が、アンダーサンプリング後のサンプル数に影響を及ぼす</b>点は変わらないかと存じます。

（これは最小サンプル数をあらかじめ決めておく運用により、回避できる部分ではございますが・・・）

In [7]:
'''
    NearMiss ver.2 with ratio
'''
from imblearn.under_sampling import NearMiss

nearMiss2 = NearMiss(version=2, ratio=0.1)
resampled_X, resampled_y = nearMiss2.fit_sample(X, y)



警告が出ているのは、ラベルごとに計算されたサンプル数が、実際の（訓練データとして提供された）サンプル数を上回っているため、サンプル数をそのまま戻しますよ・・・といったことかと存じます。

これは静観できる警告かと考えております。

ただし結果としては majority であるラベル4678、4808といったところが、想定通り 80 件にアンダーサンプリングされており、その他 minority はアンダーサンプリングされずに残ります。

In [8]:
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(resampled_y)
count

[[4677, 14],
 [4678, 80],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44],
 [4693, 30],
 [4700, 12],
 [4707, 18],
 [4708, 14],
 [4709, 14],
 [4710, 14],
 [4711, 14],
 [4712, 16],
 [4713, 14],
 [4718, 20],
 [4719, 8],
 [4720, 20],
 [4721, 8],
 [4724, 8],
 [4727, 14],
 [4728, 62],
 [4729, 26],
 [4730, 20],
 [4731, 14],
 [4732, 22],
 [4733, 14],
 [4734, 34],
 [4735, 12],
 [4738, 14],
 [4739, 14],
 [4740, 14],
 [4741, 8],
 [4742, 20],
 [4743, 14],
 [4744, 14],
 [4745, 20],
 [4750, 22],
 [4751, 20],
 [4752, 14],
 [4753, 8],
 [4754, 8],
 [4755, 14],
 [4756, 20],
 [4757, 8],
 [4758, 28],
 [4759, 14],
 [4760, 8],
 [4761, 20],
 [4762, 8],
 [4766, 14],
 [4767, 14],
 [4772, 60],
 [4776, 8],
 [4781, 14],
 [4782, 14],
 [4783, 20],
 [4786, 8],
 [4792, 20],
 [4793, 8],
 [4794, 8],
 [4795, 14],
 [4797, 42],
 [4798, 36],
 [4800, 14],
 [4802, 14],
 [4804, 14],
 [4807, 8],
 [4808, 80],
 [4817, 26],
 [4821, 24],
 [4824, 16],
 [4827, 8],
 [4830, 22],
 [4

### (3-3) NearMiss ver.3（ご参考）

ver.2 に比して、元のサンプル数を基準にした上で平均化しようという動きになっているようです。

ただし、サンプルがより多く削除されてしまう傾向があるため、結果予測が正しく行われなくなる可能性が出てきそうです。

In [9]:
'''
    NearMiss ver.3 with default
'''
from imblearn.under_sampling import NearMiss

nearMiss3 = NearMiss(version=3)
resampled_X, resampled_y = nearMiss3.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(resampled_y)
count[:20]



[[4677, 7],
 [4678, 8],
 [4679, 8],
 [4680, 4],
 [4683, 6],
 [4686, 4],
 [4687, 3],
 [4690, 6],
 [4691, 7],
 [4692, 7],
 [4693, 8],
 [4700, 8],
 [4707, 6],
 [4708, 8],
 [4709, 8],
 [4710, 4],
 [4711, 6],
 [4712, 4],
 [4713, 5],
 [4718, 8]]

ratio を指定しても、サンプリング結果はあまり変わりませんでした。

In [10]:
'''
    NearMiss ver.3 with ratio
'''
from imblearn.under_sampling import NearMiss

nearMiss3 = NearMiss(version=3, ratio=0.1)
resampled_X, resampled_y = nearMiss3.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(resampled_y)
count[:20]



[[4677, 7],
 [4678, 12],
 [4679, 8],
 [4680, 4],
 [4683, 6],
 [4686, 4],
 [4687, 3],
 [4690, 6],
 [4691, 7],
 [4692, 7],
 [4693, 9],
 [4700, 8],
 [4707, 6],
 [4708, 9],
 [4709, 9],
 [4710, 4],
 [4711, 6],
 [4712, 4],
 [4713, 5],
 [4718, 8]]