# アンダーサンプリングの機能比較（NearMiss以外）

scikit-learn の派生プロジェクト imbalanced-learn の <b>Under-sampling methods</b> について、アンダーサンプリングのされ方の違いを比較します。

続いて、NearMiss 以外のアンダーサンプリング手法について調査しましたが、いずれも本件問題解決には使用できないと判断しております。

## (1) テストデータ／環境準備

マイオペで使用しているテストデータ（learning/tests/engine/fixtures/ 配下のCSVファイル）をベースに動作確認を行います。

動作確認にあたっては、MySQLdb に接続できないため、ローカル環境テスト用の Bot クラスを使用しています。

In [1]:
'''
    テスト環境を準備するためのモジュールを使用します。
'''
import sys
import os
learning_dir = os.path.abspath("../../") #<--- donusagi-bot/learning
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

from prototype.modules import TestTool

In [2]:
'''
    データファイルは、既存の訓練データを別場所にコピーしてから使用します
    テストデータは、csv_file_name で指定したものを使用します。
'''
csv_file_name = 'test_benefitone_conversation.csv'
copied_csv_file_path = TestTool.copy_testdata_csv(learning_dir, csv_file_name)

CSV file for test=[/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_benefitone_conversation.csv]


## (2) TF-IDFベクターの準備

Bot クラス内に組み込まれている __build_training_set_from_csv 関数をバラして実行しています。

In [3]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

bot_id = 7777
csv_file_path = copied_csv_file_path
csv_file_encoding = 'utf-8'

In [4]:
'''
    訓練データの生成（内部で TF-IDF 処理を実行）
'''
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv
training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/14 PM 07:05:20 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
TextArray#__init__ start
2017/03/14 PM 07:05:20 TextArray#__init__ start
TextArray#to_vec start
2017/03/14 PM 07:05:20 TextArray#to_vec start
TextArray#to_vec end
2017/03/14 PM 07:05:23 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
2017/03/14 PM 07:05:23 [[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]


In [5]:
'''
    ラベルごとのサンプル数を調査します。
'''
X = build_training_set_from_csv.x
y = build_training_set_from_csv.y
count = TestTool.count_sample_by_label(y)
count

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44],
 [4693, 30],
 [4700, 12],
 [4707, 18],
 [4708, 14],
 [4709, 14],
 [4710, 14],
 [4711, 14],
 [4712, 16],
 [4713, 14],
 [4718, 20],
 [4719, 8],
 [4720, 20],
 [4721, 8],
 [4724, 8],
 [4727, 14],
 [4728, 62],
 [4729, 26],
 [4730, 20],
 [4731, 14],
 [4732, 22],
 [4733, 14],
 [4734, 34],
 [4735, 12],
 [4738, 14],
 [4739, 14],
 [4740, 14],
 [4741, 8],
 [4742, 20],
 [4743, 14],
 [4744, 14],
 [4745, 20],
 [4750, 22],
 [4751, 20],
 [4752, 14],
 [4753, 8],
 [4754, 8],
 [4755, 14],
 [4756, 20],
 [4757, 8],
 [4758, 28],
 [4759, 14],
 [4760, 8],
 [4761, 20],
 [4762, 8],
 [4766, 14],
 [4767, 14],
 [4772, 60],
 [4776, 8],
 [4781, 14],
 [4782, 14],
 [4783, 20],
 [4786, 8],
 [4792, 20],
 [4793, 8],
 [4794, 8],
 [4795, 14],
 [4797, 42],
 [4798, 36],
 [4800, 14],
 [4802, 14],
 [4804, 14],
 [4807, 8],
 [4808, 106],
 [4817, 26],
 [4821, 24],
 [4824, 16],
 [4827, 8],
 [4830, 22],


## (3) 各種アンダーサンプリングの実行

### (3-1) Tomek links　<---使えません

２項ラベル以外には適用できないようです（警告ご参照）。多項ラベルを渡すと、サンプルがそのまま戻ってしまいます。

In [6]:
'''
    Tomek links with default
'''
from imblearn.under_sampling import TomekLinks
tl = TomekLinks()
_, y_resampled = tl.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]



[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44]]

### (3-2) Cluster centroids

最小サンプル数に合わせてアンダーサンプリングされる動きとなりました。

In [7]:
'''
    Cluster centroids with default
'''
from imblearn.under_sampling import ClusterCentroids
cc = ClusterCentroids()
_, y_resampled = cc.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 8],
 [4678, 8],
 [4679, 8],
 [4680, 8],
 [4683, 8],
 [4686, 8],
 [4687, 8],
 [4690, 8],
 [4691, 8],
 [4692, 8]]

### (3-3) One-sided selection　<---使えません

２項ラベル以外には適用できないようです（警告ご参照）。多項ラベルを渡すと、サンプリング結果が異常となります。

In [8]:
'''
    One-sided selection with default
'''
from imblearn.under_sampling import OneSidedSelection
oss = OneSidedSelection()
_, y_resampled = oss.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]



[[4677, 1],
 [4678, 2539],
 [4679, 1],
 [4680, 1],
 [4683, 1],
 [4686, 1],
 [4687, 1],
 [4690, 1],
 [4691, 1],
 [4692, 13]]

### (3-4) Random under-sampling

最小サンプル数に合わせてアンダーサンプリングされる動きとなりました。

In [9]:
'''
    Random under-sampling with default
'''
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler()
_, y_resampled = rus.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 8],
 [4678, 8],
 [4679, 8],
 [4680, 8],
 [4683, 8],
 [4686, 8],
 [4687, 8],
 [4690, 8],
 [4691, 8],
 [4692, 8]]

### (3-5) Edited nearest-neighbours

majority ラベルでも、アンダーサンプリングの度合いが弱いようです。

In [10]:
'''
    Edited nearest-neighbours with default
'''
from imblearn.under_sampling import EditedNearestNeighbours
enn = EditedNearestNeighbours()
_, y_resampled = enn.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 14],
 [4678, 2430],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 6],
 [4691, 14],
 [4692, 42]]

### (3-6) Neighbourhood Cleaning Rule

majority ラベルでも、アンダーサンプリングの度合いが弱いようです。

In [11]:
'''
    Neighbourhood Cleaning Rule with default
'''
from imblearn.under_sampling import NeighbourhoodCleaningRule
ncl = NeighbourhoodCleaningRule()
_, y_resampled = ncl.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 14],
 [4678, 2480],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 42]]

### (3-7) Condensed nearest-neighbour

majority がかなり削除されてしまう動きとなりました。

In [12]:
'''
    Neighbourhood Cleaning Rule with default
'''
from imblearn.under_sampling import CondensedNearestNeighbour
cnn = CondensedNearestNeighbour()
_, y_resampled = cnn.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 1],
 [4678, 85],
 [4679, 1],
 [4680, 1],
 [4683, 1],
 [4686, 1],
 [4687, 1],
 [4690, 1],
 [4691, 1],
 [4692, 3]]

### (3-8) Instance Hardness Threshold　<---使えません

２項ラベル以外には適用できないようです（警告ご参照）。多項ラベルを渡すと、サンプリング結果が異常となります。

In [13]:
'''
    Instance Hardness Threshold with default
'''
from imblearn.under_sampling import InstanceHardnessThreshold
iht = InstanceHardnessThreshold(ratio=0.5)
_, y_res = iht.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_res)
count[:10]



[[4677, 4],
 [4678, 2322],
 [4679, 4],
 [4680, 13],
 [4683, 9],
 [4686, 9],
 [4687, 8],
 [4690, 4],
 [4691, 8],
 [4692, 35]]

### (3-9) Repeated Edited nearest-neighbours

majority ラベルでも、アンダーサンプリングの度合いが弱いようです。

In [14]:
'''
    Repeated Edited nearest-neighbours with default
'''
from imblearn.under_sampling import RepeatedEditedNearestNeighbours
renn = RepeatedEditedNearestNeighbours()
_, y_resampled = renn.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44]]

### (3-10) AllKNN

majority ラベルでも、アンダーサンプリングの度合いが弱いようです。

In [15]:
'''
    Repeated Edited nearest-neighbours with default
'''
from imblearn.under_sampling import AllKNN
allknn = AllKNN()
_, y_resampled = allknn.fit_sample(X, y)
'''
    リサンプルされたラベルごとのサンプル数を調査します。
'''
count = TestTool.count_sample_by_label(y_resampled)
count[:10]

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44]]