# ラベル分離に関する実装の調査

学習セットから、一部のラベルのデータを分離させるコードの実装方法について調査します。

## (1) テストデータ／環境準備

In [1]:
'''
    テスト環境を準備するためのモジュールを使用します。
'''
import sys
import os
learning_dir = os.path.abspath("../../") #<--- donusagi-bot/learning
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

## (2) 分離させたいラベルを指定

LearningParameter のエントリーに含める形を想定

In [2]:
from learning.core.learn.learning_parameter import LearningParameter

bot_id = 9999
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    'params_for_algorithm': {},
    'excluded_labels_for_fitting': [3400,3401,3402]

}
learning_parameter = LearningParameter(attr)
csv_file_path = '/Users/makmorit/GitHub/donusagi-bot/learning/learning/tests/fixtures/test_daikin_conversation.csv'
csv_file_encoding = 'utf-8'

## (3) 学習セットをCSVファイルから取得

ここはプロダクションと同じ流れです

In [3]:
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv

training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

2017/04/11 PM 12:25:49 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 17443
2017/04/11 PM 12:25:49 TextArray#__init__ start
2017/04/11 PM 12:25:58 TextArray#to_vec start
2017/04/11 PM 12:25:58 TextArray#to_vec end


In [4]:
training_set.y.shape[0]

17446

In [5]:
training_set.y

array([3397, 3398, 3399, ...,    0,    0,    0])

## (4) 学習セットから指定のラベルを分離

分離ラベル以外のインデックスと、分離ラベル以外のインデックスを取得します

In [6]:
learning_parameter.excluded_labels_for_fitting

[3400, 3401, 3402]

In [7]:
main_indexes, separated_indexes = training_set.separate_train_data(learning_parameter.excluded_labels_for_fitting)

In [8]:
training_set.y[main_indexes]

array([3397, 3398, 3399, ...,    0,    0,    0])

In [9]:
training_set.y[separated_indexes]

array([3400, 3401, 3402, 3401, 3401, 3402, 3402, 3401, 3401, 3402, 3402,
       3400, 3400, 3400, 3400, 3400, 3400, 3400, 3400, 3400, 3400, 3400,
       3400, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401,
       3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3402, 3402, 3402,
       3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402,
       3402, 3402, 3402, 3402, 3400, 3400, 3400, 3400, 3400, 3400, 3400,
       3400, 3400, 3400, 3400, 3400, 3401, 3401, 3401, 3401, 3401, 3401,
       3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401, 3401,
       3401, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402,
       3402, 3402, 3402, 3402, 3402, 3402, 3402, 3402, 3400, 3401, 3402])