# 再現試験

マイオペで使用しているテストデータ（learning/tests/engine/fixtures/ 配下のCSVファイル）をベースに動作確認を行います。

動作確認にあたっては、MySQLdb に接続できないため、ローカル環境テスト用の Bot クラスを使用しています。

## (1) テストデータ／環境準備

In [1]:
'''
    プロトタイピング用のパスと、Botライブラリーパスを取得／設定します
'''
import sys
import os

prototype_dir = os.path.join(os.getcwd(), '..')
prototype_dir = os.path.abspath(prototype_dir)

learning_dir = os.path.join(prototype_dir, '..')
learning_dir = os.path.abspath(learning_dir)
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

print('prototype_dir=%s\nlearning_dir=%s' % (prototype_dir, learning_dir))

prototype_dir=/Users/makmorit/GitHub/donusagi-bot/learning/prototype
learning_dir=/Users/makmorit/GitHub/donusagi-bot/learning


In [2]:
'''
    データファイルは、既存の訓練データを別場所にコピーしてから使用します
    テストデータは、csv_file_name で指定したものを使用します。
'''
csv_file_name = 'test_benefitone_conversation.csv'
original_csv_dir = os.path.join(learning_dir, 'learning/tests/engine/fixtures/')
original_file_path = os.path.join(original_csv_dir, csv_file_name)

csv_dir = os.path.join(prototype_dir, 'resources')

import shutil
shutil.copy2(original_file_path, csv_dir)
copied_csv_file_path = os.path.join(csv_dir, csv_file_name)

print('CSV file for test=[%s]' % copied_csv_file_path)

CSV file for test=[/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_benefitone_conversation.csv]


## (2) 既存モジュールをカスタマイズ

In [3]:
'''
    Bot/Reply モジュールをカスタマイズした
    BotForLocalTest/ReplyForLocalTest モジュールは、
    {prototype_dir}/modules 配下に格納されています
    （ローカル環境から MySQLdb/dataset に接続できないための措置）
'''
from prototype.modules.BotForLocalTest import Bot
from prototype.modules.ReplyForLocalTest import Reply
from learning.core.learn.learning_parameter import LearningParameter



In [4]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
bot_id = 7777
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)
csv_file_path = copied_csv_file_path
csv_file_encoding = 'utf-8'

## (3) 現状の調査

ラベルごとのサンプル数を調査しました。

ラベル 4678 のサンプル数が 2584 件と突出しているのを確認しました。

In [5]:
'''
    訓練データの生成（内部で TF-IDF 処理を実行）
'''
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv
training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/11 PM 08:47:01 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
TextArray#__init__ start
2017/03/11 PM 08:47:01 TextArray#__init__ start
TextArray#to_vec start
2017/03/11 PM 08:47:01 TextArray#to_vec start
TextArray#to_vec end
2017/03/11 PM 08:47:04 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
2017/03/11 PM 08:47:04 [[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]


In [6]:
'''
    ラベルごとのサンプル数を調査します。
'''
import numpy as np

def bincount(x, weights=None, minlength=None):
    if len(x) > 0:
        return np.bincount(x, weights, minlength) # <---
    else:
        if minlength is None:
            minlength = 0
        minlength = np.asscalar(np.asarray(minlength, dtype=np.intp))
        return np.zeros(minlength, dtype=np.intp)

def count_sample_by_label(labels):
    y = np.asarray(labels)
    n_samples = y.shape[0]

    unique_labels, y_inversed = np.unique(y, return_inverse=True)
    label_counts = bincount(y_inversed)

    sample_count = []
    for i, unique_label in enumerate(unique_labels):
        sample_count.append([unique_label, label_counts[i]])

    return sample_count

count = count_sample_by_label(build_training_set_from_csv.y)
count

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44],
 [4693, 30],
 [4700, 12],
 [4707, 18],
 [4708, 14],
 [4709, 14],
 [4710, 14],
 [4711, 14],
 [4712, 16],
 [4713, 14],
 [4718, 20],
 [4719, 8],
 [4720, 20],
 [4721, 8],
 [4724, 8],
 [4727, 14],
 [4728, 62],
 [4729, 26],
 [4730, 20],
 [4731, 14],
 [4732, 22],
 [4733, 14],
 [4734, 34],
 [4735, 12],
 [4738, 14],
 [4739, 14],
 [4740, 14],
 [4741, 8],
 [4742, 20],
 [4743, 14],
 [4744, 14],
 [4745, 20],
 [4750, 22],
 [4751, 20],
 [4752, 14],
 [4753, 8],
 [4754, 8],
 [4755, 14],
 [4756, 20],
 [4757, 8],
 [4758, 28],
 [4759, 14],
 [4760, 8],
 [4761, 20],
 [4762, 8],
 [4766, 14],
 [4767, 14],
 [4772, 60],
 [4776, 8],
 [4781, 14],
 [4782, 14],
 [4783, 20],
 [4786, 8],
 [4792, 20],
 [4793, 8],
 [4794, 8],
 [4795, 14],
 [4797, 42],
 [4798, 36],
 [4800, 14],
 [4802, 14],
 [4804, 14],
 [4807, 8],
 [4808, 106],
 [4817, 26],
 [4821, 24],
 [4824, 16],
 [4827, 8],
 [4830, 22],


## (4) 学習実行

In [7]:
'''
    Bot クラスを生成し学習実行--->交差検証の実行
'''
bot = Bot(bot_id, learning_parameter)
evaluator = bot.learn(csv_file_path=csv_file_path, 
                      csv_file_encoding=csv_file_encoding)

learning_parameter: {'_params_for_algorithm': {}, '_classify_threshold': None, '_algorithm': 0, '_include_tag_vector': False, '_include_failed_data': False}
2017/03/11 PM 08:47:16 learning_parameter: {'_params_for_algorithm': {}, '_classify_threshold': None, '_algorithm': 0, '_include_tag_vector': False, '_include_failed_data': False}
start Bot#learn
2017/03/11 PM 08:47:16 start Bot#learn
TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/11 PM 08:47:16 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
TextArray#__init__ start
2017/03/11 PM 08:47:16 TextArray#__init__ start
TextArray#to_vec start
2017/03/11 PM 08:47:16 TextArray#to_vec start
TextArray#to_vec end
2017/03/11 PM 08:47:19 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
2017

## (5) 予測実行

訓練データのどのサンプルにもない単語で質問を行うと、やはりラベル 4678（それでは、総務部の方に確認してください...）に分類されてしまうようです。

In [8]:
'''
    Reply クラスを生成し予測実行
'''
test_X = [
    '人生相談をしたいのですが？',
]
reply = Reply(bot_id, learning_parameter)
z = reply.predict(test_X)

TextArray#__init__ start
2017/03/11 PM 08:47:32 TextArray#__init__ start
TextArray#to_vec start
2017/03/11 PM 08:47:32 TextArray#to_vec start
TextArray#to_vec end
2017/03/11 PM 08:47:32 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/11 PM 08:47:32 predicted results (order by probability desc)
{'answer_id': 4678.0, 'probability': 0.95823145135079324}
2017/03/11 PM 08:47:32 {'answer_id': 4678.0, 'probability': 0.95823145135079324}
{'answer_id': 4808.0, 'probability': 0.0097836046824354497}
2017/03/11 PM 08:47:32 {'answer_id': 4808.0, 'probability': 0.0097836046824354497}
{'answer_id': 4720.0, 'probability': 0.005498870711610441}
2017/03/11 PM 08:47:32 {'answer_id': 4720.0, 'probability': 0.005498870711610441}
{'answer_id': 4692.0, 'probability': 0.0027597788887513265}
2017/03/11 PM 08:47:32 {'answer_id': 4692.0, 'probability': 0.0027597788887513265}
{'answer_id': 4835.0, 'probability': 0.0019091965412538531}
2017/03/11 PM 08:47:32 {'answer_id': 4835.0, 'probab

question: 人生相談をしたいのですが？
answer: 4678
proba: 0.958231451351 

