# sample_weightなし、負数ラベルで動作確認

- 負例データに関する sample_weight を掛けずに実行します。


- 負例データ１feature ごとに、<b>正例データにない負数ラベルを付与</b>して学習させます。


この設定により、負例データ学習後は、負例データと同じような質問を与えた場合、付与された負数ラベルに分類される想定です。

負例データ１feature ごとにユニークなラベルが付与されることにより、一括してラベル０が付与された負例データの増大時に誤答が復活するかも・・・という懸念はなくなるかと考えております。

## (1) テストデータ／環境準備

<b><a href="01.ipynb">こちらのレポート</a></b>ですでに作成済みのモデル／ベクトライザーを使用します。

In [1]:
'''
    プロトタイピング用のパスと、Botライブラリーパスを取得／設定します
'''
import sys
import os

prototype_dir = os.path.join(os.getcwd(), '..')
prototype_dir = os.path.abspath(prototype_dir)

learning_dir = os.path.join(prototype_dir, '..')
learning_dir = os.path.abspath(learning_dir)
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

print('prototype_dir=%s\nlearning_dir=%s' % (prototype_dir, learning_dir))

prototype_dir=/Users/makmorit/GitHub/donusagi-bot/learning/prototype
learning_dir=/Users/makmorit/GitHub/donusagi-bot/learning


In [2]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
bot_id = 8888
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

## (2) 負例データの仕込み

proba > 0.5 で、かつ意図した回答にならない質問文を任意に拾い上げます。

In [3]:
'''
    Reply クラスを生成し予測実行
'''
from prototype.modules.ReplyForLocalTest import Reply
reply = Reply(bot_id, learning_parameter)

test_X = [
    'サーバとインフラの料金はいくらかかりますか？', # -->3673「以下URLに接続しxxxをご確認ください」
    'サーバとインフラの料金について教えてください。',
    'サーバとインフラの料金はどのくらいかかりますか？',
    '再編集されたメールを検索したいのですが？', # -->3402「方法については『xxx(送信済メールの再利用)』を参照してください」
    '再編集されたメールを検索する方法を教えてください。',
    '再編集が行われたメールを検索したいのですが？',
    '本文をインデントする方法が知りたいのですが？', # -->3488「URLのパスを””、<>で囲っていただくことで、改善されるか確認ください。」
    '本文をインデントする方法を教えてください。',
    '本文について、インデントする方法を教えてください。',
    '未読メールがあるはずなのに見つかりません。', # -->3940「方法については『xxx(未読のメールのフォルダを作成する)』を参照してください」
    '未読メールがあるはずですが、見つかりません。',
    'あるはずの未読メールを見つけたいです。',
    '迷惑メールを受け取りたくないのですが？', # -->3697「一般的には、「広告メール」のことをいいます」
    '迷惑メールを受け取りたくない場合の方法は？',
    '迷惑メールを受け取りたくない方法は？',
]
z = reply.predict(test_X)

TextArray#__init__ start
2017/03/09 PM 10:15:58 TextArray#__init__ start
TextArray#to_vec start
2017/03/09 PM 10:15:58 TextArray#to_vec start
TextArray#to_vec end
2017/03/09 PM 10:15:58 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/09 PM 10:15:58 predicted results (order by probability desc)
{'probability': 0.69139462087656989, 'answer_id': 3673.0}
2017/03/09 PM 10:15:58 {'probability': 0.69139462087656989, 'answer_id': 3673.0}
{'probability': 0.1899476457383148, 'answer_id': 3950.0}
2017/03/09 PM 10:15:58 {'probability': 0.1899476457383148, 'answer_id': 3950.0}
{'probability': 0.013690085497197156, 'answer_id': 3799.0}
2017/03/09 PM 10:15:58 {'probability': 0.013690085497197156, 'answer_id': 3799.0}
{'probability': 0.012180466458260522, 'answer_id': 3502.0}
2017/03/09 PM 10:15:58 {'probability': 0.012180466458260522, 'answer_id': 3502.0}
{'probability': 0.010356139530454285, 'answer_id': 3408.0}
2017/03/09 PM 10:15:58 {'probability': 0.010356139530454285, 

question: サーバとインフラの料金はいくらかかりますか？
answer: 3673
proba: 0.691394620877 

question: サーバとインフラの料金について教えてください。
answer: 3673
proba: 0.946740552088 

question: サーバとインフラの料金はどのくらいかかりますか？
answer: 3673
proba: 0.881814759866 

question: 再編集されたメールを検索したいのですが？
answer: 3402
proba: 0.688213759181 

question: 再編集されたメールを検索する方法を教えてください。
answer: 3402
proba: 0.601669412598 

question: 再編集が行われたメールを検索したいのですが？
answer: 3402
proba: 0.937032900101 

question: 本文をインデントする方法が知りたいのですが？
answer: 3488
proba: 0.571904988964 

question: 本文をインデントする方法を教えてください。
answer: 3488
proba: 0.520196985866 

question: 本文について、インデントする方法を教えてください。
answer: 3488
proba: 0.520196985866 

question: 未読メールがあるはずなのに見つかりません。
answer: 3940
proba: 0.545927508699 

question: 未読メールがあるはずですが、見つかりません。
answer: 3940
proba: 0.545927508699 

question: あるはずの未読メールを見つけたいです。
answer: 3940
proba: 0.614063995774 

question: 迷惑メールを受け取りたくないのですが？
answer: 3697
proba: 0.971456449706 

question: 迷惑メールを受け取りたくない場合の方法は？
answer: 3697
proba: 0.648110468438 

question: 迷惑メールを受け取りたく

### ご参考：正例データに対する回答

In [4]:
test_X_correct = [
    'ITインフラガイドラインの内容を確認する方法を教えて欲しい。', # -->3673「以下URLに接続しxxxをご確認ください」
    'アウトルックでメールの再編集をしたい', # -->3402「方法については『xxx(送信済メールの再利用)』を参照してください」
    'Outlook2010にてメール送信したとき、本文のURLが改行されてしまう', # -->3488「URLのパスを””、<>で囲っていただくことで、改善されるか確認ください。」
    'アウトルック2010で、未読メールを探すのが困難だ', # -->3940「方法については『xxx(未読のメールのフォルダを作成する)』を参照してください」
    '迷惑メールについて知りたい。', # -->3697「一般的には、「広告メール」のことをいいます」
]
z = reply.predict(test_X_correct)

TextArray#__init__ start
2017/03/09 PM 10:15:58 TextArray#__init__ start
TextArray#to_vec start
2017/03/09 PM 10:15:58 TextArray#to_vec start
TextArray#to_vec end
2017/03/09 PM 10:15:58 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/09 PM 10:15:58 predicted results (order by probability desc)
{'probability': 0.97174919956743966, 'answer_id': 3673.0}
2017/03/09 PM 10:15:58 {'probability': 0.97174919956743966, 'answer_id': 3673.0}
{'probability': 0.02163759597946438, 'answer_id': 3672.0}
2017/03/09 PM 10:15:58 {'probability': 0.02163759597946438, 'answer_id': 3672.0}
{'probability': 0.00047895379988604245, 'answer_id': 3545.0}
2017/03/09 PM 10:15:58 {'probability': 0.00047895379988604245, 'answer_id': 3545.0}
{'probability': 0.00029069664153775349, 'answer_id': 3824.0}
2017/03/09 PM 10:15:58 {'probability': 0.00029069664153775349, 'answer_id': 3824.0}
{'probability': 0.00026940789277560842, 'answer_id': 3527.0}
2017/03/09 PM 10:15:58 {'probability': 0.00026940

question: ITインフラガイドラインの内容を確認する方法を教えて欲しい。
answer: 3673
proba: 0.971749199567 

question: アウトルックでメールの再編集をしたい
answer: 3402
proba: 0.982422931526 

question: Outlook2010にてメール送信したとき、本文のURLが改行されてしまう
answer: 3488
proba: 0.988012682325 

question: アウトルック2010で、未読メールを探すのが困難だ
answer: 3940
proba: 0.9877410761 

question: 迷惑メールについて知りたい。
answer: 3697
proba: 0.972404916234 



## (3) 負例データを訓練データに追加

上記の誤回答を誘発するデータを「反面教師データ」として、訓練データに追加します。

In [5]:
csv_file_name = 'test_daikin_conversation.csv'
added_csv_file_name = 'test_daikin_conversation_ext4.csv'

csv_file_path = os.path.join(prototype_dir, 'resources', csv_file_name)
appended_csv_file_path = os.path.join(prototype_dir, 'resources', added_csv_file_name)
appended_csv_file_path

'/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_daikin_conversation_ext4.csv'

負例データには、<B>誤回答時のラベルを負数にしたラベル</B>を付しておきます。

これにより、負例データごとにユニークな正例以外のラベルが付与されることになります。

注意点としては、K-fold が正常に行われるために、１feature あたり最低３レコードを付与する必要があります。

In [6]:
import difflib
import sys

with open(csv_file_path, 'r') as old_csv:
    with open(appended_csv_file_path, 'r') as new_csv:
        diff = difflib.unified_diff(
            old_csv.readlines(),
            new_csv.readlines(),
            fromfile='original',
            tofile='added',
        )
        for line in diff:
            sys.stdout.write(line)

--- original
+++ added
@@ -89859,3 +89859,18 @@
 DKI企画部インフラG ＜net-unyo@daikin.co.jp＞"
 1403260,VPNキーの再発行依頼を行ったが、進捗状況を教えて欲しい。,4672,"VPNキー再発行は1週間を目処に対応しているため、申請から1週間を経過している場合や緊急事態の場合は、以下へお電話ください。
 7-205-413"
+1403261,サーバとインフラの料金はいくらかかりますか？,-3673,"負例データ"
+1403262,サーバとインフラの料金について教えてください。,-3673,"負例データ"
+1403263,サーバとインフラの料金はどのくらいかかりますか？,-3673,"負例データ"
+1403264,再編集されたメールを検索したいのですが？,-3402,"負例データ"
+1403265,再編集されたメールを検索する方法を教えてください。,-3402,"負例データ"
+1403266,再編集が行われたメールを検索したいのですが？,-3402,"負例データ"
+1403267,本文をインデントする方法が知りたいのですが？,-3488,"負例データ"
+1403268,本文をインデントする方法を教えてください。,-3488,"負例データ"
+1403269,本文について、インデントする方法を教えてください。,-3488,"負例データ"
+1403270,未読メールがあるはずなのに見つかりません。,-3940,"負例データ"
+1403271,未読メールがあるはずですが、見つかりません。,-3940,"負例データ"
+1403272,あるはずの未読メールを見つけたいです。,-3940,"負例データ"
+1403273,迷惑メールを受け取りたくないのですが？,-3697,"負例データ"
+1403274,迷惑メールを受け取りたくない場合の方法は？,-3697,"負例データ"
+1403275,迷惑メールを受け取りたくない方法は？,-3697,"負例データ"


## (4) 負例データを含む訓練データで学習実行

bot_id は誤回答を誘発する「反面教師データ」を含まないモデル（8888）とは別にしておきます（比較のため）。

In [7]:
'''
    Bot/Reply モジュールをカスタマイズした
    BotForLocalTest/ReplyForLocalTest モジュールは、
    {prototype_dir}/modules 配下に格納されています
    （ローカル環境から MySQLdb/dataset に接続できないための措置）
'''
from prototype.modules.BotForLocalTest import Bot



In [8]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
appended_bot_id = 9993
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
appended_learning_parameter = LearningParameter(attr)

#### 負例データ（負数ラベル付与）による学習を実行します。

In [9]:
'''
    Bot クラスを生成し学習実行
'''
bot = Bot(appended_bot_id, appended_learning_parameter)
evaluator = bot.learn(csv_file_path=appended_csv_file_path, 
                      csv_file_encoding='utf-8')

learning_parameter: {'_include_tag_vector': False, '_include_failed_data': False, '_params_for_algorithm': {}, '_algorithm': 0, '_classify_threshold': None}
2017/03/09 PM 10:15:59 learning_parameter: {'_include_tag_vector': False, '_include_failed_data': False, '_params_for_algorithm': {}, '_algorithm': 0, '_classify_threshold': None}
start Bot#learn
2017/03/09 PM 10:15:59 start Bot#learn
TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 17458
2017/03/09 PM 10:15:59 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 17458
TextArray#__init__ start
2017/03/09 PM 10:15:59 TextArray#__init__ start
TextArray#to_vec start
2017/03/09 PM 10:15:59 TextArray#to_vec start
TextArray#to_vec end
2017/03/09 PM 10:16:20 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
20

## (5) Accuracy 比較

#### （r2_score の比較は、後日行います。しばらくお待ち願います）

負例データ無し時：（検証時のデータは<b><a "href=01.ipynb">こちらになります</a></b>）
~~~~
accuracy: 0.984177940839
~~~~

負例データ有り時：若干ですが、<b>Accuracy が上がっております。</b>
~~~~
accuracy: 0.984421534937
~~~~

## (6) 動作確認：予測実行

すべての負例質問に対して、負数ラベルが回答されてしまうことが確認できます。

興味深いのは、<b><a href="12.ipynb#(6)-動作確認：予測実行">一括してラベル０を付与した時</b></a>より、proba が高い傾向が見られることです（予測モデルを簡単にする効果がありそうです）。

In [10]:
'''
    Reply クラスを生成し予測実行
'''
appended_reply = Reply(appended_bot_id, appended_learning_parameter)

test_X = [
    'サーバとインフラの料金はいくらかかりますか？', # -->3673「以下URLに接続しxxxをご確認ください」
    '再編集されたメールを検索したいのですが？', # -->3402「方法については『xxx(送信済メールの再利用)』を参照してください」
    '本文をインデントする方法が知りたいのですが？', # -->3488「URLのパスを””、<>で囲っていただくことで、改善されるか確認ください。」    
    '未読メールがあるはずなのに見つかりません。', # -->3940「方法については『xxx(未読のメールのフォルダを作成する)』を参照してください」
    '迷惑メールを受け取りたくないのですが？', # -->3697「一般的には、「広告メール」のことをいいます」
]
appended_z = appended_reply.predict(test_X)

TextArray#__init__ start
2017/03/09 PM 10:20:28 TextArray#__init__ start
TextArray#to_vec start
2017/03/09 PM 10:20:28 TextArray#to_vec start
TextArray#to_vec end
2017/03/09 PM 10:20:28 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/09 PM 10:20:28 predicted results (order by probability desc)
{'probability': 0.98012527371484903, 'answer_id': -3673.0}
2017/03/09 PM 10:20:28 {'probability': 0.98012527371484903, 'answer_id': -3673.0}
{'probability': 0.0071924178955994171, 'answer_id': 3950.0}
2017/03/09 PM 10:20:28 {'probability': 0.0071924178955994171, 'answer_id': 3950.0}
{'probability': 0.0029243184094960672, 'answer_id': 3673.0}
2017/03/09 PM 10:20:28 {'probability': 0.0029243184094960672, 'answer_id': 3673.0}
{'probability': 0.0007861519379011527, 'answer_id': 3502.0}
2017/03/09 PM 10:20:28 {'probability': 0.0007861519379011527, 'answer_id': 3502.0}
{'probability': 0.00073945726400226808, 'answer_id': 3799.0}
2017/03/09 PM 10:20:28 {'probability': 0.000739

question: サーバとインフラの料金はいくらかかりますか？
answer: -3673
proba: 0.980125273715 

question: 再編集されたメールを検索したいのですが？
answer: -3402
proba: 0.958363720782 

question: 本文をインデントする方法が知りたいのですが？
answer: -3488
proba: 0.982332239824 

question: 未読メールがあるはずなのに見つかりません。
answer: -3940
proba: 0.941536627523 

question: 迷惑メールを受け取りたくないのですが？
answer: -3697
proba: 0.921539928052 



## (7) 正例データに対する回答

In [11]:
'''
    誤回答を誘発しない質問文を与えて、動作に影響が及んでいないかの確認。
'''
test_X_correct = [
    'ITインフラガイドラインの内容を確認する方法を教えて欲しい。', # -->3673「以下URLに接続しxxxをご確認ください」
    'アウトルックでメールの再編集をしたい', # -->3402「方法については『xxx(送信済メールの再利用)』を参照してください」
    'Outlook2010にてメール送信したとき、本文のURLが改行されてしまう', # -->3488「URLのパスを””、<>で囲っていただくことで、改善されるか確認ください。」
    'アウトルック2010で、未読メールを探すのが困難だ', # -->3940「方法については『xxx(未読のメールのフォルダを作成する)』を参照してください」
    '迷惑メールについて知りたい。', # -->3697「一般的には、「広告メール」のことをいいます」
]
appended_z = appended_reply.predict(test_X_correct)

TextArray#__init__ start
2017/03/09 PM 10:20:28 TextArray#__init__ start
TextArray#to_vec start
2017/03/09 PM 10:20:28 TextArray#to_vec start
TextArray#to_vec end
2017/03/09 PM 10:20:28 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/09 PM 10:20:28 predicted results (order by probability desc)
{'probability': 0.97151458654338207, 'answer_id': 3673.0}
2017/03/09 PM 10:20:28 {'probability': 0.97151458654338207, 'answer_id': 3673.0}
{'probability': 0.021678053182600406, 'answer_id': 3672.0}
2017/03/09 PM 10:20:28 {'probability': 0.021678053182600406, 'answer_id': 3672.0}
{'probability': 0.00047980129680636293, 'answer_id': 3545.0}
2017/03/09 PM 10:20:28 {'probability': 0.00047980129680636293, 'answer_id': 3545.0}
{'probability': 0.0002909623926786496, 'answer_id': 3824.0}
2017/03/09 PM 10:20:28 {'probability': 0.0002909623926786496, 'answer_id': 3824.0}
{'probability': 0.00026975416870625831, 'answer_id': 3527.0}
2017/03/09 PM 10:20:28 {'probability': 0.00026975

question: ITインフラガイドラインの内容を確認する方法を教えて欲しい。
answer: 3673
proba: 0.971514586543 

question: アウトルックでメールの再編集をしたい
answer: 3402
proba: 0.978684779768 

question: Outlook2010にてメール送信したとき、本文のURLが改行されてしまう
answer: 3488
proba: 0.987947634606 

question: アウトルック2010で、未読メールを探すのが困難だ
answer: 3940
proba: 0.987498877483 

question: 迷惑メールについて知りたい。
answer: 3697
proba: 0.97185441496 



ラベル０で一括学習した場合とは違い、負数ラベルに予測が引っ張られるような動きは、見られませんでした。

In [12]:
for i, _ in enumerate(appended_z):
    print(appended_z[i])

{'probability': 0.97151458654338207, 'answer_id': 3673.0}
{'probability': 0.021678053182600406, 'answer_id': 3672.0}
{'probability': 0.00047980129680636293, 'answer_id': 3545.0}
{'probability': 0.0002909623926786496, 'answer_id': 3824.0}
{'probability': 0.00026975416870625831, 'answer_id': 3527.0}
{'probability': 0.00025517333525629503, 'answer_id': 3792.0}
{'probability': 0.00019109942390465543, 'answer_id': 3570.0}
{'probability': 0.00014315602189281999, 'answer_id': 3907.0}
{'probability': 0.00012000342489401501, 'answer_id': 3519.0}
{'probability': 0.00011944040616154748, 'answer_id': 3908.0}


### 負例データ学習前後の Accuracy 比較

proba に若干の影響が及んでしまう（下落が見られる）のが確認されるのは、一括してラベル０が付与された負例データを学習した時と変わりません。

~~~
question: ITインフラガイドラインの内容を確認する方法を教えて欲しい。
answer: 3673
proba: 0.971749199567 ---> 0.971514586543

question: アウトルックでメールの再編集をしたい
answer: 3402
proba: 0.982422931526 ---> 0.978684779768 

question: Outlook2010にてメール送信したとき、本文のURLが改行されてしまう
answer: 3488
proba: 0.988012682325 ---> 0.987947634606 

question: アウトルック2010で、未読メールを探すのが困難だ
answer: 3940
proba: 0.9877410761 ---> 0.987498877483 

question: 迷惑メールについて知りたい。
answer: 3697
proba: 0.972404916234 ---> 0.97185441496
~~~