# sample_weightを掛けて動作確認（条件変更版）

<b><a href="07.ipynb">こちらのレポート</a></b>からさらに条件を変更して再試行しました。

- 負例データに関する sample_weight を仮に 0.005（ハイパーパラメータ C の逆数と仮決め）と設定します。


- 負例データに、誤回答時のラベルではなく、新たに 0 というラベルを付与して学習させます。


## (0) 結論と対策

#### 結論

少し効果は上がりましたが、負例データの proba が 0.5 を超えており、まだまだ見直しが必要なようです。

#### 対策

負例データに関する sample_weight を、

~~~
(ハイパーパラメータ C の逆数 * 誤回答率の逆数) 
~~~

と設定したらどうか？

すなわち、誤回答率が高ければ高いほど、ペナルティをさらに強くする・・・という試みになります。
  
例えば誤回答率が 95%、65% の負例データに対しては、sample_weight をそれぞれ

~~~
(1/200) * (1/95) = 0.000052631578947 
(1/200) * (1/65) = 0.000076923076923
~~~

に設定することになります。

## (1) テストデータ／環境準備

<b><a href="01.ipynb">こちらのレポート</a></b>ですでに作成済みのモデル／ベクトライザーを使用します。

In [1]:
'''
    プロトタイピング用のパスと、Botライブラリーパスを取得／設定します
'''
import sys
import os

prototype_dir = os.path.join(os.getcwd(), '..')
prototype_dir = os.path.abspath(prototype_dir)

learning_dir = os.path.join(prototype_dir, '..')
learning_dir = os.path.abspath(learning_dir)
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

print('prototype_dir=%s\nlearning_dir=%s' % (prototype_dir, learning_dir))

prototype_dir=/Users/makmorit/GitHub/donusagi-bot/learning/prototype
learning_dir=/Users/makmorit/GitHub/donusagi-bot/learning


In [2]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
bot_id = 8888
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

## (2) 負例データの仕込み

proba > 0.5 で、かつ意図した回答にならない質問文を任意に拾い上げます。

In [3]:
'''
    Reply クラスを生成し予測実行
'''
from prototype.modules.ReplyForLocalTest import Reply
reply = Reply(bot_id, learning_parameter)

test_X = [
    'サーバとインフラの料金はいくらかかりますか？', # -->3673「以下URLに接続しxxxをご確認ください」
    '再編集されたメールを検索したいのですが？', # -->3402「方法については『xxx(送信済メールの再利用)』を参照してください」
    '本文をインデントする方法が知りたいのですが？', # -->3488「URLのパスを””、<>で囲っていただくことで、改善されるか確認ください。」    
    '未読メールがあるはずなのに見つかりません。', # -->3940「方法については『xxx(未読のメールのフォルダを作成する)』を参照してください」
    '迷惑メールを受け取りたくないのですが？', # -->3697「一般的には、「広告メール」のことをいいます」
]
z = reply.predict(test_X)

TextArray#__init__ start
2017/03/08 AM 11:48:17 TextArray#__init__ start
TextArray#to_vec start
2017/03/08 AM 11:48:17 TextArray#to_vec start
TextArray#to_vec end
2017/03/08 AM 11:48:17 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/08 AM 11:48:17 predicted results (order by probability desc)
{'probability': 0.69139462087656989, 'answer_id': 3673.0}
2017/03/08 AM 11:48:17 {'probability': 0.69139462087656989, 'answer_id': 3673.0}
{'probability': 0.1899476457383148, 'answer_id': 3950.0}
2017/03/08 AM 11:48:17 {'probability': 0.1899476457383148, 'answer_id': 3950.0}
{'probability': 0.013690085497197156, 'answer_id': 3799.0}
2017/03/08 AM 11:48:17 {'probability': 0.013690085497197156, 'answer_id': 3799.0}
{'probability': 0.012180466458260522, 'answer_id': 3502.0}
2017/03/08 AM 11:48:17 {'probability': 0.012180466458260522, 'answer_id': 3502.0}
{'probability': 0.010356139530454285, 'answer_id': 3408.0}
2017/03/08 AM 11:48:17 {'probability': 0.010356139530454285, 

question: サーバとインフラの料金はいくらかかりますか？
answer: 3673
proba: 0.691394620877 

question: 再編集されたメールを検索したいのですが？
answer: 3402
proba: 0.688213759181 

question: 本文をインデントする方法が知りたいのですが？
answer: 3488
proba: 0.571904988964 

question: 未読メールがあるはずなのに見つかりません。
answer: 3940
proba: 0.545927508699 

question: 迷惑メールを受け取りたくないのですが？
answer: 3697
proba: 0.971456449706 



## (3) 負例データを訓練データに追加

上記の誤回答を誘発するデータを「反面教師データ」として、訓練データに追加します。

sample_weight が訓練データ１レコード（CSV１行分）ごとに設定される重み係数であるための措置です。

In [4]:
csv_file_name = 'test_daikin_conversation.csv'
added_csv_file_name = 'test_daikin_conversation_ext2.csv'

csv_file_path = os.path.join(prototype_dir, 'resources', csv_file_name)
appended_csv_file_path = os.path.join(prototype_dir, 'resources', added_csv_file_name)
appended_csv_file_path

'/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_daikin_conversation_ext2.csv'

負例データには、誤回答された時とは別のラベルを付しておきます。

In [5]:
import difflib
import sys

with open(csv_file_path, 'r') as old_csv:
    with open(appended_csv_file_path, 'r') as new_csv:
        diff = difflib.unified_diff(
            old_csv.readlines(),
            new_csv.readlines(),
            fromfile='original',
            tofile='added',
        )
        for line in diff:
            sys.stdout.write(line)

--- original
+++ added
@@ -89859,3 +89859,8 @@
 DKI企画部インフラG ＜net-unyo@daikin.co.jp＞"
 1403260,VPNキーの再発行依頼を行ったが、進捗状況を教えて欲しい。,4672,"VPNキー再発行は1週間を目処に対応しているため、申請から1週間を経過している場合や緊急事態の場合は、以下へお電話ください。
 7-205-413"
+1403261,サーバとインフラの料金はいくらかかりますか？,0,"負例データ"
+1403262,再編集されたメールを検索したいのですが？,0,"負例データ"
+1403263,本文をインデントする方法が知りたいのですが？,0,"負例データ"
+1403264,未読メールがあるはずなのに見つかりません。,0,"負例データ"
+1403265,迷惑メールを受け取りたくないのですが？,0,"負例データ"


## (4) 負例データを含む訓練データで学習実行

bot_id は誤回答を誘発する「反面教師データ」を含まないモデル（8888）とは別にしておきます（比較のため）。

In [6]:
'''
    Bot/Reply モジュールをカスタマイズした
    BotForLocalTest/ReplyForLocalTest モジュールは、
    {prototype_dir}/modules 配下に格納されています
    （ローカル環境から MySQLdb/dataset に接続できないための措置）
'''
from prototype.modules.BotForLocalTest import Bot



In [7]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
appended_bot_id = 9997
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
appended_learning_parameter = LearningParameter(attr)

#### 負例データに関する sample_weight を 0.005（C値の逆数と仮決め：別段根拠なし）と設定します。

In [8]:
'''
    sample_weight の生成
    負例データを 0.3、その他はデフォルトの 1.0 にします。
    負例データ＝５件、その他のデータ＝17,443件、計＝17,448件
'''
import numpy as np
sample_weight = np.full(17448, 1.0)
for i in range(17443, 17448):
    sample_weight[i] = 0.005
sample_weight[-8:] # <---配列の値を確認します。最後尾の５件のウェイトが 0.3 です

array([ 1.   ,  1.   ,  1.   ,  0.005,  0.005,  0.005,  0.005,  0.005])

#### 負例データ＋sample_weightによる学習を実行します。

グリッドサーチに 181分、Accuracy評価に 8分を要しました。

In [9]:
'''
    Bot クラスを生成し学習実行

    サンプルごとに重み付け（ペナルティ）を与えるために必要な
    sample_weight と solver を追加指定します。
'''
bot = Bot(appended_bot_id, appended_learning_parameter)
evaluator = bot.learn(csv_file_path=appended_csv_file_path, 
                      csv_file_encoding='utf-8', 
                      sample_weight=sample_weight,
                      solver='lbfgs')

learning_parameter: {'_include_tag_vector': False, '_params_for_algorithm': {}, '_include_failed_data': False, '_algorithm': 0, '_classify_threshold': None}
2017/03/08 AM 11:48:18 learning_parameter: {'_include_tag_vector': False, '_params_for_algorithm': {}, '_include_failed_data': False, '_algorithm': 0, '_classify_threshold': None}
start Bot#learn
2017/03/08 AM 11:48:18 start Bot#learn
TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 17448
2017/03/08 AM 11:48:18 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 17448
TextArray#__init__ start
2017/03/08 AM 11:48:18 TextArray#__init__ start
TextArray#to_vec start
2017/03/08 AM 11:48:18 TextArray#to_vec start
TextArray#to_vec end
2017/03/08 AM 11:48:38 TextArray#to_vec end
[[ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 ..., 
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]
 [ 0.  0.  0. ...,  0.  0.  0.]]
20

## (5) ご参考：負例データ＋sample_weight無し時の学習結果との比較

#### （r2_score の比較は、後日行います。しばらくお待ち願います）

負例データ無し時：（検証時のデータは<b><a "href=01.ipynb">こちらになります</a></b>）
~~~~
accuracy: 0.984177940839
~~~~

負例データ有り時：若干、Accuracyが落ちてます
~~~~
accuracy: 0.983493810179
~~~~

## (6) 動作確認：予測実行

In [10]:
'''
    Reply クラスを生成し予測実行
'''
appended_reply = Reply(appended_bot_id, appended_learning_parameter)

test_X = [
    'サーバとインフラの料金はいくらかかりますか？', # -->3673「以下URLに接続しxxxをご確認ください」
    '再編集されたメールを検索したいのですが？', # -->3402「方法については『xxx(送信済メールの再利用)』を参照してください」
    '本文をインデントする方法が知りたいのですが？', # -->3488「URLのパスを””、<>で囲っていただくことで、改善されるか確認ください。」    
    '未読メールがあるはずなのに見つかりません。', # -->3940「方法については『xxx(未読のメールのフォルダを作成する)』を参照してください」
    '迷惑メールを受け取りたくないのですが？', # -->3697「一般的には、「広告メール」のことをいいます」
]
appended_z = appended_reply.predict(test_X)

TextArray#__init__ start
2017/03/08 PM 01:09:52 TextArray#__init__ start
TextArray#to_vec start
2017/03/08 PM 01:09:52 TextArray#to_vec start
TextArray#to_vec end
2017/03/08 PM 01:09:52 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/08 PM 01:09:52 predicted results (order by probability desc)
{'probability': 0.56907925985702612, 'answer_id': 3673.0}
2017/03/08 PM 01:09:52 {'probability': 0.56907925985702612, 'answer_id': 3673.0}
{'probability': 0.30414149029284804, 'answer_id': 3950.0}
2017/03/08 PM 01:09:52 {'probability': 0.30414149029284804, 'answer_id': 3950.0}
{'probability': 0.018469506063044889, 'answer_id': 3799.0}
2017/03/08 PM 01:09:52 {'probability': 0.018469506063044889, 'answer_id': 3799.0}
{'probability': 0.013501151828187039, 'answer_id': 3502.0}
2017/03/08 PM 01:09:52 {'probability': 0.013501151828187039, 'answer_id': 3502.0}
{'probability': 0.010229902331818246, 'answer_id': 3408.0}
2017/03/08 PM 01:09:52 {'probability': 0.010229902331818246

question: サーバとインフラの料金はいくらかかりますか？
answer: 3673
proba: 0.569079259857 

question: 再編集されたメールを検索したいのですが？
answer: 3402
proba: 0.626890537618 

question: 本文をインデントする方法が知りたいのですが？
answer: 3488
proba: 0.554408606531 

question: 未読メールがあるはずなのに見つかりません。
answer: 3940
proba: 0.610239769365 

question: 迷惑メールを受け取りたくないのですが？
answer: 3697
proba: 0.977959632584 



ご参考：誤回答を誘発しない「正規の教師データ」からの質問に対しては、proba は期待通りの値を戻します。

In [11]:
'''
    誤回答を誘発しない質問文を与えて、動作に影響が及んでいないかの確認。
'''
test_X_prop = [
    'Outlook2010にて、メールの署名の作り方が教えてください。', # -->3398
    'アウトルック2010で、メーリングリストの差出人のみに返信したい', # -->3460
]
appended_z = appended_reply.predict(test_X_prop)

TextArray#__init__ start
2017/03/08 PM 01:09:52 TextArray#__init__ start
TextArray#to_vec start
2017/03/08 PM 01:09:52 TextArray#to_vec start
TextArray#to_vec end
2017/03/08 PM 01:09:52 TextArray#to_vec end
predicted results (order by probability desc)
2017/03/08 PM 01:09:52 predicted results (order by probability desc)
{'probability': 0.99212400689642977, 'answer_id': 3398.0}
2017/03/08 PM 01:09:52 {'probability': 0.99212400689642977, 'answer_id': 3398.0}
{'probability': 0.001528291166399023, 'answer_id': 3442.0}
2017/03/08 PM 01:09:52 {'probability': 0.001528291166399023, 'answer_id': 3442.0}
{'probability': 0.0006333174338425721, 'answer_id': 3409.0}
2017/03/08 PM 01:09:52 {'probability': 0.0006333174338425721, 'answer_id': 3409.0}
{'probability': 0.00037466450435634264, 'answer_id': 3458.0}
2017/03/08 PM 01:09:52 {'probability': 0.00037466450435634264, 'answer_id': 3458.0}
{'probability': 0.0003433798159700592, 'answer_id': 3732.0}
2017/03/08 PM 01:09:52 {'probability': 0.000343379

question: Outlook2010にて、メールの署名の作り方が教えてください。
answer: 3398
proba: 0.992124006896 

question: アウトルック2010で、メーリングリストの差出人のみに返信したい
answer: 3460
proba: 0.976993844405 

