# 豊通フィードバック調査

## 文章で質問すると回答の精度が低いのか調査する

豊通で単語のほうが回答精度が高い印象があると言っていた


### 気になる質問文1

- Q: 海外で、駐在員が利用した交際費の勘定科目は？
- A(理想): 海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？
- A(現実): similarityが低く該当が無い

## コサイン類似検索で実際の分かち書きなどの状況を見てみる

In [1]:
'''
    learningディレクトリのパスを取得／設定
'''
import sys
import os

if os.path.basename(os.getcwd()) != 'learning':
    learning_dir = os.path.join(os.getcwd(), '../..')
    learning_dir = os.path.abspath(learning_dir)
    os.chdir(learning_dir)

    if learning_dir not in sys.path:
        sys.path.append(learning_dir)

print('current_dir={}'.format(os.getcwd()))


'''
    ライブラリロード
'''
from IPython.core.display import display

'''
   初期化
'''
from tests.support.helper import Helper
Helper.init()

current_dir=/Users/shwld/project/mofmof/donusagi-bot/learning


In [2]:
from sklearn.metrics.pairwise import cosine_similarity
context = Helper.test_context(bot_id=13, algorithm=3)
factory = context.get_factory()

def test(texts, query):
    tokenizer = factory.get_tokenizer()
    vectorizer = factory.get_vectorizer()

    print('\n### テストデータ')
    tokens = tokenizer.tokenize(texts)
    for token in tokens:
        print(token)
    vectors = vectorizer.fit_transform(tokens)
    print(vectors.shape)

    print('\n### テストクエリ')
    tokens2 = tokenizer.tokenize([query])
    print(tokens2[0])
    vectors2 = vectorizer.transform(tokens2)
    print(vectors2.shape)
    
    print('\n### 結果')
    similarities = cosine_similarity(vectors, vectors2)

    for result in zip(similarities.flatten(), texts):
        print(result)

[ INFO 140736254448448 2017/12/12 PM 03:41:09                     context: 41 -            get_factory] algorithm: Simmilarity Classification
[ INFO 140736254448448 2017/12/12 PM 03:41:09                     context: 74 -           get_feedback] feedback algorithm: None
[DEBUG 140736254448448 2017/12/12 PM 03:41:09  mecab_tokenizer_with_split: 10 -               __init__] dicdir: /usr/local/lib/mecab/dic/mecab-ipadic-neologd


In [3]:
## 本番データそのままで試してみる
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？')


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目
(1, 53)

### 結果
(0.38366342336609421, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.30180921679474515, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.24260193325597201, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.20681822140017075, '海外の日当について')
(0.1690967991282975, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.19559474779209973, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.18555408637335813, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.13373561247190521, '交際費の損金算入とはどのような意味ですか？')
(0.24988186929722139, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.1501879846888049, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [4]:
# 駐在員をデータに足してみる
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '駐在員が海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？', # <- 駐在員がを先頭に足した
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？')

# result -> 目的のデータのsimilarityが上がった


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
駐在 員 海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目
(1, 53)

### 結果
(0.3573730552051641, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.26338982859792354, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.25701766913431301, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.21910764059200943, '海外の日当について')
(0.38195753310283753, '駐在員が海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.20721725296144888, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.19657996182457679, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.14168236393034889, '交際費の損金算入とはどのような意味ですか？')
(0.26473018884780852, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.15911235841623825, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [5]:
# 5,000円をクエリに足してみる
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？5,000円ですか')

# result -> 目的のデータのsimilarityが上がった


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目 ５ ０００ 円
(1, 53)

### 結果
(0.27371363064328375, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.21531710207274379, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.17307736914292474, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.14754850948773027, '海外の日当について')
(0.53451219408781647, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.13954144516363687, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.13237822416416908, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.095409824879395436, '交際費の損金算入とはどのような意味ですか？')
(0.17827103005336262, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.10714729647017901, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [6]:
# 海外の日当について聞いてみる
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外の日当はどうなっていますかね')

# result -> 日当は他になさそうなので高いsimilarityが出た


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
海外 日当 どう なる
(1, 53)

### 結果
(0.073220278470360667, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.0, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.097641231652068894, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.76791734782382481, '海外の日当について')
(0.21842721561456238, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.1104668794664609, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.0, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.0, '交際費の損金算入とはどのような意味ですか？')
(0.0, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.0, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [7]:
# 5,000円で分けるのですか?
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '5,000円で分けるのですか?')

# result -> 5000円も他になさそうなので高いsimilarityが出た


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
５ ０００ 円 分ける
(1, 53)

### 結果
(0.0, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.0, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.0, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.0, '海外の日当について')
(0.6820000825607393, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.0, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.0, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.0, '交際費の損金算入とはどのような意味ですか？')
(0.0, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.0, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [8]:
# 交際費の損金算入と燃油サーチャージ料を5,000円で分けるのですか?
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '交際費の損金算入と燃油サーチャージ料を5,000円で分けるのですか?')

# result -> 複数のデータの特徴となる単語を組み合わせてしまうとどれが正解なのかわかりづらくなってしまった


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
交際費 損金 算入 燃油サーチャージ 料 ５ ０００ 円 分ける
(1, 53)

### 結果
(0.0, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.0, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.0, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.0, '海外の日当について')
(0.52091391878386561, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.0, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.062356829599947032, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.45257618519870502, '交際費の損金算入とはどのような意味ですか？')
(0.044363196472865789, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.4170752780511614, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [9]:
# ストップワードっぽいものを除去してみる
# http://svn.sourceforge.jp/svnroot/slothlib/CSharp/Version1/SlothLib/NLP/Filter/StopWord/word/Japanese.txt
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目',
    '海外の日当',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5000で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？')

# result -> ストップワードはあまりなかった


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５０００ 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 50)

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目
(1, 50)

### 結果
(0.38366342336609421, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.30180921679474515, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.25884258120766906, '海外で申請した登記申請手数料の勘定科目')
(0.20681822140017075, '海外の日当')
(0.19302508524330028, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5000で分けるのですか？')
(0.19559474779209973, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.18555408637335813, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.13373561247190521, '交際費の損金算入とはどのような意味ですか？')
(0.24988186929722139, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.1501879846888049, '海外出張で、燃油サーチャージ料の勘定科目は？')


## 所感
似たような単語が多い中で、IDFが大きな(出現頻度が少ない)単語に結果が左右されそう (5000円や駐在員など)

やってみたい対策

- 主成分抽出(次元削減)
- word2vecならちょっと改善しそう
- mecabで落としている単語の中から特徴となる文字を残すようにする。& ストップワードは除去