## 豊通　LSI、word2vecで実際の分かち書きなどの状況を見てみる

In [1]:
'''
    learningディレクトリのパスを取得／設定
'''
import sys
import os

if os.path.basename(os.getcwd()) != 'learning':
    learning_dir = os.path.join(os.getcwd(), '../..')
    learning_dir = os.path.abspath(learning_dir)
    os.chdir(learning_dir)

    if learning_dir not in sys.path:
        sys.path.append(learning_dir)

print('current_dir={}'.format(os.getcwd()))


'''
    ライブラリロード
'''
from IPython.core.display import display

'''
   初期化
'''
from tests.support.helper import Helper
Helper.init()

current_dir=/Users/shwld/project/mofmof/donusagi-bot/learning


In [2]:
from sklearn.metrics.pairwise import cosine_similarity
context = Helper.test_context(bot_id=13, algorithm=3)
factory = context.get_factory()

def test(texts, query):
    tokenizer = factory.get_tokenizer()
    vectorizer = factory.get_vectorizer()

    print('\n### テストデータ')
    tokens = tokenizer.tokenize(texts)
    for token in tokens:
        print(token)
    vectors = vectorizer.fit_transform(tokens)
    print(vectors.shape)

    print('\n### テストクエリ')
    tokens2 = tokenizer.tokenize([query])
    print(tokens2[0])
    vectors2 = vectorizer.transform(tokens2)
    print(vectors2.shape)
    
    print('\n### 結果')
    similarities = cosine_similarity(vectors, vectors2)

    for result in zip(similarities.flatten(), texts):
        print(result)

[ INFO 140736254448448 2017/12/12 PM 04:09:03                     context: 41 -            get_factory] algorithm: Simmilarity Classification
[ INFO 140736254448448 2017/12/12 PM 04:09:03                     context: 74 -           get_feedback] feedback algorithm: None
[DEBUG 140736254448448 2017/12/12 PM 04:09:03  mecab_tokenizer_with_split: 10 -               __init__] dicdir: /usr/local/lib/mecab/dic/mecab-ipadic-neologd


In [3]:
## 本番データそのままで試してみる
test([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？')


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 53)

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目
(1, 53)

### 結果
(0.38366342336609421, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.30180921679474515, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.24260193325597201, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.20681822140017075, '海外の日当について')
(0.1690967991282975, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.19559474779209973, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.18555408637335813, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.13373561247190521, '交際費の損金算入とはどのような意味ですか？')
(0.24988186929722139, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.1501879846888049, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [4]:
from app.core.reducer.lsi import LSI

def test2(texts, query):
    tokenizer = factory.get_tokenizer()
    vectorizer = factory.get_vectorizer()
    reducer = LSI.new()

    print('\n### テストデータ')
    tokens = tokenizer.tokenize(texts)
    for token in tokens:
        print(token)
    vectors = vectorizer.fit_transform(tokens)
    vectors = reducer.fit_transform(vectors)
    print(vectors.shape)

    print('\n### テストクエリ')
    tokens2 = tokenizer.tokenize([query])
    print(tokens2[0])
    vectors2 = vectorizer.transform(tokens2)
    vectors2 = reducer.transform(vectors2)
    print(vectors2.shape)
    
    print('\n### 結果')
    similarities = cosine_similarity(vectors, vectors2)

    for result in zip(similarities.flatten(), texts):
        print(result)

In [5]:
## 本番データそのままで試してみる
test2([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？')

# result -> similarityは上がったが思ってたのと違うデータが際立って上がった


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目
(10, 9)

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目
(1, 9)

### 結果
(0.72322261855134951, '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？')
(0.56119415662231587, '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。')
(0.43901677685003826, '海外で申請した登記申請手数料の勘定科目は、なんですか？')
(0.40140207909128378, '海外の日当について')
(0.31238706153417595, '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？')
(0.38403951290066951, '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？')
(0.34570847154102369, '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか')
(0.23303840383235086, '交際費の損金算入とはどのような意味ですか？')
(0.64119962305364764, '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？')
(0.27363616070496227, '海外出張で、燃油サーチャージ料の勘定科目は？')


In [6]:
from gensim.models import KeyedVectors
from gensim.similarities import WmdSimilarity

model = KeyedVectors.load_word2vec_format('./dumps/fasttext_model.vec', binary=False)

In [14]:
def test3(texts, query):
    tokenizer = factory.get_tokenizer()

    print('\n### テストデータ')
    tokens = tokenizer.tokenize(texts)
    for token in tokens:
        print(token)

    print('\n### テストクエリ')
    tokens2 = tokenizer.tokenize([query])
    print(tokens2[0])
    
    wmd_similarities = WmdSimilarity(tokens, model, num_best=10)
    
    print('\n### 結果')
    similarities = wmd_similarities[tokens2[0]]
    
    for sim in similarities:
        print(sim, texts[sim[0]])
    

In [15]:
## 本番データそのままで試してみる
test3([
    '海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？',
    '海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。',
    '海外で申請した登記申請手数料の勘定科目は、なんですか？',
    '海外の日当について',
    '海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？',
    '海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？',
    '海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか',
    '交際費の損金算入とはどのような意味ですか？',
    '海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？',
    '海外出張で、燃油サーチャージ料の勘定科目は？',
], '海外で、駐在員が利用した交際費の勘定科目は？')


### テストデータ
海外 駐在 員 海外出張 旅費 豊田通商 ＴＴＣ 負担 する 処理 する 場合 ＳＡＰ 立替 金 精算 処理 出来る
海外出張 中 現地 発生 する 費用 現地 駐在 員 立替 場合 精算 方法 教える
海外 申請 する 登記 申請 手数料 勘定科目 なん
海外 日当
海外出張 精算 交際費 会議費 勘定科目 何 なる ５ ０００ 円 分ける
海外 展示会 飲食 代 お客様 分 立替 勘定科目
海外出張 精算 交際費 領収書 なくす 精算 する よい
交際費 損金 算入 意味
海外出張 する ない 現地 発生 する 交際費 豊田通商 負担 する ほしい 現地法人 依頼 処理
海外出張 燃油サーチャージ 料 勘定科目

### テストクエリ
海外 駐在 員 利用 する 交際費 勘定科目

### 結果
(2, 0.59079417337227569) 海外で申請した登記申請手数料の勘定科目は、なんですか？
(4, 0.5844120833902352) 海外出張精算で、交際費・会議費の勘定科目は何になりますか？5,000円で分けるのですか？
(9, 0.57325856325041336) 海外出張で、燃油サーチャージ料の勘定科目は？
(1, 0.5579724345132393) 海外出張中に現地で発生した費用を、現地駐在員が立替た場合の精算方法を教えてください。
(6, 0.55648171273029101) 海外出張精算で、交際費の領収書をなくしたが、どのように精算したらよいか
(5, 0.55364801663826502) 海外の展示会での飲食代で、お客様の分も立替た。勘定科目は？
(0, 0.54504201042540412) 海外駐在員の海外出張旅費を、豊田通商（TTC）で負担して処理をしたい場合、SAPの立替金精算で処理出来ますか？
(8, 0.53139849205429301) 海外出張はしていないが、現地で発生した交際費を豊田通商に負担にしてほしいと現地法人から依頼がありました。その処理は？
(7, 0.50093778156122104) 交際費の損金算入とはどのような意味ですか？
(3, 0.47455644155894072) 海外の日当について
