## 「ID:0」など、もとの文章に影響を及ぼさない形でIDを付与する方法を検証する
結論: 形態素解析後にIDを連結することで、接頭詞と数値を分解させないでベクトル化することが出来る

In [2]:
'''
    プロトタイピング用のパスと、Botライブラリーパスを取得／設定します
'''
import sys
import os

prototype_dir = os.path.join(os.getcwd(), '..')
prototype_dir = os.path.abspath(prototype_dir)

learning_dir = os.path.join(prototype_dir, '..')
learning_dir = os.path.abspath(learning_dir)
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

print('prototype_dir=%s\nlearning_dir=%s' % (prototype_dir, learning_dir))

prototype_dir=/Users/harada/source_code/donusagi-bot/learning/prototype
learning_dir=/Users/harada/source_code/donusagi-bot/learning


In [16]:
'''
question_answersを想定したサンプルデータを生成する
'''
import pandas as pd
from IPython.display import display, HTML

question_answers =  pd.DataFrame({
    'id': [11,12,13,14,15,16],
    'question': [
        'ピアノ持ってない',
        'うちの子供は2歳です。ピアノを始めるにはまだ早いでしょうか？ ',
        '国立音大の先生を探しているのですが。',
        '女性の先生はいますか？ ID:1',
        '女性の先生はいますか？ ID1',
        '女性の先生はいますか？ MYOPE_QAID:1',
    ],
    'answer': [
        'お申込時点でピアノをご家庭にお持ちでなくても、基本は問題ありません。',
        '一般に、ピアノを習うのは早ければ早いほどいい、と言われます。',
        '音大勤務の指定については、お申込時にご要望欄へ記入ください。個別にご相談に応じます。',
        '女性の先生は多数在籍しております',
        '女性の先生は多数在籍しております',
        '女性の先生は多数在籍しております',
    ]
})
display(question_answers)

Unnamed: 0,answer,id,question
0,お申込時点でピアノをご家庭にお持ちでなくても、基本は問題ありません。,11,ピアノ持ってない
1,一般に、ピアノを習うのは早ければ早いほどいい、と言われます。,12,うちの子供は2歳です。ピアノを始めるにはまだ早いでしょうか？
2,音大勤務の指定については、お申込時にご要望欄へ記入ください。個別にご相談に応じます。,13,国立音大の先生を探しているのですが。
3,女性の先生は多数在籍しております,14,女性の先生はいますか？ ID:1
4,女性の先生は多数在籍しております,15,女性の先生はいますか？ ID1
5,女性の先生は多数在籍しております,16,女性の先生はいますか？ MYOPE_QAID=1


In [19]:
'''
形態素解析してみる
'''
from app.core.tokenizer.mecab_tokenizer import MecabTokenizer
from sklearn.feature_extraction.text import TfidfVectorizer as SkTfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

tokenized_sentences = MecabTokenizer().tokenize(question_answers['question'])
vectorizer = SkTfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
vectorized_features = vectorizer.fit_transform(tokenized_sentences)

# 接頭詞とIDが分離されてしまうため、この状態では利用できない
display(tokenized_sentences)

['ピアノ 持つ ない',
 'うち 子供 ２ 歳 ピアノ 始める まだ 早い',
 '国立音大 先生 探す',
 '女性 先生 いる ＩＤ ： １',
 '女性 先生 いる ＩＤ １',
 '女性 先生 いる ＭＹＯＰＥ ＿ ＱＡＩＤ ＝ １']

In [30]:
'''
形態素解析後にIDを連結させてベクトルを生成する
'''
question_answers =  pd.DataFrame({
    'id': [11,12,13],
    'question': [
        'ピアノ持ってない',
        'うちの子供は2歳です。ピアノを始めるにはまだ早いでしょうか？ ',
        '国立音大の先生を探しているのですが。',
    ],
    'answer': [
        'お申込時点でピアノをご家庭にお持ちでなくても、基本は問題ありません。',
        '一般に、ピアノを習うのは早ければ早いほどいい、と言われます。',
        '音大勤務の指定については、お申込時にご要望欄へ記入ください。個別にご相談に応じます。',
    ]
})

from app.core.tokenizer.mecab_tokenizer import MecabTokenizer
from sklearn.feature_extraction.text import TfidfVectorizer as SkTfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

tokenized_sentences = MecabTokenizer().tokenize(question_answers['question'])
question_answers['tokenized_sentences'] = tokenized_sentences
sentences = question_answers[['tokenized_sentences', 'id']].apply(lambda x: '{} MYOPEQAID:{}'.format(x[0], x[1]), axis=1)
# 文字列として分解されないため問題なく使用できそう
display(sentences)

vectorizer = SkTfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\b\\w+\\b')
vectorized_features = vectorizer.fit_transform(sentences)
# ベクトル化は正常に実行できた
print(vectorized_features)

0                  ピアノ 持つ ない MYOPEQAID:11
1    うち 子供 ２ 歳 ピアノ 始める まだ 早い MYOPEQAID:12
2                 国立音大 先生 探す MYOPEQAID:13
dtype: object

  (0, 7)	0.38376993076
  (0, 12)	0.504611340137
  (0, 5)	0.504611340137
  (0, 3)	0.298031586345
  (0, 0)	0.504611340137
  (1, 7)	0.254539772931
  (1, 3)	0.197672840506
  (1, 4)	0.334689212577
  (1, 11)	0.334689212577
  (1, 16)	0.334689212577
  (1, 15)	0.334689212577
  (1, 10)	0.334689212577
  (1, 6)	0.334689212577
  (1, 14)	0.334689212577
  (1, 1)	0.334689212577
  (2, 3)	0.283216924987
  (2, 9)	0.479527938029
  (2, 8)	0.479527938029
  (2, 13)	0.479527938029
  (2, 2)	0.479527938029
