## word2vecのモデルにvocabを追加することの効果を調べる(スペース区切り)

In [1]:
from gensim.models.word2vec import Word2Vec

tokens = ['らく賃 担当者 誰', 'NHK 担当者 誰', 'パソコン 担当者 誰', '営業 担当者 誰', '今日 天気 晴れ', 'あなた パソコン 壊す した']
add_tokens = ['ハウスコム 担当 誰', '雨 降る 都市', 'シータ 担当 誰']
model = Word2Vec(tokens, min_count=1)
# vocabに登録されない単語をあとで追加する
tokens = tokens + add_tokens
model.wv.vocab

{' ': <gensim.models.keyedvectors.Vocab at 0x109280780>,
 'H': <gensim.models.keyedvectors.Vocab at 0x10b54ab70>,
 'K': <gensim.models.keyedvectors.Vocab at 0x10b54acf8>,
 'N': <gensim.models.keyedvectors.Vocab at 0x109280400>,
 'あ': <gensim.models.keyedvectors.Vocab at 0x10b54abe0>,
 'く': <gensim.models.keyedvectors.Vocab at 0x10b54add8>,
 'し': <gensim.models.keyedvectors.Vocab at 0x10b4cd630>,
 'す': <gensim.models.keyedvectors.Vocab at 0x10b54acc0>,
 'た': <gensim.models.keyedvectors.Vocab at 0x10b5370f0>,
 'な': <gensim.models.keyedvectors.Vocab at 0x1092807b8>,
 'ら': <gensim.models.keyedvectors.Vocab at 0x10b54ac18>,
 'れ': <gensim.models.keyedvectors.Vocab at 0x10b54ab38>,
 'コ': <gensim.models.keyedvectors.Vocab at 0x10b54aa20>,
 'ソ': <gensim.models.keyedvectors.Vocab at 0x10b54aa58>,
 'パ': <gensim.models.keyedvectors.Vocab at 0x10b54aa90>,
 'ン': <gensim.models.keyedvectors.Vocab at 0x10b54ac50>,
 '今': <gensim.models.keyedvectors.Vocab at 0x10b54ad30>,
 '営': <gensim.models.keyedvecto

### vocabがなんかおかしい、modelはarrayで組むべきな気がするが、上記をarrayに変えるとやはりうまく予測できなかった

データの件数やパラメータも関係してそうだが、小規模ならスペース区切りの方がいい?

In [2]:
for i, v in enumerate(tokens):
    print(i, v)

0 らく賃 担当者 誰
1 NHK 担当者 誰
2 パソコン 担当者 誰
3 営業 担当者 誰
4 今日 天気 晴れ
5 あなた パソコン 壊す した
6 ハウスコム 担当 誰
7 雨 降る 都市
8 シータ 担当 誰


In [3]:
from gensim.similarities import WmdSimilarity

wmd = WmdSimilarity(tokens, model.wv, num_best=10)

In [4]:
wmd['今日 天気 雨']

[(4, 0.74217426528563379),
 (6, 0.5296157920439617),
 (8, 0.52887492033663241),
 (7, 0.50630327928627306),
 (3, 0.49925018438969537),
 (0, 0.49465406177945487),
 (1, 0.49090677681464701),
 (5, 0.48683041262767074),
 (2, 0.48365009201378262)]

In [5]:
wmd['営業 担当者 誰']

[(3, 1.0),
 (0, 0.69375513803132693),
 (1, 0.68791944671845628),
 (8, 0.65943126203143532),
 (6, 0.65895009836121377),
 (2, 0.65064876837070051),
 (4, 0.5015183141349745),
 (5, 0.49091563109671937),
 (7, 0.48975277573583681)]

In [6]:
sim1 = wmd['ハウスコム 担当者 誰']
sim1

[(6, 0.83448885005424145),
 (3, 0.74148124125515602),
 (8, 0.71731556437845523),
 (2, 0.71383427777344344),
 (1, 0.68443494824936446),
 (0, 0.68118539649341914),
 (5, 0.51361856177805676),
 (7, 0.50852363149467483),
 (4, 0.50118003649840148)]

In [7]:
model.build_vocab(add_tokens, update=True)
model.wv.vocab

{' ': <gensim.models.keyedvectors.Vocab at 0x109280780>,
 'H': <gensim.models.keyedvectors.Vocab at 0x10b54ab70>,
 'K': <gensim.models.keyedvectors.Vocab at 0x10b54acf8>,
 'N': <gensim.models.keyedvectors.Vocab at 0x109280400>,
 'あ': <gensim.models.keyedvectors.Vocab at 0x10b54abe0>,
 'く': <gensim.models.keyedvectors.Vocab at 0x10b54add8>,
 'し': <gensim.models.keyedvectors.Vocab at 0x10b4cd630>,
 'す': <gensim.models.keyedvectors.Vocab at 0x10b54acc0>,
 'た': <gensim.models.keyedvectors.Vocab at 0x10b5370f0>,
 'な': <gensim.models.keyedvectors.Vocab at 0x1092807b8>,
 'ら': <gensim.models.keyedvectors.Vocab at 0x10b54ac18>,
 'る': <gensim.models.keyedvectors.Vocab at 0x10b56c668>,
 'れ': <gensim.models.keyedvectors.Vocab at 0x10b54ab38>,
 'ウ': <gensim.models.keyedvectors.Vocab at 0x10b56c278>,
 'コ': <gensim.models.keyedvectors.Vocab at 0x10b54aa20>,
 'シ': <gensim.models.keyedvectors.Vocab at 0x10b56c0b8>,
 'ス': <gensim.models.keyedvectors.Vocab at 0x10b56c4a8>,
 'ソ': <gensim.models.keyedvecto

In [8]:
wmd2 = WmdSimilarity(tokens, model.wv, num_best=10)
sim2 = wmd2['ハウスコム 担当者 誰']
sim2

[(6, 0.88568222010877495),
 (2, 0.66899029451711056),
 (1, 0.6186269600330192),
 (3, 0.61678397268196028),
 (0, 0.61381179744152536),
 (8, 0.57655953804332283),
 (5, 0.50922448588037172),
 (7, 0.48299572310814953),
 (4, 0.48238396721328075)]

改善された

## fastTextでも試してみる

In [9]:
from gensim.models.fasttext import FastText

ft = FastText(tokens, min_count=1)
ft.wv.vocab

{' ': <gensim.models.keyedvectors.Vocab at 0x10b56cf28>,
 'H': <gensim.models.keyedvectors.Vocab at 0x10b56f240>,
 'K': <gensim.models.keyedvectors.Vocab at 0x10b56f4e0>,
 'N': <gensim.models.keyedvectors.Vocab at 0x10b56c978>,
 'あ': <gensim.models.keyedvectors.Vocab at 0x10b56f2e8>,
 'く': <gensim.models.keyedvectors.Vocab at 0x10b56f630>,
 'し': <gensim.models.keyedvectors.Vocab at 0x10b56f048>,
 'す': <gensim.models.keyedvectors.Vocab at 0x10b56f4a8>,
 'た': <gensim.models.keyedvectors.Vocab at 0x10b56f0f0>,
 'な': <gensim.models.keyedvectors.Vocab at 0x10b56cf60>,
 'ら': <gensim.models.keyedvectors.Vocab at 0x10b56f320>,
 'る': <gensim.models.keyedvectors.Vocab at 0x10b56f3c8>,
 'れ': <gensim.models.keyedvectors.Vocab at 0x10b56f198>,
 'ウ': <gensim.models.keyedvectors.Vocab at 0x10b56cd68>,
 'コ': <gensim.models.keyedvectors.Vocab at 0x10b56f160>,
 'シ': <gensim.models.keyedvectors.Vocab at 0x10b56cb00>,
 'ス': <gensim.models.keyedvectors.Vocab at 0x10b56ce80>,
 'ソ': <gensim.models.keyedvecto

In [10]:
ft_wmd = WmdSimilarity(tokens, ft.wv, num_best=10)

In [11]:
ft_wmd['今日 天気 雨']

[(4, 0.73904808549387024),
 (7, 0.5630573486367183),
 (8, 0.50034546284582504),
 (3, 0.49974258703890506),
 (1, 0.4918941399731192),
 (0, 0.49172056172568618),
 (5, 0.49164338897615995),
 (2, 0.48893466963875493),
 (6, 0.48664275261320739)]

In [12]:
ft_wmd['営業 担当者 誰']

[(3, 1.0),
 (0, 0.693525471719591),
 (1, 0.68389816491234456),
 (8, 0.66204953056534832),
 (2, 0.64809082747593383),
 (6, 0.60064224929014853),
 (7, 0.49815225060677071),
 (4, 0.49770057961692266),
 (5, 0.48638080882050166)]

In [13]:
ft_sim1 = ft_wmd['ハウスコム 担当者 誰']
ft_sim1

[(6, 0.88493623182349812),
 (2, 0.66853892244951185),
 (3, 0.62236800410955739),
 (1, 0.61962658171328266),
 (0, 0.61783472557901353),
 (8, 0.5815337416559504),
 (5, 0.49871453514636149),
 (7, 0.48560783008068192),
 (4, 0.48045071620095497)]

ちゃんと予測できている

In [14]:
ft.build_vocab(add_tokens, update=True)
ft.wv.vocab

{' ': <gensim.models.keyedvectors.Vocab at 0x10b56cf28>,
 'H': <gensim.models.keyedvectors.Vocab at 0x10b56f240>,
 'K': <gensim.models.keyedvectors.Vocab at 0x10b56f4e0>,
 'N': <gensim.models.keyedvectors.Vocab at 0x10b56c978>,
 'あ': <gensim.models.keyedvectors.Vocab at 0x10b56f2e8>,
 'く': <gensim.models.keyedvectors.Vocab at 0x10b56f630>,
 'し': <gensim.models.keyedvectors.Vocab at 0x10b56f048>,
 'す': <gensim.models.keyedvectors.Vocab at 0x10b56f4a8>,
 'た': <gensim.models.keyedvectors.Vocab at 0x10b56f0f0>,
 'な': <gensim.models.keyedvectors.Vocab at 0x10b56cf60>,
 'ら': <gensim.models.keyedvectors.Vocab at 0x10b56f320>,
 'る': <gensim.models.keyedvectors.Vocab at 0x10b56f3c8>,
 'れ': <gensim.models.keyedvectors.Vocab at 0x10b56f198>,
 'ウ': <gensim.models.keyedvectors.Vocab at 0x10b56cd68>,
 'コ': <gensim.models.keyedvectors.Vocab at 0x10b56f160>,
 'シ': <gensim.models.keyedvectors.Vocab at 0x10b56cb00>,
 'ス': <gensim.models.keyedvectors.Vocab at 0x10b56ce80>,
 'ソ': <gensim.models.keyedvecto

In [15]:
ft_wmd2 = WmdSimilarity(tokens, ft.wv, num_best=10)
ft_sim2 = wmd2['ハウスコム 担当者 誰']
ft_sim2

[(6, 0.88568222010877495),
 (2, 0.66899029451711056),
 (1, 0.6186269600330192),
 (3, 0.61678397268196028),
 (0, 0.61381179744152536),
 (8, 0.57655953804332283),
 (5, 0.50922448588037172),
 (7, 0.48299572310814953),
 (4, 0.48238396721328075)]

ボキャブラリを入れることでfastTextも変化したが、結果はあまり変わらないようだ

## 調査結果

上記調査のような場合においては、fastTextの場合、ボキャブラリを入れなくてもsimilarityはあまり変わらなかった。

オンライン学習を行ってもそこまでの結果を期待できないかもしれない