<a href="https://colab.research.google.com/github/snufkin92/colab_tutorial/blob/master/section_08/sentence_similarity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 文章の類似度
Doc2Vecは、任意の長さの文書をベクトル化する技術です。  
この技術を使って、文書やテキストの分散表現を獲得し、類似度を計算します。

## データの読み込み
以前に作成したデータの読み込みを行います。

In [None]:
import pickle

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words[:10])

[['吾輩', 'は', '猫', 'で', 'ある', '。'], ['名前', 'は', 'まだ', '無い', '。'], ['どこ', 'で', '生れ', 'た', 'か', 'とんと', '見当', 'が', 'つか', 'ぬ', '。'], ['何', 'でも', '薄暗い', 'じめじめ', 'し', 'た', '所', 'で', 'ニャーニャー', '泣い', 'て', 'いた事', 'だけ', 'は', '記憶', 'し', 'て', 'いる', '。'], ['吾輩', 'は', 'ここ', 'で', '始め', 'て', '人間', 'という', 'もの', 'を', '見', 'た', '。'], ['しかも', 'あと', 'で', '聞く', 'と', 'それ', 'は', '書生', 'という', '人間', '中', 'で', '一番', '獰悪', 'な', '種族', 'で', 'あっ', 'た', 'そう', 'だ', '。'], ['この', '書生', 'という', 'の', 'は', '時々', '我々', 'を', '捕え', 'て', '煮', 'て', '食う', 'という', '話', 'で', 'ある', '。'], ['しかし', 'その', '当時', 'は', '何', 'という', '考', 'も', 'なかっ', 'た', 'から', '別段', '恐し', 'いとも', '思わ', 'なかっ', 'た', '。'], ['ただ', '彼', 'の', '掌', 'に', '載せ', 'られ', 'て', 'スー', 'と', '持ち上げ', 'られ', 'た', '時', '何だか', 'フワフワ', 'し', 'た', '感じ', 'が', 'あっ', 'た', 'ばかり', 'で', 'ある', '。'], ['掌', 'の', '上', 'で', '少し', '落ちつい', 'て', '書生', 'の', '顔', 'を', '見', 'た', 'の', 'が', 'いわゆる', '人間', 'という', 'もの', 'の', '見', '始', 'で', 'あろ', 'う', '。']]


## doc2vecによる学習
doc2vecを使って学習を行い、モデルを作成します。

In [None]:
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

tagged_documents = []
for i, sentence in enumerate(wagahai_words):
    tagged_documents.append(TaggedDocument(sentence, [i]))  # TaggedDocument型のオブジェクトをリストに格納

# size：分散表現の次元数
# window：対象単語を中心とした前後の単語数
# min_count：学習に使う単語の最低出現回数
# epochs:epochs数
# dm：学習モデル=DBOW（デフォルトはdm=1で、学習モデルはDM）
model = Doc2Vec(documents=tagged_documents,
                vector_size=100,
                min_count=5,
                window=5,
                epochs=20,
                dm=0)

## 文章のベクトル
最初の文章のベクトルを表示します。

In [None]:
print(wagahai_words[0])  # 最初の文章を表示
print(model. dv[0])  # 最初の文章のベクトル

['吾輩', 'は', '猫', 'で', 'ある', '。']
[ 0.01591145 -0.09276076  0.04729504 -0.1029368   0.11731736 -0.07930503
 -0.03050404 -0.10962904 -0.1534295   0.00086729 -0.08969257  0.02001774
  0.0710015   0.07928143 -0.0505739   0.0231231   0.28379655 -0.01764685
 -0.07845974 -0.06103034  0.05372867  0.01009998  0.05424751 -0.01759014
  0.06077154 -0.03155481 -0.00147066 -0.10408929 -0.05093881 -0.16198534
  0.03221946  0.09218173 -0.11185589  0.03724913  0.1460833   0.0070927
  0.03465059  0.10765261 -0.01388007 -0.02107239 -0.07071402 -0.04282792
  0.08335476  0.02314865 -0.14733052 -0.00214896 -0.05932996 -0.12761115
 -0.12952115  0.07537325 -0.02302604 -0.00286899  0.12953989 -0.07123743
 -0.07136089 -0.04602768 -0.11514608 -0.00748456 -0.01513323 -0.02587865
  0.05507658 -0.00728142 -0.0979846  -0.04014932  0.10609242 -0.05147018
  0.15037751 -0.16581574  0.05155466  0.00668043  0.01933922  0.09430286
 -0.06212759  0.04194604 -0.04066454  0.03297735 -0.08218165 -0.03259201
  0.01021406  0.011

## 文章の類似度
最も類似度の高い文章のIDと類似度を表示します。

In [None]:
print(model.dv.most_similar(0))

[(5605, 0.9949854612350464), (1953, 0.9940946102142334), (2818, 0.9940436482429504), (3695, 0.993965744972229), (425, 0.9937012195587158), (3782, 0.9933462142944336), (530, 0.9932243824005127), (191, 0.9929155707359314), (1976, 0.9925879240036011), (4870, 0.9925766587257385)]


In [None]:
for p in model.dv.most_similar(0):
    print(wagahai_words[p[0]])

['吾輩', 'は', '猫', 'で', 'ある', '。']
['金田', '邸', 'は', '吾輩', 'の', '煙草', 'で', 'ある', '。']
['吾輩', 'は', '日本', 'の', '猫', 'だ', 'から', '無論', '日本', '贔負', 'で', 'ある', '。']
['猫', 'の', 'うち', 'で', 'この', '芸', 'が', '出来る', '者', 'は', '恐らく', '吾輩', 'のみ', 'で', 'あろ', 'う', '。']
['吾輩', 'も', 'この', '頃', 'で', 'は', '普通', '一般', 'の', '猫', 'で', 'は', 'ない', '。']
['吾輩', 'は', '淡泊', 'を', '愛する', '茶人', '的', '猫', 'で', 'ある', '。']
['吾輩', 'は', '猫', 'で', 'は', 'ある', 'が', '大抵', 'の', 'もの', 'は', '食う', '。']
['吾輩', 'の', '倍', 'は', 'たしかに', 'ある', '。']
['この', '故に', '吾輩', 'は', '金田', '邸', 'へ', '忍び込む', 'の', 'で', 'ある', '。']
['迷亭', 'の', '美学', '者', 'たる', 'に対して', '、', '吾輩', 'は', 'この', '男', 'を', '哲学', '者', 'と', '呼ぶ', 'つもり', 'で', 'ある', '。']


類似度の高い文章が表示されました。  
doc2vecにより、文書全体の類似度を計算することも可能です。

## 課題:
wagahai_wordsの中の適当な文章と、類似度の高い文章を表示してみましょう。