# 文章の類似度
Doc2Vecは、任意の長さの文書をベクトル化する技術です。  
この技術を使って、文書やテキストの分散表現を獲得し、類似度を計算します。

## データの読み込み
以前に作成したデータの読み込みを行います。

In [None]:
import pickle

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words)

## doc2vecによる学習
doc2vecを使って学習を行い、モデルを作成します。

In [None]:
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

tagged_documents = []
for i, sentence in enumerate(wagahai_words):
    tagged_documents.append(TaggedDocument(sentence, [i]))  # TaggedDocument型のオブジェクトをリストに格納

# size：分散表現の次元数
# window：対象単語を中心とした前後の単語数
# min_count：学習に使う単語の最低出現回数
# epochs:epochs数
# dm：学習モデル=DBOW（デフォルトはdm=1で、学習モデルはDM）
model = Doc2Vec(documents=tagged_documents,
                vector_size=100,
                min_count=5,
                window=5,
                epochs=20,
                dm=0)

## 文章のベクトル
最初の文章のベクトルを表示します。

In [None]:
print(wagahai_words[0])  # 最初の文章を表示
print(model.docvecs[0])  # 最初の文章のベクトル

## 文章の類似度
最も類似度の高い文章のIDと類似度を表示します。

In [None]:
print(model.docvecs.most_similar(0))

In [None]:
for p in model.docvecs.most_similar(0):
    print(wagahai_words[p[0]])

類似度の高い文章が表示されました。  
doc2vecにより、文書全体の類似度を計算することも可能です。

## 課題:
wagahai_wordsの中の適当な文章と、類似度の高い文章を表示してみましょう。