# 文章の類似度
Doc2Vecは、任意の長さの文書をベクトル化する技術です。  
この技術を使って、文書やテキストの分散表現を獲得し、類似度を計算します。

## データの読み込み
以前に作成したデータの読み込みを行います。

In [1]:
import pickle

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

# print(wagahai_words)

## doc2vecによる学習
doc2vecを使って学習を行い、モデルを作成します。

In [2]:
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

tagged_documents = []
for i, sentence in enumerate(wagahai_words):
    tagged_documents.append(TaggedDocument(sentence, [i]))  # TaggedDocument型のオブジェクトをリストに格納

# size：分散表現の次元数
# window：対象単語を中心とした前後の単語数
# min_count：学習に使う単語の最低出現回数
# epochs:epochs数
# dm：学習モデル=DBOW（デフォルトはdm=1で、学習モデルはDM）
model = Doc2Vec(documents=tagged_documents,
                vector_size=100,
                min_count=5,
                window=5,
                epochs=20,
                dm=0)



## 文章のベクトル
最初の文章のベクトルを表示します。

In [3]:
print(wagahai_words[0])  # 最初の文章を表示
print(model.docvecs[0])  # 最初の文章のベクトル

吾輩
[-0.12652503 -0.00385549 -0.07523972  0.1176073   0.05138084 -0.09120586
  0.00547254  0.053505   -0.04280002  0.05100885  0.06203451 -0.00295064
  0.0200424   0.00271868  0.02120576  0.02318654 -0.00442394 -0.00566555
  0.03426312  0.02427356  0.06883296  0.07871117  0.00656776 -0.01189969
  0.01036742 -0.05394462  0.01754485 -0.06838298  0.05042084 -0.03025869
  0.04341919  0.06499478 -0.04808944  0.05710523 -0.08976676 -0.08546921
 -0.10231611 -0.04242787 -0.0239957  -0.03211273 -0.03885414 -0.06008976
  0.01510375  0.01653096 -0.0264694  -0.00600664  0.01648737  0.06666256
  0.01595819 -0.07497119 -0.00448522  0.08330217  0.01056159 -0.04591826
 -0.08747066 -0.09103087 -0.0363709   0.03018243 -0.05401651 -0.05355328
 -0.00792292  0.00905739  0.02903889 -0.05320918 -0.03124553  0.04319333
  0.0246358   0.00775015 -0.01272339 -0.03792953 -0.0129639  -0.00941707
 -0.0104739  -0.06548921  0.0565795   0.07195204  0.06506717 -0.0093583
  0.02156564  0.00853927  0.01583141 -0.05252754 

  print(model.docvecs[0])  # 最初の文章のベクトル


## 文章の類似度
最も類似度の高い文章のIDと類似度を表示します。

In [4]:
print(model.docvecs.most_similar(0))

[(53068, 0.9899663925170898), (48546, 0.9896218180656433), (171904, 0.9894869923591614), (5277, 0.9894448518753052), (34469, 0.9893892407417297), (3059, 0.9893085956573486), (15355, 0.9892138242721558), (24856, 0.9891346096992493), (110385, 0.9890791773796082), (102643, 0.9887331128120422)]


  print(model.docvecs.most_similar(0))


In [5]:
for p in model.docvecs.most_similar(0):
    print(wagahai_words[p[0]])

吾輩
吾輩
吾輩
吾輩
吾輩
吾輩
吾輩
吾輩
吾輩
吾輩


  for p in model.docvecs.most_similar(0):


類似度の高い文章が表示されました。  
doc2vecにより、文書全体の類似度を計算することも可能です。

## 課題:
wagahai_wordsの中の適当な文章と、類似度の高い文章を表示してみましょう。