# 文章の類似度
Doc2Vecは、任意の長さの文書をベクトル化する技術です。  
この技術を使って、文書やテキストの分散表現を獲得し、類似度を計算します。

## データの読み込み
以前に作成したデータの読み込みを行います。

In [None]:
import pickle

with open('wagahai_words.pickle', mode='rb') as f:
    wagahai_words = pickle.load(f)

print(wagahai_words)

## doc2vecによる学習
doc2vecを使って学習を行い、モデルを作成します。

In [None]:
from gensim.models.doc2vec import Doc2Vec
from gensim.models.doc2vec import TaggedDocument

tagged_documents = []
for i, sentence in enumerate(wagahai_words):
    tagged_documents.append(TaggedDocument(sentence, [i]))  # TaggedDocument型のオブジェクトをリストに格納

# size：分散表現の次元数
# window：対象単語を中心とした前後の単語数
# min_count：学習に使う単語の最低出現回数
# epochs:epochs数
# dm：学習モデル=DBOW（デフォルトはdm=1で、学習モデルはDM）
model = Doc2Vec(documents=tagged_documents,
                vector_size=100,
                min_count=5,
                window=5,
                epochs=20,
                dm=0)

## 文章のベクトル
最初の文章（0番目）のベクトルを表示します。

In [None]:
print(wagahai_words[0])  # 最初の文章を表示
print(model.docvecs[0])  # 最初の文章のベクトル

リストの0番目の文 "吾輩は猫である” という文と他の100文との分散表現の値が，0.05046845, 0.011611, .., 0.07975786の100次元ベクトル(vector_size=100)になっていることが確認できますね。

## 文章の類似度
最初の文章（0番目）と最も類似度の高い文章のIDと類似度を表示します。

In [None]:
print(model.docvecs.most_similar(0))

(3782, 0.9988241195678711)　 は リストの3782番目の文章との類似度が0.9988241195678711という意味になります。 <br>
それでは、類似度が高かった文章を表示してみましょう。

In [None]:
for p in model.docvecs.most_similar(0):
    print(wagahai_words[p[0]])

類似度の高い文章が表示されました。  
"吾輩は猫である"と似ている文章が出力されていましたか？ <br>
文頭が"吾輩"で文末が"である"のような文章が多くみられますね。  
doc2vecにより、文書全体の類似度を計算することも可能です。各小説ごとの類似度を求められることになり，同じ作者の小説の類似度を求めてみるのも面白そうです。

### 課題4:
wagahai_wordsの中の適当な文章（リスト番号で指定）と、類似度の高い文章を表示してみましょう。　<br>
考察：出力された文章と似ている文章が出力されましたか？

### 課題5:

前週までに各自青空文庫からダウンロードし、前処理をしpickle化したpickleファイルを用いて、10番目の文章の文章とベクトル表現を示し、その文と最も類似度が高い文章の(ID,類似度)と、文章（リスト形式でよい）を表示してみましょう。<br>

考察：出力結果は10番目の文章と似ていましたか？