# 文書ベクトル

Doc2vecでは、任意の長さのテキスト（フレーズ、文、パラグラフ、文書）に対する表現を直接学習できます。その際、テキスト中の単語の文脈を考慮します。

このノートブックでは、spaCyを使って、単語ベクトルの平均を取ることで文書ベクトルを作成する方法を紹介します。[spaCy](https://spacy.io/)は、自然言語処理用のPythonライブラリで、多くの機能を備えています。spaCyには様々な言語のモデルが用意されており、ダウンロードして使うことができます。


## spaCyのインストール

spaCyのインストールを終えたら、ランタイムを再起動しましょう。

In [4]:
!pip install -U spacy spacy[ja]

Collecting spacy
  Downloading spacy-3.1.2-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (5.8 MB)
[K     |████████████████████████████████| 5.8 MB 25.3 MB/s 
Collecting pathy>=0.3.5
  Downloading pathy-0.6.0-py3-none-any.whl (42 kB)
[K     |████████████████████████████████| 42 kB 1.6 MB/s 
Collecting typer<0.4.0,>=0.3.0
  Downloading typer-0.3.2-py3-none-any.whl (21 kB)
Collecting pydantic!=1.8,!=1.8.1,<1.9.0,>=1.7.4
  Downloading pydantic-1.8.2-cp37-cp37m-manylinux2014_x86_64.whl (10.1 MB)
[K     |████████████████████████████████| 10.1 MB 26.5 MB/s 
[?25hCollecting thinc<8.1.0,>=8.0.8
  Downloading thinc-8.0.8-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (621 kB)
[K     |████████████████████████████████| 621 kB 35.4 MB/s 
Collecting spacy-legacy<3.1.0,>=3.0.7
  Downloading spacy_legacy-3.0.8-py2.py3-none-any.whl (14 kB)
Collecting srsly<3.0.0,>=2.4.1
  Downloading srsly-2.4.1-cp37-cp37m-manylinux2014_x86_64.whl (456 kB)
[K     |██████████████████████████

## モデルのダウンロード

In [5]:
!python -m spacy download ja_core_news_md

Collecting ja-core-news-md==3.1.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ja_core_news_md-3.1.0/ja_core_news_md-3.1.0-py3-none-any.whl (42.8 MB)
[K     |████████████████████████████████| 42.8 MB 77 kB/s 
Installing collected packages: ja-core-news-md
Successfully installed ja-core-news-md-3.1.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ja_core_news_md')


## モデルの読み込み

In [1]:
import spacy
nlp = spacy.load("ja_core_news_md")

## 文書ベクトルの作成

モデルを読み込み終えたら、文書ベクトルを作成しましょう。
読み込んだモデルに文書を渡すと、spaCyの[Doc](https://spacy.io/api/doc)オブジェクトを作成してくれます。
このDocオブジェクトは、トークンを表すTokenオブジェクトの系列です。Docオブジェクトの`vector`プロパティへアクセスすることで、各Tokenオブジェクトの持つベクトルを平均した文書ベクトルを得られます。

In [7]:
documents = [
    '猫は可愛い',
    'りんごが好き',
    'みかんが好き'
]

# spaCyのDocオブジェクトを作成
doc = nlp(documents[0])

# 各トークンの表示
for token in doc:
  print(token, token.vector[:5])

# 平均ベクトルを取得
print(doc.vector)

猫 [ 0.15373811 -0.1564905   0.16179664 -0.28655747  0.0342402 ]
は [-0.05035316 -0.15731327 -0.08336552 -0.15989235 -0.12370043]
可愛い [ 0.12928508  0.07598259  0.0954372  -0.01305387  0.17068844]
[ 0.07755668 -0.07927374  0.05795611 -0.15316789  0.02707607 -0.03550185
 -0.23161416 -0.18687034 -0.10469284 -0.0547585   0.03532061 -0.21707535
  0.09295091  0.19374524  0.01164827 -0.26621327 -0.07038879 -0.1116474
 -0.21574079  0.07504889 -0.2936578   0.07074806 -0.08422249  0.12428612
 -0.10739413 -0.01528161 -0.20476162  0.22658513  0.17365307  0.0942969
  0.10059032  0.03179478  0.05282551  0.15279552  0.04274288  0.16492642
 -0.04502092  0.12238503 -0.08911269 -0.04925058  0.06517535  0.27023697
  0.06821477  0.01712265 -0.16434152 -0.17404014 -0.01288699 -0.0643749
  0.05278266 -0.04197481  0.02881307 -0.05066462 -0.03055322  0.08792243
 -0.01550499  0.11798475 -0.05484968 -0.00574829 -0.07100813  0.20918112
  0.09645573  0.05226985  0.04954366 -0.07742713 -0.16009885 -0.05242826
  0.07

文書ベクトルの取得方法はわかったので、類似度を計算してみましょう。
Docオブジェクトは[similarity](https://spacy.io/api/doc#similarity)メソッドを持っており、Docオブジェクトを渡して呼び出すことで、文書同士のコサイン類似度を計算できます。

In [8]:
apple = nlp(documents[1])
orange = nlp(documents[2])

print(doc.similarity(apple))
print(doc.similarity(orange))
print(apple.similarity(orange))

0.6628968617209818
0.6305005832823635
0.8444694979470903
