# ベクトル間の類似度

共起行列によって単語をベクトルで表した。

ベクトル間の類似度を計算する方法としてコサイン類似度がある。
これは単語のベクトル表現の類似度でよく用いられる。

$$similarity(x,y)=\frac{x・y}{\|x\| \|y\|}=\frac{x_{1}y_{1}+･･･+x_{n}y_{n}}{\sqrt{x_1^2+･･･x_{n}^2}\sqrt{y_1^2+･･･y_{n}^2}}$$

分子にベクトルの内積、分母に各ベクトルの「ノルム」がある。

ノルムはベクトルの大きさを表したもので、ここでは「L2ノルム」を計算する。

コサイン類似度は直感的には「２つのベクトルがどれだけ同じ方向を向いているか」を表す。

２つのベクトルが完全に同じ方向を向いている時コサイン類似度は１となり、完全に逆向きだと−1となる。

In [1]:
import numpy as np
def cos_similarity(x, y):
    nx = x / np.sqrt(np.sum(x**2))
    ny = y / np.sqrt(np.sum(y**2))
    return np.dot(nx,ny)

ゼロベクトル（要素が全て０のベクトル）が引数に入ると、**0徐算**が発生してしまう。

それを対処するには徐算を行う際に小さな値を加算することで対処する。

In [2]:
def cos_similarity(x, y, eps=1e-8):
    nx = x / np.sqrt(np.sum(x**2) + eps)
    ny = y / np.sqrt(np.sum(y**2) + eps)
    return np.dot(nx,ny)

### 一連の流れをとして確認してみる

In [5]:
import sys
sys.path.append('..')
from common.util import preprocess, create_co_matrix

In [7]:
text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)

c0 = C[word_to_id["you"]]
c1 = C[word_to_id["i"]]
print(cos_similarity(c0, c1))

0.7071067758832467


この出力結果の解釈の仕方としては

「you」と「i」のコサイン類似度は0.70という結果であり、
コサイン類似度は-1~1までを取るので、この値は比較的高い類似性があることが言える

と解釈することができる。