代表的な類似度
-------------
- ピアソンの相関係数(Pearson Product-moment Correlation Coefficient)
    - いわゆる相関係数とよばれるものはこのピアソンの相関係数を指すことがおおい
- コサイン類似度(Cosine Similarity)
- ジャッカード係数(Jaccard Index, Jaccard Simialarity Coeffiecient)

ピアソンの相関係数
----------------

In [18]:
import numpy as np
def pearson_coefficient(u, v):
    u_diff = u - np.mean(u)
    v_diff = v - np.mean(v)
    numerator = np.dot(u_diff, v_diff) # 分子
    denominator = np.sqrt(sum(u_diff **2)) * np.sqrt(sum(v_diff **2)) #分母
    return numerator / denominator
  
u = [1, 0 , 3, 5,  6]
v = [0, 0 , 2, 3,  2]
v2 = [0, 0 , 2, 0,  0]
pearson_coefficient(u, v) # uとvは似ているユーザーといえる

[-2. -3.  0.  2.  3.]


0.8770580193070292

In [6]:
# SciPyを使うと以下のように算出できる
from scipy.spatial.distance import correlation

1 - correlation(u, v)

0.8770580193070292

コサイン類似度
--------------------
- テキスト文章間の距離を算出するときによく利用する
- 0から1までの値を取る

In [26]:
import numpy as np

def cosine_similarity(u, v):
    return np.dot(u, v) / (np.sqrt(sum(u**2)) * np.sqrt(sum(v**2)))

u = [1, 0 , 3, 5,  6]
v = [0, 0 , 2, 3,  2]
v2 = [0, 0 , 2, 0,  0]
cosine_similarity(np.array(u), np.array(v2)) 

0.35603449745815596

In [13]:
# SciPyを使うと以下のように算出できる
from scipy.spatial.distance import cosine

1 - cosine(u, v)

0.9498615431306161

ジャッカード係数
---------------------
- 集合間の距離を計算することができる
- 0から1までの値をとる

In [30]:
import numpy as np

def jaccard_simialarity_coeffiecient(u, v):
    return np.dot(u, v) / (sum(np.absolute(u)) + sum(np.absolute(v)) - np.dot(u, v))

u = [1, 0 , 3, 5,  6]
v = [0, 0 , 2, 3,  2]
v2 = [0, 0 , 2, 0,  0]
jaccard_simialarity_coeffiecient(np.array(u), np.array(v)) 

-3.0

In [35]:
# SciPyを使うと以下のように算出できる
from scipy.spatial.distance import jaccard

1 - jaccard(u, v)

0.0