### 코사인 유사도(Cosine Similarity)
- 문장의 유사도를 측정할 때 사용

In [1]:
import numpy as np 

In [2]:
v1, v2 , v3 = np.array([1,1,0]), np.array([2,1,0]), np.array([0,0,1])
# [1,1,2] x,y,z 
v1_norm = np.sqrt(np.sum(np.square(v1)))
v2_norm = np.sqrt(np.sum(np.square(v2)))
v3_norm = np.sqrt(np.sum(np.square(v3)))
v1_norm, v2_norm, v3_norm

(1.4142135623730951, 2.23606797749979, 1.0)

In [3]:
# v1과 v2의 유사도, v1과 v3의 유사도
cos12 = np.dot(v1, v2) / (v1_norm * v2_norm)
cos13 = np.dot(v1, v3) / (v1_norm * v3_norm)
cos12, cos13

(0.9486832980505138, 0.0)

In [4]:
def cos_similarity(v1, v2):
    v1_norm = np.sqrt(np.sum(np.square(v1)))
    v2_norm = np.sqrt(np.sum(np.square(v2)))
    return np.dot(v1, v2) / (v1_norm * v2_norm)


- 문장의 코사인 유사도

In [5]:
doc_list = [
    'If you take the blue pill, the story ends',
    'If you take the red pill, you stay in wonderland',
    'If you take the red pill, I show you how deep the rabbit hole goes'
]

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
cvect = CountVectorizer()
doc_cv = cvect.fit_transform(doc_list)
doc_cv.toarray()

array([[1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 2, 0, 1],
       [0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 2],
       [0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 2, 0, 2]],
      dtype=int64)

In [7]:
# 결과로 얻어진 배열은 주어진 문장에서 각 단어의 빈도를 나타냅니다. 
# 각 행은 문장을 나타내고 각 열은 단어 사전의 특정 단어를 나타냅니다.

In [8]:
print(f'문장1 vs 문장2: {cos_similarity(doc_cv.toarray()[0], doc_cv.toarray()[1]):.4f}')
print(f'문장1 vs 문장3: {cos_similarity(doc_cv.toarray()[0], doc_cv.toarray()[2]):.4f}')
print(f'문장2 vs 문장3: {cos_similarity(doc_cv.toarray()[1], doc_cv.toarray()[2]):.4f}')
print(f'문장1 vs 문장1: {cos_similarity(doc_cv.toarray()[0], doc_cv.toarray()[0]):.4f}')# 같은문장

문장1 vs 문장2: 0.6093
문장1 vs 문장3: 0.6396
문장2 vs 문장3: 0.6804
문장1 vs 문장1: 1.0000


In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
tvect = TfidfVectorizer()
doc_tv = tvect.fit_transform(doc_list)

In [10]:
print(f'문장1 vs 문장2: {cos_similarity(doc_tv.toarray()[0], doc_tv.toarray()[1]):.4f}')
print(f'문장1 vs 문장3: {cos_similarity(doc_tv.toarray()[0], doc_tv.toarray()[2]):.4f}')
print(f'문장2 vs 문장3: {cos_similarity(doc_tv.toarray()[1], doc_tv.toarray()[2]):.4f}')
print(f'문장1 vs 문장1: {cos_similarity(doc_tv.toarray()[0], doc_tv.toarray()[0]):.4f}')# 같은문장

문장1 vs 문장2: 0.4021
문장1 vs 문장3: 0.4043
문장2 vs 문장3: 0.4565
문장1 vs 문장1: 1.0000


- Scikit-Learn 코사인 유사도

In [11]:
from sklearn.metrics.pairwise import cosine_similarity

In [15]:
cosine_similarity([doc_cv.toarray()[0]], [doc_cv.toarray()[1]]) # 2차원으로

array([[0.6092718]])

In [17]:
cosine_similarity(doc_cv, doc_cv) # 잘 사용하지않는 형태

array([[1.        , 0.6092718 , 0.63960215],
       [0.6092718 , 1.        , 0.68041382],
       [0.63960215, 0.68041382, 1.        ]])

In [14]:
cosine_similarity(doc_tv) # 제일 많이 사용하는 형태

array([[1.        , 0.40207758, 0.40425045],
       [0.40207758, 1.        , 0.45647296],
       [0.40425045, 0.45647296, 1.        ]])