### 코사인 유사도 (Cosime Similarity)
- 문장의 유사도를 측정할 때 사용

- 1: 두 벡터가 완전히 같은 방향을 가지는 경우 (완전히 유사)
- 0: 두 벡터가 서로 독립적인 경우 (유사하지 않음)
- -1: 두 벡터가 정반대 방향을 가지는 경우 (완전히 상반된 유사성)

In [22]:
import numpy as np

In [23]:
v1,v2,v3 = np.array([1,1,0]),np.array([2,1,0]),np.array([0,0,1])
v1_norm =np.sqrt(np.sum(np.square(v1)))
v2_norm =np.sqrt(np.sum(np.square(v2)))
v3_norm =np.sqrt(np.sum(np.square(v3)))
v1_norm,v2_norm,v3_norm


(1.4142135623730951, 2.23606797749979, 1.0)

In [24]:
# v1과 v2의 유사도, v1과 v3의 유사도
cos12 =cos13
cos13 =np.dot(v1,v3) / (v1_norm * v3_norm)
cos12,cos13

(0.0, 0.0)

In [25]:
def  cos_similarity(v1,v2):
    v1_norm =np.sqrt(np.sum(np.square(v1)))
    v2_norm =np.sqrt(np.sum(np.square(v2)))
    return np.dot(v1,v2) / (v1_norm * v2_norm)
    

- 문장의 코사인 유사도

In [26]:
doc_list =[
    'If you take the blue pill,the story ends',
    'If you take the red pill,you stay in Wonderland',
    'If you take the red pill, I show you how deep the rebbit hole goes'
]

In [27]:
from sklearn.feature_extraction.text import CountVectorizer
cvect = CountVectorizer()
doc_cv =cvect.fit_transform(doc_list)
doc_cv.toarray()

array([[1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 2, 0, 1],
       [0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 2],
       [0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 2, 0, 2]],
      dtype=int64)

In [28]:
print(f'문장1 vs 문장2: {cos_similarity(doc_cv.toarray()[0], doc_cv.toarray()[1]):.4f}')
print(f'문장1 vs 문장3: {cos_similarity(doc_cv.toarray()[0], doc_cv.toarray()[2]):.4f}')
print(f'문장2 vs 문장3: {cos_similarity(doc_cv.toarray()[1], doc_cv.toarray()[2]):.4f}')

문장1 vs 문장2: 0.6093
문장1 vs 문장3: 0.6396
문장2 vs 문장3: 0.6804


In [29]:
from sklearn.feature_extraction.text import TfidfVectorizer
tvect = TfidfVectorizer()
doc_tv =tvect.fit_transform(doc_list)

In [30]:
print(f'문장1 vs 문장2: {cos_similarity(doc_tv.toarray()[0], doc_tv.toarray()[1]):.4f}')
print(f'문장1 vs 문장3: {cos_similarity(doc_tv.toarray()[0], doc_tv.toarray()[2]):.4f}')
print(f'문장2 vs 문장3: {cos_similarity(doc_tv.toarray()[1], doc_tv.toarray()[2]):.4f}')

문장1 vs 문장2: 0.4021
문장1 vs 문장3: 0.4043
문장2 vs 문장3: 0.4565


- Scikit - Learn 코사인 유사도

In [31]:
from sklearn.metrics.pairwise import cosine_similarity

In [33]:
cosine_similarity([doc_tv.toarray()[0]], [doc_tv.toarray()[1]])

array([[0.40207758]])

In [34]:
cosine_similarity(doc_cv,doc_cv)

array([[1.        , 0.6092718 , 0.63960215],
       [0.6092718 , 1.        , 0.68041382],
       [0.63960215, 0.68041382, 1.        ]])

In [35]:
cosine_similarity(doc_tv)

array([[1.        , 0.40207758, 0.40425045],
       [0.40207758, 1.        , 0.45647296],
       [0.40425045, 0.45647296, 1.        ]])