# 코사인 유사도 (cosine similarity)
- 코사인 유사도(cosine similarity)는 두 벡터가 이루는 각도로 “얼마나 비슷한 방향을 보느냐”를 재는 지표
- 크기(길이)보다 방향에 집중해서, 문서 벡터(TF-IDF) 비교에 자주 사용한다.

- 값 범위(보통 TF-IDF처럼 음수가 없으면): 0 ~ 1
    - 1: 거의 같은 방향(매우 유사)
    - 0: 직교(공통 특징 거의 없음)
    - (일반 벡터에서는 -1도 가능: 정반대 방향)

In [5]:
# TF-IDF 벡터화 후 코사인 유사도 계산
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity    # 벡터 간 코사인 유사도 계산 도구

doc_list = [
    'if you take the blue pill, the story ends' ,
    'if you take the red pill, you stay in Wonderland',
    'if you take the red pill, I show you how deep the rabbit hole goes'
]

# 벡터화
tfidf_vectorizer = TfidfVectorizer()
doc_vecs = tfidf_vectorizer.fit_transform(doc_list)  # 학습 + 문서 벡터화(희소행렬)
print(doc_vecs.shape)    # (문서 수, 단어 수)
print(sorted(tfidf_vectorizer.vocabulary_.items(), key=lambda x: x[1]))   # 단어-인덱스 매핑 확인(인덱스 순 정렬) 

doc_arr = doc_vecs.toarray()    # 희소행렬 -> dense 배열 변환
print(doc_arr)
cosine_similarity(doc_arr[2:], doc_arr)    # 3번째 문서 vs 전체 문서 유사도

(3, 18)
[('blue', 0), ('deep', 1), ('ends', 2), ('goes', 3), ('hole', 4), ('how', 5), ('if', 6), ('in', 7), ('pill', 8), ('rabbit', 9), ('red', 10), ('show', 11), ('stay', 12), ('story', 13), ('take', 14), ('the', 15), ('wonderland', 16), ('you', 17)]
[[0.4155636  0.         0.4155636  0.         0.         0.
  0.24543856 0.         0.24543856 0.         0.         0.
  0.         0.4155636  0.24543856 0.49087711 0.         0.24543856]
 [0.         0.         0.         0.         0.         0.
  0.23402865 0.39624495 0.23402865 0.         0.3013545  0.
  0.39624495 0.         0.23402865 0.23402865 0.39624495 0.4680573 ]
 [0.         0.30985601 0.         0.30985601 0.30985601 0.30985601
  0.18300595 0.         0.18300595 0.30985601 0.23565348 0.30985601
  0.         0.         0.18300595 0.3660119  0.         0.3660119 ]]


array([[0.40425045, 0.45647296, 1.        ]])