# 코사인 유사도(cosine similarity)

- 단어나 문장을 벡터로 표현하여 벡터 간 거리나 각도를 이용해 유사성을 파악할 수 있음
- 코사인 유사도는 두 벡터 간 코사인 각도를 이용해 유사도를 측정하는 방법
- 일반적으로 벡터의 크기가 중요하지 않을 때 거리를 측정하기 위해 사용
    - 예) 단어의 출현 빈도를 통해 유사도를 계산한다면 동일한 단어가 많이 포함되어 있을수록 벡터의 크기가 커짐
    - 이 때 코사인 유사도는 벡터의 크기와 상관없이 결과가 안정적임
    - 앞서 배운 n-gram은 동일한 단어가 문서 내에 자주 등장하면 유사도 결과에 안좋은 영향을 미침

In [1]:
from konlpy.tag import Komoran
import numpy as np
from numpy import dot
from numpy.linalg import norm

In [2]:
# 코사인 유사도 계산
def cos_sim(vec1, vec2):
    return dot(vec1, vec2) / (norm(vec1) * norm(vec2))

- dot : 인자로 들어온 2개의 넘파이 배열을 내적곱
- norm : 벡터의 크기를 측정
    - 코사인유사도에서는 L2노름(유클리드 노름)을 주로 사용

In [20]:
# TDM 만들기
def make_term_doc_mat(sentence_bow, word_dics):
    freq_mat = dict()
    
    for word in word_dics:
        freq_mat[word] = 0
        
    for word in word_dics:
        if word in sentence_bow:
            freq_mat[word] += 1
            
    return freq_mat

- 비교 문장에서 추출한 단어 사전을 기준으로 문장에 해당 단어들이 얼마나 포함되어 있는지 나타내는 단어 문서 행렬을 만들어주는 함수

In [5]:
# 단어 벡터 만들기
def make_vector(tdm):
    vec = []
    for key in tdm:
        vec.append(tdm[key])
    return vec

- 단어 문서 행렬에서 표현된 토큰들의 출현 빈도 데이터를 벡터로 만들어주느 함수

In [6]:
# 문장 정의
sentence1 = "6월에 뉴턴은 선생님의 제안으로 트리니티에 입학하였다"
sentence2 = "6월에 뉴턴은 선생님의 제안으로 대학교에 입학하였다"
sentence3 = "나는 맛있는 밥을 뉴턴 선생님과 함께 먹었습니다"

In [7]:
# 형태소 분석기를 이요해 단어 묶음 리스트 생성
komoran = Komoran()
bow1 = komoran.nouns(sentence1)
bow2 = komoran.nouns(sentence2)
bow3 = komoran.nouns(sentence3)

In [8]:
bow1

['6월', '뉴턴', '선생님', '제안', '트리니티', '입학']

In [9]:
# 단어 묶음 리스트를 하나로 합침
bow = bow1 + bow2 + bow3

In [10]:
bow

['6월',
 '뉴턴',
 '선생님',
 '제안',
 '트리니티',
 '입학',
 '6월',
 '뉴턴',
 '선생님',
 '제안',
 '대학교',
 '입학',
 '밥',
 '뉴턴',
 '선생',
 '님과 함께']

In [16]:
# 단어 묶음에서 중복 제거해 단어 사전 구축
word_dics = []
for token in bow:
    if token not in word_dics:
        word_dics.append(token)

In [17]:
word_dics

['6월', '뉴턴', '선생님', '제안', '트리니티', '입학', '대학교', '밥', '선생', '님과 함께']

In [21]:
# 문장별 단어 문서 행렬 계산
freq_list1 = make_term_doc_mat(bow1, word_dics)
freq_list2 = make_term_doc_mat(bow2, word_dics)
freq_list3 = make_term_doc_mat(bow3, word_dics)
print(freq_list1)
print(freq_list2)
print(freq_list3)

{'6월': 1, '뉴턴': 1, '선생님': 1, '제안': 1, '트리니티': 1, '입학': 1, '대학교': 0, '밥': 0, '선생': 0, '님과 함께': 0}
{'6월': 1, '뉴턴': 1, '선생님': 1, '제안': 1, '트리니티': 0, '입학': 1, '대학교': 1, '밥': 0, '선생': 0, '님과 함께': 0}
{'6월': 0, '뉴턴': 1, '선생님': 0, '제안': 0, '트리니티': 0, '입학': 0, '대학교': 0, '밥': 1, '선생': 1, '님과 함께': 1}


In [24]:
doc1 = np.array(make_vector(freq_list1))
doc2 = np.array(make_vector(freq_list2))
doc3 = np.array(make_vector(freq_list3))
print(doc1)
print(doc2)
print(doc3)

[1 1 1 1 1 1 0 0 0 0]
[1 1 1 1 0 1 1 0 0 0]
[0 1 0 0 0 0 0 1 1 1]


In [23]:
# 코사인 유사도 계산
r1 = cos_sim(doc1, doc2)
r2 = cos_sim(doc3, doc1)
print(r1)
print(r2)

0.8333333333333335
0.20412414523193154
