# 코사인 유사도
---

- BoW, DTM, TF-IDF 등으로 단어를 수치화 한 뒤에는 문서의 유사도를 구하는 게 가능해진다.
- 두 벡터가 가리키는 방향이 얼마나 유사한가를 나타냄
$$similarity = cos(\Theta) = {{A \centerdot B} \over {\parallel A \parallel \parallel B \parallel}} = {{\sum_{i=1}^{n}{A_i \times B_i}} \over {\sqrt{\sum_{i=1}^{n}{(A_i)^2}} \times \sqrt{\sum_{i=1}^{n}{(B_i)^2}}}}$$


In [0]:
room = ["바닥은 삐걱거리는 나무판자로 되어있다.",\
        "바닥은 차갑다",\
        "방 가운데에는 돌로 된 탁자가 하나 놓여있다.",\
        "방에 문이 하나 있다.",\
        "문은 나무로 되어있다.",\
        "문은 열리지 않는다.",\
        "문에는 잠금장치가 걸려있다.",\
        "방에 침대가 하나 있다.",\
        "탁자 옆에는 의자가 두 개 놓여있다.",\
        "침대 밑에는 열쇠가 있다.",\
        "방에 창문이 없다.",\
        "방 안에 또 다른 방이 있다.",\
        "방과 방이 창문으로 연결되어 있다."]

In [0]:
!pip install konlpy

In [0]:
from konlpy.tag import Kkma 
import re

kma = Kkma()
token = re.sub("(\.)",""," ".join(room))
token = kma.morphs(token)
tk_list=[re.sub("(\.)","",sen) for sen in room]
tk_list = [kma.morphs(sen) for sen in tk_list]
word2index = {}
for voca in token:
  if voca not in word2index.keys():
    word2index[voca] = len(word2index)

In [0]:
def BoW(tk):
  bow = [0 for _ in range(len(word2index))]
  for voca in tk:
    if voca in word2index.keys():
      index = word2index.get(voca)
      bow[index] += 1
  return bow

In [9]:
dtm = []
for tk in tk_list: 
  dtm.append(BoW(tk)) # 문서 각각의 BoW를 구해 DTM을 생성
for d in dtm:
  print(d)

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0,

In [0]:
# 유사도 계산 함수
import numpy as np
from numpy.linalg import norm

def cos_sim(A,B):
  return np.dot(A,B)/(norm(A)*norm(B))

# 유클리드 거리
---

- 코사인 유사도나 자카드 유사도보다는 문서 유사도 측정에서 성능이 떨어진다.

In [0]:
# 유클리드 거리 계산 함수
def dist(x,y):
  return np.sqrt(np.sum((x-y)**2))

# 자카드 유사도
---

 - 두 문서의 합집합에서 교집합의 비율을 구해서 유사도를 구한다.
 $$ J(A,B) = {{\mid A \cap B \mid} \over {\mid A \cup B \mid}} = {{\mid A \cap B \mid} \over {\mid A \mid + \mid B \mid - {\mid A \cap B \mid}}}$$

In [25]:
union = set(tk_list[-1]).union(set(tk_list[-2]))
intersection = set(tk_list[-1]).intersection(set(tk_list[-2]))
print(union)
print(intersection)
print(len(intersection)/len(union))

{'있', '방', '이', '연결', '안', '방과', '창문', '어', '으로', '되', '에', '다른', '다', '또'}
{'있', '다', '방', '이'}
0.2857142857142857


# 유사도 구하기
---

In [15]:
sub_text = "나무로 된 탁자가 방에 놓여있다"
sub_token = kma.morphs(sub_text)
sub_token

['나무', '로', '되', 'ㄴ', '탁자', '가', '방', '에', '놓이', '어', '있', '다']

In [0]:
sub_doc = BoW(sub_token)

In [27]:
for i in range(len(dtm)):
  union = set(tk_list[i]).union(set(sub_token))
  intersection = set(tk_list[i]).intersection(set(sub_token))
  print("dist : ",dist(dtm[i],sub_doc))
  print("cosine : ",cos_sim(dtm[i],sub_doc))
  print("jaccad  : ",len(intersection)/len(union))
  print("sentence : ",room[i])
  print("------------------------------------")

dist :  3.3166247903554
cosine :  0.5222329678670935
jaccad  :  0.35294117647058826
sentence :  바닥은 삐걱거리는 나무판자로 되어있다.
------------------------------------
dist :  3.7416573867739413
cosine :  0.14433756729740646
jaccad  :  0.06666666666666667
sentence :  바닥은 차갑다
------------------------------------
dist :  2.23606797749979
cosine :  0.819891591749923
jaccad  :  0.6875
sentence :  방 가운데에는 돌로 된 탁자가 하나 놓여있다.
------------------------------------
dist :  3.3166247903554
cosine :  0.4364357804719848
jaccad  :  0.26666666666666666
sentence :  방에 문이 하나 있다.
------------------------------------
dist :  2.8284271247461903
cosine :  0.6123724356957945
jaccad  :  0.42857142857142855
sentence :  문은 나무로 되어있다.
------------------------------------
dist :  4.123105625617661
cosine :  0.1091089451179962
jaccad  :  0.05555555555555555
sentence :  문은 열리지 않는다.
------------------------------------
dist :  3.3166247903554
cosine :  0.4811252243246881
jaccad  :  0.3125
sentence :  문에는 잠금장치가 걸려있다.
-------------