<a href="https://colab.research.google.com/github/Hugekyung/NLP/blob/master/Exam_prac.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 유사도 계산

## 유클리디언 거리  
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/55/Euclidean_distance_2d.svg/220px-Euclidean_distance_2d.svg.png"  width="200"/>

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/795b967db2917cdde7c2da2d1ee327eb673276c0" width="350"/>

https://en.wikipedia.org/wiki/Euclidean_distance

In [None]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

In [None]:
import numpy as np

def euclidean_dist(x,y):
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum((x-y)**2))

# 사과와 바나나의 코사인 유사도
euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.7071067811865475

## 자카드 유사도  
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1f/Intersection_of_sets_A_and_B.svg/200px-Intersection_of_sets_A_and_B.svg.png" />

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/eaef5aa86949f49e7dc6b9c8c3dd8b233332c9e7" />

https://en.wikipedia.org/wiki/Jaccard_index

In [None]:
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'

# 토큰화를 수행
token_s1 = s1.split()
token_s2 = s2.split()

# token_s1과 token_s2의 합집합
union = set(token_s1).union(set(token_s2))
print(union)

# token_s1과 token_s2의 교집합
intersection = set(token_s1).intersection(set(token_s2))
print(intersection)

# 자카드 유사도 구하기
print(len(intersection)/len(union))

{'바나나를', '좋아합니다.', '싫어합니다.', '원숭이는', '코주부', '대부분'}
{'바나나를', '원숭이는'}
0.3333333333333333


## 코사인 유사도  
*  두 벡터간의 유사도를 측정하는 방법 중 하나
*  두 벡터 사이의 코사인을 측정
*  0도 = 1, 90도 = 0, 180도 = -1   ==> 1에 가까울수록 유사도가 높음  

<img src="https://www.oreilly.com/library/view/statistics-for-machine/9781788295758/assets/2b4a7a82-ad4c-4b2a-b808-e423a334de6f.png" width="300"/>

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1d94e5903f7936d3c131e040ef2c51b473dd071d" width='350'/>

https://en.wikipedia.org/wiki/Cosine_similarity


In [None]:
def cosine_similarity(x,y):
    nominator = np.dot(x,y) # 분자
    denominator = np.linalg.norm(x) * np.linalg.norm(y) # 분모
    return nominator / denominator

In [None]:
# 사과와 바나나의 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나']))

0.8944271909999159


# TF-IDF를 활용한 유사도 계산  
weighting schema|weight|설명
--|--|--
term frequency|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/91699003abf4fe8bdf861bbce08e73e71acf5fd4" />|=토큰빈도/문서내토큰빈도
inverse document frequency|<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/864fcfdc0c16344c11509f724f1aa7081cf9f657" />|=log(총문서갯수/(토큰이 등장한 문서수))

In [None]:
d1 = "The cat sat on my face I hate a cat"
d2 = "The dog sat on my bed I love a dog" 

In [None]:
import numpy as np

# 문서 토큰화
def tokenizer(d):
    return d.split()

# 문서내 토큰이 등장한 빈도 수 계산
def freq(t, d):
    return d.count(t)

# tf 계산
def tf(t, d):
    return freq(t,d)/len(d)

# idf 계산
def idf(t, D):
    numerator = len(D)
    denominator = len([True for d in D if t in d])
    return np.log(numerator/denominator)

# tf-idf 계산식
def tfidf(t, d, D):
    return tf(t,d)*idf(t,D)

# tfidf 실제계산
def tfidfscore(D):
    docs = [tokenizer(d) for d in D] # 문서를 토큰화해서 docs리스트 생성
    result = []
    for d in docs:
        result.append([(t, tfidf(t, d, docs)) for t in d])
    return result

corpus = [d1, d2]

for i, doc in enumerate(tfidfscore(corpus)):
    print('doc1=============')
    print(doc)

[('The', 0.0), ('cat', 0.13862943611198905), ('sat', 0.0), ('on', 0.0), ('my', 0.0), ('face', 0.06931471805599453), ('I', 0.0), ('hate', 0.06931471805599453), ('a', 0.0), ('cat', 0.13862943611198905)]
[('The', 0.0), ('dog', 0.13862943611198905), ('sat', 0.0), ('on', 0.0), ('my', 0.0), ('bed', 0.06931471805599453), ('I', 0.0), ('love', 0.06931471805599453), ('a', 0.0), ('dog', 0.13862943611198905)]
