# 즉, 단어를 벡터로 바꿀 때 단어의 의미가 벡터에 잘 담긴 것이다.

단어의 의미를 최대한 담는 벡터를 만들려는 알고리즘이 단어 임베딩 모델이다. 현대적인 자연어 처리 기법들은 대부분 이 임베딩 모델에 기반을 두고 있다. 그렇다면 어떻게 벡터에 단어의 의미를 담을 수 있을까?
출처: https://dreamgonfly.github.io/machine/learning,/natural/language/processing/2017/08/16/word2vec_explained.html

# Dense representation
Dense representation은 각각의 속성을 독립적인 차원으로 나타내지 않는다. 대신, 우리가 정한 개수의 차원으로 대상을 대응시켜서 표현한다. 예컨대 해당 속성을 5차원으로 표현할 것이라고 정하면 그 속성을 5차원 벡터에 대응시키는 것이다. 이 대응을 임베딩(embedding)이라고 하며, 임베딩하는 방식은 머신 러닝을 통해 학습하게 된다.

# 같은 공간안에 밀집하게 2차원 배열로 데이터를 표현할 수 있도록 dense representation을 사용. 아래 사과 바나나 원숭이는 dense representation

# 원핫인코딩은 1과 0으로만 단어를 표현. 
강아지 [1, 0, 0]
원숭이 [0, 1, 0]
바나나 [0, 0, 1]
단점은 단어가 많을 수록 차원이 늘어남


In [None]:
word_embedding_dic = {
'사과' : [1.0, 0.5],
'바나나' : [0.9, 1.2],
'원숭이' : [0.5, 1.5]
}

# 유클리드 유사도

In [16]:
import numpy as np
def euclidean_dist(x,y):
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum(x-y) **2)

euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.0

# 자카드 유사도 : 교집합을 찾아냄

In [17]:
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'

token_s1 = s1.split()
token_s2 = s2.split()

union = set(token_s1).union(set(token_s2)) #합집합 대부분, 코주부, 원숭이는, 바나나를, 좋아합니다, 싫어합니다. 6개
print(union)

intersection = set(token_s1).intersection(set(token_s2)) #교집합 원숭이는, 바나나를 2개
print(intersection)

print(len(intersection)/len(union))

{'원숭이는', '코주부', '대부분', '싫어합니다.', '좋아합니다.', '바나나를'}
{'원숭이는', '바나나를'}
0.3333333333333333


# 코사인 유사도

In [25]:
def cosine_similarity(x,y):
    nominator = np.dot(x,y)
    denominator = np.linalg.norm(x)*np.linalg.norm(y)
    return nominator/denominator

a = np.array([1,2])
b = np.array([3,4])

np.dot(a,b)

11

In [26]:
a = np.array([1,2])
np.linalg.norm(a)

2.23606797749979

In [33]:
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나']))

0.8944271909999159
0.6


In [34]:
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['원숭이']))

0.7071067811865475
0.5


In [35]:
print(cosine_similarity(word_embedding_dic['원숭이'], word_embedding_dic['바나나']))
print(euclidean_dist(word_embedding_dic['원숭이'], word_embedding_dic['바나나']))

0.9486832980505138
0.09999999999999998
