# 단어의 표현 (Word Representation)

# 1. 원-핫 인코딩 (One-Hot Encoding)

# 1-1 직접 구현해보기

In [1]:
# 인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과','사과']

In [2]:
words = {"원숭이" : 0} # 딕셔너리!
# words["바나나"] 이건 안나옴! 딕셔너리 값이 없으니까

In [3]:
#  defaultdict를 대신해서 만든다면 이렇게
word_dict = {}
for i, word in enumerate(set(word_ls)):
    word_dict[word] = i
word_dict

{'원숭이': 0, '바나나': 1, '사과': 2}

In [4]:
from collections import defaultdict
words_default = defaultdict(lambda : len(words_default))

words_default["원숭이"]
words_default["바나나"]
words_default

defaultdict(<function __main__.<lambda>()>, {'원숭이': 0, '바나나': 1})

In [5]:
from collections import defaultdict
from sklearn.preprocessing import OneHotEncoder
import numpy as np 

def one_hot_encode(word_ls):
    word2id = defaultdict(lambda : len(word2id))
    
    for word in word_ls :
        word2id[word]
    
    print("word2id : \n", word2id)
    
    unique_words = len(word2id)
    one_hot_vectors = np.zeros((len(word_ls), unique_words))
#     word_ls = ['원숭이','바나나','사과','사과']
    for i, word in enumerate(word_ls) : 
        index = word2id[word]
        one_hot_vectors[i, index] = 1
    
    return one_hot_vectors
    

In [6]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

word2id : 
 defaultdict(<function one_hot_encode.<locals>.<lambda> at 0x0000026DB798F798>, {'원숭이': 0, '바나나': 1, '사과': 2})


array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.]])

- 코끼리 추가

In [9]:
word_ls = ['원숭이','바나나','사과','사과', "코끼리"]

In [10]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

word2id : 
 defaultdict(<function one_hot_encode.<locals>.<lambda> at 0x0000026DB798FD38>, {'원숭이': 0, '바나나': 1, '사과': 2, '코끼리': 3})


array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

# 1-2 sklearn 활용

In [11]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

values = np.array(word_ls)
print(values)

label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values)
print(int_enc)
print(int_enc.shape)

onehot_enc = OneHotEncoder()
int_enc = int_enc.reshape(-1, 1)
print(int_enc)
print(int_enc.shape)

onehot_enc = onehot_enc.fit_transform(int_enc)
print(onehot_enc.toarray())

['원숭이' '바나나' '사과' '사과' '코끼리']
[2 0 1 1 3]
(5,)
[[2]
 [0]
 [1]
 [1]
 [3]]
(5, 1)
[[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]


In [12]:
onehot_enc[0, :]

<1x4 sparse matrix of type '<class 'numpy.float64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [13]:
np.argmax(onehot_enc[0, :])

2

In [14]:
label_enc.inverse_transform([np.argmax(onehot_enc[0, :])])

array(['원숭이'], dtype='<U3')

# 2. 밀집 벡터 (Dense Vector)

In [15]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

# 2-1 유사도 계산

# 2-1-1 유클리디언  거리

In [17]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

import numpy as np
def euclidean_dist(x,y):   
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum((x-y)**2))

# 사과와 바나나의 유클리디안 유사도
euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.7071067811865475

# 2-1-2코사인 유사도 (Cosine Similarity)

In [18]:
def cosine_similarity (x, y):
    nom = np.dot(x, y)
    dem = np.linalg.norm(x) * np.linalg.norm(y)
    return nom/dem

In [19]:
a = np.array(word_embedding_dic['사과'])
b = np.array(word_embedding_dic['바나나'])
np.dot(a, b)

1.5

In [20]:
print(a)
print(b)

print(1*0.9 + 0.5*1.2)

[1.  0.5]
[0.9 1.2]
1.5


In [22]:
# numpy의 linalg 서브 패키지의 norm 명령으로 벡터의 길이를 계산할 수 있다.
a = np.array([1,2])
np.linalg.norm(a) # norm 크기를 구해준다.

2.23606797749979

In [23]:
# 사과와 바나나의 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나']))

0.8944271909999159
0.7071067811865475


In [24]:
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['원숭이']))

0.7071067811865475
1.118033988749895


In [25]:
print(cosine_similarity(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))

0.9486832980505138
0.5


# 2-1-3 자카드 유사도

In [27]:
s1 = "대부분 원숭이는 바나나를 좋아합니다."
s2 = "코주부 원숭이는 바나나를 싫어합니다."

token_1 = s1.split()
token_2 = s2.split()
print(token_1)
print(token_2)

union_sent = set(token_1).union(set(token_2))
print(union_sent)

inter_sent = set(token_1).intersection(set(token_2))
print(inter_sent)

print(len(inter_sent)/len(union_sent))

['대부분', '원숭이는', '바나나를', '좋아합니다.']
['코주부', '원숭이는', '바나나를', '싫어합니다.']
{'싫어합니다.', '바나나를', '원숭이는', '코주부', '좋아합니다.', '대부분'}
{'바나나를', '원숭이는'}
0.3333333333333333
