1. 원-핫 인코딩 (One-Hot Encoding)

1-1 직접 구현해보기

"원숭이", "바나나", "사과"로 원-핫 인코딩을 한다면?

In [1]:
#인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과','개', '고양이']

단어의 표현 (Word Representation)

- 기계는 문자를 그대로 인식할 수 없기 때문에 숫자로 변환

In [2]:
#단어 목록(word_ls)에서 고유한 단어를 추출하고, 각 단어에 대해 고유한 인덱스를 할당하여 one-hot벡터를 생성하는 과정
import numpy as np
from collections import defaultdict #존재하지 않는 키에 대한 기본값을 0으로 설정
word2id_dic = defaultdict(lambda:len(word2id_dic))

#각 단어에 대해 고유한 인덱스를 할당
for word in word_ls:
    index = word2id_dic[word]

n_unique_words = len(word2id_dic) # 고유한 단어의 갯수
one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) # 원핫벡터를 만들기 위해 비어있는 벡터 생성

#원핫벡터 생성
for i,word in enumerate(word_ls):
    index = word2id_dic[word] #해당 단어의 고유 인덱스
    one_hot_vectors[i, index] = 1 #해당 단어의 고유 인덱스에만 1을 더해줌

print(one_hot_vectors)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [3]:
#word_ls에 애해 각 단어를 고유한 인덱스로 매핑하고, 각 단어의 원핫벡터를 생성

from collections import defaultdict #존재하지 않는 키에 대한 기본값을 0으로 설정
import numpy as np

def one_hot_encode(word_ls): #'defaultdict'를 사용하여 'word2id_dic'이라는 사전 생성
    word2id_dic = defaultdict(lambda:len(word2id_dic)) 
    
    #{단어 : 인덱스} 사전 구축. 안어가 이미 존재하는 경우 해당 단어의 인덱스를, 그렇지 않은 경우 새로운 인덱스를 할당
    for word in word_ls:
        word2id_dic[word]
    
    n_unique_words = len(word2id_dic) #고유한 단어의 개수
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) #원핫벡터를 만들기 위해 비어있는 행렬 생성
    
    for i,word in enumerate(word_ls):
        index = word2id_dic[word]
        one_hot_vectors[i, index] = 1
        
    return one_hot_vectors

In [4]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

"코끼리"라는 단어가 추가된다면?

- 직관적이지만 단어가 늘어날때마다 차원이 늘어나는 단점

In [5]:
word_ls = ['원숭이','바나나','사과','코끼리']

In [6]:
#word_ls에 대해 원핫인코딩 생성 후, 그 결과를 one_hot_vectores 변수에 할당
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

위에는 코드로 구현해본 것이고, 아래는 패키지를 활용

1-2 sklearn 활용


함수명 | 설명
--|--
fit(X[, y])	| Fit OneHotEncoder to X.
fit_transform(X[, y])	| Fit OneHotEncoder to X, then transform X.
inverse_transform(X)	| Convert the back data to the original representation.
transform(X)	| Transform X using one-hot encoding.

In [7]:
# sklearn을 활용한 one-hot encoding
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder # 단어별로 라벨을 숫자로 부여해주는 패키지
from sklearn.preprocessing import OneHotEncoder # 라벨인코더를 원핫인코더로 변환해주는 패키지

# 예제 데이터 배열
values = array(word_ls)
print(values)

# 문자열에 숫자를 붙임 (라벨인코더)
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values)
print(int_enc)

# binary encode
onehot_enc = OneHotEncoder(sparse_output=False)
int_enc = int_enc.reshape(len(int_enc), 1) # n:1 matrix로 변환
print(int_enc)
onehot_enc = onehot_enc.fit_transform(int_enc)
print(onehot_enc)

# one-hot encoding 의 첫번째 배열을 값을 역으로 산출
inverted = label_enc.inverse_transform([argmax(onehot_enc[0, :])])
print(inverted)

['원숭이' '바나나' '사과' '코끼리']
[2 0 1 3]
[[2]
 [0]
 [1]
 [3]]
[[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]
['원숭이']


In [8]:
# 위결과에서 순서가 뒤죽박죽인 이유는 가나다순으로 만들었기 때문임
# 아래를 함수로 바꾸면 아래와 같음
def one_hot_encoding_sklearn(word_ls):
    label_enc = LabelEncoder()
    int_enc = label_enc.fit_transform(values)
 # binary encode
    onehot_enc = OneHotEncoder(sparse=False)
    int_enc = int_enc.reshape(len(int_enc), 1) # n:1 matrix로 변환
    onehot_enc = onehot_enc.fit_transform(int_enc)
    return one_hot_vectors 



---



2. 유사도 계산

2-1 유클리디언 거리(Euclidean distance)
- 두 벡터 사이의 직선 거리. 피타고라스 정리를 생각하면 이해하기 쉬움

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/55/Euclidean_distance_2d.svg/220px-Euclidean_distance_2d.svg.png"  width="200"/>

<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/795b967db2917cdde7c2da2d1ee327eb673276c0" width="350"/>

https://en.wikipedia.org/wiki/Euclidean_distance

In [9]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

In [10]:
# 위 예시에서 문서 유사도를 구해보자
a = word_embedding_dic['사과']
b = word_embedding_dic['바나나']
x = np.array(a)
y = np.array(b)
np.sqrt(np.sum((x-y)**2)) # 거리를 빼고 제곱해서 구해보자 아래는 이것을 함수화 한것

0.7071067811865475

In [11]:
import numpy as np
def euclidean_dist(x,y):   
    x = np.array(x)
    y = np.array(y)
    return np.sqrt(np.sum((x-y)**2))
  
# 사과와 바나나의 코사인 유사도
euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.7071067811865475

In [12]:
np.sqrt(np.power(1.0-0.9,2.0) + np.power(0.5-1.2, 2.0))

0.7071067811865475

2-2 자카드 유사도(Jaccard index)

In [None]:
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'

#토큰화 수행 - 단순 split
token_s1 = s1.split() 
token_s2 = s2.split()

union = set(token_s1).union(set(token_s2)) #합집합 연산을 통해 결과 보기
print(union)

intersection = set(token_s1).intersection(set(token_s2))
print(intersection)

print(len(intersection)/len(union)) #2 ÷ 6

{'코주부', '좋아합니다.', '바나나를', '대부분', '싫어합니다.', '원숭이는'}
{'바나나를', '원숭이는'}
0.3333333333333333


In [None]:
def jacard_index(s1, s2):
    token_s1 = s1.split() 
    token_s2 = s2.split()

    union = set(token_s1).union(set(token_s2)) #합집합 연산을 통해 결과 보기
    intersection = set(token_s1).intersection(set(token_s2))
    return len(intersection)/len(union)

In [None]:
jacard_index(s1, s2)

0.3333333333333333

2-3 코사인 유사도(Cosine Similarity) 

-  두 벡터 간의 유사도를 측정하는 방법 중 하나
-  두 벡터 사이의 코사인을 측정
-  0도 = 1, 90도 = 0, 180도 = -1 ==> 1에 가까울수록 유사도가 높음

<img src="https://www.oreilly.com/api/v2/epubs/9781788295758/files/assets/2b4a7a82-ad4c-4b2a-b808-e423a334de6f.png" width='350'/>
<img src="https://wikimedia.org/api/rest_v1/media/math/render/svg/1d94e5903f7936d3c131e040ef2c51b473dd071d" width='350'/>

https://en.wikipedia.org/wiki/Cosine_similarity

In [None]:
#코사인 유사도(Cosine Similarity): 벡터 공간에서 두 벡터 간의 유사도를 측정하는 방법
#두 벡터의 방향이 얼마나 유사한지 측정하여 유사성 평가
#-1 ~ 1 (1에 가까울수록 두 벡터의 방향이 유사, -1에 가까울수록 두 벡터의 방향이 반대)
#A⋅B: 벡터 A와 B의 내적, ∥A∥와 ∥B∥: 각각 벡터 A와 B의 크기(노름)

n = np.dot(a, b)
d = np.linalg.norm(a) * np.linalg.norm(b)
n / d

#벡터 a와 b의 내적(=각 벡터에 대용하는 요소를 곱한 후 그 결과를 모두 더함)을 계산하여 변수n에 저장
#벡터 a와 b의 크기(노름)를 계산하여 변수d에 저장
#내적을 벡터의 크기(노름)의 곱으로 나누어 코사인 유사도 계산

0.8944271909999159

In [None]:
def cosine_similarity(x, y):
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수
    nominator = np.dot(x, y) #분자
    denominator = np.linalg.norm(x)*np.linalg.norm(y) #분모
    return nominator/denominator

In [None]:
#사과-바나나 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나']))

0.8944271909999159
0.7071067811865475


In [None]:
#사과-원숭이 코사인 유사도
print(cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['원숭이']))

0.7071067811865475
1.118033988749895


In [None]:
#바나나-원숭이 코사인 유사도
print(cosine_similarity(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))
print(euclidean_dist(word_embedding_dic['바나나'], word_embedding_dic['원숭이']))

0.9486832980505138
0.5
