# 단어의 표현 (Word Representation)
기계는 문자를 그대로 인식할 수 없기때문에 숫자로 변환

# 1 원-핫 인코딩 (One-Hot Encoding)



## 1-1 직접 구현해보기

### "원숭이, 바나나, 사과"로 원-핫 인코딩을 한다면

In [1]:
# 인코딩 대상 단어들을 담은 리스트 생성
word_ls = ['원숭이', '바나나', '사과']

In [2]:
# 단어별 인덱스 지정
from collections import defaultdict
import numpy as np

word2id_dic = defaultdict(lambda:len(word2id_dic))

for word in word_ls:
  word2id_dic[word]

# 고유한 단어수 체크
n_unique_words = len(word2id_dic)
one_hot_vectors = np.zeros((len(word_ls), n_unique_words))

# 원핫 벡터 생성
for i, word in enumerate(word_ls):
  index = word2id_dic[word]
  one_hot_vectors[i, index] = 1

one_hot_vectors

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [3]:
# 원핫인코딩 함수 정의
def one_hot_encoding(word_ls):
  word2id_dic = defaultdict(lambda:len(word2id_dic))

  for word in word_ls:
    word2id_dic[word]

  # 고유한 단어수 체크
  n_unique_words = len(word2id_dic)
  one_hot_vectors = np.zeros((len(word_ls), n_unique_words))

  # 원핫 벡터 생성
  for i, word in enumerate(word_ls):
    index = word2id_dic[word]
    one_hot_vectors[i, index] = 1

  return one_hot_vectors

### "코끼리"라는 단어가 추가된다면?

In [4]:
word_ls = ['원숭이', '바나나', '사과', '코끼리']

In [5]:
one_hot_encoding(word_ls)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

## 1-2 sklearn 활용

In [8]:
word_ls = ['원숭이', '바나나', '사과', '코끼리', '코끼리', '개']

In [10]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# 문자열에 숫자를 부여함 (LabelEncoder)
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(word_ls)
print(int_enc)

# 원핫 인코딩
onehot_enc = OneHotEncoder(sparse=False)
int_enc = int_enc.reshape(len(int_enc), 1)
onehot_vectors = onehot_enc.fit_transform(int_enc)
print(onehot_vectors)

[3 1 2 4 4 0]
[[0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 1.]
 [1. 0. 0. 0. 0.]]


In [11]:
# sklearn을 사용한 원핫 인코딩 함수 정의
def one_hot_encoding_sklearn(word_ls):
  # 문자열에 숫자를 부여함 (LabelEncoder)
  label_enc = LabelEncoder()
  int_enc = label_enc.fit_transform(word_ls)

  # 원핫 인코딩
  onehot_enc = OneHotEncoder(sparse=False)
  int_enc = int_enc.reshape(len(int_enc), 1)
  onehot_vectors = onehot_enc.fit_transform(int_enc)

  return onehot_vectors

sklearn을 사용할 경우 가나다 순으로 정렬되어 순서가 다르게 나온다

In [12]:
one_hot_encoding_sklearn(word_ls)

array([[0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1.],
       [1., 0., 0., 0., 0.]])

# 2 유사도 계산



## 2-1 유클리디언 거리 (Euclidean distance)
두 벡터 사이의 직선 거리. 피타고라스 정리를 생각하면 이해하기 쉬움

https://en.wikipedia.org/wiki/Euclidean_distance


In [13]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

In [15]:
import numpy as np

a = word_embedding_dic['사과']
b = word_embedding_dic['바나나']

x = np.array(a)
y = np.array(b)

np.sqrt(np.sum((x-y)**2))

0.7071067811865475

In [16]:
# 유클리디언 거리 구하는 함수 정의
def euclidean_dist(a, b):
  x = np.array(a)
  y = np.array(b)

  return np.sqrt(np.sum((x-y)**2))

In [17]:
euclidean_dist(a, b)

0.7071067811865475

## 2-2 자카드 유사도 (Jaccard index)
https://en.wikipedia.org/wiki/Jaccard_index

In [18]:
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'

# 간단하게 띄어쓰기를 기준으로 토큰화

In [19]:
token_s1 = s1.split()
token_s2 = s2.split()

In [20]:
print(token_s1)
print(token_s2)

['대부분', '원숭이는', '바나나를', '좋아합니다.']
['코주부', '원숭이는', '바나나를', '싫어합니다.']


In [23]:
union = set(token_s1).union(set(token_s2)) # 합집합
intersection = set(token_s1).intersection(set(token_s2)) # 교집합

In [24]:
len(intersection)/len(union)

0.3333333333333333

두 문장의 유사도는 33% 이다

In [25]:
# 자카드 유사도 함수 정의
def jaccard_index(s1, s2):
  token_s1 = s1.split()
  token_s2 = s2.split()

  union = set(token_s1).union(set(token_s2)) # 합집합
  intersection = set(token_s1).intersection(set(token_s2)) # 교집합

  return len(intersection)/len(union)

In [26]:
jaccard_index(s1, s2)

0.3333333333333333

## 2-3 코사인 유사도 (Cosine Similarity)
* 두 벡터간의 유사도를 측정하는 방법 중 하나
* 두 벡터 사이의 코사인을 측정
* 0도 = 1, 90도 = 0, 180도 = -1   ->   1에 가까울수록 유사도가 높음

https://en.wikipedia.org/wiki/Cosine_similarity

In [29]:
import numpy as np

n = np.dot(a, b)
d = np.linalg.norm(a) * np.linalg.norm(b)
n / d

0.8944271909999159

In [30]:
# 코사인 유사도 함수 정의
def cosine_similarity(a, b):
  n = np.dot(a, b)
  d = np.linalg.norm(a) * np.linalg.norm(b)
  return n / d

In [31]:
cosine_similarity(a, b)

0.8944271909999159

In [33]:
# 테스트
euclidean_dist(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.7071067811865475

In [34]:
cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.8944271909999159