# 단어의 표현 (Word Reprentation)
   * 기계는 문자를 그대로 인식 할 수 없기 때문에 숫자로 변환

## 1. 원-핫 인코딩 (One-Hot-Encoding)
   * 단어 집합 갯수 만큼

### 1.1 "원숭이, 바나나, 사과'로 원-핫 인코딩을 한다면

In [7]:
# 인코딩 대상 단어들을 담은 리스트
word_ls = ['원숭이','바나나','사과']

from collections import defaultdict
import numpy as np

def one_hot_encode(word_ls):
    # 고유 단어와 인덱스를 매칭시켜주는 사전 생성
    word2idx_dic = defaultdict(lambda:len(word2idx_dic))
    
    # {단어 : 인덱스} 사전 구축
    for word in word_ls:
        word2idx_dic[word]
        
    n_unique_words = len(word2idx_dic) # 고유한 단어의 개수
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words)) # 원핫-벡터를 만들기 위해 비어있는 벡터 생성
    
    for i, word in enumerate(word_ls):
        index = word2idx_dic[word] # 해당 단어의 고유 인덱스
        one_hot_vectors[i, index] += 1 # 해당 단어의 고유 인덱스에만 1을 더해줌
        
    return one_hot_vectors

In [8]:
one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [9]:
from collections import defaultdict
word2idx_dic = defaultdict(lambda:len(word2idx_dic))
word2idx_dic

defaultdict(<function __main__.<lambda>()>, {})

In [10]:
word2idx_dic['a']

0

In [12]:
word2idx_dic['b']

1

### 1.2 "코끼리"라는 단어가 추가된다면?

In [13]:
word_ls = ['원숭이','바나나','사과','코끼리']

one_hot_vectors = one_hot_encode(word_ls)
one_hot_vectors

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### 1.3 sklearn을 활용한 one-hot-encoding
  * 함수명, 설명  
   **fit(X[, y]) Fit OneHotEncoder to X.   
   fit_transform(X[, y]) Fit OneHotEncoder to X, then transform X.    
   inverse_transform(X) Convert the back data to the original representation.    
   transform(X) Transform X using one-hot encoding.**    

In [18]:
# skelarn을 활용한 one-hot encoding
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

# 예제 데이터 배열
values = array(word_ls)
print(values)

# 문자열에 숫자를 붙임
label_enc = LabelEncoder()
int_enc = label_enc.fit_transform(values)
print(int_enc)

# binary encode
# sparse=False? 다중형태로 표현된다?? 
onehot_enc = OneHotEncoder(sparse=False)
int_enc = int_enc.reshape(len(int_enc), 1) # n:1 matrix로 변환
print(int_enc)
# fit_transform ?? 
onehot_enc = onehot_enc.fit_transform(int_enc)
print(onehot_enc)

# one-hot encoding 의 첫번째 배열의 값을 역으로 산출
# argmax: 인자들 중에 가장 큰 값을 찾아낸다. (0,0,1,0) 이므로 1을 찾아낸다.
inverted = label_enc.inverse_transform([argmax(onehot_enc[0, :])])
print(inverted)

['원숭이' '바나나' '사과' '코끼리']
[2 0 1 3]
[[2]
 [0]
 [1]
 [3]]
[[0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 0. 1.]]
['원숭이']


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


## 2. 밀집 벡터 (Dense Vector)

In [19]:
word_embedding_dic = {
'사과' : [1.0, 0.5],
'바나나' : [0.9, 1.2],
'원숭이' : [0.5, 1.5]
}

## 3. 유사도 계산

### 3.1 유클리디언 거리(Euclidean distance)
   * 두 벡터사이의 직선 거리. 피타고라스의 정리