# 임베딩(Embedding)

* 워드 임베딩은 단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 `단어를 벡터화`하는 기술
* 워드 임베딩은 단어의 의미를 잘 표현해야만 하며, 현재까지도 많은 표현 방법이 연구
* 워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 `계산이 가능`하며, `모델 투입`도 가능

## 인코딩(Encoding)


* 기계는 자연어(영어, 한국어 등)을 이해할 수 없음
* 데이터를 기계가 이해할 수 있도록 `숫자 등으로 변환`해주는 작업이 필요
* 이러한 작업을 인코딩이라고 함
* 텍스트 처리에서는 주로 `정수 인코딩`, `원 핫 인코딩`을 사용

### 정수 인코딩

####  dictionary를 이용한 정수 인코딩
* 각 단어와 정수 인덱스를 연결하고, 토큰을 변환

In [2]:
text = "평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라"

#tokenize 한다음에 중복되지 않도록 list로 만들어줌
tokens = [x for x in text.split(' ')]
unique = set(tokens)
unique = list(unique)
unique

['평생', '그리고', '꾸어라.', '죽을', '살', '살아라', '오늘을', '내일', '것처럼', '꿈을']

In [4]:
#unique한 것에 index를 넣어줌
token2idx = {}
for i in range(len(unique)) :
    token2idx[unique[i]] = i

token2idx

{'평생': 0,
 '그리고': 1,
 '꾸어라.': 2,
 '죽을': 3,
 '살': 4,
 '살아라': 5,
 '오늘을': 6,
 '내일': 7,
 '것처럼': 8,
 '꿈을': 9}

In [6]:
# token에 대해서 encoding한 것 출력
encode = [token2idx[x] for x in tokens]
encode

[0, 4, 8, 9, 2, 1, 7, 3, 8, 6, 5]

#### keras를 이용한 정수 인코딩
* 단어에 정수로 레이블을 부여
* dictionary, nltk패키지를 이용한 방법들도 있지만, keras에서는 텍스트 처리에 필요한 도구들을 지원
* 해당 도구는 자동으로 `단어 빈도가 높은 단어의 인덱스는 낮게`끔 설정

In [8]:
from tensorflow.keras.preprocessing.text import Tokenizer

text = "평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)

{'것처럼': 1, '평생': 2, '살': 3, '꿈을': 4, '꾸어라': 5, '그리고': 6, '내일': 7, '죽을': 8, '오늘을': 9, '살아라': 10}


In [12]:
encoded = t.texts_to_sequences([text])[0]
print(encoded)
#인코딩된 결과 - 평생 / 살 / 것처럼 -> 2 3 1

[2, 3, 1, 4, 5, 6, 7, 8, 1, 9, 10]


### 원 핫 인코딩

#### 조건문과 반복문을 이용한 원 핫 인코딩
* 원 핫 인코딩은 `정수 인코딩한 결과를 벡터로 변환`한 인코딩
* 원 핫 인코딩은 전체 단어 개수 만큼의 길이를 가진 배열에 해당 정수를 가진 위치는 1, 나머지는 0을 가진 벡터로 변환   

In [36]:
#정수 인코딩한 결과
#text = "평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라"
encoded

[2, 3, 1, 4, 5, 6, 7, 8, 1, 9, 10]

In [37]:
import numpy as np

one_hot = []
for i in range(len(encoded)) : #0~10 -> 길이는 11
    temp = []
    for j in range(max(encoded)) : #0~9 ->단어는 10개
        if j == (encoded[i]-1): #현재단어와같다
            temp.append(1)
        else :
            temp.append(0)
    #같은 경우에만 1이 들어감.
    one_hot.append(temp)

np.array(one_hot)
#one_hot 단어하나하나임

array([[0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]])

#### kears를 이용한 원 핫 인코딩
* `keras`에서는 정수 인코딩을 원 핫 인코딩을 간단하게 변환해주는 `to_categorical()` 함수를 제공 

In [None]:
from tensorflow.keras.utils import to_categorical

one_hot = to_categorical(encoded)
one_h