### **단어 집합(Vocabulary)**  
- 단어 집합은 서로 다른 단어들의 집합이다.
- 기본적으로 book과 books와 같이 단어의 변형 형태도 다른 단어로 간주한다.
- 원-핫 인코딩을 위해서 먼저 해야하 일은 단어 집합을 만드는 일이다.
- 텍스트의 모든 단어를 중복을 허용하지 않고 모아둔 집합
- 단어 집합을 만든 후 이 단어 집합에 고유한 정수를 부여하는 정수 인코딩을 진행한다.

# **원-핫 인코딩(One-Hot Encoding)**
단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식

**두 가지 과정**  
1. 정수 인코딩을 수행 -> 각 단어에 고유한 정수를 부여
2. 표현하고 싶은 단어의 고유한 정수를 인덱스로 간주하고 해당 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여

In [2]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 7.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 45.8 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [3]:
# Okt 형태소 분석기를 통해서 문장에 대해서 토큰화 수행
from konlpy.tag import Okt

okt = Okt()
tokens = okt.morphs("나는 자연어 처리를 배운다")
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [4]:
# 각 토큰에 대해서 고유한 정수를 부여
word_to_index = {word : index for index, word in enumerate(tokens)}
print("단어 집합 :", word_to_index)

단어 집합 : {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


지금은 문장이 짧기 때문에 각 단어의 빈도수를 고려하지 않지만, 빈도수 순으로 단어를 정렬하여 정수를 부여하는 경우가 많다

In [5]:
# 원-핫 벡터를 만드는 함수
def one_hot_encoding(word, word_to_index):
  one_hot_vector = [0]*(len(word_to_index))
  index = word_to_index[word]
  one_hot_vector[index] = 1
  return one_hot_vector

In [7]:
# "자연어"라는 단어의 원-핫 벡터
print("자연어의 index :", word_to_index["자연어"])
one_hot_encoding("자연어", word_to_index)

자연어의 index : 2


[0, 0, 1, 0, 0, 0]

# 케라스를 이용한 원-핫 인코딩

케라스는 원-핫 인코딩을 수행하는 유용한 도구 to_categorical()를 지원한다.

In [8]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [9]:
# 패키지 임포트
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [10]:
# 정수 인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print("단어 집합 :", tokenizer.word_index)

단어 집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [12]:
# text_to_sequences()를 통해서 정수 시퀀스로 변환
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [13]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


### **원-핫 인코딩의 한계**
1. 단어의 개수가 늘어날수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점이 있다.
  - 원 핫 벡터는 단어 집합의 크기가 곧 벡터의 차원 수가 된다.
  - 이는 저장 공간 측면에서는 매우 비효율적인 표현 방법이다.
2. 단어의 유사도를 표현하지 못한다는 단점이 있다.
  - 단어 간 유사성을 알 수 없다는 단점은 검색 시스템 등에서는 문제가 될 소지가 있다.

### **한계를 극복하기 위한 해결 방법**
1. 카운트 기반의 벡터화 방법인 LSA(잠재 의미 분석), HAL 등이 있다.
2. 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등이 있다.
3. 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법은 GloVe라는 방법이 존재한다.