<a href="https://colab.research.google.com/github/limkaram/Natural_language_processing_with_deep_learning/blob/main/One_Hot_Encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 원-핫 인코딩(One-Hot Encoding)

* vocabulary(단어 집합) : 서로 다른 단어들의 집합
* books와 book을 서로 다른 단어로 간주함
* 텍스트 내의 모든 단어를 중복을 허용하지 않고 모아놓은 것을 vocabulary라고 함
* one hot encoding 과정
    - 각 단어에 고유한 인덱스 부여
    - 표현하고 싶은 단어 인덱스 1부여 다른 단어의 인덱스 위치 0부여

1. 직접 One-Hot Encoding 구현

In [None]:
!pip install konlpy

In [None]:
from konlpy.tag import Okt

okt = Okt()
token = okt.morphs('나는 자연어 처리를 배운다')
token

In [None]:
# Integer Encoding
word2index = {}

for voca in token:
    if voca not in word2index:
        word2index[voca] = len(word2index)
word2index

In [None]:
# one-hot encoding definition

def one_hot_encoding(word, word2index):  # word(token)을 입력하면, one-hot encoding 결과를 주는 함수
    one_hot_vector = [0] * len(word2index)
    one_hot_vector[word2index[word]] = 1
    return one_hot_vector

one_hot_encoding('자연어', word2index)

2. keras 활용 one-hot encoding

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])  # git_on_texs 입력은 리스트로

sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
encoded

In [None]:
one_hot = to_categorical(encoded)
one_hot

* 원-핫 인코딩은 단어 개수가 늘어날 수록 벡터를 저장하기 위해 필요한 공간이 계속 늘어나는 단점 존재(벡터 차원이 계속 증가)
* 원-핫 벡터는 단어 집합의 크기가 곧 벡터의 차원수
* 단어간 유사도를 표현하지 못함
* 해결 방안으로 단어간 잠재 의미를 반영하여 다차원 공간에서 벡터화하는 기법이 등장
    - 카운트 기반 벡터화 : LSA, HAL
    - 예측 기반 벡터화 : NNLM, RNNLM, Word2Vec, FastText
    - 카운트 + 예측 기반 : GloVe