### 01. NLP에서의 원-핫 인코딩
- 컴퓨터나 기계는 문자보다 숫자를 더 잘 처리할 수 있는데, 이를 위해 자연어 처리에서는 문자를 숫자로 바꾸는 여러가지 기법들이 있다.
- 단어 집합(vocabulary)
    - **서로 다른 단어들의 집합**
    - 기본적으로 book과 books와 같이 단어의 변형 형태도 다른 단어로 간주
    - 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓은 것
    - 단어 집합에 있는 단어들을 가지고, 문자를 숫자(더 구체적으로는 벡터)로 바꾸는 원-핫 인코딩을 포함한 여러 방법에 대해서 공부 
    
- 원-핫 인코딩 순서
1. 단어 집합을 만든다. 
2. 단어 집합에 고유한 숫자를 부여하는 정수 인코딩을 진행
    - ex. 텍스트에 단어가 총 5000개 존재한다면, 단어 집합의 크기는 5000
    - 이 단어 집합의 단어들마다 1번부터 5000번까지 인덱스를 부여
    - book은 150번, dog는 171번, love는 192번 등
3. 이 숫자로 바뀐 단어들을 벡터로 바꾸고 싶다면 ?

#### 1. 원-핫 인코딩이란 ?

- 원-핫 인코딩
    - 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
    - 이렇게 표현된 벡터를 원-핫 벡터라고 한다.
- 과정
    - (1) 각 단어에 고유한 인덱스를 부여한다.(정수 인코딩)
    - (2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여

In [1]:
pip install konlpy





[notice] A new release of pip available: 22.2.1 -> 22.2.2
[notice] To update, run: python.exe -m pip install --upgrade pip


1. 코엔엘파이의 Okt 형태소 분석기를 통해서 문장에 대해 토큰화 수행

In [3]:
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다.")
print(token)

['나', '는', '자연어', '처리', '를', '배운다', '.']


2. 각 토큰에 대해서 인덱스를 부여(문장이 긴 경우에는 빈도수 순대로 단어를 정렬하여 고유한 인덱스를 부여하는 작업이 사용되기도 한다.)

In [4]:
word2index = {}
for voca in token :
    if voca not in word2index.keys() : 
        word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5, '.': 6}


3. 토큰을 입력하면 해당 토큰에 대한 원-핫 벡터를 만들어내는 함수 만들기

In [14]:
def one_hot_encoding(word, word2index) : 
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

4. 해당 함수에 '자연어'라는 토큰을 입력으로 넣었더니 아래와 같은 벡터가 나왔다. 
- 자연어는 단어 집합에서 인덱스가 2이므로, 자연어를 표현하는 원-핫 벡터는 인덱스 2의 값 : 1, 나머지 : 0

In [15]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0, 0]

------------------------------------------------------------------------------------------------------------

#### 2. 원-핫 인코딩의 한계

(1) 단어의 개수가 늘어날수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점이 있다. (벡터의 차원이 계속 늘어난다고 표현)
- 원-핫 벡터는 단어 집합의 크기 = 벡터의 차원 수
    - 단어가 1000개인 코퍼스를 가지고 원-핫 벡터를 만들면, 모든 단어 각각은 모두 1000개의 차원을 가진 벡터가 된다.
    - 모든 단어 각각은 하나의 값만 1을 가지고, 999개의 값은 0의 값을 가지는 벡터가 된다.
    - 저장 공간 측면에서 매우 비효율적인 표현 방법
   

(2) 단어의 유사도를 표현하지 못한다는 단점이 있다.
- 예시
    - 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각 원-핫 벡터를 부여받았다고 하자.
    - 원-핫 벡터로는 강아지와 늑대가 유사, 호랑이와 고양이가 유사하다는 것을 표현할 수 없다.(극단적으로 강아지, 개, 냉장고라는 단어가 있을 때 강아지라는 단어와 개와 냉장고라는 단어 중 어떤 단어와 더 유사한지 알 수 없다.)
- 검색 시스템 등에서 심각한 문제이다.
    - 웹 검색창에 '삿포로 숙소'라는 단어를 검색
    - 제대로 된 검색 시스템이라면, '삿포로 숙소'라는 검색어에 대해서 '삿포로 게스트 하우스', '삿포로 료칸', '삿포로 호텔'과 같은 유사 단어에 대한 결과도 함께 보여줄 수 있어야 한다.
    - 단어간 유사성을 계산할 수 없다면, '게스트 하우스'와 '료칸'과 '호텔'이라는 연관 검색어를 보여줄 수 없다. 