## 자연어 처리 (Natural Language Processing) 의 소개
시계열 데이터의 핵심, 바로 **자연어 처리**에 대해서 알아보도록 하겠습니다. 지금까지는 **시계열 데이터**에 대해서 알아보았고 해당 데이터의 수치화 방법에 대해서 알아보았습니다. 자연어의 경우도 똑같이 알아보도록 하겠습니다.

### Q: 자연어 처리란?
A: 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할수 있도록 연구하는 분야 (위키피디아)

Simply.. 인간이 구사하는 언어를 컴퓨터가 이해하고 구사하게 하는 프로그램 입니다.

### Q: 언어는 어떻게 수치화 하나요?
여러가지 방법이 있습니다.

- One-hot Vector
- Word Embedding

이 대표적이라고 보면 됩니다. 하나하나 알아보도록 하겠습니다.

## One-hot Vector
현재 인간이 구사할 수 있는 단어가 다음 뿐이라고 가정해봅시다.

1. 안녕
2. 나는
3. HAI
4. 를
5. 사랑해

위와 같은 단어의 모임을 Vocabulary 라고 합니다. 흠... 그럼 다음과 같은 5개의 단어를 어떻게 하면 컴퓨터가 수학적으로 알아듣게 할까요? 이런방법이 있겠지요?

**안녕** 이라는 단어를 [1, 0, 0, 0, 0] <br>
**나는** 이라는 단어를 [0, 1, 0, 0, 0] <br>
... <br>
**사랑해** 이라는 단어를 [0, 0, 0, 0, 1] <br>
라고 표현을 해봅시다.

위와 같이 표현하면 모든 단어가 각각이 다른 행렬 (같은 말로는 벡터) 를 가지게 되겠죠? 즉, 총 알고있는 단어의 갯수가 N개 일때, (1 by N) 벡터로 단어를 표현할 수 있는 겁니다.<br>
여기서, 한 column 만 1 이고 나머지 column은 0 이라는 특징을 따 "One-hot Vector" 라고 부릅니다.

한번 One-hot Vector 를 만들어보겠습니다

In [5]:
# One-hot Vector 를 만들어주는 함수를 구현해봅시다
# Input 으로는 단어가 있는 List 를 받고
# Output 으로는 단어와 One-hot-Vector가 Mapping 된 Dictionary 를 반환합니다.

import numpy as np

def gen_one_hot(word_list):
    length = len(word_list)
    result_dict = {}
    
    for idx, word in enumerate(word_list):
        one_hot_vec = np.zeros(length)  # shape은 (length, ) 이고 값은 전부 0인 행렬(벡터)를 만듭니다
        one_hot_vec[idx] = 1  # 해당 word에 해당하는 one_hot vector를 만들었습니다.
        
        result_dict[word] = one_hot_vec
    
    return result_dict        

In [6]:
# 위에서 만든 단어의 모임을 List 형으로 구성해봅시다
cluster_of_words = ['안녕', '나는', 'HAI', '를', '사랑해']
print(cluster_of_words)

['안녕', '나는', 'HAI', '를', '사랑해']


In [7]:
# 다음 cluster_of_words의 one-hot vector를 만듭시다
dictionary = gen_one_hot(cluster_of_words)
print(dictionary)

{'안녕': array([1., 0., 0., 0., 0.]), '나는': array([0., 1., 0., 0., 0.]), 'HAI': array([0., 0., 1., 0., 0.]), '를': array([0., 0., 0., 1., 0.]), '사랑해': array([0., 0., 0., 0., 1.])}


## Word Embedding
One-hot Vector로 모든 단어를 표현할 수 있는데 왜 Word Embedding 이 필요한거죠? One-hot Vector의 downside 에 대해서 알아보겠습니다.

<b>Downside of One-hot Vector</b>
1. 단어의 수가 무수히 많아지면 Vector의 Shape 또한 무수히 커진다
2. 단어의 수가 변하면 Shape 또한 변한다
3. Boolean 값으로 나머지 값들은 낭비된다. (매우 Sparse한 vector)

**어떻게 해결할 수 있을까?** <br>
단어들을 One-hot Vector 가 아닌 실수로 이루어져있는 Vector로 표현한다. 여러가지 Non-Supervised 학습 알고리즘으로, 각 단어를 가장 잘 대표하는 실수형 벡터를 뽑아 사용한다.

여기까지 읽으면 절대 감이 안 잡힙니다. 가장 기본적이면서도 기초적인 Word2Vec 알고리즘을 돌려보겠습니다. 돌려보면서 감을 한번 잡아보세요.