# 튜토리얼 목차
1. 자연어 처리란?
2. NLP Preprocessing
3. Vectorization
4. Embedding

## 5. Modeling <<
<br>

***

# Modeling 
- 현재 Machine Learning에서 주로 사용되고 있는 SVM, RF, Boosting Machine을 활용하여 간단한 NLP 태스크는 해결할 수 있지만, 복잡한 문제를 해결하는 데는 한계가 있다. 따라서 기본적으로 네트워크 모델을 이용해 NLP 문제를 해결하는 것이 일반적이다.
<br>

- 이번 문서에서는 NLP 문제를 해결하기 위해 주로 쓰이는 RNN과 Layer들의 간단한 구조를 소개한다. 

## 1. RNN
- 다음의 문장을 통해 우리가 문장을 이해하는 방식에 대해 생각해보자.<br>

"난 오늘 스파게티를 먹었는데 그것은 매우 맛있었어"<br>

- 이 때 "그것"은 무엇을 의미하며 우리는 어떻게 이게 스파게티인 것을 알 수 있을까? 의식하지 못하지만 우리의 뇌는 문장을 읽어가면서 그 동안 읽은 정보들을 활용하여 문장을 이해한다. 따라서 t시점의 단어를 온전히 이해하기 위해서는 t-1번째까지의 정보를 알고 있어야 한다. 일반적인 ML 모델이 NLP에 좋지 못한 성능을 보이는 것은 이러한 이유 때문이다. <br>

그렇다면 RNN 구조가 왜 자연어 처리에 많이 이용되는지 살펴보도록 하자. 
![image.png](attachment:image.png)
- 그림에서 보면 x1에 대한 출력이 위쪽 화살표와 아래쪽 화살표 두 개인 것을 확인할 수 있다. 즉, x1에 대한 정보가 h1이라는 출력뿐 아니라 다음 x2에 대한 정보와 같이 입력되는 구조이다. 
<br>

- 이 때 A에 해당하는 부분에 LSTM과 GRU 등을 적용하게 된다. 구조에서 보다시피 RNN은 순차적인 구조이고, 이 특징 때문에 연산에 많은 시간이 걸리며 네트워크의 고질적인 문제인 역전파 소실 문제가 발생한다. 

## 2. LSTM
- 이제 LSTM이 RNN 구조에서 특정 시점의 정보를 다음 시점으로 전달할 때 얼만큼의 정보를 전달할지 결정하는 역할을 한다는 것을 유추해볼 수 있다.
- LSTM의 가장 큰 특징은 기존 RNN에 cell state를 추가한 것이다. 이 cell state는 입력들의 정보를 선별하여 다음 출력으로 내보내는 게이트 역할을 한다. 이 과정을 통해 불필요한 정보들을 걸러내어 매끄러운 진행이 가능하고 이로 인해 역전파 소실 문제를 줄여 성능이 증가하게 된다. LSTM은 상당히 복잡한 구조로 수식과 자세한 내용을 학습하고 싶을 경우 [여기](https://ratsgo.github.io/natural%20language%20processing/2017/03/09/rnnlstm/)를 참고하면 좋다.

***

## 3. GRU
- GRU는 LSTM의 복잡한 구조를 보다 간결하게 보완한 모델이다. LSTM의 장점을 가져오면서 속도적인 부분을 개선하여 더욱 빠른 속도로 비슷한 성능을 낸다고 알려져 있다.  
***

## 4. Attention
- attention 매커니즘은 RNN 모델의 구조적인 한계를 극복한 모델이다. RNN 모델을 활용하여 다음에 올 단어들을 예측하여 문장을 만드는 문제에 대해 생각해보자. 다음 단어를 예측할 때 입력으로 받는 정보는 과연 무엇일까?
- 답은 지금까지 입력으로 집어넣었던 정보 모두와 예측 이전 단어이다. 이런 경우 발생하는 문제점은 크게 다음의 두 가지이다. 

1. 입력으로 이용된 정보들을 순차적으로 고정 길이로 압축하면서 발생하는 정보 손실
2. 역전파 소실

- attention 매커니즘은 이러한 문제를 해결하기 위해 노력했고 다음과 같은 효과를 얻을 수 있다. 
![image.png](attachment:image.png)
- 예시의 문장에서 "그것은"이 무엇을 가리키는지 찾기 위해 attention을 이용하면 어떤 토큰의 정보가 가장 큰 도움을 줬는지 알 수 있다. 이것은 매우 직관적으로 축약한 내용이며, 자세한 내용은 [여기](http://blog.naver.com/PostView.nhn?blogId=ckdgus1433&logNo=221608376139&parentCategoryNo=&categoryNo=12&viewDate=&isShowPopularPosts=true&from=search)를 참고하여 꼭 학습하기를 바란다. 
- attention 매커니즘은 뒤이어 나온 자연어 처리의 세기적 발견인 Transformer(attention is all you need)의 핵심 알고리즘이며 이 둘에 대한 이해가 바탕이 되어야 다양한 문제에서 SOTA를 자랑하는 ELMO, BERT, GPT 등의 방법론들을 이해할 수 있다.

***

## 5. 대회 적용
- 지금부터는 앞서 다루었던 노트북들의 내용을 종합하여 이번 대회에 적용 가능한 코드를 만들어 보자. 데이터 로드 다음 단계부터 적용하면 된다. 

### 간단한 전처리 + 형태소 분석

In [None]:
def text_preprocessing(text_list):
    
    stopwords=['을', '를', '이', '가', '은', '는', 'null']
    tokenizer=Okt()
    
    for text in tqdm.tqdm(text_list):
        txt=re.sub('[^가-힣a-z]', '', text.lower())
        token=tokenizer.morphs(txt)
        token=[t for t in token if t not in stopwords or type(t)!=float]
        
    return token, tokenizer

train['token'], okt=text_preprocessing(train['content'])

### vectorization

In [None]:
def text2sequence(train_text, max_len=1000):
    tokenizer=Tokenizer()
    tokenizer.fit_on_texts(train_text)
    train_X_seq = tokenizer.texts_to_sequences(train_text)
    vocab_size=len(tokenizer.word_index)+1
    print('vocab_size :', vocab_size)
    X_train=pad_sequences(train_X_seq, maxlen=max_len)
    return X_train, vocab_size, tokenizer

train_y=train['info']
train_X, vocab_size, vectorizer=text2sequence(train['token'], max_len=100)
print(train_X.shape, train_y.shape)

### Embedding

In [None]:
word2vec = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True)
embedding_matrix=np.zeros((vocab_size, 300))

for index, word in enumerate(vocabulary):
    if word in word2vec:
        embedding_vector=word2vec[word]
        embedding_matrix[i]=embedding_vector
    else:
        print('word2vec에 없는 단어입니다.')
        break

### Modeling

In [None]:
def LSTM(vocab_size, max_len=1000):
    model=Sequential()
    model.add(Embedding(vocab_size, 300, weights=[embedding_matrix], input_length=max_len)) # 임베딩 가중치 적용 코드
    model.add(SpatialDropout1D(0.3))
    model.add(LSTM(64))
    model.add(Dropout(0.5))
    model.add(Dense(64, activation='relu', kernel_regularizer=regularizers.l2(0.001)))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics='accuracy')
    model.summary()
    return model

## 번외) test
- 이번 노트북에서 이용했던 기본적인 방법들을 제대로 사용했다면 테스트 시 고려해야 할 부분들이 있다. 
    1. train에 사용했던 형태소 분석기를 객체로 저장해 test에도 사용해야 한다. 
    2. train에 사용했던 vectorizer를 객체로 저장하여 test에도 이용해야 한다.
    3. train에 사용했던 Embedding matrix를 객체로 저장하여 test에도 이용해야 한다.
    
    ***