# 딥 러닝을 이용한 자연어 처리 입문

https://wikidocs.net/22660

## 08. NLP를 위한 딥 러닝 개요


### 08-3 Keras 훑어보기

손쉽게 딥러닝을 구현할 수 있도록 하는 상위 레벨 interface

참고 : https://keras.io/

### 1. 전처리(Preprocessing)

    Tokenizer(): 토큰화와 정수 인코딩에 사용

In [23]:
from keras.preprocessing.text import Tokenizer

t = Tokenizer()

fit_text= "The earth is an awsome place live"
fit_text2= "Rabbits lives in the Moon"

# 여러 문장의 토큰화 된 단어를 기준으로 단어집합을 만든다.
t.fit_on_texts([fit_text,fit_text2])

test_text = "The earth is an great place live"

# 만들어진 단어집합의 인덱스를 참고하여 해당 단어의 인덱스 출력
sequences = t.texts_to_sequences([test_text])[0]

print('sequences : ', sequences, '\n') # great는 단어집합에 없으므로 출력 X
print('word index : ', t.word_index)

sequences :  [1, 2, 3, 4, 6, 7] 

word index :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awsome': 5, 'place': 6, 'live': 7, 'rabbits': 8, 'lives': 9, 'in': 10, 'moon': 11}


In [26]:
import numpy as np

    pad_sequence([각 문장의 토큰 리스트], maxlen = ) : 모델의 입력으로 사용 시 길이를 맞추어야 한다.
    
정해준 길이에 대해 모든 데이터를 같은 길이로 반환

In [4]:
from keras.preprocessing.sequence import pad_sequences

# 짧은 것은 0으로 채워 padding해준다.
# 긴 것은 뒷부분을 선택해준다.

# 정수 인코딩이 끝났다고 가정하고 실행
pad_sequences([[1,2,3],[3,4,5,6],[7,8]], maxlen = 3)

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

### 2. 워드 임베딩(Word Embedding)

기계가 텍스트를 숫자로 인식할 수 있도록 밀집벡터(Dense Vector)로 만들어주는 것

    Embedding(단어 집합의 크기, 임베딩 된 출력 벡터 차원, input_length = 입력 시퀀스의 길이) : 밀집벡터로 만드는 역할
    
신경망 구조적 관점에서 임베딩 층(Embedding layer) 를 만든다.

정수로 인코딩 된 벡터를 임베딩 벡터로 만들어준다.

단어의 의미(semantics)까지 벡터화하지는 못하지만,

입력 벡터로 사용하기 위해 빠르게 밀집 벡터 형태로 만들어줍니다.

In [6]:
from keras.layers import Embedding
from keras.preprocessing.text import Tokenizer

In [16]:
text=[['Hope', 'to', 'see', 'you', 'soon'],['Nice', 'to', 'see', 'you', 'again']]

text_tok = Tokenizer()
text_tok.fit_on_texts(text)

print('vocabulary set :', text_tok.word_index)
# 정수 인코딩 된 벡터
text_tok_encode = text_tok.texts_to_sequences(text)


# 워드 임베딩 실행
# Embedding(단어 집합 크기, 임베딩할 벡터 길이, input 벡터 길이)
Embedding(len(text_tok.word_index), 2, input_length = 5)

vocabulary set : {'to': 1, 'see': 2, 'you': 3, 'hope': 4, 'soon': 5, 'nice': 6, 'again': 7}


<keras.layers.embeddings.Embedding at 0x1289cf8a358>

### 3. 모델링(Modeling)

    Sequential() : 층을 구성하는 함수
    
    Sequential객체.add(층) : 해당 모델에 층을 추가한다.

In [18]:
from keras.models import Sequential

model = Sequential()
model.add(Embedding(len(text_tok.word_index), 2, input_length = 5))# embedding층을 추가한다.

    Dense() : 일반적인 층을 만드는 함수, 인자(몇개의 node, 활성화 함수 등등..)
    
인자
- 첫번째 : 출력 노드 수
- input_dim : 입력 노드 수
- init : 가중치 초기화 방법
- activation : 활성화 함수

In [20]:
from keras.models import Sequential
from keras.layers import Dense

model = Sequential()
model.add(Dense(1, input_dim = 3, init = 'uniform', activation ='relu'))

  """


In [21]:
model = Sequential()
model.add(Dense(8, input_dim = 4, init = 'uniform', activation = 'relu'))
model.add(Dense(1, activation = 'sigmoid'))

# 첫번째 층 이후에 다음 층 추가
# 즉, 첫번째 층은 더이상, 출력층이 아니다

# 두번째 층 Dense 함수에서 input_dim 선언을 하지 않아도 된다.
## 그 이전층에서 출력 node의 수로 dimension 을 알 수 있기 때문

  


### 4. 컴파일(Compile)과 훈련(Training)

    compile() : 모델링한 모델을 컴퓨터가 이해할 수 있도록

인자
- 오차함수
- 최적화 방법
- 모델 수행 결과를 매트릭스 함수

In [22]:
from keras.layers import SimpleRNN, Embedding, Dense
from keras.models import Sequential

max_features = 10000

model = Sequential()
model.add(Embedding(max_features, 32)) # 32차원으로 word embedding
model.add(SimpleRNN(32))
model.add(Dense(1, activation = 'sigmoid')) # 출력층 노드는 1개, 즉 출력값 1개

#컴파일
model.compile(optimizer = 'rmsprop', loss='binary_crossentropy', metrics = ['acc'])

    fit() : 모델을 실제로 수행