# Keras

## Keras Tokenize & Preprocessing

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer()
train_text = "The earth is an awesome place to live"

# 단어 집합 생성
tokenizer.fit_on_texts([train_text])

# 정수 인코딩
sub_text = "The earth is an great place live"
sequences = tokenizer.texts_to_sequences([sub_text])[0]

print("정수인코딩 : ", sequences)
print("단어 집합 : ", tokenizer.word_index) # great 은 train text에 없으므로 출력되지 않음

정수인코딩 :  [1, 2, 3, 4, 6, 8]
단어 집합 :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'to': 7, 'live': 8}


### Padding

<br>

- 각 샘플의 길이를 동일하게 맞추어주는 과정이다.
- 보통 숫자 0을 넣어 길이가 다른 샘플들의 길이를 맞추어준다.
- Keras 에서는 pad_sequences 를 사용한다.
- 이는 정해준 길이 (maxlen)보다 길이가 긴 샘플은 값을 일부 자르고, 정해준 길이보다 길이가 짧은 샘플은 0으로 채운다. 

<br>

- 첫 번째 인자 : 패딩시킬 데이터
- maxlen : 자를 길이. 정규화할 길이
- padding = 'pre' 를 선택하면 앞에 0을 채우고, 'post' 를 선택하면 뒤에 0을 채운다.

In [2]:
pad_sequences([[1,2,3],[3,4,5,6],[7,8]], maxlen = 3, padding = 'pre')

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

## Word Embedding

<br>

- 단어를 밀집 벡터로 만드는 것

In [4]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()
model.add(Dense(8, input_dim=4, activation='relu'))
model.add(Dense(1, activation='sigmoid')) # 출력층

In [5]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 8)                 40        
                                                                 
 dense_1 (Dense)             (None, 1)                 9         
                                                                 
Total params: 49
Trainable params: 49
Non-trainable params: 0
_________________________________________________________________


In [6]:
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.models import Sequential

vocab_size = 10000
embedding_dim = 32
hidden_units = 32

model = Sequential()
model.add(Embedding(vocab_size, embedding_dim))
model.add(SimpleRNN(hidden_units))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])