# 1. Preprocessing
**Tokenizer()**: 토큰화와 정수 인코딩

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
t = Tokenizer()
fit_text = "The earth is an awesome place live"
t.fit_on_texts([fit_text])

test_text = "The earth is an great place live"
sequences = t.texts_to_sequences([test_text])[0]

print("sequences: ", sequences)
print("word_index: ", t.word_index)

sequences:  [1, 2, 3, 4, 6, 7]
word_index:  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


**pad_sequences()**: 패딩

In [2]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

pad_sequences([ [1,2,3], [3,4,5,6], [7,8] ], maxlen=3, padding='pre')

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

# 2. Word Embedding
**Embedding()**: 텍스트 내 단어를 밀집 벡터로 변형   
임베딩 벡터는 초기에 랜덤값이나 학습되며 변경됨   

<null>|원-핫 벡터|임베딩 벡터
:--|:--|:--
차원|고차원|저차원
다른 표현|희소 벡터|밀집 벡터
표현 방법|수동|훈련 데이터로부터 학습
값 타입|1과 0|실수

# 3. Modeling
**Sequential()**: 입력층, 은닉층, 출력층 구성

In [3]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()
model.add(Dense(8, input_dim=4, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

**summary()**: 모델 요약 정보 출력

In [4]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 8)                 40        
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 9         
Total params: 49
Trainable params: 49
Non-trainable params: 0
_________________________________________________________________


# 4. Compile and Training
**compile()**: 기계의 모델 이해

In [5]:
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.models import Sequential
max_features = 10000

model = Sequential()
model.add(Embedding(max_features, 32))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])

문제 유형|손실 함수명|출력층 활성화 함수명|설명
:-:|:-:|:-:|:-:
회귀|mean_squared_error|<null>|<null>
이진 분류|binary_crossentropy|sigmoid|<null>
다중 클래스 분류|categorical_crossentropy|softmax|원-핫 인코딩 상태에서 수행
다중 클래스 분류|sparse_categorical_crossentropy|softmax|정수 인코딩 상태에서 수행 가능
    
**fit()**: 매개변수 업데이트

In [6]:
# model.fit(X_train, y_train, epochs=10, batch_size=32, verbose=0, validation_data=(X_val, y_val))

# 5. Evaluation and Prediction
**evaluate()**: 모델 정확도 평가

In [7]:
# model.evaluate(X_test, y_test, batch_size=32)

**predict()**: 입력 모델 예측

In [8]:
# model.predict(X_input, batch_size=32)

# 6. Save and Load
**save()**: 모델을 hdf5 파일에 저장

In [9]:
# model.save("model_name.h5")

**load_model()**: 저장한 모델 불러옴

In [10]:
from tensorflow.keras.models import load_model
# model = load_model("model_name.h5")