# 1. 전처리(Preprocessing)
**Tokenizer()**: 토큰화와 정수 인코딩

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
t = Tokenizer()
fit_text = "The earth is an awesome place live"
t.fit_on_texts([fit_text])

test_text = "The earth is an great place live"
sequences = t.texts_to_sequences([test_text])[0]

print("sequences: ", sequences)
print("word_index: ", t.word_index)

sequences:  [1, 2, 3, 4, 6, 7]
word_index:  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


**pad_sequence()**: 샘플 길이를 동일하게 맞추는 패딩

In [2]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
# 인자로 패딩할 데이터, 정규화 길이, 0을 어디 채울지 선택
pad_sequences([ [1,2,3], [3,4,5,6], [7,8] ], maxlen=3, padding='pre')

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

# 2. 워드 임베딩(Word Embedding)
**Embedding()**: 정수 인코딩된 단어를 임베딩 벡터(밀집 벡터)로 만듦   
임베딩 벡터는 초기에 랜덤값이나 값이 학습되며 변경됨   
인자로 단어 집합 크기, 임베딩 벡터 출력 차원, 입력 시퀀스 길이를 받음

<null>|원-핫 벡터|임베딩 벡터
:--|:--|:--
차원|고차원|저차원
다른 표현|희소 벡터|밀집 벡터
표현 방법|수동|훈련 데이터로부터 학습
값 타입|1과 0|실수

# 3. 모델링(Modeling)
**Sequential()**: 입력층, 은닉층, 출력층을 구성

In [3]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
model = Sequential()
# 인자로 출력 뉴런 수, 입력 뉴런 수, 활성화 함수 선택
model.add(Dense(1, input_dim=3, activation='relu'))

In [4]:
model = Sequential()
model.add(Dense(8, input_dim=4, activation='relu'))
model.add(Dense(1, activation='sigmoid'))

**summary()**: 모델 정보를 요약해 출력

In [5]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_1 (Dense)              (None, 8)                 40        
_________________________________________________________________
dense_2 (Dense)              (None, 1)                 9         
Total params: 49
Trainable params: 49
Non-trainable params: 0
_________________________________________________________________


# 4. 컴파일(Compile)과 훈련(Training)
**compile()**: 기계가 모델을 이해하도록 함

In [6]:
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.models import Sequential
max_features = 10000

model = Sequential()
model.add(Embedding(max_features, 32))
model.add(SimpleRNN(32))
model.add(Dense(1, activation='sigmoid'))
# 인자로 최적화 방법, 손실 함수, 메트릭 함수 선택
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])

문제 유형|손실 함수명|출력층의 활성화 함수명|참고 설명
:--|:--|:--|:--
회귀|mean_squared_error|<null>|<null>
이진 분류|binary_crossentropy|sigmoid|<null>
다중 클래스 분류|categorical_crossentropy|softmax|원-핫 인코딩 상태에서 수행
다중 클래스 분류|sparse_categorical_crossentropy|softmax|정수 인코딩 상태에서 수행 가능
    
**fit()**: 모델을 학습하며 오차로부터 매개변수를 업데이트

In [7]:
# 인자로 훈련/레이블 데이터, 에포크, 배치 크기, 학습 중 출력 도구, 검증 데이터 선택
# model.fit(X_train, y_train, epochs=10, batch_size=32, verbose=0, validation_data=(X_val, y_val))

# 5. 평가(Evaluation)과 예측(Prediction)
**evaluate()**: 테스트 데이터로 모델 정확도 평가

In [8]:
# 인자로 테스트/레이블 데이터, 배치 크기 선택
# model.evaluate(X_test, y_test, batch_size=32)

**predict()**: 임의 입력에 대한 모델 출력값 확인

In [9]:
# 인자로 예측할 데이터, 배치 크기 선택
# model.predict(X_input, batch_size=32)

# 6. 모델 저장(Save)과 로드(Load)
**save()**: 인공 신경망 모델을 hdf5 파일에 저장

In [10]:
# model.save("model_name.h5")

**load_model()**: 저장한 모델을 불러옴

In [11]:
from tensorflow.keras.models import load_model
# model = load_model("model_name.h5")