# 8-6 케라스(Keras) 훑어보기

## 1. 전처리(Preprocessing)

In [8]:
# Tokenizer(): 토큰화와 정수 인코딩(단어에 대한 인덱싱)을 위해 사용.
from tensorflow.keras.preprocessing.text import Tokenizer

t = Tokenizer()
fit_text = "The earth is an awesome place live"
t.fit_on_texts([fit_text])

test_text = "The earth is an great place live"
sequences = t.texts_to_sequences([test_text])[0]

print("sequences: ", sequences) # great는 단어 집합에 없으므로 출력되지 않음
print("word_index: ", t.word_index) # 단어 집합 출력

sequences:  [1, 2, 3, 4, 6, 7]
word_index:  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


In [10]:
# pad_sequences(): 패딩; 정해준 길이보다 길이가 길면 일부를 자르고, 짧으면 값을 0으로 채움
from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences([[1,2,3],[3,4,5,6],[7,8]], maxlen=3, padding='pre') #post면 뒤에 패딩

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]], dtype=int32)

## 2. 워드 임베딩(Word Embedding)
단어를 밀집 벡터로 만드는 작업. (밀집벡터: 대부분의 값이 실수이고, 상대적으로 저차원)

In [1]:
# Embedding(): 단어를 밀집 벡터로 만듦. 정수 인코딩이 된 단어들을 입력을 받아 임베딩을 수행.
# 입력: 2D 정수 텐서 (number of samples, input_length) 
# 출력: 3D 텐서 (number of samples, input_length, embedding word dimensionality)

## 3. 모델링(Modeling)

In [2]:
# Sequential(): Sequential()을 model로 선언한 뒤, model.add()로 인공신경망 층을 단계적으로 추가.
from tensorflow.keras.models import Sequential

model = Sequential()
model.add(...) # 층추가
model.add(...) # 층추가
model.add(...) # 층추가

In [4]:
from tensorflow.keras.layers import Embedding

model = Sequential()
model.add(Embedding(vocabulary, out_dim, input_length))

In [5]:
# Dense(): 전결합층(Fully-connected layer) 추가.
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()
model.add(Dense(1, input_dim=3, activation='relu'))

## 4. 컴파일(Compile)과 훈련(Training)

In [7]:
# compile(): 모델을 기계가 이해할 수 있도록 컴파일. 오차 함수, 최적화 방법, 매트릭 함수 선택 가능.
from tensorflow.keras.layers import SimpleRNN, Embedding, Dense
from tensorflow.keras.models import Sequential
max_features = 10000

model = Sequential()
model.add(Embedding(max_features, 32))
model.add(SimpleRNN(32))
model.add(Dense(1, activation='sigmoid'))
model.add(compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']))

In [None]:
'''
    회귀 문제(Regression): mse
    다중 클래스 분류(multi-class): categorical_crossentropy & softmax
    다중 클래스 분류(multi-class): sparse_categorical_crossentropy & softmax (정수 인코딩 상태에서 수행 가능)
    이진 분류(binary): binary_crossentropy & sigmoid
'''

In [None]:
# fit(): 모델 학습. 모델이 오차로부터 매개 변수를 업데이트 시키는 과정. 
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_data(x_val, y_val), verbose=1)
'''
    verbose = 학습 중 출력되는 문구
    0: 출력X
    1: 훈련의 진행도를 보여주는 진행 막대 출력
    2: 미니 배치마다의 손실 정보 출력
'''

## 5. 평가(Evaluation)와 예측(Prediction)

In [8]:
# evaluate(): 테스트 데이터를 통해 학습한 모델에 대한 정확도 평가.
model.evaluate(X_test, y_test, batch_size=32)

In [None]:
# predict(): 임의의 입력에 대한 모델의 출력값 확인
model.predict(X_input, batch_size=32)

## 6. 모델의 저장(Save)과 로드(load)

In [None]:
# save(): 인공 신경망 모델을 hdf5 파일에 저장
model.save('model_name.h5')

In [None]:
# load_model(): 저장해둔 모델 로드
from tensorflow.keras.models import load_model
model = load_model('model_name.h5')