<a href="https://colab.research.google.com/github/hdpark1208/StudyCode/blob/main/NLP/NLP_Keras(8_6).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Preprocessing

In [None]:
# Tokenizer()
from tensorflow.keras.preprocessing.text import Tokenizer
t = Tokenizer()
fit_text = "The earth is an awesome place live"
t.fit_on_texts([fit_text])

test_text = "The earth is an great place live"
sequences = t.texts_to_sequences([test_text])[0]

print('sequences : ',sequences) # great는 단어 집합(vocabulary)에 없으므로 출력 X
print("word_index : ",t.word_index) # 단어 집합 출력

sequences :  [1, 2, 3, 4, 6, 7]
word_index :  {'the': 1, 'earth': 2, 'is': 3, 'an': 4, 'awesome': 5, 'place': 6, 'live': 7}


In [None]:
# Padding : 샘플의 길이를 동일하게 맞춰줌
from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences([[1,2,3],[3,4,5,6,],[7,8]],maxlen=3,padding='pre')

array([[1, 2, 3],
       [4, 5, 6],
       [0, 7, 8]])

### Embedding
정수 인코딩이 된 단어들을 입력받아 밀집 벡터로 만든다  
 문장 토큰화와 단어 토큰화  
text=[['Hope', 'to', 'see', 'you', 'soon'],['Nice', 'to', 'see', 'you', 'again']]  

 각 단어에 대한 정수 인코딩  
text=[[0, 1, 2, 3, 4],[5, 1, 2, 3, 6]]  

 위 데이터가 아래의 임베딩 층의 입력이 된다.  
Embedding(7, 2, input_length=5)  
 7은 단어의 개수. 즉, 단어 집합(vocabulary)의 크기이다.  
 2는 임베딩한 후의 벡터의 크기이다.  
 5는 각 입력 시퀀스의 길이. 즉, input_length이다.  

 각 정수는 아래의 테이블의 인덱스로 사용되며 Embeddig()은 각 단어에 대해 임베딩 벡터를 리턴한다.  
+------------+------------+  
|   index    | embedding  |  
+------------+------------+  
|     0      | [1.2, 3.1] |  
|     1      | [0.1, 4.2] |  
|     2      | [1.0, 3.1] |  
|     3      | [0.3, 2.1] |  
|     4      | [2.2, 1.4] |  
|     5      | [0.7, 1.7] |  
|     6      | [4.1, 2.0] |  
+------------+------------+  
 위의 표는 임베딩 벡터가 된 결과를 예로서 정리한 것이고 Embedding()의 출력인 3D 텐서를 보여주는 것이 아님.  
* 첫번째 인자 = 단어 집합의 크기. 즉, 총 단어의 개수  
* 두번째 인자 = 임베딩 벡터의 출력 차원. 결과로서 나오는 임베딩 벡터의 크기  
* input_length = 입력 시퀀스의 길이  

## Modeling

Sequential() : 인공 신경망 챕터에서 입력층, 은닉층, 출력층에 대해서 배웠습니다. 케라스에서는 이러한 층을 구성하기 위해 Sequential()을 사용합니다. Sequential()을 model로 선언한 뒤에 model.add()라는 코드를 통해 층을 단계적으로 추가합니다. 아래는 model.add()로 층을 추가하는 예제 코드를 보여줍니다. 실제로는 괄호 사이에 있는 온점 대신에 실제 층의 이름을 기재해야 합니다.

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
model = Sequential()
model.add(Dense(1, input_dim=3, activation='relu'))

위의 코드에서 Dense()는 한번 사용되었지만 더 많은 층을 추가할 수 있습니다. Dense()의 대표적인 인자를 보겠습니다.

첫번째 인자 = 출력 뉴런의 수.  
input_dim = 입력 뉴런의 수. (입력의 차원)  
activation = 활성화 함수.  

![image.png](attachment:image.png)

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
model = Sequential()
model.add(Dense(8, input_dim=4, activation='relu'))
model.add(Dense(1, activation='sigmoid')) # 출력층

![image.png](attachment:image.png)

In [None]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_3 (Dense)              (None, 8)                 40        
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 9         
Total params: 49
Trainable params: 49
Non-trainable params: 0
_________________________________________________________________


## Compile & Training

In [None]:
model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])

optimizer : 훈련 과정을 설정하는 옵티마이저를 설정합니다. 'adam'이나 'sgd'와 같이 문자열로 지정할 수도 있습니다.  
loss : 훈련 과정에서 사용할 손실 함수(loss function)를 설정합니다.  
metrics : 훈련을 모니터링하기 위한 지표를 선택합니다.  

In [None]:
model.fit(X_train, y_train, epochs=10, batch_size=32)

첫번째 인자 = 훈련 데이터에 해당됩니다.  
두번째 인자 = 지도 학습에서 레이블 데이터에 해당됩니다.  
epochs = 에포크. 에포크 1은 전체 데이터를 한 차례 훑고 지나갔음을 의미함. 정수값 기재 필요. 총 훈련 횟수를 정의합니다.  
batch_size = 배치 크기. 기본값은 32. 미니 배치 경사 하강법을 사용하고 싶지 않을 경우에는 batch_size=None을 기재합니다.  

## Evaluation & Prediction

* evaluate() : 테스트 데이터를 통해 학습한 모델에 대한 정확도를 평가합니다  
첫번째 인자 = 테스트 데이터에 해당됩니다.  
두번째 인자 = 지도 학습에서 레이블 테스트 데이터에 해당됩니다.  
batch_size = 배치 크기.  

In [None]:
model.evaluate(X_test, y_test, batch_size=32)

* predict() : 임의의 입력에 대한 모델의 출력값을 확인합니다  
첫번째 인자 = 예측하고자 하는 데이터   
batch_size = 배치 크기  

In [None]:
model.predict(X_input,batch_size=32)

## Save & Load

* save() : 인공 신경망 모델을 hdf5 파일에 저장합니다

In [None]:
model.save("model_name.h5")

* load_model() : 저장해둔 모델을 불러옵니다

In [None]:
from tensorflow.keras.models import load_model
model = load_model('model_name.h5')

8. 07)~