# III. 영어 스팸 문자 데이터 딥러닝 트레이닝과 추론

---
### 1) 데이터 로드 : dataframe (pandas module 사용)  
전처리 해서 저장한 데이터 로드

In [None]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning) # 경고 메시지 안보이게 설정

import gc
gc.collect() # garbage collector : 메모리 관리

In [None]:
import os
import pickle

---
전역 변수 중 일부(디렉토리 이름과 파일 이름 등)는 대문자로  
나머지 변수는 소문자로

In [None]:
DATA_DIR = 'data'
PROCESSED_DATA_DIR = os.path.join(DATA_DIR, 'processed')

PROCESSED_DATA_FILE = "train_padded.p"
PROCESSED_LABEL_FILE = "train_label.p"

PROCESSED_DATA_PATH = os.path.join(PROCESSED_DATA_DIR, PROCESSED_DATA_FILE)
PROCESSED_LABEL_PATH = os.path.join(PROCESSED_DATA_DIR, PROCESSED_LABEL_FILE)

In [None]:
with open(PROCESSED_DATA_PATH, "rb" ) as file:
    train_padded = pickle.load(file)
with open(PROCESSED_LABEL_PATH, "rb" ) as file:
    train_y = pickle.load(file)    

In [None]:
#data 확인, np array는 .head() 메서드가 없다.
train_padded[:5]

In [None]:
train_padded.shape

---
### 2) 모델 만들기와 트레이닝

In [None]:
train_X = train_padded
train_Y = train_y

In [None]:
# json file로 저장된 tokenizer를 읽어서 num_workds 값을 얻는다. 이 값은 vocab_size로 사용한다.

TOKENIZED_FILE = 'tokenized.json'
TOKENIZED_PATH = os.path.join(DATA_DIR, TOKENIZED_FILE)

import json
from tensorflow.keras.preprocessing.text import tokenizer_from_json

with open(TOKENIZED_PATH) as f:
    data = json.load(f)
    tokenizer = tokenizer_from_json(data)

In [None]:
vocab_size = tokenizer.get_config()['num_words']

In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding

In [None]:
max_len = 20

In [None]:
model = Sequential()
model.add(Embedding(vocab_size, 100, input_length=max_len))
model.add(LSTM(128))
model.add(Dense(1, activation='sigmoid'))

In [None]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['acc'])

In [None]:
model.summary()

In [None]:
MODEL_DIR = 'model'
os.makedirs(MODEL_DIR, exist_ok=True)

In [None]:
MODEL_SUMMARY_FILE = "sms_spam_model.png"
MODEL_SUMMARY_PATH = os.path.join(MODEL_DIR, MODEL_SUMMARY_FILE)

from tensorflow.keras.utils import plot_model
# tf.keras.utils.plot_model(model, to_file = model_dir + 'cifar10_cnn_model.png', show_shapes=True)
plot_model(model, to_file = MODEL_SUMMARY_PATH, show_shapes=True)

In [None]:
history = model.fit(train_X, train_Y, batch_size=32, epochs=5, validation_split=0.1)

In [None]:
print(history.history.keys())

In [None]:
import matplotlib.pyplot as plt

In [None]:
# loss 측정값의 시각화 입니다.  

loss = history.history['loss']
val_loss = history.history['val_loss']
epochs = range(1,len(loss)+1)

plt.plot(epochs,loss,label='Training Loss')
plt.plot(epochs,val_loss,label='Validation Loss')
plt.title('Training and Validation Loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()

In [None]:
# accuracy 측정값의 시각화 입니다.  

acc = history.history['acc']
val_acc = history.history['val_acc']
epochs = range(1,len(loss)+1)
plt.plot(epochs,acc,label='Training Accuarcy')
plt.plot(epochs,val_acc,label='Validation Accuarcy')
plt.title('Training and Validation Accuarcy')
plt.xlabel('Epochs')
plt.ylabel('Accuarcy')
plt.legend()

plt.show()

---
### 10) 테스트 ; 추론(Inference)

#### (가) 데스트 데이터로 평가

In [None]:
PROCESSED_TEST_DATA_FILE = "test_padded.p"
PROCESSED_TEST_LABEL_FILE = "test_label.p"

PROCESSED_TEST_DATA_PATH = os.path.join(PROCESSED_DATA_DIR, PROCESSED_TEST_DATA_FILE)
PROCESSED_TEST_LABEL_PATH = os.path.join(PROCESSED_DATA_DIR, PROCESSED_TEST_LABEL_FILE)

In [None]:
with open(PROCESSED_TEST_DATA_PATH, "rb" ) as file:
    test_padded = pickle.load(file)
with open(PROCESSED_TEST_LABEL_PATH, "rb" ) as file:
    test_y = pickle.load(file)  

In [None]:
test_X = test_padded
test_Y = test_y
# Evaluate the model on the test data using `evaluate`
print("Evaluate on test data")
results = model.evaluate(test_X, test_Y, batch_size=128)
print("test loss, test acc:", results)

In [None]:
# Generate predictions (probabilities -- the output of the last layer)
# on new data using `predict`
print("Generate predictions for 3 samples")
predictions = model.predict(test_X[:3])
print("predictions shape:", predictions.shape)

In [None]:
predictions

#### (나) 문장을 입력하여 추론하는 프로그램
  1. 토큰화
  2. 시퀀스 만들기
  3. 패딩
  4. 추론 : model.predict()

In [None]:
# max_len = 30 # 시퀀스의 길이를 30으로 고정
trunc_type = "post" # 길이가 30 보다 길 때 뒷 부분을 버린다. 
padding_type = "post" # 길이가 30 보다 짧을 대 뒷 부분을 0으로 채운다.

# padding : 뒤를 0으로 채운다.
from tensorflow.keras.preprocessing.sequence import pad_sequences

def spam_predict(sentence):
    print('input text : ', sentence)
    encoded = tokenizer.texts_to_sequences([sentence]) # 정수 인코딩
    # print('encoded : ', encoded)
    padded = pad_sequences(encoded, maxlen = max_len, padding=padding_type, truncating=trunc_type) # 패딩
    # print(padded)
    score = float(model.predict(padded)) # 예측
    
    if(score > 0.5):
        print("{:.2f}% 확률로 스팸입니다.\n".format(score * 100))
    else:
        print("{:.2f}% 확률로 햄입니다.\n".format((1 - score) * 100))

In [None]:
# DATA_DIR = 'data'
PROCESSED_DATA_DIR = os.path.join(DATA_DIR, 'processed')
os.makedirs(PROCESSED_DATA_DIR, exist_ok=True)

SPLITED_TEST_FILE = 'splited_test.csv'
SPLITED_TEST_PATH = os.path.join(PROCESSED_DATA_DIR, SPLITED_TEST_FILE)

In [None]:
import pandas as pd

In [None]:
test_df = pd.read_csv(SPLITED_TEST_PATH)

In [None]:
test_df

In [None]:
print(test_df.loc[0, 'v2'])

In [None]:
spam_predict('I love u 2 my little pocy bell I am sorry but I love u')

In [None]:
spam_predict(test_df.loc[4, 'v2'])

In [None]:
spam_predict(test_df.loc[514, 'v2'])

In [None]:
spam_predict('You are awarded a Nikon Digital Camera. Call now')