In [1]:
import pandas as pd
import tensorflow as tf
from models.utils.Preprocess import Preprocessor
from models.transformer.evaluate import Evaluate
from models.transformer.train import CustomSchedule, get_model

print(tf.__version__)

2.8.0


In [14]:
train_data = pd.read_csv('data/ChatbotData_merged.csv')
train_data = train_data.dropna()
train_data = train_data.sample(frac=1).reset_index(drop=True)
train_data.head()

Unnamed: 0,Q,A,label
0,커뮤니티 하는 썸녀 어때?,그게 무슨 문제인가요.,2
1,좋아하는 사람이 날 너무 편하게 생각해.,이성으로 대하고 싶다고 말해보세요.,2
2,내 부모님이 이혼하신대.,놀라셨겠어요. 부모님이 다투신 건가요?,insecure
3,오늘 합격자 공고가 떴는데 내 이름이 없더라. 가슴이 너무 아파.,아주 속상하시겠군요. 상심이 크실 것 같아요.,sad
4,여자 친구와 결혼을 하려고 하는데 준비하면서 여자 친구와 자꾸 싸우게 돼.,결혼 준비 중에 여자 친구와 싸우셔서 힘드셨군요. 어떻게 하실 생각이세요?,insecure


In [7]:
print('챗봇 샘플의 개수 :', len(train_data))
print(train_data.isnull().sum())

챗봇 샘플의 개수 : 157771
Q        0
A        0
label    0
dtype: int64


In [8]:
questions = train_data['Q'].to_list()
answers = train_data['A'].to_list()
sentence_list = questions + answers

preprocessor = Preprocessor()

In [None]:
# 갑자기 왜 안되지?
from utils.load_tokenizer import load_tokenizer

tokenizer = load_tokenizer('vocab_32000.txt')
print(tokenizer)

In [None]:
# tokenizer = preprocessor.get_tokenizer(sentence_list, target_vocab_size=32000)
# print(tokenizer)

In [None]:
questions, answers = preprocessor.tokenize_and_filter(questions, answers, tokenizer)

print('질문 데이터의 크기(shape) :', questions.shape)
print('답변 데이터의 크기(shape) :', answers.shape)

# 0번 샘플을 임의로 출력
print(questions[0])
print(answers[0])

In [None]:
dataset = preprocessor.get_train_dataset(questions, answers, batch_size=256, buffer_size=20000)

In [None]:
NUM_LAYERS = 4
model = get_model(
    vocab_size=tokenizer.vocab_size+2,
    num_layers=NUM_LAYERS,
    dff=512,
    d_model=256,
    num_heads=8,
    dropout=0.2)


def loss_function(y_true, y_pred):
  y_true = tf.reshape(y_true, shape=(-1, preprocessor.MAX_LENGTH-1))

  loss = tf.keras.losses.SparseCategoricalCrossentropy(
    from_logits=True, reduction='none')(y_true, y_pred)

  mask = tf.cast(tf.not_equal(y_true, 0), tf.float32)
  loss = tf.multiply(loss, mask)

  return tf.reduce_mean(loss)


def accuracy(y_true, y_pred):
  # 레이블의 크기는 (batch_size, MAX_LENGTH - 1)
  y_true = tf.reshape(y_true, shape=(-1, preprocessor.MAX_LENGTH-1))
  return tf.keras.metrics.sparse_categorical_accuracy(y_true, y_pred)

learning_rate = CustomSchedule(d_model=256)


optimizer = tf.keras.optimizers.Adam(
    learning_rate, beta_1=0.9, beta_2=0.98, epsilon=1e-9)

model.compile(optimizer=optimizer, loss=loss_function, metrics=[accuracy])

In [None]:
'''No checkpoint'''
def train_model(epochs=50, mini_epoch=10, is_contiune=False):
    epoch_saved_path = f'./checkpoints/weights/vocab_{tokenizer.vocab_size}_layers_{NUM_LAYERS}_epoch_saved.txt'
    # 저장된 모델이 있는 경우
    if is_contiune:
        with open(epoch_saved_path, 'r', encoding='utf-8') as f:
            total_epoch = int(f.read())
        model_path = f'checkpoints/weights/transformer_weight_vocab_{tokenizer.vocab_size}_layers_{NUM_LAYERS}_{total_epoch}.h5'
        model.load_weights(model_path)
        print(f"{model_path.replace('checkpoints/weights/', '')} 모델을 사용해 계속 학습합니다.")
    else:
        total_epoch = 0
        print('저장된 가중치가 없어 처음부터 학습합니다.')

    early_stopping = tf.keras.callbacks.EarlyStopping(monitor='loss', patience=3)
    EPOCHS = 100
    mini_epoch = 10

    evaluate = Evaluate(model, tokenizer)
    for e in range(int(EPOCHS/mini_epoch)):
        model.fit(dataset, epochs=mini_epoch, workers=-1, callbacks=[early_stopping])
        total_epoch += mini_epoch
        with open(epoch_saved_path, 'w', encoding='utf-8') as f:
            f.write(str(total_epoch))
        print('>'*20, '샘플 예측', '<'*20)
        sample_sentence = "오늘 엄마랑 에버랜드 갔다왔어."
        evaluate.predict(sample_sentence)
        print('>'*50)

        if total_epoch % 5 == 0:
            model_path =  f'checkpoints/weights/transformer_weight_vocab_{tokenizer.vocab_size}_layers_{NUM_LAYERS}_{total_epoch}.h5'
            model.save_weights(model_path)

In [None]:
tf.keras.backend.clear_session()
train_model(epochs=20)

In [None]:
model.summary()