In [19]:
import numpy as np
import pandas as pd
import tensorflow as tf
import os
from os.path import join
import sys
sys.path.append("../")
sys.path.append("../model")

## 경고 무시
import warnings
warnings.filterwarnings('ignore')

## 시각화 툴
import matplotlib.pyplot as plt
import seaborn as sns

## encoding 
from sklearn.preprocessing import LabelEncoder

## vocabulary
import tensorflow_datasets as tfds

## tokenizer 
from transformers import BertTokenizer
from keras.preprocessing.sequence import pad_sequences

## preprocessor
from custom_preprocessor import Preprocessor

## model
from transformer_v1 import transformer



# hyper parameter

In [2]:
# 토크나이저 파라미터
VOCAB_SIZE = 1000

# 학습 파라미터
EPOCHS = 10

# 모델 구조 파라미터
NUM_LAYERS = 2 # 인코더와 디코더의 층의 개수
D_MODEL = 256 # 인코더와 디코더 내부의 입, 출력의 고정 차원
NUM_HEADS = 8 # 멀티 헤드 어텐션에서의 헤드 수 
UNITS = 512 # 피드 포워드 신경망의 은닉층의 크기
DROPOUT = 0.1 # 드롭아웃의 비율

# Data 준비

In [3]:
preprocessor = Preprocessor()
preprocessed_train, preprocessed_test = preprocessor.preprocess()

In [4]:
preprocessed_train["conversation"].apply(lambda x: len(x.split())).max()

## CLASS_NAMES에 '일반 대화'를 포함시킴
CLASS_NAMES = ['협박 대화', '갈취 대화', '직장 내 괴롭힘 대화', '기타 괴롭힘 대화', '일반 대화']

# 수동 매핑 설정
class_mapping = {
    '협박 대화': 0,
    '갈취 대화': 1,
    '직장 내 괴롭힘 대화': 2,
    '기타 괴롭힘 대화': 3,
    '일반 대화': 4
}

# 'class' 열을 수동 매핑 적용하기 전에 문자열로 변환
preprocessed_train['class'] = preprocessed_train['class'].astype(str).map(class_mapping)

In [5]:
# BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

# 특수 토큰 ID 확인
CLS_TOKEN_ID = tokenizer.cls_token_id  # [CLS] 토큰 ID
SEP_TOKEN_ID = tokenizer.sep_token_id  # [SEP] 토큰 ID
UNK_TOKEN_ID = tokenizer.unk_token_id  # [UNK] 토큰 ID
PAD_TOKEN_ID = tokenizer.pad_token_id  # [PAD] 토큰 ID

# 각 문장에 [CLS], [SEP] 추가
def add_special_tokens(tokenized_texts):
    return [[CLS_TOKEN_ID] + tokenizer.convert_tokens_to_ids(tokens) + [SEP_TOKEN_ID] for tokens in tokenized_texts]

## 토크나이징
tokenized_train = [tokenizer.tokenize(con) for con in preprocessed_train['conversation'].tolist()]
tokenized_test = [tokenizer.tokenize(con) for con in preprocessed_test['text'].tolist()]

## [CLS], [SEP] 토큰 추가
token_id_train = add_special_tokens(tokenized_train)
token_id_test = add_special_tokens(tokenized_test)

# 패딩과 트렁케이션 설정
## 문장의 max length를 test 문장의 최대 길이로 설정한다. 
## padding은 앞에서부터 진행
## max길이를 넘어가면 앞에서부터 자른다. -> 한국말은 끝까지 들어야하므로..
token_id_train = pad_sequences(token_id_train, maxlen=191, dtype='long', padding='pre', truncating='pre', value=PAD_TOKEN_ID)
token_id_test = pad_sequences(token_id_test, maxlen=191, dtype='long', padding='pre', truncating='pre', value=PAD_TOKEN_ID)

In [6]:
token_id_train.shape

(4976, 191)

In [7]:
X_train = token_id_train[:3500]
y_train = preprocessed_train['class'][:3500]
X_val = token_id_train[3500:3850]
y_val = preprocessed_train['class'][3500:3850]
X_test = token_id_train[3850:]
y_test = preprocessed_train['class'][3850:]

In [8]:
# 배치 및 버퍼 크기
BATCH_SIZE = 64
BUFFER_SIZE = 10000

# 학습용 데이터셋을 tf.data.Dataset으로 변환
train_dataset = tf.data.Dataset.from_tensor_slices((
    {
        'inputs': X_train,   # 대화 데이터
    },
    {
        'outputs': y_train,  # 분류 레이블
    }
))

# 검증용 데이터셋을 tf.data.Dataset으로 변환
val_dataset = tf.data.Dataset.from_tensor_slices((
    {
        'inputs': X_val,
    },
    {
        'outputs': y_val,
    }
))

# 테스트용 데이터셋을 tf.data.Dataset으로 변환
test_dataset = tf.data.Dataset.from_tensor_slices((
    {
        'inputs': X_test,
    },
    {
        'outputs': y_test,
    }
))

# 데이터셋을 섞고, 배치 처리
train_dataset = train_dataset.cache()
train_dataset = train_dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE)
train_dataset = train_dataset.prefetch(tf.data.experimental.AUTOTUNE)

val_dataset = val_dataset.batch(BATCH_SIZE)
test_dataset = test_dataset.batch(BATCH_SIZE)

# Model 설정

In [9]:
# 하이퍼파라미터
VOCAB_SIZE = 1000
NUM_LAYERS = 2 # 인코더와 디코더의 층의 개수
D_MODEL = 256 # 인코더와 디코더 내부의 입, 출력의 고정 차원
NUM_HEADS = 8 # 멀티 헤드 어텐션에서의 헤드 수 
UNITS = 512 # 피드 포워드 신경망의 은닉층의 크기
DROPOUT = 0.1 # 드롭아웃의 비율

model = transformer(
    vocab_size=VOCAB_SIZE,
    num_layers=NUM_LAYERS,
    units=UNITS,
    d_model=D_MODEL,
    num_heads=NUM_HEADS,
    dropout=DROPOUT)

model.summary()

Model: "transformer"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
inputs (InputLayer)             [(None, None)]       0                                            
__________________________________________________________________________________________________
enc_padding_mask (Lambda)       (None, 1, 1, None)   0           inputs[0][0]                     
__________________________________________________________________________________________________
encoder (Functional)            (None, None, 256)    1310208     inputs[0][0]                     
                                                                 enc_padding_mask[0][0]           
__________________________________________________________________________________________________
global_average_pooling1d (Globa (None, 256)          0           encoder[0][0]          

In [10]:
def loss_function(y_true, y_pred):
    y_true = tf.squeeze(y_true, axis=-1)
    loss = tf.keras.losses.SparseCategoricalCrossentropy(
        from_logits=False)(y_true, y_pred)
    return tf.reduce_mean(loss)

def accuracy(y_true, y_pred):
    return tf.keras.metrics.sparse_categorical_accuracy(y_true, y_pred)

In [11]:
class CustomSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):

    def __init__(self, d_model, warmup_steps=4000):
        super(CustomSchedule, self).__init__()

        self.d_model = d_model
        self.d_model = tf.cast(self.d_model, tf.float32)

        self.warmup_steps = warmup_steps

    def __call__(self, step):
        arg1 = tf.math.rsqrt(step)
        arg2 = step * (self.warmup_steps**-1.5)

        return tf.math.rsqrt(self.d_model) * tf.math.minimum(arg1, arg2)

In [12]:
learning_rate = CustomSchedule(D_MODEL)

optimizer = tf.keras.optimizers.Adam(
    learning_rate, beta_1=0.9, beta_2=0.98, epsilon=1e-9)

model.compile(optimizer=optimizer, loss=loss_function, metrics=[accuracy])

# 학습

In [13]:
EPOCHS = EPOCHS
history = model.fit(
    train_dataset,
    validation_data=val_dataset,  # 검증 데이터셋 추가
    epochs=EPOCHS,
    verbose=1
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [14]:
model.evaluate(test_dataset)



[9.508933067321777, 0.03463587909936905]

# submission

In [16]:
result_vec = model(token_id_test)
y_pred = np.argmax(result_vec, axis=1)

In [17]:
def save_submission(y_pred, user_name, f1_score=None):
    data_path ="/aiffel/aiffel/dlthon_team5/data"
    save_path ="/aiffel/aiffel/dlthon_team5/submission"
    submission_path = join(data_path, 'new_submission.csv')
    submission = pd.read_csv(submission_path)
    submission['class'] = y_pred
    submission_csv_path = '{}/submission_{}_f1score_{}.csv'.format(save_path, user_name, f1_score)
    submission.to_csv(submission_csv_path, index=False)
    print('{} saved!'.format(submission_csv_path))

In [20]:
save_submission(y_pred,'phc_v1','0.03')

/aiffel/aiffel/dlthon_team5/submission/submission_phc_v1_f1score_0.03.csv saved!
