In [None]:
import tensorflow as tf
import tensorflow_datasets as tfds
import os
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import json
from transformers import TFBertModel, BertConfig, AutoTokenizer
from sklearn.model_selection import train_test_split
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

### 데이터 전처리

In [3]:
df = pd.read_csv('hub_data.csv', index_col=0)

In [4]:
df

Unnamed: 0,class,conversation
0,0,지금 너 스스로를 죽여달라고 애원하는 것인가?\n 아닙니다. 죄송합니다.\n 죽을 ...
1,0,길동경찰서입니다.\n9시 40분 마트에 폭발물을 설치할거다.\n네?\n똑바로 들어 ...
2,3,너 되게 귀여운거 알지? 나보다 작은 남자는 첨봤어.\n그만해. 니들 놀리는거 재미...
3,1,어이 거기\n예??\n너 말이야 너. 이리 오라고\n무슨 일.\n너 옷 좋아보인다?...
4,1,저기요 혹시 날이 너무 뜨겁잖아요? 저희 회사에서 이 선크림 파는데 한 번 손등에 ...
...,...,...
4945,4,"자기야, 나 이번에 학원 선생님이랑 친해졌는데 자꾸 나를 수산물 시장으로 불러내서 ..."
4946,4,"하, 자기야. 나 이번에 계약한 중고차 또 자동차 검사받았어.\n헉, 저번 주에 정..."
4947,4,천장으로 올라간 고양이가 내려오지를 않아. 아무리 불러도 꿈쩍도 안 해서 정말 불안...
4948,4,자기야 나 사고친 것 같아서 너무 불안하고 당혹스러워. 어제 회식자리에서 취해서 부...


In [5]:
# train 데이터의 최대 길이를 구함
train_len = [len(x.split()) for x in df['conversation']]
MAX_LEN = max(train_len)

### 모델

In [6]:
tokenizer = AutoTokenizer.from_pretrained("klue/bert-base")
config = BertConfig(
    vocab_size=tokenizer.vocab_size,  # KLUE vocab 크기
    hidden_size=768,
    num_hidden_layers=12,
    num_attention_heads=12,
    intermediate_size=3072,
    max_position_embeddings=MAX_LEN,
    type_vocab_size=2,
    pad_token_id=tokenizer.pad_token_id
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


In [7]:
bert_config = TFBertModel(config)

In [8]:
encoded_inputs = tokenizer(
    list(df['conversation']),
    padding='max_length', # 또는 padding=True (배치 내 최대 길이에 맞춤)
    truncation=True,
    max_length=MAX_LEN,       # BERT 모델이 처리 가능한 최대 길이 고려 (klue/bert-base는 512)
    return_tensors='tf'
)

In [9]:
labels = tf.constant(df['class'].values)
unique_labels = np.unique(labels.numpy())
NUM_CLASSES = len(unique_labels)

In [10]:
num_samples = len(df)
indices = np.arange(num_samples)

train_indices, val_indices = train_test_split(
    indices,
    test_size=0.2,
    random_state=42,
    stratify=labels.numpy() # stratify에는 NumPy 배열 전달
)

In [11]:
train_inputs = {key: tf.gather(val, train_indices) for key, val in encoded_inputs.items()}
val_inputs = {key: tf.gather(val, val_indices) for key, val in encoded_inputs.items()}

# 레이블도 동일한 인덱스로 선택
train_labels = tf.gather(labels, train_indices)
val_labels = tf.gather(labels, val_indices)

In [12]:
train_dataset = tf.data.Dataset.from_tensor_slices((train_inputs, train_labels))
train_dataset = train_dataset.shuffle(len(train_indices)).batch(16) # 셔플 및 배치

# 예시: 검증 데이터셋 생성
val_dataset = tf.data.Dataset.from_tensor_slices((val_inputs, val_labels))
val_dataset = val_dataset.batch(16) # 검증 데이터는 보통 셔플하지 않음

In [13]:
class Bert_Vanilla(tf.keras.Model):
    def __init__(self, bert):
        super(Bert_Vanilla, self).__init__()
        self.bert = bert
        self.dropout = tf.keras.layers.Dropout(0.5)
        self.classifier = tf.keras.layers.Dense(5, activation='softmax')

    def call(self, inputs, training=False):
        outputs = self.bert(**inputs)
        cls_output = outputs.last_hidden_state[:, 0, :]  # [CLS] 토큰의 출력만 사용
        x = self.dropout(cls_output, training=training)
        return self.classifier(x)

In [14]:
model = Bert_Vanilla(bert_config)

In [15]:
optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False)
metric = tf.keras.metrics.SparseCategoricalAccuracy('accuracy')

In [16]:
model.compile(optimizer=optimizer, loss=loss, metrics=[metric])

In [17]:
early_stopping_cb = EarlyStopping(
    monitor='val_loss',
    restore_best_weights=True,
    patience=2)

# ModelCheckpoint 콜백 수정
model_checkpoint_cb = ModelCheckpoint(
    filepath='model_weight.h5', # 파일 확장자를 .keras (권장) 또는 .h5 로 지정
    monitor='val_loss',
    save_best_only=True,
    save_weights_only=False,      # 전체 모델 저장 (기본값이므로 생략 가능)
    verbose=1
)

In [None]:
NUM_EPOCHS = 50
history = model.fit(
    train_dataset,
    validation_data=val_dataset,
    epochs=NUM_EPOCHS, # 충분한 에폭 수 지정 (조기 종료가 관리)
    # callbacks=[early_stopping_cb, model_checkpoint_cb] # 정의된 콜백 전달
)

Epoch 1/50
[1m  1/248[0m [37m━━━━━━━━━━━━━━━━━━━━[0m [1m4:51:24[0m 71s/step - accuracy: 0.3125 - loss: 2.1441