# Setting

In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_recall_fscore_support, accuracy_score
from sklearn.utils import shuffle

import torch
from datasets import Dataset, DatasetDict
from transformers import AdamW, EarlyStoppingCallback
from transformers import get_linear_schedule_with_warmup
from transformers import TrainingArguments, Trainer
from transformers import BertForSequenceClassification
from kobert_tokenizer import KoBERTTokenizer


import wandb
import warnings
warnings.filterwarnings('ignore')

In [2]:
wandb.init(project='grooming', name='0209_run1')

[34m[1mwandb[0m: Currently logged in as: [33moiehhun[0m ([33moiehhun-yonsei-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.


# Final Dataset

In [26]:
train_data = pd.read_csv('/home/k-cat/TH/K-CAT/lth/data/training/train_data.csv')
valid_data = pd.read_csv('/home/k-cat/TH/K-CAT/lth/data/training/valid_data.csv')
test_data = pd.read_csv('/home/k-cat/TH/K-CAT/lth/data/training/test_data.csv')

train_data = shuffle(train_data, random_state=42).reset_index(drop=True)

# Model Load

In [27]:
# BERT 모델 불러오기
tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1')
model = BertForSequenceClassification.from_pretrained("skt/kobert-base-v1", num_labels=2)

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'XLNetTokenizer'. 
The class this function is called from is 'KoBERTTokenizer'.
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at skt/kobert-base-v1 and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


# Tokenizer

In [28]:
def tokenize_function(data):
    return tokenizer(
        data['text'],
        add_special_tokens=False,   # 이미 [CLS], [SEP] 추가됨
        max_length=512,             # 문장 최대 길이
        truncation=True,            # 문장이 max_length보다 길면 자름
        padding=True                # 문장이 max_length보다 짧으면 padding
    )

# 첫 번째 텍스트에 대해 토큰화 수행
tokenized_output = tokenize_function(train_data.iloc[0])

# 결과 출력
print(f"input_ids: {tokenized_output['input_ids']}")
print(f"token_type_ids: {tokenized_output['token_type_ids']}")
print(f"attention_mask: {tokenized_output['attention_mask']}")
print(f"decoded tokens: {tokenizer.convert_ids_to_tokens(tokenized_output['input_ids'])}")

input_ids: [2, 1185, 5400, 1457, 7835, 2125, 5898, 3156, 7083, 4204, 5405, 6855, 54, 3, 3097, 46, 1221, 5850, 1406, 2123, 6079, 2628, 2233, 2874, 2355, 5683, 2874, 3278, 55, 7347, 517, 6357, 6844, 54, 3, 1469, 5330, 2964, 1370, 5439, 3945, 5595, 3219, 7788, 517, 6751, 7083, 3169, 7303, 46, 1370, 2962, 4196, 3868, 55, 3, 2267, 5550, 3394, 5474, 6896, 1723, 7864, 6855, 54, 3, 3166, 5405, 6855, 46, 880, 1907, 54, 3, 3135, 5724, 517, 364, 365, 364, 3, 3135, 5724, 46, 3942, 4307, 258, 3, 1100, 6797, 54, 2267, 5550, 4045, 4384, 6896, 517, 6989, 6855, 54, 3, 3166, 5405, 6855, 46, 1370, 4299, 995, 5468, 3991, 2011, 3868, 54, 1469, 5330, 3301, 3879, 4205, 54, 3, 3093, 3166, 5405, 6855, 46, 2149, 6812, 46, 1457, 2267, 7848, 7788, 517, 6751, 7318, 3155, 5, 1370, 5859, 517, 5540, 54, 3, 3097, 6844, 1100, 6797, 46, 1457, 2705, 7788, 3868, 54, 3, 1406, 4996, 1469, 2123, 2224, 921, 1267, 5876, 54, 3, 4102, 7096, 6844, 258, 1375, 1469, 5330, 2186, 6488, 5771, 1435, 1174, 7396, 5400, 4930, 905, 832, 15

# Dataset

In [29]:
# 검증(Vaildation) 데이터셋 분리
print(train_data.shape, valid_data.shape, test_data.shape)

(8250, 2) (1034, 2) (1024, 2)


In [30]:
# Dataset 생성
train_dataset = Dataset.from_pandas(train_data) # pandas DataFrame -> Hugging Face Dataset 형식으로 변환
valid_dataset = Dataset.from_pandas(valid_data)
test_dataset = Dataset.from_pandas(test_data)

datasets = DatasetDict({'train': train_dataset, 'valid': valid_dataset, 'test': test_dataset}) # train, valid, test 데이터셋을 묶어서 저장
tokenized_datasets = datasets.map(tokenize_function, batched=True) # train, vaild, test 데이터셋에 tokenize_function 적용

Map: 100%|██████████| 8250/8250 [00:04<00:00, 1661.22 examples/s]
Map: 100%|██████████| 1034/1034 [00:00<00:00, 1795.96 examples/s]
Map: 100%|██████████| 1024/1024 [00:00<00:00, 1589.49 examples/s]


In [31]:
tokenized_datasets

DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 8250
    })
    valid: Dataset({
        features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1034
    })
    test: Dataset({
        features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1024
    })
})

# Train

In [42]:
# 모델 저장 경로 설정
model_save_path = '/home/k-cat/users/lth/model_save'

# 학습 파라미터 설정
training_args = TrainingArguments(
    output_dir=model_save_path,                 # 학습 결과 저장 경로
    report_to='wandb',                          # wandb 사용
    num_train_epochs=15,                        # 학습 epoch 설정
    per_device_train_batch_size=32,             # train batch_size 설정
    per_device_eval_batch_size=32,              # test batch_size 설정
    logging_dir=model_save_path+'/logs',        # 학습 log 저장 경로
    logging_steps=100,                          # 학습 log 기록 단위
    save_total_limit=2,                         # 학습 결과 저장 최대 개수
    evaluation_strategy="epoch",                # 매 epoch마다 평가 실행
    save_strategy="epoch",                      # 매 epoch마다 모델 저장
    load_best_model_at_end=True,                # 가장 성능이 좋은 모델을 마지막에 load
)

# 최적화 알고리즘(optimizer) 설정
optimizer = AdamW(model.parameters(), lr=2e-5)

# # 스케줄러(scheduler) 설정
# scheduler = get_linear_schedule_with_warmup(
#     optimizer,
#     num_warmup_steps=0,
#     num_training_steps=len(tokenized_datasets['train']) * training_args.num_train_epochs
# )

In [43]:
# 성능 평가 지표 설정(binary classification)
def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='binary')
    acc = accuracy_score(labels, preds)
    return {
        'accuracy': acc,
        'f1': f1,
        'precision': precision,
        'recall': recall
    }

In [44]:
# Trainer 생성
trainer = Trainer(
    model=model, 
    tokenizer=tokenizer,
    optimizers=(optimizer, None),
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['valid'],
    compute_metrics=compute_metrics,
    callbacks=[EarlyStoppingCallback(early_stopping_patience=5)]
)

In [None]:
# 모델 학습
trainer.train()

# Test

In [45]:
# 저장된 모델 경로
model_checkpoint = "/home/k-cat/TH/K-CAT/lth/model_save/checkpoint-1548"

tokenizer = KoBERTTokenizer.from_pretrained('skt/kobert-base-v1')
model = BertForSequenceClassification.from_pretrained(model_checkpoint).to('cuda')

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'XLNetTokenizer'. 
The class this function is called from is 'KoBERTTokenizer'.


In [46]:
# 테스트(Test) 데이터셋 평가
trainer.evaluate(tokenized_datasets['test'])

{'eval_loss': 0.13740025460720062,
 'eval_model_preparation_time': 0.002,
 'eval_accuracy': 0.9755859375,
 'eval_f1': 0.9856569133677567,
 'eval_precision': 0.983963344788087,
 'eval_recall': 0.9873563218390805,
 'eval_runtime': 10.6301,
 'eval_samples_per_second': 96.33,
 'eval_steps_per_second': 3.01}

In [47]:
# 실제 대화 테스트
def predict(chat):
    model.eval()
    tokenized_sent = tokenizer(
        chat,
        add_special_tokens=False,   # 이미 [CLS], [SEP] 추가됨
        max_length=512,             # 문장 최대 길이
        truncation=True,            # 문장이 max_length보다 길면 자름
        padding=True,               # 문장이 max_length보다 짧으면 padding
        return_tensors='pt'         # PyTorch tensor로 반환
    )
    tokenized_sent.to('cuda')
    
    with torch.no_grad():
        outputs = model(
            input_ids=tokenized_sent["input_ids"],
            attention_mask=tokenized_sent["attention_mask"],
            token_type_ids=tokenized_sent["token_type_ids"]
            )
        
    logits = outputs[0]
    logits = logits.detach().cpu()
    result = logits.argmax(-1)  
    
    if result == 0:
        return '일상 대화 😇'
    elif result == 1:
        return '그루밍 대화 👿'

for idx in range(1, 20):
    chat_text = test_dataset[idx]['text']
    label = test_dataset[idx]['label']
    print(f' Chat: {chat_text}\n label: {label}\n pred: {predict(chat_text)}\n')

 Chat: [CLS] 네 번호를 폰에 저장하고 있었어.. 근데 이름이 뭐야?? [SEP] 하하. 응 그래. 카를로스야 부 [SEP] 학교에 있어. 부? [SEP] ㅋㅋ 알겠어 베이비. 들키지 않았으면 좋겠어 [SEP] 할 수 있을 때 문자해 들키지 마 부 [SEP] ㅋ [SEP] ㅋㅋ 뽀뽀 [SEP] 점심 시간이야 [SEP] 하하. 뭐 먹고 있어 자기야 [SEP] 아직 모르겠어 [SEP] 그래서 뭐에 대해 얘기하고 싶어 [SEP] ㅋㅋ. 건강하게 먹어 자기야 [SEP] 몰라. 네가 뭐 생각하는지 말해봐. 베이비걸 [SEP] 오 정말 ㅋㅋ.. 뭐 생각하고 있어 [SEP] ㅋㅋ. 뭐. [SEP] 많아. 근데 네가 뭔가 말해주길 바라 [SEP] 왜?? 너 게임 같은 거 좋아하는 타입이야? [SEP] ㅋㅋ. 아니이이. 절대 아니야 왜 그렇게 말해 [SEP] 내가 질문했는데 네가 내가 먼저 말하래서 [SEP] 그랬네. 오 미안해 자기야. [SEP] 그래서 학교는 어때. 재밌어 [SEP] 음.. 별로 [SEP] ㅋㅋ 왜 그래. 자기야 [SEP] 넌 정말 예뻐 베이비걸. 내가 그렇게 말해도 괜찮길 바라 [SEP] 천만에 자기야. [SEP] 몇 시에 끝나 [SEP] 0.145833333 [SEP] 준비됐지. 너도 그렇지 [SEP] 수업 다시 시작했어 자기야?? [SEP] 일해? [SEP]
 label: 1
 pred: 그루밍 대화 👿

 Chat: [CLS] 하하. 응 그래. 카를로스야 부 [SEP] 학교에 있어. 부? [SEP] ㅋㅋ 알겠어 베이비. 들키지 않았으면 좋겠어 [SEP] 할 수 있을 때 문자해 들키지 마 부 [SEP] ㅋ [SEP] ㅋㅋ 뽀뽀 [SEP] 점심 시간이야 [SEP] 하하. 뭐 먹고 있어 자기야 [SEP] 아직 모르겠어 [SEP] 그래서 뭐에 대해 얘기하고 싶어 [SEP] ㅋㅋ. 건강하게 먹어 자기야 [SEP] 몰라. 네가 뭐 생각하는지 말해봐. 베이비걸 [SEP] 오 정말 ㅋㅋ.. 뭐 생각하고 있어 [SEP] ㅋㅋ. 뭐. [SEP] 많아. 근데 

In [55]:
test = '[CLS] 너랑 하고 싶어. [SEP] 뭘?ㅋㅋ [SEP] 영화 말이야ㅋㅋ [SEP] 나도. [SEP] 내일 영화보고 밥 먹을까? [SEP] 좋아! [SEP]'
print(predict(test))
test = '[CLS] 너랑 하고 싶어. [SEP] 뭘?ㅋㅋ [SEP] 영화 말이야ㅋㅋ [SEP] 나도. [SEP] 내일 영화보고 밥 먹을까? [SEP] 좋아! [SEP] 근데 나 어제 모의고사 망헀어.. [SEP] 나도.. [SEP] 영화 보고나서 같이 공부하자! [SEP] 좋아! [SEP]'
print(predict(test))

그루밍 대화 👿
일상 대화 😇


In [58]:
test = '[CLS] 뽀뽀하고 싶어. [SEP] 뭐랰ㅋㅋㅋ [SEP] 왜 안돼? [SEP] 당연히 안되지~ [SEP] 성인되고 나면~ [SEP] 약속했다~! [SEP]'
print(predict(test))
test = '[CLS] 뽀뽀하고 싶어. [SEP] 뭐랰ㅋㅋㅋ [SEP] 왜 안돼? [SEP] 당연히 안되지~ [SEP] 성인되고 나면~ [SEP] 약속했다~! [SEP] 그래^^ [SEP] 근데 나 어제 모의고사 망헀어.. [SEP] 나도.. [SEP] 내일 같이 공부하자! [SEP] 좋아! [SEP]'
print(predict(test))

그루밍 대화 👿
일상 대화 😇
