In [1]:
import pandas as pd

file_path = "/content/train_data_merge_0604.csv"

df = pd.read_csv(file_path, encoding='utf-8')

print(df.head())


                                             context  \
0  30대 공무원의 자살 사건에 대한 대화로, 직장 내 스트레스와 사회적 편견에 대한 ...   
1  30대 공무원의 자살 사건에 대한 대화로, 직장 내 스트레스와 사회적 편견에 대한 ...   
2              30대의 이직과 직장 내 적응에 대한 두려움과 어려움을 나누는 대화   
3              30대의 이직과 직장 내 적응에 대한 두려움과 어려움을 나누는 대화   
4  5살 어린이가 장기 기증을 통해 친구들을 살리고, 그 과정에서 아버지가 겪는 고통과...   

                                            response        label  \
0      공무원의 직무 스트레스와 사회적 편견을 해결하기 위해서 사회적인 노력이 필요해요.  Non-sarcasm   
1    공무원이란 직업이 이렇게 스트레스풀어서 많은 사람들이 '꿈의 직장'이라고 하나 봐요.      Sarcasm   
2                      이직을 생각할 때마다 적응할 수 있을지 걱정이 돼요.  Non-sarcasm   
3         이직이란 정말 가장 쉬운 일이지, 아침에 눈 뜨는 것보다도 어렵지 않다니까!      Sarcasm   
4  우리 아이가 친구들을 살리기 위해 정말 큰 결정을 했어요. 그런데 복지 시스템이 더...  Non-sarcasm   

                                         explanation  
0  Response는 공무원의 직무 스트레스와 사회적 편견을 진지하게 해결하려는 의도를...  
1  이 문장은 공무원 직업의 힘든 현실을 풍자적으로 지적하며 '꿈의 직장'이라는 표현이...  
2  이직에 대한 걱정을 표현하며 진솔한 감정을 나누고 있기 때문에 Non-sarcasm...  
3  이직의 어려움을 강조하기 위해 "가장 쉬운 일

In [2]:
!pip install -U datasets
!pip install -U transformers



In [3]:
# 1. 라이브러리 로딩
import torch
from torch.utils.data import Dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset


In [4]:
import pandas as pd

# 1. NaN 제거
df = df.dropna(subset=["context", "response", "label"])

# 2. 라벨 처리 (공백 제거 및 숫자 매핑)
df["label"] = df["label"].str.strip().str.capitalize()  # 'non-sarcasm' -> 'Non-sarcasm'
df = df[df["label"].isin(["Sarcasm", "Non-sarcasm"])].copy()
df["label"] = df["label"].map({"Non-sarcasm": 0, "Sarcasm": 1})

# 3. 프롬프트 생성
df["text"] = df.apply(
    lambda row: f"다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.\n상황: {row['context']}\n발언: {row['response']}",
    axis=1
)

# 4. 결과 확인
print(df[["text", "label"]].sample(3).to_string(index=False))


                                                                                                                                       text  label
  다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.\n상황: 당근마켓에서의 사기 경험에 대해 이야기하며 인터넷 거래의 위험성을 경고하는 대화\n발언: 인터넷 거래는 언제나 사기의 위험성이 있으니 주의하는 게 중요해요.      0
                        다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.\n상황: 도살장에서 돼지들의 아픔을 느끼고 슬퍼하는 상황\n발언: 이런 상황에서 돼지들이 겪는 고통을 생각하면 마음이 아프다.      0
다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.\n상황: 제품 사용 경험에 대한 부정적인 리뷰\n발언: 제품 사용이 매우 어려워서 결국 붙이지 않기로 했습니다. 다이소에서 다른 제품을 사는 것이 더 나을 것 같습니다.      0


In [5]:
# 5. 데이터 분리
from sklearn.model_selection import train_test_split
train_texts, val_texts, train_labels, val_labels = train_test_split(
    df["text"].tolist(),
    df["label"].tolist(),
    test_size=0.2,
    stratify=df["label"]
)


In [6]:
# 6. 토크나이저 및 모델 로딩
model_name = "monologg/kobert"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at monologg/kobert and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [7]:
# pad_token 보완
if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})
    model.resize_token_embeddings(len(tokenizer))
model.config.pad_token_id = tokenizer.pad_token_id

In [8]:
# 7. Dataset 정의
class SarcasmDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.encodings = tokenizer(texts, truncation=True, padding="max_length", max_length=max_len)
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        return item

In [9]:
# 8. Dataset 객체 생성
train_dataset = SarcasmDataset(train_texts, train_labels, tokenizer)
val_dataset = SarcasmDataset(val_texts, val_labels, tokenizer)

In [10]:
# 9. Trainer 설정
training_args = TrainingArguments(
    output_dir="./results",
    save_strategy="no",  # ✅ 모델 저장 기능 제거
    learning_rate=5e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10,
    report_to="wandb",  # or "none"
    run_name="kobert-kocosa-run"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer
)

  trainer = Trainer(


In [11]:
trainer.train()

[34m[1mwandb[0m: Currently logged in as: [33mtiger5654[0m ([33mtiger5654-[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Step,Training Loss
10,0.6574
20,0.4756
30,0.3452
40,0.3503
50,0.5778
60,0.4025
70,0.2637
80,0.3061
90,0.3389
100,0.2797


TrainOutput(global_step=600, training_loss=0.22140011489391326, metrics={'train_runtime': 11246.3968, 'train_samples_per_second': 0.853, 'train_steps_per_second': 0.053, 'total_flos': 631269199572480.0, 'train_loss': 0.22140011489391326, 'epoch': 3.0})

In [12]:
###########################################
# 9-1. 허깅페이스 로그인

# WRITE token
!huggingface-cli login --token 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 # code

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
The token `skt-BERT` has been saved to /root/.cache/huggingface/stored_tokens
Your token has been saved to /root/.cache/huggingface/token
Login successful.
The current active token is: `skt-BERT`


In [13]:
from transformers import AutoTokenizer
import os
import shutil

# KoBERT 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("monologg/kobert", trust_remote_code=True)

# 저장할 디렉토리 생성
save_dir = "./kobert_sarcasm_tokenizer"
os.makedirs(save_dir, exist_ok=True)

# vocab.txt 복사
shutil.copyfile(tokenizer.vocab_file, os.path.join(save_dir, "vocab.txt"))

# 구성 파일 수동 저장
with open(os.path.join(save_dir, "tokenizer_config.json"), "w", encoding="utf-8") as f:
    f.write('{"do_lower_case": false, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}')

with open(os.path.join(save_dir, "special_tokens_map.json"), "w", encoding="utf-8") as f:
    f.write('{"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}')


In [14]:
from huggingface_hub import HfApi

api = HfApi()
api.upload_folder(
    folder_path=save_dir,
    repo_id="tlttlto/sktBERT",
    path_in_repo="",  # 루트에 업로드
    repo_type="model"
)

CommitInfo(commit_url='https://huggingface.co/tlttlto/sktBERT/commit/3579ed2fcda7cdfd462440b27ad1cbbb8dc7795f', commit_message='Upload folder using huggingface_hub', commit_description='', oid='3579ed2fcda7cdfd462440b27ad1cbbb8dc7795f', pr_url=None, repo_url=RepoUrl('https://huggingface.co/tlttlto/sktBERT', endpoint='https://huggingface.co', repo_type='model', repo_id='tlttlto/sktBERT'), pr_revision=None, pr_num=None)

In [15]:
from transformers import AutoTokenizer

tok = AutoTokenizer.from_pretrained("monologg/kobert", trust_remote_code=True)
print(tok.vocab_file)


/root/.cache/huggingface/hub/models--monologg--kobert/snapshots/38279184ba645e8c94d709fbe92eb5bcb47312c1/tokenizer_78b3253a26.model


In [16]:
import shutil
import os

model_file = tok.vocab_file  # .model 파일 경로

# 저장 디렉토리
save_dir = "./kobert_sarcasm_tokenizer"
os.makedirs(save_dir, exist_ok=True)

# SentencePiece 모델 복사 (핵심)
shutil.copyfile(model_file, os.path.join(save_dir, "tokenizer_78b3253a26.model"))

# 구성 파일 생성
with open(os.path.join(save_dir, "tokenizer_config.json"), "w", encoding="utf-8") as f:
    f.write('{"tokenizer_class": "KoBertTokenizer"}')

with open(os.path.join(save_dir, "special_tokens_map.json"), "w", encoding="utf-8") as f:
    f.write('{"unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}')


In [17]:
from huggingface_hub import HfApi, login

login("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")  # 또는 login("hf_...")

api = HfApi()
api.upload_folder(
    folder_path=save_dir,
    repo_id="tlttlto/sktBERT",
    path_in_repo="",
    repo_type="model"
)


CommitInfo(commit_url='https://huggingface.co/tlttlto/sktBERT/commit/586d1caca59a06f521d51c8401b2d3de8a56b598', commit_message='Upload folder using huggingface_hub', commit_description='', oid='586d1caca59a06f521d51c8401b2d3de8a56b598', pr_url=None, repo_url=RepoUrl('https://huggingface.co/tlttlto/sktBERT', endpoint='https://huggingface.co', repo_type='model', repo_id='tlttlto/sktBERT'), pr_revision=None, pr_num=None)

In [18]:
from torch.utils.data import DataLoader, Dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from sklearn.metrics import classification_report, accuracy_score
import torch

# 평가용 Dataset 클래스
class SarcasmDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.encodings = tokenizer(texts, truncation=True, padding="max_length", max_length=max_len)
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        return item

In [19]:
from transformers import BertTokenizer

# 다시 불러오기
tokenizer = BertTokenizer.from_pretrained("monologg/kobert", do_lower_case=False)

# 저장
tokenizer.save_pretrained("./finetuned_model")


The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'KoBertTokenizer'. 
The class this function is called from is 'BertTokenizer'.


('./finetuned_model/tokenizer_config.json',
 './finetuned_model/special_tokens_map.json',
 './finetuned_model/vocab.txt',
 './finetuned_model/added_tokens.json')

In [20]:
model.save_pretrained("./finetuned_model")


In [21]:
from transformers import BertTokenizer, AutoModelForSequenceClassification

tokenizer = BertTokenizer.from_pretrained("./finetuned_model")
model = AutoModelForSequenceClassification.from_pretrained("./finetuned_model")


In [22]:
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer, AutoModelForSequenceClassification
from sklearn.metrics import classification_report, accuracy_score

# ✅ 1. 저장된 모델 경로
model_path = "./finetuned_model"

# ✅ 2. 저장된 모델과 토크나이저 불러오기
tokenizer = BertTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)
model.eval()

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(8002, 768, padding_idx=1)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-

In [23]:
# ✅ 3. 평가용 데이터셋 클래스 정의
class SarcasmDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_len=128):
        self.encodings = tokenizer(texts, truncation=True, padding="max_length", max_length=max_len)
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        return item

In [24]:
# ✅ 4. 평가 데이터셋 구성 (이미 존재하는 val_texts, val_labels 사용)
eval_dataset = SarcasmDataset(val_texts, val_labels, tokenizer)
eval_loader = DataLoader(eval_dataset, batch_size=16)


In [25]:
from tqdm import tqdm  # 진행률 표시

all_preds = []
all_labels = []

# tqdm으로 eval_loader 감싸기
with torch.no_grad():
    for batch in tqdm(eval_loader, desc="평가 진행 중"):
        input_ids = batch["input_ids"]
        attention_mask = batch["attention_mask"]
        labels = batch["labels"]

        outputs = model(input_ids=input_ids, attention_mask=attention_mask)
        preds = torch.argmax(outputs.logits, dim=1)

        all_preds.extend(preds.tolist())
        all_labels.extend(labels.tolist())


평가 진행 중: 100%|██████████| 50/50 [04:48<00:00,  5.76s/it]


In [26]:
from sklearn.metrics import classification_report, accuracy_score

# 평가 결과 출력
print("분류 리포트:\n")
print(classification_report(all_labels, all_preds, digits=4))

분류 리포트:

              precision    recall  f1-score   support

           0     0.7429    0.5939    0.6601       394
           1     0.6701    0.8005    0.7295       406

    accuracy                         0.6987       800
   macro avg     0.7065    0.6972    0.6948       800
weighted avg     0.7059    0.6987    0.6953       800



In [27]:
from collections import Counter
print("예측 결과 분포:", Counter(all_preds))

for i in range(20):
    print(f"\n[예시 {i+1}]")
    print("문장:", val_texts[i])
    print("실제 라벨:", val_labels[i])
    print("예측 라벨:", all_preds[i])


예측 결과 분포: Counter({1: 485, 0: 315})

[예시 1]
문장: 다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.
상황: 아기가 좁쌀베개를 불편해하고 잘 사용하지 못하는 상황
발언: 아기를 위해 더 편안한 베개를 찾아보는 것이 좋겠어요.
실제 라벨: 0
예측 라벨: 0

[예시 2]
문장: 다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.
상황: 게임 자체는 재미있지만, 불필요한 업데이트에 대한 불만을 나타낸 리뷰
발언: 게임은 재미있지만, 불필요한 업데이트가 많아 불편합니다.
실제 라벨: 0
예측 라벨: 0

[예시 3]
문장: 다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.
상황: 여자친구의 늦은 답장 때문에 화가 난 남자의 고민에 대한 대화
발언: 요즘 많이 바쁜가 보네. 답장이 늦으면 조금 서운해.
실제 라벨: 0
예측 라벨: 1

[예시 4]
문장: 다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.
상황: 글쓴이는 밥 말리와 같은 진정성을 가진 가수가 현대에는 없다고 느끼고 있다. 현대 가수들은 외모와 비주얼에만 집중하고, 진정한 음악적 메시지가 부족하다고 비판하고 있다. 또한, 정치인들도 철학 없이 이익만을 추구하는 모습을 비판하고 있다.
발언: 현대 음악 산업은 외적인 요소에 지나치게 의존하고 있어 진정한 예술성과 메시지가 사라지고 있는 것 같습니다.
실제 라벨: 0
예측 라벨: 1

[예시 5]
문장: 다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.
상황: 사람들이 뱀을 키우는 것에 대한 두려움과 혐오감을 나누는 대화
발언: 뱀을 집에서 키우면 매일매일 서바이벌 게임이겠네요!
실제 라벨: 1
예측 라벨: 1

[예시 6]
문장: 다음 상황을 읽고, 이어지는 발언이 풍자(Sarcasm)인지 아닌지 분류하세요.
상황: 버스비 상승으로 인한 경제적 부담과 서울로의 이동 이유에 