# NLP 기초대회 미션 4 - 오답 기록



**훈련 미션 : KLUE STS 데이터셋으로 학습된 모델 성능 개선을 위해 오답 기록하여 직접 확인한다**

**미션 개요**
- 모델 성능 개선을 위해 오답 기록 및 확인해보기

**실습 배경 및 목적**
- 미션-2의 코드를 기반으로 예측값 획득
- 예측값과 정답값을 비교하여 오답 기록
- 기록된 오답을 분석하여 자체적인 성능 향상 전략 수립

**데이터셋(https://klue-benchmark.com/tasks/67/overview/description)**
- KLUE의 Semantic Textual Similarity(STS) 데이터셋
- 입력 : 두 문장
- 출력 : 두 문장의 유사도
- 학습 데이터 : 11,668개
- 검증 데이터 : 519개(평가 데이터가 비공개이므로 학습에서 평가데이터로 활용함)
- 평가 데이터 : 1,037개(비공개)
- License : <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Attribution-ShareAlike 4.0 International License</a>.

<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />

**모델**
- [klue/roberta-small](https://huggingface.co/klue/roberta-small) 모델과 토크나이저 활용

# 환경설정

In [1]:
!pip install transformers
!pip install wandb -qU
!pip install pytorch_lightning

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.27.1-py3-none-any.whl (6.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.7/6.7 MB[0m [31m42.2 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m58.9 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.13.2-py3-none-any.whl (199 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.2/199.2 KB[0m [31m21.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.13.2 tokenizers-0.13.2 transformers-4.27.1
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [2]:
import os
import argparse
import requests

import pandas as pd
import json

from tqdm.auto import tqdm

import transformers
import torch
import torchmetrics
import pytorch_lightning as pl
from pytorch_lightning.loggers import WandbLogger

# 데이터 모듈

In [3]:
class Dataset(torch.utils.data.Dataset):
    def __init__(self, inputs, targets=[]):
        self.inputs = inputs
        self.targets = targets

    # 학습 및 추론 과정에서 데이터를 1개씩 꺼내오는 곳
    def __getitem__(self, idx):
        # 정답이 있다면 if문을, 없다면 else문을 수행합니다
        if len(self.targets) == 0:
            return torch.tensor(self.inputs[idx])
        else:
            return torch.tensor(self.inputs[idx]), torch.tensor(self.targets[idx])

    # 입력하는 개수만큼 데이터를 사용합니다
    # 'return 100'이면 1에폭에 100개의 데이터만 사용합니다
    def __len__(self):
        return len(self.inputs)

In [4]:
class Dataloader(pl.LightningDataModule):
    def __init__(self, model_name, batch_size, train_ratio, shuffle, bce):
        super().__init__()
        self.model_name = model_name
        self.batch_size = batch_size
        self.train_ratio = train_ratio
        self.shuffle = shuffle
        self.bce = bce

        self.train_dataset = None
        self.val_dataset = None
        self.test_dataset = None
        self.predict_dataset = None

        self.tokenizer = transformers.AutoTokenizer.from_pretrained(model_name, max_length=160)
        self.set_preprocessing()

    def read_json(self, data_type):
        # 파일이 없으면 다운로드 받아옵니다
        if not os.path.isfile(f"{data_type}.json"):
            data = requests.get(f"https://raw.githubusercontent.com/htw5295/klue_sts/main/klue-sts-v1.1_{data_type}.json")
            with open(f"{data_type}.json", 'w', encoding='utf-8') as f:
                json.dump(json.loads(data.text), f, ensure_ascii=False)

        # json 파일을 읽어 pandas 형태로 변환합니다
        with open(f'{data_type}.json', 'r', encoding='utf-8') as file:
            json_data = json.load(file)

        data = []
        for item in json_data:
            data.append([item['source'], item['sentence1'], item['sentence2'], item['labels']['label'], item['labels']['binary-label']])

        df = pd.DataFrame(data, columns=['source', 'sentence1', 'sentence2', 'label', 'binary_label'])

        return df

    def tokenizing(self, dataframe):
        data = []
        for idx, item in tqdm(dataframe.iterrows(), desc='tokenizing', total=len(dataframe)):
            # 두 입력 문장을 [SEP] 토큰으로 이어붙여서 전처리합니다.
            text = '[SEP]'.join([item[text_column] for text_column in self.text_columns])
            outputs = self.tokenizer(text, add_special_tokens=True, padding='max_length', truncation=True)
            data.append(outputs['input_ids'])

        return data

    def set_preprocessing(self):
        # 데이터를 읽어서 타겟 컬럼, 안쓰는 컬럼, 텍스트 전처리가 필요한 컬럼명을 기록합니다.
        data = self.read_json('train')
        columns = data.columns
        if self.bce:
            self.target_columns = [columns[4]]
        else:
            self.target_columns = [columns[3]]

        self.delete_columns = [columns[0]]
        self.text_columns = [columns[1], columns[2]]

    def preprocessing(self, data):
        # 안쓰는 컬럼을 삭제합니다.
        data = data.drop(columns=self.delete_columns)

        # 타겟 데이터가 없으면 빈 배열을 리턴합니다.
        try:
            targets = data[self.target_columns].values.tolist()
        except:
            targets = []
        # 텍스트 데이터를 전처리합니다.
        inputs = self.tokenizing(data)

        return inputs, targets

    def setup(self, stage='fit'):
        if stage == 'fit':
            total_data = self.read_json('train')

            # 학습 데이터와 검증 데이터셋을 비율에 맞춰 분리합니다
            train_data = total_data.sample(frac=self.train_ratio)
            val_data = total_data.drop(train_data.index)

            # 학습데이터 준비
            train_inputs, train_targets = self.preprocessing(train_data)

            # 검증데이터 준비
            val_inputs, val_targets = self.preprocessing(val_data)

            # train 데이터만 shuffle을 적용해줍니다, 필요하다면 val, test 데이터에도 shuffle을 적용할 수 있습니다
            self.train_dataset = Dataset(train_inputs, train_targets)
            self.val_dataset = Dataset(val_inputs, val_targets)
        else:
            # 평가데이터 준비
            test_data = self.read_json('dev')
            test_inputs, test_targets = self.preprocessing(test_data)
            self.test_dataset = Dataset(test_inputs, test_targets)

    def train_dataloader(self):
        return torch.utils.data.DataLoader(self.train_dataset, batch_size=self.batch_size, shuffle=args.shuffle)

    def val_dataloader(self):
        return torch.utils.data.DataLoader(self.val_dataset, batch_size=self.batch_size)

    def test_dataloader(self):
        return torch.utils.data.DataLoader(self.test_dataset, batch_size=self.batch_size)

    def predict_dataloader(self):
        # 매개변수에 self.test_dataset 대신 self.train_dataset 혹은 self.val_dataset을 넣으면 학습, 검증 데이터셋에 대해서도 예측값을 얻을 수 있습니다.
        return torch.utils.data.DataLoader(self.test_dataset, batch_size=self.batch_size)

# 모델
- pytorch lightning을 활용한 모델 훈련 및 평가 모듈 작성

In [13]:
class Model(pl.LightningModule):
    def __init__(self, model_name, lr, bce):
        super().__init__()
        self.save_hyperparameters()

        self.model_name = model_name
        self.lr = lr
        self.bce = bce

        self.plm = transformers.AutoModelForSequenceClassification.from_pretrained(pretrained_model_name_or_path=model_name, num_labels=1)
        if self.bce:
            self.loss_func = torch.nn.BCEWithLogitsLoss()
        else:
            self.loss_func = torch.nn.L1Loss()

    def forward(self, x):
        x = self.plm(x)['logits']

        return x

    def training_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = self.loss_func(logits, y.float())
        self.log("train_loss", loss)

        return loss

    def validation_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = self.loss_func(logits, y.float())
        self.log("val_loss", loss)
        if self.bce:
            self.log("val_f1", torchmetrics.functional.classification.binary_f1_score(logits, y))
        else:
            self.log("val_pearson", torchmetrics.functional.pearson_corrcoef(logits, y))

        return loss

    def test_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        if self.bce:
            self.log("test_f1", torchmetrics.functional.classification.binary_f1_score(logits, y))
        else:
            self.log("test_pearson", torchmetrics.functional.pearson_corrcoef(logits, y))

    def predict_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        # BCEWithLogitsLoss는 내부적으로 sigmoid를 사용하므로, sigmoid를 적용해줍니다.
        if self.bce:
            logits = torch.nn.functional.sigmoid(logits)

        return logits

    def configure_optimizers(self):
        # 이곳에서 lr 값을 변경할 수 있습니다
        optimizer = torch.optim.AdamW(self.parameters(), lr=self.lr)
        return optimizer

#Train
- wandb를 활용한 모델 훈련 및 로깅

In [14]:
# 하이퍼 파라미터 등 각종 설정값을 입력받습니다
# 터미널 실행 예시 : python3 run.py --batch_size=64 ...
# 실행 시 '--batch_size=64' 같은 인자를 입력하지 않으면 default 값이 기본으로 실행됩니다
parser = argparse.ArgumentParser()
parser.add_argument('--model_name', default='klue/roberta-small', type=str)
parser.add_argument('--batch_size', default=32, type=int)
parser.add_argument('--max_epoch', default=1, type=int)
parser.add_argument('--shuffle', default=True)
parser.add_argument('--bce', default=True)
parser.add_argument('--train_ratio', default=0.8)
parser.add_argument('--learning_rate', default=1e-5, type=float)
args = parser.parse_args(args=[])

dataloader = Dataloader(args.model_name, args.batch_size, args.train_ratio, args.shuffle, args.bce)
model = Model(args.model_name, args.learning_rate, args.bce)

# wandb logger 설정
wandb_logger = WandbLogger(project="klue-sts")

# gpu가 없으면 accelerator="cpu"을, gpu가 여러개면 'devices=4'처럼 사용하실 gpu의 개수를 입력해주세요
trainer = pl.Trainer(accelerator="gpu", devices=1, max_epochs=args.max_epoch, logger=wandb_logger, log_every_n_steps=1)
trainer.fit(model=model, datamodule=dataloader)
trainer.test(model=model, datamodule=dataloader)

# 모델의 predict_step의 결과값을 받아옵니다
results = trainer.predict(model=model, datamodule=dataloader)

Some weights of the model checkpoint at klue/roberta-small were not used when initializing RobertaForSequenceClassification: ['lm_head.bias', 'lm_head.layer_norm.bias', 'lm_head.dense.bias', 'lm_head.decoder.weight', 'lm_head.dense.weight', 'lm_head.layer_norm.weight', 'lm_head.decoder.bias']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-small and are newly initialized: ['classifier.out_proj.weight', 'classifier.dense.weight', 'cla

tokenizing:   0%|          | 0/9334 [00:00<?, ?it/s]

tokenizing:   0%|          | 0/2334 [00:00<?, ?it/s]

  rank_zero_warn(f"Checkpoint directory {dirpath} exists and is not empty.")
INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]
INFO:pytorch_lightning.callbacks.model_summary:
  | Name      | Type                             | Params
---------------------------------------------------------------
0 | plm       | RobertaForSequenceClassification | 68.1 M
1 | loss_func | BCEWithLogitsLoss                | 0     
---------------------------------------------------------------
68.1 M    Trainable params
0         Non-trainable params
68.1 M    Total params
272.367   Total estimated model params size (MB)


Sanity Checking: 0it [00:00, ?it/s]

Training: 0it [00:00, ?it/s]

Validation: 0it [00:00, ?it/s]

INFO:pytorch_lightning.utilities.rank_zero:`Trainer.fit` stopped: `max_epochs=1` reached.


tokenizing:   0%|          | 0/519 [00:00<?, ?it/s]

INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Testing: 0it [00:00, ?it/s]

────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
       Test metric             DataLoader 0
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
         test_f1            0.7709686160087585
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────


tokenizing:   0%|          | 0/519 [00:00<?, ?it/s]

INFO:pytorch_lightning.accelerators.cuda:LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


Predicting: 0it [00:00, ?it/s]



# 오답 찾기

In [15]:
# 배치로 구성된 예측값을 합칩니다.
preds = torch.cat(results)
wrongs = []
for i, pred in enumerate(preds):
    # test dataset에서 i번째에 해당하는 input값과 target값을 가져옵니다
    input_ids, target = dataloader.test_dataset.__getitem__(i)
    # 예측값과 정답값이 다를 경우 기록합니다.
    if round(pred.item()) != target.item():
        wrongs.append([dataloader.tokenizer.decode(input_ids).replace(' [PAD]', ''), pred.item(), target.item()])
wrong_df = pd.DataFrame(wrongs, columns=['text', 'pred', 'target'])

In [16]:
# 오답 데이터를 확인하고, 이에 따른 대응 전략을 수립하여 성능을 개선할 수 있습니다.
# train 혹은 val 데이터셋에 대해서도 오답 측정이 필요한 경우 Dataloader 클래스에서 predict_dataloader 함수를 수정하면 됩니다.
# 오답 기록을 확인하여 이상치 제거, loss 계산과정에서 타겟별 가중치 부여, 특정 타겟을 위한 전, 후처리 추가 및 모델 개량 등의 전략을 세울 수 있습니다.
wrong_df

Unnamed: 0,text,pred,target
0,[CLS] 라디오 듣는 건 금지되어있어 [SEP] 라디오 듣는건 삼가주세요 [SEP],0.965238,0
1,[CLS] 2개의 테라스에서 감상하실수 있습니다. [SEP] 사진과 같이 테라스에서...,0.749095,0
2,[CLS] 덕분에 너무 즐거웠던 여행이 되었습니다! [SEP] 덕분에 즐거운 일본 ...,0.939230,0
3,[CLS] 와이키키 중심지로 이동이 편리한 위치에 있습니다. [SEP] 와이키키 센...,0.979684,0
4,[CLS] 집안에서 효율적으로 환기하고 싶을 때 뭐가 필요해? [SEP] 발코니말고...,0.926454,0
...,...,...,...
118,[CLS] 들어올때 말고 나갈때 방범모드 확인하는 건 어때? [SEP] 외출 시 방...,0.834251,0
119,[CLS] 한메일 계정을 더 만드는건 유료니 그만 만들어 [SEP] 한메일 계정은 ...,0.949043,0
120,[CLS] 특히 직불금 도입 과정에서 중소규모 농가를 더 배려했습니다. [SEP] ...,0.979947,0
121,"[CLS] 문체부는 이를 연차적으로 확대, 시행해 학교운동부와 스포츠클럽 간의 연계...",0.964334,0


###**콘텐츠 라이선스**

<font color='red'><b>**WARNING**</b></font> : **본 교육 콘텐츠의 지식재산권은 재단법인 네이버커넥트에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다.** 다만, 비영리적 교육 및 연구활동에 한정되어 사용할 수 있으나 재단의 허락을 받아야 합니다. 이를 위반하는 경우, 관련 법률에 따라 책임을 질 수 있습니다.