<a href="https://colab.research.google.com/github/teamgaon/KLUE/blob/main/220226_ji_fullkakao_kluedev.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# A full training

Install the Transformers and Datasets libraries to run this notebook.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!pip install datasets transformers[sentencepiece]
!pip install accelerate
# To run the training on TPU, you will need to uncomment the followin line:
!pip install cloud-tpu-client==0.10 torch==1.9.0 https://storage.googleapis.com/tpu-pytorch/wheels/torch_xla-1.9-cp37-cp37m-linux_x86_64.whl
!pip install transformers

Collecting datasets
  Downloading datasets-1.18.3-py3-none-any.whl (311 kB)
[K     |████████████████████████████████| 311 kB 5.4 MB/s 
[?25hCollecting transformers[sentencepiece]
  Downloading transformers-4.16.2-py3-none-any.whl (3.5 MB)
[K     |████████████████████████████████| 3.5 MB 77.3 MB/s 
[?25hCollecting aiohttp
  Downloading aiohttp-3.8.1-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_12_x86_64.manylinux2010_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 68.1 MB/s 
[?25hCollecting fsspec[http]>=2021.05.0
  Downloading fsspec-2022.2.0-py3-none-any.whl (134 kB)
[K     |████████████████████████████████| 134 kB 80.4 MB/s 
Collecting huggingface-hub<1.0.0,>=0.1.0
  Downloading huggingface_hub-0.4.0-py3-none-any.whl (67 kB)
[K     |████████████████████████████████| 67 kB 4.4 MB/s 
Collecting xxhash
  Downloading xxhash-3.0.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (212 kB)
[K     |████████████████████████████████| 212 

In [3]:
from accelerate import Accelerator



In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import random
from tqdm import tqdm
import torch
import torch.nn.functional as F
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split, KFold, StratifiedKFold
from transformers import TrainingArguments, Trainer
from transformers import AutoModel,AutoModelForSequenceClassification, AutoConfig, AutoTokenizer
import gc
from transformers import AdamW
from transformers import get_scheduler, get_cosine_with_hard_restarts_schedule_with_warmup
from tqdm.auto import tqdm
from datasets import load_metric
import warnings
warnings.filterwarnings('ignore')
from accelerate import notebook_launcher

In [5]:
kakao_snli = pd.read_csv('/content/drive/MyDrive/KLUE/snli_1.0_train.ko.tsv', sep='\t', encoding='utf-8')
# kakao_snli = kakao_snli[:1]

PATH =  '/content/drive/MyDrive/KLUE'
test = pd.read_csv(os.path.join(PATH, 'test_data.csv'), encoding='utf-8')

kakao_dev = pd.read_csv('/content/drive/MyDrive/KLUE/xnli.dev.ko.tsv', sep='\t', encoding='utf-8')
kakao_test = pd.read_csv('/content/drive/MyDrive/KLUE/xnli.test.ko.tsv', sep='\t', encoding='utf-8')
klue_dev = pd.read_json('/content/drive/MyDrive/KLUE/klue-nli-v1.1_dev.json')
klue_train = pd.read_json('/content/drive/MyDrive/KLUE/klue-nli-v1.1_train.json')
temp = pd.read_csv(os.path.join(PATH, 'train_data.csv'), encoding='utf-8')

klue_dev = klue_dev[['premise', 'hypothesis', 'gold_label']]
klue_train = klue_train[['premise', 'hypothesis', 'gold_label']]
klue_dev.rename(columns = {'gold_label':'label'}, inplace=True)
klue_train.rename(columns = {'gold_label':'label'}, inplace=True)

train = pd.concat([kakao_dev,kakao_test, kakao_snli])
train.rename(columns = {'sentence1':'premise','sentence2':'hypothesis','gold_label':'label'},inplace=True)
train = pd.concat([temp, train, klue_dev, klue_train], axis=0)
train = train.reset_index(drop=True)
train['index'] = train.index
train = train.dropna()
train

Unnamed: 0,index,premise,hypothesis,label
0,0,"씨름은 상고시대로부터 전해져 내려오는 남자들의 대표적인 놀이로서, 소년이나 장정들이...",씨름의 여자들의 놀이이다.,contradiction
1,1,"삼성은 자작극을 벌인 2명에게 형사 고소 등의 법적 대응을 검토 중이라고 하였으나,...",자작극을 벌인 이는 3명이다.,contradiction
2,2,이를 위해 예측적 범죄예방 시스템을 구축하고 고도화한다.,예측적 범죄예방 시스템 구축하고 고도화하는 것은 목적이 있기 때문이다.,entailment
3,3,광주광역시가 재개발 정비사업 원주민들에 대한 종합대책을 마련하는 등 원주민 보호에 ...,원주민들은 종합대책에 만족했다.,neutral
4,4,"진정 소비자와 직원들에게 사랑 받는 기업으로 오래 지속되고 싶으면, 이런 상황에서는...",이런 상황에서 책임 있는 모습을 보여주는 기업은 아주 드물다.,neutral
...,...,...,...,...
609668,609668,"힐링푸드 전문가 양성 교육 참여, 개발 음식 활용 등의 혜택도 주어진다.",개발 음식 활용 혜택만 주어진다.,contradiction
609669,609669,"힐링푸드 전문가 양성 교육 참여, 개발 음식 활용 등의 혜택도 주어진다.",힐링푸드 전문가에게 혜택이 주어진다.,neutral
609670,609670,"힐링푸드 전문가 양성 교육 참여, 개발 음식 활용 등의 혜택도 주어진다.",혜택에는 힐링푸드 전문가 양성 교육 참여가 있다.,entailment
609671,609671,힛걸 진심 최고다 그 어떤 히어로보다 멋지다,힛걸 그 어떤 히어로보다 별로다.,contradiction


In [6]:
train = kakao_snli

In [7]:
train.rename(columns = {'sentence1':'premise','sentence2':'hypothesis','gold_label':'label'},inplace=True)

In [8]:
train = train.dropna(axis=0)

In [9]:
train = train.reset_index(drop=True)
train['index'] = train.index

In [10]:
train

Unnamed: 0,premise,hypothesis,label,index
0,말을 탄 사람이 고장난 비행기 위로 뛰어오른다.,한 사람이 경쟁을 위해 말을 훈련시키고 있다.,neutral,0
1,말을 탄 사람이 고장난 비행기 위로 뛰어오른다.,한 사람이 식당에서 오믈렛을 주문하고 있다.,contradiction,1
2,말을 탄 사람이 고장난 비행기 위로 뛰어오른다.,사람은 야외에서 말을 타고 있다.,entailment,2
3,카메라에 웃고 손을 흔드는 아이들,그들은 부모님을 보고 웃고 있다,neutral,3
4,카메라에 웃고 손을 흔드는 아이들,아이들이 있다,entailment,4
...,...,...,...,...
550141,네 명의 더러운 맨발의 아이들.,4명의 아이들이 '가장 깨끗한 발'로 상을 받았다,contradiction,550141
550142,네 명의 더러운 맨발의 아이들.,네 명의 노숙자 아이들이 신발을 도둑맞아서 그들의 발이 더러워졌다.,neutral,550142
550143,한 남자가 아름다운 푸른 물에서 바디슈트를 입고 서핑을 하고 있다.,바디슈트를 입은 남자가 서핑 대회에 참가하고 있다.,neutral,550143
550144,한 남자가 아름다운 푸른 물에서 바디슈트를 입고 서핑을 하고 있다.,비즈니스 슈트를 입은 남자가 이사회로 향하고 있다.,contradiction,550144


In [11]:
klue_dev = klue_dev.reset_index(drop=True)
klue_dev['index'] = klue_dev.index
klue_dev

Unnamed: 0,premise,hypothesis,label,index
0,흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.,어떤 방에서도 흡연은 금지됩니다.,contradiction,0
1,10명이 함께 사용하기 불편함없이 만족했다.,10명이 함께 사용하기 불편함이 많았다.,contradiction,1
2,10명이 함께 사용하기 불편함없이 만족했다.,성인 10명이 함께 사용하기 불편함없이 없었다.,neutral,2
3,10명이 함께 사용하기 불편함없이 만족했다.,10명이 함께 사용하기에 만족스러웠다.,entailment,3
4,10층에 건물사람들만 이용하는 수영장과 썬베드들이 있구요.,건물사람들은 수영장과 썬베드를 이용할 수 있습니다.,entailment,4
...,...,...,...,...
2995,흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...,지방도 제1112호선을 넓히는 공사는 중단없이 마무리 되었다.,contradiction,2995
2996,흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...,지방도 제1112호선을 넓히는 공사가 중단된 건 세 번째이다.,neutral,2996
2997,흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...,지방도 제1112호선은 흔히 비자림로라고 불린다.,entailment,2997
2998,흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.,비흡연자는 발코니 있는 방이 필요없습니다.,neutral,2998


In [12]:
from transformers import AutoTokenizer

checkpoint = 'klue/roberta-large'
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

Downloading:   0%|          | 0.00/375 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/243k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/734k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/173 [00:00<?, ?B/s]

In [13]:
# train_dataset, eval_dataset = train_test_split(train, test_size=0.2, shuffle=False)

# tokenized_train = tokenizer(
#     list(train_dataset['premise']),
#     list(train_dataset['hypothesis']),
#     return_tensors="pt",
#     max_length=128, # Max_Length = 190
#     padding=True,
#     truncation=True,
#     add_special_tokens=True
# )

# tokenized_eval = tokenizer(
#     list(eval_dataset['premise']),
#     list(eval_dataset['hypothesis']),
#     return_tensors="pt",
#     max_length=128,
#     padding=True,
#     truncation=True,
#     add_special_tokens=True
# )

In [14]:
class BERTDataset(torch.utils.data.Dataset):
    def __init__(self, pair_dataset, label):
        self.pair_dataset = pair_dataset
        self.label = label

    def __getitem__(self, idx):
        item = {key: val[idx].clone().detach() for key, val in self.pair_dataset.items()}
        item['labels'] = torch.tensor(self.label[idx])
        
        return item

    def __len__(self):
        return len(self.label)

In [15]:
def label_to_num(label):
    label_dict = {"entailment": 0, "contradiction": 1, "neutral": 2, "answer": 3}
    num_label = []

    for v in label:
        num_label.append(label_dict[v])
    
    return num_label

# train_label = label_to_num(train['label'].values)
# eval_label = label_to_num(eval_dataset['label'].values)

In [16]:
# train_dataset = BERTDataset(tokenized_train, train_label)
# eval_dataset = BERTDataset(tokenized_eval, eval_label)

In [17]:
# train_dataset[0]

In [18]:
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

In [19]:
# def training_function():
#   accelerator = Accelerator()

#   train_dataloader = torch.utils.data.DataLoader(
#                     train_dataset, 
#                     batch_size=16, sampler=train_subsampler, num_workers=2)
#   eval_dataloader = torch.utils.data.DataLoader(
#                     train_dataset,
#                     batch_size=16, sampler=test_subsampler, num_workers=2)

#   config = AutoConfig.from_pretrained(checkpoint)
#   config.num_labels = 3
#   model = AutoModelForSequenceClassification.from_pretrained(checkpoint, config=config)

#   optimizer = AdamW(model.parameters(), lr=	1e-5)

#   model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(model, optimizer, train_dataloader, eval_dataloader)

#   num_epochs = 5
#   num_training_steps = num_epochs * len(train_dataloader)
#   progress_bar = tqdm(range(num_training_steps))
#   lr_scheduler = get_cosine_with_hard_restarts_schedule_with_warmup(
#       optimizer=optimizer,
#       num_warmup_steps=1,
#       num_training_steps=num_training_steps,
#   )

#   for epoch in range(num_epochs):
#       train_acc = 0.0
#       test_acc = 0.0

#       model.train()
#       for batch_id, batch in enumerate(train_dataloader):
#           outputs = model(batch['input_ids'], batch['attention_mask'], batch['token_type_ids'])
#           loss = F.cross_entropy(outputs[0], batch['labels'])
#           accelerator.backward(loss)

#           optimizer.step()
#           lr_scheduler.step()
#           optimizer.zero_grad()
#           progress_bar.update(1)
#           train_acc += calc_accuracy(outputs.logits, batch['labels'])
#       print("epoch {} train acc {}".format(epoch+1, train_acc / (batch_id+1)))

#       model.eval()
#       for batch_id, batch in enumerate(eval_dataloader):
#         with torch.no_grad():
#             outputs = model(batch['input_ids'], batch['attention_mask'], batch['token_type_ids'])

#         test_acc += calc_accuracy(outputs.logits, batch['labels'])
#       print("epoch {} test acc {}".format(epoch+1, test_acc / (batch_id+1)))
#       gc.collect()
#   accelerator.wait_for_everyone()
#   unwrapped_model = accelerator.unwrap_model(model)
#   accelerator.save(unwrapped_model.state_dict(), '/content/drive/MyDrive/KLUE/model.pt')

In [20]:
# # kfold = StratifiedKFold(n_splits=5, shuffle=True)

# # Start print
# # print('--------------------------------')

# # K-fold Cross Validation model evaluation
# def training_function():
#   kfold = StratifiedKFold(n_splits=5, shuffle=True)

#   print('--------------------------------')

#   for fold, (train_ids, test_ids) in enumerate(kfold.split(train, train['label'])):
#     # print('')
#     print(f'FOLD {fold}')

#     train_subsampler = torch.utils.data.SubsetRandomSampler(train_ids)
#     test_subsampler = torch.utils.data.SubsetRandomSampler(test_ids)

#     train_label = label_to_num(train['label'].values)

#     tokenized_train = tokenizer(
#       list(train['premise']),
#       list(train['hypothesis']),
#       return_tensors="pt",
#       max_length=128, # Max_Length = 190
#       padding=True,
#       truncation=True,
#       add_special_tokens=True
#       )
    
#     train_dataset = BERTDataset(tokenized_train, train_label)

#     # def training_function():
#     accelerator = Accelerator()

#     train_dataloader = torch.utils.data.DataLoader(
#                       train_dataset, 
#                       batch_size=8, sampler=train_subsampler)
#     eval_dataloader = torch.utils.data.DataLoader(
#                       train_dataset,
#                       batch_size=8, sampler=test_subsampler)

#     config = AutoConfig.from_pretrained(checkpoint)
#     config.num_labels = 3
#     model = AutoModelForSequenceClassification.from_pretrained(checkpoint, config=config)

#     optimizer = AdamW(model.parameters(), lr=	1e-5)

#     model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(model, optimizer, train_dataloader, eval_dataloader)

#     num_epochs = 5
#     num_training_steps = num_epochs * len(train_dataloader)
#     progress_bar = tqdm(range(num_training_steps))
#     lr_scheduler = get_cosine_with_hard_restarts_schedule_with_warmup(
#         optimizer=optimizer,
#         num_warmup_steps=1,
#         num_training_steps=num_training_steps,
#     )

#     for epoch in range(num_epochs):
#         train_acc = 0.0
#         test_acc = 0.0

#         model.train()
#         for batch_id, batch in enumerate(train_dataloader):
#             outputs = model(batch['input_ids'], batch['attention_mask'], batch['token_type_ids'])
#             loss = F.cross_entropy(outputs[0], batch['labels'])
#             accelerator.backward(loss)

#             optimizer.step()
#             lr_scheduler.step()
#             optimizer.zero_grad()
#             progress_bar.update(1)
#             train_acc += calc_accuracy(outputs.logits, batch['labels'])
#         print("epoch {} train acc {}".format(epoch+1, train_acc / (batch_id+1)))

#         model.eval()
#         for batch_id, batch in enumerate(eval_dataloader):
#           with torch.no_grad():
#               outputs = model(batch['input_ids'], batch['attention_mask'], batch['token_type_ids'])

#           test_acc += calc_accuracy(outputs.logits, batch['labels'])
#         print("epoch {} test acc {}".format(epoch+1, test_acc / (batch_id+1)))
#         gc.collect()
#     accelerator.wait_for_everyone()
#     unwrapped_model = accelerator.unwrap_model(model)
#     accelerator.save(unwrapped_model.state_dict(), '/content/drive/MyDrive/KLUE/model' + str(fold) + '.pt')

In [23]:
klue_dev

Unnamed: 0,premise,hypothesis,label,index
0,흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.,어떤 방에서도 흡연은 금지됩니다.,contradiction,0
1,10명이 함께 사용하기 불편함없이 만족했다.,10명이 함께 사용하기 불편함이 많았다.,contradiction,1
2,10명이 함께 사용하기 불편함없이 만족했다.,성인 10명이 함께 사용하기 불편함없이 없었다.,neutral,2
3,10명이 함께 사용하기 불편함없이 만족했다.,10명이 함께 사용하기에 만족스러웠다.,entailment,3
4,10층에 건물사람들만 이용하는 수영장과 썬베드들이 있구요.,건물사람들은 수영장과 썬베드를 이용할 수 있습니다.,entailment,4
...,...,...,...,...
2995,흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...,지방도 제1112호선을 넓히는 공사는 중단없이 마무리 되었다.,contradiction,2995
2996,흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...,지방도 제1112호선을 넓히는 공사가 중단된 건 세 번째이다.,neutral,2996
2997,흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...,지방도 제1112호선은 흔히 비자림로라고 불린다.,entailment,2997
2998,흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.,비흡연자는 발코니 있는 방이 필요없습니다.,neutral,2998


In [24]:
train

Unnamed: 0,premise,hypothesis,label,index
0,말을 탄 사람이 고장난 비행기 위로 뛰어오른다.,한 사람이 경쟁을 위해 말을 훈련시키고 있다.,neutral,0
1,말을 탄 사람이 고장난 비행기 위로 뛰어오른다.,한 사람이 식당에서 오믈렛을 주문하고 있다.,contradiction,1
2,말을 탄 사람이 고장난 비행기 위로 뛰어오른다.,사람은 야외에서 말을 타고 있다.,entailment,2
3,카메라에 웃고 손을 흔드는 아이들,그들은 부모님을 보고 웃고 있다,neutral,3
4,카메라에 웃고 손을 흔드는 아이들,아이들이 있다,entailment,4
...,...,...,...,...
550141,네 명의 더러운 맨발의 아이들.,4명의 아이들이 '가장 깨끗한 발'로 상을 받았다,contradiction,550141
550142,네 명의 더러운 맨발의 아이들.,네 명의 노숙자 아이들이 신발을 도둑맞아서 그들의 발이 더러워졌다.,neutral,550142
550143,한 남자가 아름다운 푸른 물에서 바디슈트를 입고 서핑을 하고 있다.,바디슈트를 입은 남자가 서핑 대회에 참가하고 있다.,neutral,550143
550144,한 남자가 아름다운 푸른 물에서 바디슈트를 입고 서핑을 하고 있다.,비즈니스 슈트를 입은 남자가 이사회로 향하고 있다.,contradiction,550144


In [25]:
tokenized_train = tokenizer(
  list(train['premise']),
  list(train['hypothesis']),
  return_tensors="pt",
  max_length=128, # Max_Length = 190
  padding=True,
  truncation=True,
  add_special_tokens=True
  )

tokenized_test = tokenizer(
    list(klue_dev['premise']),
    list(klue_dev['hypothesis']),
    return_tensors="pt",
    max_length=128, # Max_Length = 190
    padding=True,
    truncation=True,
    add_special_tokens=True
    )

train_label = label_to_num(train['label'].values)
train_dataset = BERTDataset(tokenized_train, train_label)

test_label = label_to_num(klue_dev['label'].values)
test_dataset = BERTDataset(tokenized_test, test_label)

In [26]:
def training_function():
  accelerator = Accelerator()

  train_dataloader = torch.utils.data.DataLoader(
                    train_dataset, 
                    batch_size=16, shuffle=True)
  
  eval_dataloader = torch.utils.data.DataLoader(
                    test_dataset,
                    batch_size=16)

  config = AutoConfig.from_pretrained(checkpoint)
  config.num_labels = 3
  model = AutoModelForSequenceClassification.from_pretrained(checkpoint, config=config)

  optimizer = AdamW(model.parameters(), lr=	1e-5)

  model, optimizer, train_dataloader, eval_dataloader = accelerator.prepare(model, optimizer, train_dataloader, eval_dataloader)

  num_epochs = 10
  num_training_steps = num_epochs * len(train_dataloader)
  progress_bar = tqdm(range(num_training_steps))
  lr_scheduler = get_cosine_with_hard_restarts_schedule_with_warmup(
      optimizer=optimizer,
      num_warmup_steps=1,
      num_training_steps=num_training_steps,
  )

  for epoch in range(num_epochs):
      train_acc = 0.0
      test_acc = 0.0

      model.train()
      for batch_id, batch in enumerate(train_dataloader):
          outputs = model(batch['input_ids'], batch['attention_mask'], batch['token_type_ids'])
          loss = F.cross_entropy(outputs[0], batch['labels'])
          accelerator.backward(loss)

          optimizer.step()
          lr_scheduler.step()
          optimizer.zero_grad()
          progress_bar.update(1)
          train_acc += calc_accuracy(outputs.logits, batch['labels'])
      print("epoch {} train acc {}".format(epoch+1, train_acc / (batch_id+1)))

      model.eval()
      for batch_id, batch in enumerate(eval_dataloader):
        with torch.no_grad():
            outputs = model(batch['input_ids'], batch['attention_mask'], batch['token_type_ids'])

        test_acc += calc_accuracy(outputs.logits, batch['labels'])
      print("epoch {} test acc {}".format(epoch+1, test_acc / (batch_id+1)))
      gc.collect()
  accelerator.wait_for_everyone()
  unwrapped_model = accelerator.unwrap_model(model)
  unwrapped_model.save_pretrained('/content/drive/MyDrive/full_model/model', save_function=accelerator.save)
  # accelerator.save(unwrapped_model.state_dict(), '/content/model/model' + str(fold) + '.pt')

In [None]:
# kfold = StratifiedKFold(n_splits=5, shuffle=True)

# Start print
# print('--------------------------------')

# K-fold Cross Validation model evaluation

# tokenized_train = tokenizer(
#   list(train['premise']),
#   list(train['hypothesis']),
#   return_tensors="pt",
#   max_length=128, # Max_Length = 190
#   padding=True,
#   truncation=True,
#   add_special_tokens=True
#   )

# tokenized_test = tokenizer(
#   list(klue_dev['premise']),
#   list(klue_dev['hypothesis']),
#   return_tensors="pt",
#   max_length=128, # Max_Length = 190
#   padding=True,
#   truncation=True,
#   add_special_tokens=True
#   )

# train_label = label_to_num(train['label'].values)
# train_dataset = BERTDataset(tokenized_train, train_label)

# test_label = label_to_num(klue_dev['label'].values)
# test_dataset = BERTDataset(tokenized_test, test_label)

notebook_launcher(training_function)

Launching a training on 8 TPU cores.


Some weights of the model checkpoint at klue/roberta-large were not used when initializing RobertaForSequenceClassification: ['lm_head.decoder.weight', 'lm_head.decoder.bias', 'lm_head.dense.bias', 'lm_head.layer_norm.weight', 'lm_head.dense.weight', 'lm_head.layer_norm.bias', 'lm_head.bias']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at klue/roberta-large were not used when initializing RobertaForSequenceClassification: ['lm_head.decoder.weight', 'lm_head.decoder.bias', 'lm_head.dense.bias', 'lm_head.

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

  0%|          | 0/42990 [00:00<?, ?it/s]

In [None]:
print(my_variable)

In [None]:
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

test_label = label_to_num(test['label'].values)

tokenized_test = tokenizer(
    list(test['premise']),
    list(test['hypothesis']),
    return_tensors="pt",
    max_length=128,
    padding=True,
    truncation=True,
    add_special_tokens=True
)

test_dataset = BERTDataset(tokenized_test, test_label)

dataloader = DataLoader(test_dataset, batch_size=16, shuffle=False)

for fold in range(5):

  config = AutoConfig.from_pretrained(checkpoint)
  config.num_labels = 3
  model = AutoModelForSequenceClassification.from_pretrained('/content/drive/MyDrive/full_model/model' + str(fold), num_labels=3)
  model.resize_token_embeddings(tokenizer.vocab_size)
  accelerator = Accelerator()
  model = accelerator.unwrap_model(model)
  # model.load_state_dict(torch.load('/content/drive/MyDrive/KLUE_model/hj_model' + str(fold) + '.pt'))

  output_pred = []
  output_prob = []

  model, dataloader= accelerator.prepare(model, dataloader)

  model.eval()

  for i, data in enumerate(tqdm(dataloader)):
      with torch.no_grad():
          outputs = model(
              input_ids=data['input_ids'],
              attention_mask=data['attention_mask']
          )
      logits = outputs[0]
      prob = F.softmax(logits, dim=-1).detach().cpu().numpy()
      logits = logits.detach().cpu().numpy()
      result = np.argmax(logits, axis=-1)

      output_pred.append(result)
      output_prob.append(prob)
    
  pred_answer, output_prob = np.concatenate(output_pred).tolist(), np.concatenate(output_prob, axis=0).tolist()

  def num_to_label(label):
      label_dict = {0: "entailment", 1: "contradiction", 2: "neutral"}
      str_label = []

      for i, v in enumerate(label):
          str_label.append([i,label_dict[v]])
      
      return str_label

  answer = num_to_label(pred_answer)

  df = pd.DataFrame(answer, columns=['index', 'label'])

  df.to_csv('/content/drive/MyDrive/KLUE/pred'+str(fold)+'.csv', index=False)

In [None]:
pred0 = pd.read_csv('/content/drive/MyDrive/KLUE/pred0.csv')
pred1 = pd.read_csv('/content/drive/MyDrive/KLUE/pred1.csv')
pred2 = pd.read_csv('/content/drive/MyDrive/KLUE/pred2.csv')
pred3 = pd.read_csv('/content/drive/MyDrive/KLUE/pred3.csv')
pred4 = pd.read_csv('/content/drive/MyDrive/KLUE/pred4.csv')

In [None]:
test['label0'] = pred0['label']
test['label1'] = pred1['label']
test['label2'] = pred2['label']
test['label3'] = pred3['label']
test['label4'] = pred4['label']

In [None]:
test.iloc[85]['premise']

In [None]:
test[:50]

In [None]:
df = test

In [None]:
def label_count(df):
  num_neutral = 0
  num_contradiction = 0
  num_entailment = 0
  cols = ['label0', 'label1', 'label2', 'label3', 'label4']
  for col in cols:
    if df[col] == 'neutral':
      num_neutral = num_neutral + 1
    if df[col] == 'contradiction':
      num_contradiction = num_contradiction + 1
    if df[col] == 'entailment':
      num_entailment = num_entailment + 1
  return [num_neutral, num_contradiction, num_entailment]

temp = df.apply(label_count, axis=1)

In [None]:
df['temp'] = temp

In [None]:
df['neutral'] = 0
df['contradiction'] = 0
df['entailment'] = 0

In [None]:
def list_to_num(list:list):
  return list[0]

df['neutral'] = df['temp'].map(list_to_num)

def list_to_num(list:list):
  return list[1]

df['contradiction'] = df['temp'].map(list_to_num)

def list_to_num(list:list):
  return list[2]

df['entailment'] = df['temp'].map(list_to_num)

In [None]:
def voting(df):
  cols = ['neutral', 'contradiction', 'entailment']
  for col in cols:
    if df[col] > 2:
      return col
  return 'neutral'

df['label'] = df.apply(voting, axis=1)

In [None]:
submission = pd.read_csv('/content/drive/MyDrive/KLUE/sample_submission.csv')

In [None]:
submission['label'] = df['label']

In [None]:
submission

## 하드보팅 소프트보팅 해보기

In [None]:
submission.to_csv('/content/drive/MyDrive/KLUE/submission.csv', index=False)

In [None]:
df[df['neutral'] == 2][['premise',	'hypothesis', 'label',	'neutral', 'contradiction', 'entailment']].loc[700]['premise']

In [None]:
df[(df['entailment'] == 3) & (df['contradiction'] >= 1)][['premise',	'hypothesis', 'label',	'neutral', 'contradiction', 'entailment']]

In [None]:
df[(df['contradiction'] == 3) & (df['entailment'] >= 1)][['premise',	'hypothesis', 'label',	'neutral', 'contradiction', 'entailment']].loc[1127]['premise']

In [None]:
test = pd.read_csv('/content/drive/MyDrive/KLUE/test_data.csv')

In [None]:
test

In [None]:
pred_kor=pd.read_csv('/content/submission (4).csv')

In [None]:
test['label_eng'] = df['label']

In [None]:
test['label_kor'] = pred_kor['label']

In [None]:
my_index = test[test['label_eng'] != test['label_kor']].index

In [None]:
my_index

In [None]:
test

In [None]:
test.loc[my_index, 'label_eng'] = test.loc[my_index, 'label_kor']

In [None]:
test

In [None]:
pred_kor['label'] = test['label_eng']

In [None]:
pred_kor.to_csv('eng_kor.csv', index=False)