In [1]:
!pip install adamp

Collecting adamp
  Downloading adamp-0.3.0.tar.gz (5.1 kB)
Building wheels for collected packages: adamp
  Building wheel for adamp (setup.py) ... [?25l[?25hdone
  Created wheel for adamp: filename=adamp-0.3.0-py3-none-any.whl size=5998 sha256=12847a274168274e6167333bac3650b0be981526a9bf77a72d48b21b0ccebfcc
  Stored in directory: /root/.cache/pip/wheels/bb/95/21/ced2d2cb9944e3a72e58fece7958973eed3fd8d0aeb6e2e450
Successfully built adamp
Installing collected packages: adamp
Successfully installed adamp-0.3.0


In [2]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.17.0-py3-none-any.whl (3.8 MB)
[?25l[K     |                                | 10 kB 36.2 MB/s eta 0:00:01[K     |▏                               | 20 kB 22.0 MB/s eta 0:00:01[K     |▎                               | 30 kB 17.3 MB/s eta 0:00:01[K     |▍                               | 40 kB 15.4 MB/s eta 0:00:01[K     |▍                               | 51 kB 7.3 MB/s eta 0:00:01[K     |▌                               | 61 kB 8.6 MB/s eta 0:00:01[K     |▋                               | 71 kB 9.0 MB/s eta 0:00:01[K     |▊                               | 81 kB 8.8 MB/s eta 0:00:01[K     |▊                               | 92 kB 9.8 MB/s eta 0:00:01[K     |▉                               | 102 kB 7.9 MB/s eta 0:00:01[K     |█                               | 112 kB 7.9 MB/s eta 0:00:01[K     |█                               | 122 kB 7.9 MB/s eta 0:00:01[K     |█▏                              | 133 kB 7.9 MB/s eta

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
import pandas as pd
import numpy as np
import os

import transformers
from transformers import AutoTokenizer, AdamW, RobertaForSequenceClassification
from transformers import get_linear_schedule_with_warmup

import torch
from torch.nn import functional as F
from torch.utils.data import DataLoader, Dataset

from tqdm.notebook import tqdm, tqdm_notebook

import random
import torch.backends.cudnn as cudnn

from sklearn.model_selection import StratifiedKFold

from adamp import AdamP

In [5]:
train_1 = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/dacon/nli/train_data.csv')
train_2 = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/dacon/nli/plus_data.csv')
test = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dacon/nli/test_data.csv")
submission = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dacon/nli/sample_submission.csv")


In [6]:
train=pd.concat([train_1, train_2])

In [7]:
list1 = [(train['label']== "entailment"), (train['label']== "contradiction"), (train['label']== "neutral")]
choicelist1 = [0,1,2]
train['label']=np.select(list1, choicelist1)

train=train[['premise','hypothesis','label']]
test=test[['premise','hypothesis']]

In [8]:
class TRAINDataset(Dataset):
  
  def __init__(self, data):
    self.dataset = data
    self.tokenizer = AutoTokenizer.from_pretrained("klue/roberta-large")

    print(self.dataset)
  
  def __len__(self):
    return len(self.dataset)
  
  def __getitem__(self, idx):
    row = self.dataset.iloc[idx, 0:3].values
    sentence1 = row[0]
    sentence2 = row[1]
    y = row[2]
    inputs = self.tokenizer(
        sentence1,
        sentence2,
        truncation=True,
        return_token_type_ids=False,
        pad_to_max_length=True,
        add_special_tokens=True,
        max_length=100
    )
    
    input_ids = torch.from_numpy(np.asarray(inputs['input_ids']))
    attention_mask = torch.from_numpy(np.asarray(inputs['attention_mask']))

    return input_ids, attention_mask, y

In [9]:
class TESTDataset(Dataset):
  
  def __init__(self, data):
    self.dataset = data
    self.tokenizer = AutoTokenizer.from_pretrained("klue/roberta-large")

    print(self.dataset)
  
  def __len__(self):
    return len(self.dataset)
  
  def __getitem__(self, idx):
    row = self.dataset.iloc[idx, 0:2].values
    sentence1 = row[0]
    sentence2 = row[1]
    inputs = self.tokenizer(
        sentence1,
        sentence2,
        truncation=True,
        return_token_type_ids=False,
        pad_to_max_length=True,
        add_special_tokens=True,
        max_length=100
    )
    
    input_ids = torch.from_numpy(np.asarray(inputs['input_ids']))
    attention_mask = torch.from_numpy(np.asarray(inputs['attention_mask']))

    return input_ids, attention_mask

In [10]:
def calc_accuracy(X,Y):
    max_vals, max_indices = torch.max(X, 1)
    train_acc = (max_indices == Y).sum().data.cpu().numpy()/max_indices.size()[0]
    return train_acc

In [11]:
device = torch.device("cuda")

In [12]:
# 파라미터
epochs = 20
batch_size = 16

In [13]:
# 모델 학습 및 검증
def training(train_dataset,val_dataset, fold):
  best_acc = 0
  
  model = RobertaForSequenceClassification.from_pretrained("klue/roberta-large", num_labels=3).to(device)
  
  dataset_train = TRAINDataset(train_dataset)
  dataset_val = TRAINDataset(val_dataset)

  train_loader = DataLoader(dataset_train, batch_size=batch_size, shuffle=True)
  valid_loader = DataLoader(dataset_val, batch_size=batch_size, shuffle=False)

  optimizer = AdamP(model.parameters(), lr=1e-5, betas=(0.9, 0.999), weight_decay=1e-2)

  total_steps = len(train_loader) * epochs

  # 스케줄러
  scheduler = get_linear_schedule_with_warmup(optimizer, 
                                              num_warmup_steps = 0,
                                              num_training_steps = total_steps)

  for e in range(epochs):
    train_acc = 0.0
    valid_acc = 0.0
    model.train()
    for batch_id, (token_ids, attention_masks, label) in tqdm(enumerate(train_loader), total=len(train_loader)):
      optimizer.zero_grad()
      token_ids = token_ids.to(device)
      attention_masks = attention_masks.to(device)
      label = label.to(device)
      out = model(token_ids, attention_masks)[0]
      loss = F.cross_entropy(out, label)
      loss.backward()
      optimizer.step()
      scheduler.step()
      train_acc += calc_accuracy(out, label)

    print("epoch {} train acc {}".format(e+1, train_acc / (batch_id+1)))

    model.eval()
    for batch_id, (token_ids, attention_masks, label) in tqdm(enumerate(valid_loader), total=len(valid_loader)):
      token_ids = token_ids.to(device)
      attention_masks = attention_masks.to(device)
      label = label.to(device)
      out = model(token_ids, attention_masks)[0]
      valid_acc += calc_accuracy(out, label)
    print("epoch {} valid acc {}".format(e+1, valid_acc / (batch_id+1)))
    torch.save(model, '/content/drive/MyDrive/Colab Notebooks/dacon/nli/model'+str(fold)+'.pt')

In [14]:
# 교차검증
def main():
    seed= 2021 # 재현성을 위한 시드값 고정
    random.seed(seed)
    np.random.seed(seed)
    os.environ["PYTHONHASHSEED"] = str(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)  # type: ignore
    torch.backends.cudnn.deterministic = True  # type: ignore
    torch.backends.cudnn.benchmark = False  # type: ignore

    # kfold
    kfold=[]

    splitter = StratifiedKFold(n_splits=5, shuffle=True, random_state=2021)
    for train_idx, val_idx in splitter.split(train.iloc[:, 0:2],train.iloc[:, 2]):
        kfold.append((train.iloc[train_idx,:],train.iloc[val_idx,:]))

    for fold,(train_datasets, valid_datasets) in enumerate(kfold):
        print(f'fold{fold} 학습중...')
        training(train_dataset=train_datasets,val_dataset=valid_datasets,fold=fold)

In [None]:
main() 

fold0 학습중...


Downloading:   0%|          | 0.00/547 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.25G [00:00<?, ?B/s]

Some weights of the model checkpoint at klue/roberta-large were not used when initializing RobertaForSequenceClassification: ['lm_head.dense.bias', 'lm_head.decoder.weight', 'lm_head.dense.weight', 'lm_head.decoder.bias', 'lm_head.layer_norm.bias', 'lm_head.layer_norm.weight', 'lm_head.bias']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-large and are newly initialized: ['classifier.out_proj.bias', 'classifier.dense.bias', 'classif

Downloading:   0%|          | 0.00/375 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/243k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/734k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/173 [00:00<?, ?B/s]

                                                premise  \
0     씨름은 상고시대로부터 전해져 내려오는 남자들의 대표적인 놀이로서, 소년이나 장정들이...   
1     삼성은 자작극을 벌인 2명에게 형사 고소 등의 법적 대응을 검토 중이라고 하였으나,...   
2                       이를 위해 예측적 범죄예방 시스템을 구축하고 고도화한다.   
3     광주광역시가 재개발 정비사업 원주민들에 대한 종합대책을 마련하는 등 원주민 보호에 ...   
4     진정 소비자와 직원들에게 사랑 받는 기업으로 오래 지속되고 싶으면, 이런 상황에서는...   
...                                                 ...   
2994                 후반부에 피클 통조림 따라고 따개를 챙겨준 독일 장교의 세심함   
2995  흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...   
2996  흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...   
2998                흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.   
2999                흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.   

                                   hypothesis  label  
0                              씨름의 여자들의 놀이이다.      1  
1                            자작극을 벌인 이는 3명이다.      1  
2     예측적 범죄예방 시스템 구축하고 고도화하는 것은 목적이 있기 때문이다.      0  
3                           원주민들은 종합대책에 만족했다.      2  
4          이런 상황

  0%|          | 0/1400 [00:00<?, ?it/s]



epoch 1 train acc 0.8206632653061223


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 1 valid acc 0.9060714285714285


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 2 train acc 0.9376339285714286


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 2 valid acc 0.9126785714285715


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 3 train acc 0.9703571428571428


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 3 valid acc 0.9044642857142857


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 4 train acc 0.9823660714285715


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 4 valid acc 0.9132142857142858


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 5 train acc 0.9880803571428571


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 5 valid acc 0.9119642857142857


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 6 train acc 0.9898214285714285


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 6 valid acc 0.9148214285714286


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 7 train acc 0.9923214285714286


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 7 valid acc 0.9130357142857143


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 8 train acc 0.9940178571428572


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 8 valid acc 0.9167857142857143


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 9 train acc 0.9961607142857143


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 9 valid acc 0.905


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 10 train acc 0.9962946428571429


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 10 valid acc 0.9130357142857143


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 11 train acc 0.9970535714285714


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 11 valid acc 0.9130357142857143


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 12 train acc 0.9974553571428572


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 12 valid acc 0.9105357142857143


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 13 train acc 0.9980803571428571


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 13 valid acc 0.9105357142857143


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 14 train acc 0.9983928571428572


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 14 valid acc 0.9155357142857142


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 15 train acc 0.9986607142857142


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 15 valid acc 0.9133928571428571


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 16 train acc 0.9990625


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 16 valid acc 0.9139285714285714


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 17 train acc 0.9998214285714285


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 17 valid acc 0.9125


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 18 train acc 0.9995535714285714


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 18 valid acc 0.9139285714285714


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 19 train acc 0.9996875


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 19 valid acc 0.9153571428571429


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 20 train acc 0.9997767857142857


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 20 valid acc 0.9151785714285714
fold1 학습중...


Some weights of the model checkpoint at klue/roberta-large were not used when initializing RobertaForSequenceClassification: ['lm_head.dense.bias', 'lm_head.decoder.weight', 'lm_head.dense.weight', 'lm_head.decoder.bias', 'lm_head.layer_norm.bias', 'lm_head.layer_norm.weight', 'lm_head.bias']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at klue/roberta-large and are newly initialized: ['classifier.out_proj.bias', 'classifier.dense.bias', 'classif

                                                premise  \
0     씨름은 상고시대로부터 전해져 내려오는 남자들의 대표적인 놀이로서, 소년이나 장정들이...   
1     삼성은 자작극을 벌인 2명에게 형사 고소 등의 법적 대응을 검토 중이라고 하였으나,...   
2                       이를 위해 예측적 범죄예방 시스템을 구축하고 고도화한다.   
5     이번 증설로 코오롱인더스트리는 기존 생산량 7만7000톤에서 1만6800톤이 늘어나...   
7                            시대상황을 고려하는 현명한 시청태도가 요구되다.   
...                                                 ...   
2993                 후반부에 피클 통조림 따라고 따개를 챙겨준 독일 장교의 세심함   
2995  흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...   
2996  흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...   
2997  흔히 비자림로라고 불리는 지방도 제1112호선을 넓히는 공사가 1년만에 재개되었다가...   
2998                흡연자분들은 발코니가 있는 방이면 발코니에서 흡연이 가능합니다.   

                                   hypothesis  label  
0                              씨름의 여자들의 놀이이다.      1  
1                            자작극을 벌인 이는 3명이다.      1  
2     예측적 범죄예방 시스템 구축하고 고도화하는 것은 목적이 있기 때문이다.      0  
5         코오롱 인더스트리는 총 9만 3800톤의 생산 능력을 확보했다.      0  
7               

  0%|          | 0/1400 [00:00<?, ?it/s]



epoch 1 train acc 0.8315114795918367


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 1 valid acc 0.8982142857142857


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 2 train acc 0.9381186224489795


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 2 valid acc 0.8966071428571428


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 3 train acc 0.9695089285714286


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 3 valid acc 0.9021428571428571


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 4 train acc 0.9824553571428571


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 4 valid acc 0.9021428571428571


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 5 train acc 0.9869196428571428


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 5 valid acc 0.8978571428571429


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 6 train acc 0.9905357142857143


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 6 valid acc 0.8914285714285715


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 7 train acc 0.9920982142857143


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 7 valid acc 0.8996428571428572


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 8 train acc 0.9937053571428571


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 8 valid acc 0.9003571428571429


  0%|          | 0/1400 [00:00<?, ?it/s]

epoch 9 train acc 0.9955803571428572


  0%|          | 0/350 [00:00<?, ?it/s]

epoch 9 valid acc 0.9025


  0%|          | 0/1400 [00:00<?, ?it/s]

In [15]:
# 예측 
def inference(model, dataset_test):
    test_dataset = TESTDataset(dataset_test)
    test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)
    model.eval()
    output_pred = []
    with torch.no_grad():
      for batch_id, (token_ids, attention_masks) in tqdm(enumerate(test_loader), total=len(test_loader)):
        token_ids = token_ids.long().to(device)
        attention_masks = attention_masks.long().to(device)
        output=model(token_ids, attention_masks)[0]
        logits = torch.nn.functional.softmax(output, dim=1).detach().cpu().numpy()
        output_pred.extend(logits)
    return output_pred

In [16]:
label_dict = {"entailment" : 0, "contradiction" : 1, "neutral" : 2}

In [20]:
# 결과 도출
def inference_main():
  res = np.zeros((len(test),3)) 
  for i in range(5): 
    print(f'fold{i} 모델 추론중...')
    # load my model
    model = torch.load('/content/drive/MyDrive/Colab Notebooks/dacon/nli/model'+str(i)+'.pt')

    pred_answer = inference(model, test)

    res += np.array(pred_answer) / 5 

  ans= np.argmax(res, axis=-1)
  out = [list(label_dict.keys())[_] for _ in ans]
  submission["label"] = out

In [18]:
inference_main()

fold0 모델 추론중...


Downloading:   0%|          | 0.00/375 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/243k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/734k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/173 [00:00<?, ?B/s]

                                                premise  \
0                             다만 조금 좁아서 케리어를 펼치기 불편합니다.   
1                            그리고 위치가 시먼역보다는 샤오난먼역에 가까워요   
2                     구구절절 설명하고 이해시키려는 노력이 큰 의미없이 다가온다.   
3                              몇 번을 다시봐도 볼 때마다 가슴이 저민다.   
4          8월 중에 입주신청을 하면 청년은 9월, 신혼부부는 10월부터 입주가 가능하다.   
...                                                 ...   
1661  또 작업자의 숙련도와 경험 향상, 전문성을 요구하는 난이도 높은 데이터 가공을 통해...   
1662                   결말을 보니 아무래도 이 영화는 2부가 계획된 듯 합니다.   
1663  사회적 거리 두기 상황에서 총리도 카페를 갔다가 자리가 없어서 퇴짜 맞은 일도 있을...   
1664                            로마에서 3박4일간 이곳에서 머물렀습니다.   
1665                             난 당신이 떠날때 길 하나도 못 건넜는데   

                                hypothesis  
0                    케리어를 펼치기에 공간이 충분했습니다.  
1               시먼역보다는 샤오난먼역에 먼저 도착할 수 있어요  
2        무엇인가 말을 많이 하기는 했지만 큰 의미가 있지는 않았다.  
3                           다시 봤을때는 무덤덤했다.  
4     8월 중에 입주신청을 하면 신혼부부는 9월 부터 입주가 가능하다.  
...                  

  0%|          | 0/105 [00:00<?, ?it/s]



In [19]:
submission.to_csv("FOLD5(20)_submission.csv", index = False)