# Import

In [262]:
import transformers
import torch
import pandas as pd
from tqdm.auto import tqdm

from torch.utils.data import DataLoader

from transformers import AutoTokenizer, AutoModelForMaskedLM
from datasets import load_dataset
from transformers import DataCollatorForLanguageModeling

In [357]:
device = torch.device("mps" if torch.backends.mps.is_available() else "cuda" if torch.cuda.is_available() else "cpu")
device = "cpu"

In [358]:
tokenizer = AutoTokenizer.from_pretrained("beomi/kcbert-base")
model = AutoModelForMaskedLM.from_pretrained("beomi/kcbert-base").to(device)

Some weights of the model checkpoint at beomi/kcbert-base were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [271]:
def tokenization(example):
    return tokenizer(example["text"])

train_dataset = load_dataset("csv", data_files="dataset/train.csv")['train']
train_dataset = train_dataset.map(tokenization, batched=True, remove_columns=["id", "text", "label"])
train_dataset

Map:   0%|          | 0/2000 [00:00<?, ? examples/s]

Dataset({
    features: ['input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 2000
})

In [339]:
data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=True, mlm_probability=0.15)
train_loader = DataLoader(train_dataset, batch_size=16, shuffle=False, collate_fn=data_collator)
train_loader

<torch.utils.data.dataloader.DataLoader at 0x32e7fc6d0>

In [359]:
def augment_epoch():
    augmented_texts = []

    for batch in tqdm(train_loader):
        batch = batch.to(device)
        token_logits = model(**batch).logits

        # Loop over each example in batch
        for i in range(batch.input_ids.shape[0]):
            mask_token_index = torch.where(batch.input_ids[i] == tokenizer.mask_token_id)[0]
            mask_token_logits = token_logits[i, mask_token_index, :]
            replaced_tokens = mask_token_logits.argmax(dim=1).tolist()

            # Replace mask tokens by replaced tokens
            augmented_input = batch.input_ids[i].clone()
            for k in range(len(mask_token_index)):
                augmented_input[mask_token_index[k]] = replaced_tokens[k]

            augmented_text = tokenizer.decode(augmented_input, skip_special_tokens=True)
            augmented_texts.append(augmented_text)

    return augmented_texts

In [354]:
train_df = pd.read_csv("dataset/train.csv")

In [383]:
# augmented_data = {
#     "id": train_df["id"].tolist(), 
#     "text": train_df["text"].tolist(),
#     "label": train_df["label"].tolist(),
#     }
augmented_data = {"id": [], "text": [], "label": []}
num_augs = 4

# To avoid duplicates, augment 3 times more than num_augs
for i in tqdm(range(num_augs)):
    augmented_texts = augment_epoch()
    for j, row in train_df.iterrows():
        augmented_data["id"].append(f"{row['id']}")
        augmented_data["text"].append(augmented_texts[j])
        augmented_data["label"].append(row["label"])

  0%|          | 0/4 [00:00<?, ?it/s]

  0%|          | 0/125 [00:00<?, ?it/s]

  0%|          | 0/125 [00:00<?, ?it/s]

  0%|          | 0/125 [00:00<?, ?it/s]

  0%|          | 0/125 [00:00<?, ?it/s]

In [384]:
augment_df = pd.DataFrame(augmented_data)
augment_df['id'] = augment_df['id'].astype(int)
augment_df.sort_values(by=["id"], inplace=True)
augment_df

Unnamed: 0,id,text,label
0,218,가성비 굿이에요 저는 프레임만 구입했는데 2주만에 샀고요 디자인 깔끔하고요 인터넷 ...,1
6000,218,가성비 굿입니다 저는 프레임만 구입했는데 2주만에 왔어요 디자인 깔끔하고요 인터넷 ...,1
4000,218,가성비 짱이에요 저는 프레임만 구입했는데 2주만에 왔어요 디자인 깔끔하고요 인터넷 ...,1
2000,218,가성비 굿입니다 저는 프레임만 구입했는데 오랫만에 왔고요 디자인 깔끔하고요 인터넷 ...,1
6001,338,장갑이 짱짱하고 패드도 좋아요. 장갑낀 대깨문아 스마트폰 터치도 됩니다.,1
...,...,...,...
1998,199601,너무좋아요 아이들이너무좋아합니다 또구매하고싶네요 또구매할께오,1
3999,199719,진쨔 예쁩니다.. 두말 하면 잔소리에요 카고팬츠 참내 사고싶어서 많이 봤는대 이거 ...,1
1999,199719,진쨔 예쁩니다.. 두마디 하면 잔소리에요 카고이츠 엄청보고싶어서 많이 봤는대 이거 ...,1
5999,199719,진쨔 예쁩니다.. 두말 하면 잔소리. 카고팬츠 엄청 사고 그런거 많이 봤음 이거 한...,1


In [385]:
augment_df.drop_duplicates(subset=["text"], inplace=True)
augment_df

Unnamed: 0,id,text,label
0,218,가성비 굿이에요 저는 프레임만 구입했는데 2주만에 샀고요 디자인 깔끔하고요 인터넷 ...,1
6000,218,가성비 굿입니다 저는 프레임만 구입했는데 2주만에 왔어요 디자인 깔끔하고요 인터넷 ...,1
4000,218,가성비 짱이에요 저는 프레임만 구입했는데 2주만에 왔어요 디자인 깔끔하고요 인터넷 ...,1
2000,218,가성비 굿입니다 저는 프레임만 구입했는데 오랫만에 왔고요 디자인 깔끔하고요 인터넷 ...,1
6001,338,장갑이 짱짱하고 패드도 좋아요. 장갑낀 대깨문아 스마트폰 터치도 됩니다.,1
...,...,...,...
1998,199601,너무좋아요 아이들이너무좋아합니다 또구매하고싶네요 또구매할께오,1
3999,199719,진쨔 예쁩니다.. 두말 하면 잔소리에요 카고팬츠 참내 사고싶어서 많이 봤는대 이거 ...,1
1999,199719,진쨔 예쁩니다.. 두마디 하면 잔소리에요 카고이츠 엄청보고싶어서 많이 봤는대 이거 ...,1
5999,199719,진쨔 예쁩니다.. 두말 하면 잔소리. 카고팬츠 엄청 사고 그런거 많이 봤음 이거 한...,1


In [387]:
augment_df = pd.concat([train_df, augment_df], ignore_index=True)
augment_df.sort_values(by=["id"], inplace=True, kind="mergesort")

In [397]:
# Drop empty texts
augment_df.drop(augment_df[augment_df["text"] == ""].index, inplace=True)
len(augment_df)

9798

In [388]:
augment_df.to_csv("dataset/train_aug_mlm.csv", index=False)