In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
DATA_PATH = os.getenv("DATA_PATH")

In [2]:
import pandas as pd

df = pd.read_csv(DATA_PATH + "articles_training_xlm.tsv", sep="\t")
df

Unnamed: 0,content,tags
0,"Bước vào trận đấu, Barcelona nhanh chóng tràn ...","La Liga,Sevilla,Olimpic Lluis Companys,Lewando..."
1,Willian đi vào lịch sử bóng đá xứ samba. Với 1...,"Estevao Willian,Neymar,giải VĐQG Brazil,Serie ..."
2,Giải vô địch ná cao su thế giới năm 2024 đã di...,"ná cao su,giải vô địch,giải Ba,Thượng Hải,vận ..."
3,Giải đấu khởi tranh từ ngày 13/10 đến ngày 20/...,"Trảng Bàng,thiếu niên,thị xã,cao thượng,Gia Lộ..."
4,Giải vô địch Karate quốc gia lần thứ 33 năm 20...,"Nguyễn Thị Bảo Ngọc,Hoàng Thị Mỹ Tâm,huy chươn..."
...,...,...
36195,"Ngày 16/8, tại Công an tỉnh Thái Bình, Bộ Công...","Trần Xuân Ánh,Công an tỉnh Thái Bình,giữ chức ..."
36196,"(từ ngày 1-10), lực lượng đã kiểm tra, xử phạt...","Trảng Bom,Công an huyện Trảng Bom,xử phạt,THPT..."
36197,Thủ tướng Trung Quốc Lý Cường đang có chuyến t...,"đà phát triển,Lý Cường,đối tác,quan hệ,năm,vốn..."
36198,"Các đoàn xuất quân “Ứng cứu thông tin, khắc ph...","VNPT Bình Dương,Yagi,bão,Bắc Giang,hậu quả,khô..."


In [3]:
# Drop rows with no tags
df = df.dropna(subset=["tags"])
df

Unnamed: 0,content,tags
0,"Bước vào trận đấu, Barcelona nhanh chóng tràn ...","La Liga,Sevilla,Olimpic Lluis Companys,Lewando..."
1,Willian đi vào lịch sử bóng đá xứ samba. Với 1...,"Estevao Willian,Neymar,giải VĐQG Brazil,Serie ..."
2,Giải vô địch ná cao su thế giới năm 2024 đã di...,"ná cao su,giải vô địch,giải Ba,Thượng Hải,vận ..."
3,Giải đấu khởi tranh từ ngày 13/10 đến ngày 20/...,"Trảng Bàng,thiếu niên,thị xã,cao thượng,Gia Lộ..."
4,Giải vô địch Karate quốc gia lần thứ 33 năm 20...,"Nguyễn Thị Bảo Ngọc,Hoàng Thị Mỹ Tâm,huy chươn..."
...,...,...
36195,"Ngày 16/8, tại Công an tỉnh Thái Bình, Bộ Công...","Trần Xuân Ánh,Công an tỉnh Thái Bình,giữ chức ..."
36196,"(từ ngày 1-10), lực lượng đã kiểm tra, xử phạt...","Trảng Bom,Công an huyện Trảng Bom,xử phạt,THPT..."
36197,Thủ tướng Trung Quốc Lý Cường đang có chuyến t...,"đà phát triển,Lý Cường,đối tác,quan hệ,năm,vốn..."
36198,"Các đoàn xuất quân “Ứng cứu thông tin, khắc ph...","VNPT Bình Dương,Yagi,bão,Bắc Giang,hậu quả,khô..."


In [4]:
from transformers import AutoModel, AutoTokenizer

model_name = "FacebookAI/xlm-roberta-base"
model = AutoModel.from_pretrained(model_name)
print(model.config)
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)

XLMRobertaConfig {
  "_attn_implementation_autoset": true,
  "_name_or_path": "FacebookAI/xlm-roberta-base",
  "architectures": [
    "XLMRobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "xlm-roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "transformers_version": "4.46.3",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 250002
}



In [5]:
example = df['content'][0]
tokenized_input = tokenizer(example)
tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
tokens

['<s>',
 '▁Bước',
 '▁vào',
 '▁trận',
 '▁đấu',
 ',',
 '▁Barcelona',
 '▁nhanh',
 '▁chóng',
 '▁tràn',
 '▁lên',
 '▁tấn',
 '▁công',
 '▁nhưng',
 '▁v',
 'ấ',
 'p',
 '▁phải',
 '▁sự',
 '▁kháng',
 '▁cự',
 '▁quyết',
 '▁liệt',
 '▁của',
 '▁Sevilla',
 '.',
 '▁Bước',
 '▁ngo',
 'ặt',
 '▁đến',
 '▁ở',
 '▁phút',
 '▁22,',
 '▁Rap',
 'hin',
 'ha',
 '▁bị',
 '▁phạm',
 '▁lỗi',
 '▁trong',
 '▁vòng',
 '▁cấm',
 '▁và',
 '▁trọng',
 '▁tài',
 '▁đã',
 '▁cho',
 '▁Barcelona',
 '▁hưởng',
 '▁quả',
 '▁phạt',
 '▁đề',
 'n',
 '.',
 '▁Trên',
 '▁chấm',
 '▁11',
 'm',
 ',',
 '▁Le',
 'wand',
 'owski',
 '▁đã',
 '▁ghi',
 '▁bàn',
 '▁mở',
 '▁tỷ',
 '▁số',
 '▁cho',
 '▁Barcelona',
 '.',
 '▁Đến',
 '▁phút',
 '▁28,',
 '▁Pedr',
 'i',
 '▁đã',
 '▁có',
 '▁bàn',
 '▁nhân',
 '▁đôi',
 '▁cách',
 '▁biệt',
 '▁cho',
 '▁đội',
 '▁chủ',
 '▁nhà',
 '▁trước',
 '▁khi',
 '▁Le',
 'wand',
 'owski',
 '▁hoàn',
 '▁tất',
 '▁cú',
 '▁đ',
 'úp',
 '▁cho',
 '▁riêng',
 '▁mình',
 '▁ở',
 '▁phút',
 '▁39',
 '.',
 '▁Hiệp',
 '▁1',
 '▁kh',
 'ép',
 '▁lại',
 '▁với',
 '▁tỉ',
 '▁số',

In [6]:
### [0, 1, 2] <-> [O, B, I]

def align_labels(text_tokens, tag_tokens):
	labels = [0] * len(text_tokens)
	for tag in tag_tokens:
		tag_len = len(tag)
		for i in range(len(text_tokens) - tag_len + 1):
			if text_tokens[i:i + tag_len] == tag:
				labels[i] = 1  # Beginning of keyword
				for j in range(1, tag_len):
					labels[i + j] = 2  # Inside keyword
				break  # Move to the next tag once a match is found
	return labels


def tokenize_and_align_labels(text, tags):
	tokenized_input = tokenizer(text, truncation=True, padding='max_length', max_length=512)
	text_tokens = tokenizer.convert_ids_to_tokens(tokenized_input["input_ids"])
	tag_tokens = [tokenizer.tokenize(tag) for tag in tags]
	labels = align_labels(text_tokens, tag_tokens)
	return tokenized_input["input_ids"], tokenized_input["attention_mask"], labels

In [7]:
tokenized_df = df.apply(lambda x: tokenize_and_align_labels(x["content"], x["tags"].split(",")), axis=1, result_type="expand")
tokenized_df

Unnamed: 0,0,1,2
0,"[0, 124621, 2249, 48581, 30851, 4, 5755, 13596...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,"[0, 20255, 3378, 2467, 2249, 10515, 5034, 3122...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,"[0, 67954, 11181, 135622, 3179, 4417, 166, 306...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 1, 2, 2, 1, 2, 0, 0, 0, 0, 0, 0, ..."
3,"[0, 67954, 30851, 58403, 21840, 2368, 3063, 70...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,"[0, 67954, 11181, 135622, 9006, 67, 10895, 352...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...,...
36195,"[0, 42812, 611, 23538, 4, 2251, 8215, 142, 175...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 2, 0, 1, 2, 2, ..."
36196,"[0, 15, 18, 56906, 3063, 4317, 50258, 4, 9611,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, ..."
36197,"[0, 40797, 46331, 9814, 8735, 44980, 313, 5707...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 1, 2, 1, 2, 2, 0, 0, 1, 2, 2, 2, 0, ..."
36198,"[0, 9211, 27088, 6884, 29225, 52, 249968, 449,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 1, 2, 1, ..."


In [8]:
tokenized_df.columns = ['input_ids', 'attention_mask', 'labels']
tokenized_df

Unnamed: 0,input_ids,attention_mask,labels
0,"[0, 124621, 2249, 48581, 30851, 4, 5755, 13596...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, ..."
1,"[0, 20255, 3378, 2467, 2249, 10515, 5034, 3122...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
2,"[0, 67954, 11181, 135622, 3179, 4417, 166, 306...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 1, 2, 2, 1, 2, 0, 0, 0, 0, 0, 0, ..."
3,"[0, 67954, 30851, 58403, 21840, 2368, 3063, 70...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
4,"[0, 67954, 11181, 135622, 9006, 67, 10895, 352...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
...,...,...,...
36195,"[0, 42812, 611, 23538, 4, 2251, 8215, 142, 175...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 2, 0, 1, 2, 2, ..."
36196,"[0, 15, 18, 56906, 3063, 4317, 50258, 4, 9611,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, ..."
36197,"[0, 40797, 46331, 9814, 8735, 44980, 313, 5707...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 1, 2, 1, 2, 2, 0, 0, 1, 2, 2, 2, 0, ..."
36198,"[0, 9211, 27088, 6884, 29225, 52, 249968, 449,...","[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...","[0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 1, 2, 1, ..."


In [9]:
import pickle
file = open(DATA_PATH + "tokenized_df_with_attention.pkl", "wb")
pickle.dump(tokenized_df, file)
file.close()

In [10]:
from transformers import DataCollatorForTokenClassification

data_collator = DataCollatorForTokenClassification(tokenizer=tokenizer, padding=True)

In [11]:
import evaluate

seqeval = evaluate.load("seqeval")

In [12]:
import numpy as np
label_list = ["O", "B", "I"]

def compute_metrics(p):
    predictions, labels = p
    predictions = np.argmax(predictions, axis=2)

    true_predictions = [
        [label_list[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]
    true_labels = [
        [label_list[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels)
    ]

    results = seqeval.compute(
        predictions=true_predictions, references=true_labels)
    return {
        "precision": results["overall_precision"],
        "recall": results["overall_recall"],
        "f1": results["overall_f1"],
        "accuracy": results["overall_accuracy"],
    }

In [13]:
id2label = {0: "O", 1: "B", 2: "I"}
label2id = {"O": 0, "B": 1, "I": 2}

In [14]:
from transformers import AutoModelForTokenClassification, TrainingArguments, Trainer
model = AutoModelForTokenClassification.from_pretrained(model_name, num_labels=len(label_list), id2label=id2label, label2id=label2id)

Some weights of XLMRobertaForTokenClassification were not initialized from the model checkpoint at FacebookAI/xlm-roberta-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [15]:
training_args = TrainingArguments(
    output_dir="my_awesome_wnut_model",
    learning_rate=5e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=4,
    eval_steps=500,
    save_steps=500,
    warmup_steps=500,
    weight_decay=0.01,
    eval_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    gradient_checkpointing=True,
    dataloader_pin_memory=True
)

In [16]:
from sklearn.model_selection import train_test_split

# Take 10000 random samples for training and evaluation
tokenized_df = tokenized_df.sample(10000, random_state=42)

train_df, eval_df = train_test_split(tokenized_df, test_size=0.1)

from datasets import Dataset
train_dataset = Dataset.from_pandas(train_df)
eval_dataset = Dataset.from_pandas(eval_df)
# Initialize Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    data_collator=data_collator,
    tokenizer=tokenizer,
)

trainer.train()

  trainer = Trainer(


Epoch,Training Loss,Validation Loss
1,0.1283,0.123121
2,0.1077,0.113385
3,0.0904,0.111639
4,0.0735,0.11923


TrainOutput(global_step=9000, training_loss=0.10822826258341471, metrics={'train_runtime': 8533.5185, 'train_samples_per_second': 4.219, 'train_steps_per_second': 1.055, 'total_flos': 9406768287744000.0, 'train_loss': 0.10822826258341471, 'epoch': 4.0})

In [17]:
# Save the model
trainer.save_model("./xlm-roberta-keywordtagger-v2")