In [None]:
!mkdir MACCROBAT2020

In [None]:
!unzip MACCROBAT2020.zip -d ./MACCROBAT2020

Archive:  MACCROBAT2020.zip
  inflating: ./MACCROBAT2020/26530965.ann  
  inflating: ./MACCROBAT2020/25410883.ann  
  inflating: ./MACCROBAT2020/23864579.ann  
  inflating: ./MACCROBAT2020/23468586.ann  
  inflating: ./MACCROBAT2020/23155491.ann  
  inflating: ./MACCROBAT2020/23124805.ann  
  inflating: ./MACCROBAT2020/22520024.ann  
  inflating: ./MACCROBAT2020/19610147.ann  
  inflating: ./MACCROBAT2020/19307547.ann  
  inflating: ./MACCROBAT2020/19816630.ann  
  inflating: ./MACCROBAT2020/21672201.ann  
  inflating: ./MACCROBAT2020/25572898.ann  
  inflating: ./MACCROBAT2020/23033875.ann  
  inflating: ./MACCROBAT2020/23033875.txt  
  inflating: ./MACCROBAT2020/21129213.ann  
  inflating: ./MACCROBAT2020/28154700.txt  
  inflating: ./MACCROBAT2020/28154700.ann  
  inflating: ./MACCROBAT2020/28154281.txt  
  inflating: ./MACCROBAT2020/28154281.ann  
  inflating: ./MACCROBAT2020/27990013.txt  
  inflating: ./MACCROBAT2020/27990013.ann  
  inflating: ./MACCROBAT2020/27842605.txt  
  in

In [None]:
!pip install evaluate transformers accelerate

Collecting evaluate
  Downloading evaluate-0.4.6-py3-none-any.whl.metadata (9.5 kB)
Downloading evaluate-0.4.6-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: evaluate
Successfully installed evaluate-0.4.6


In [None]:
import os
from typing import List, Dict, Tuple

class Preprocessing_Maccrobat:
    def __init__(self, dataset_folder, tokenizer):
        # Tạo list lưu các file id
        self.file_ids = [f.split(".")[0] for f in os.listdir(dataset_folder) if f.endswith('.txt')]

        # Tạo list lưu các file .txt, .ann
        self.text_files = [f+".txt" for f in self.file_ids]
        self.anno_files = [f+".ann" for f in self.file_ids]

        # Số lượng file cần xử lý
        self.num_samples = len(self.file_ids)

        # Lấy ra tất cả các câu được lưu trong các file text (.txt)
        self.texts: List[str] = []

        for i in range(self.num_samples):
            file_path = os.path.join(dataset_folder, self.text_files[i])
            with open(file_path, "r") as f:
                self.texts.append(f.read())

        # Lấy ra tất cả các term, mỗi term sẽ có các thông tin như label, term, start, end
        self.tags: List[Dict[str: str]] = []
        for i in range(self.num_samples):
            file_path = os.path.join(dataset_folder, self.anno_files[i])
            with open(file_path, "r") as f:
                text_bound_ann = [t.split("\t") for t in f.read().split("\n") if t.startswith("T")]
                text_bound_lst = []
                for text_b in text_bound_ann:
                    label = text_b[1].split(" ")
                    try:
                        _ = int(label[1])
                        _ = int(label[2])
                        tag = {
                            "text": text_b[-1],
                            "label": label[0],
                            "start": label[1],
                            "end": label[2]
                        }
                        text_bound_lst.append(tag)
                    except:
                        pass

                self.tags.append(text_bound_lst)

        # Tokenizer
        self.tokenizer = tokenizer

    # Tạo phương thức process():
    # 1. Đọc file .txt => extract full text
    # 2. Đọc file .ann => lấy ra các tags (các entity)
    # 3. Tìm những text có label (có nhãn) -> label_offset (tạo phương thức riêng để xử lý)
    # 4. Tìm những text không có label (không có nhãn) -> zero_offset (tạo phương thức riêng để xử lý)
    # 5. Gộp label_offset và zero_offset theo thứ tự vị trí (tạo phương thức riêng để xử lý)
    #       Nếu zero xuất hiện trước -> _add_zero -> thêm "O"
    #       Nếu label xuất hiện trước -> _add_label -> thêm "B-" (Begin) và "I-" (Inside)
    # 6. Kết quả: tokens + labels

    # Ví dụ: kết quả thu được sau khi dùng phương thức process()
    # tokens = ["Patient", "has", "head", "##ache", "and", "fe", "##ver", "."]
    # labels = ["O", "O", "B-Symptom", "I-Symptom", "O", "B-Symptom", "I-Symptom", "O"]
    def process(self):
        # Khai báo list input_texts: danh sách các câu đã được tokenize
        input_texts = []
        # Khai báo input_labels: danh sách nhãn B - I - O tương ứng
        input_labels = []

        # Lặp qua từng file id cần được xử lý
        for idx in range(self.num_samples):
            # 1. Đọc file .txt => extract full text
            full_text = self.texts[idx]
            # 2. Đọc file .ann => lấy ra các tags (các entity)
            tags = self.tags[idx]

            # 3. Khai báo label_offset: danh sách các đoạn có label
            label_offset = []
            # Khai báo continuous_label_offset: gộp tất cả các offset (text) có label -> để tìm vùng không có label
            continuous_label_offset = []
            for tag in tags:
                offset = list(range(int(tag["start"]), int(tag["end"]) + 1))
                label_offset.append(offset)
                continuous_label_offset.extend(offset)

            all_offset = list(range(len(full_text)))
            # zero_offset: các vị trí không có label -> chuyển thành các đoạn liên tục (find_continuous_range)
            zero_offset = [offset for offset in all_offset if offset not in continuous_label_offset]
            zero_offset = Preprocessing_Maccrobat.find_continuous_range(zero_offset)

            # 5. Khởi tạo danh sách token (các câu) và label (nhãn) tương ứng cho mỗi offdet trong câu
            self.tokens = []
            self.labels = []
            # Chúng ta cần phương thức _merge_offset để gộp label_offset và zero_offset lại theo thứ tự
            self._merge_offset(full_text, tags, zero_offset, label_offset)

            input_texts.append(self.tokens)
            input_labels.append(self.labels)

        return input_texts, input_labels


    def _merge_offset(self, full_text, tags, zero_offset, label_offset):
        # zero: [[0, 1, 2], [6, 7]] label: [[3, 4, 5]] => [[0, 1, 2, 3, 4, 5, 6, 7], [10, 11, 12, 13, 14]]
        i = j = 0
        # So sánh vị trí bắt đầu của vùng không label và có label
        # Ưu tiên thêm vùng xuất hiện trước trong văn bản
        while i < len(zero_offset) and j < len(label_offset):
            if zero_offset[i][0] < label_offset[j][0]:
                self._add_zero(full_text, zero_offset, i)
                i += 1
            else:
                self._add_label(full_text, label_offset, j, tags)
                j += 1

        # Thêm các vùng còn lại (nếu có)
        while i < len(zero_offset):
            self._add_zero(full_text, zero_offset, i)
            i += 1

        while j < len(label_offset):
            self._add_label(full_text, label_offset, j, tags)
            j += 1


    # Code phương thức _add_zero() - Thêm vùng không có label
    def _add_zero(self, full_text, offset, index):
        start, *_, end = offset[index] if len(offset[index]) > 1 else (offset[index][0], offset[index][0] + 1)
        text = full_text[start:end]
        text_tokens = self.tokenizer.tokenize(text)

        self.tokens.extend(text_tokens)
        self.labels.extend(
            ["O"] * len(text_tokens)
        )

    # Code phương thức _add_label() - Thêm vùng có label
    def _add_label(self, full_text, offset, index, tags):
        start, *_, end = offset[index] if len(offset[index]) > 1 else (offset[index][0], offset[index][0] + 1)
        text = full_text[start:end]
        text_tokens = self.tokenizer.tokenize(text)

        self.tokens.extend(text_tokens)
        # "headache" -> tokenize thành ["head", "##ache"] -> nhãn: ["B-Symptom", "I-Symptom"]
        self.labels.extend(
            [f"B-{tags[index]["label"]}"] + [f"I-{tags[index]["label"]}"] * (len(text_tokens) - 1)
        )

    @staticmethod
    def build_label2id(tokens: List[List[str]]):
        label2id = {}
        id_counter = 0
        for token in [token for sublist in tokens for token in sublist]:
            if token not in label2id:
                label2id[token] = id_counter
                id_counter += 1
        return label2id

    # Chuyển thành các đoạn liên tục
    # [0, 1, 2, 6, 7] => zero_offset = [[0, 1, 2], [6, 7]], label_offset = [3, 4, 5]
    @staticmethod # Khai báo phương thức là staticmethod => không cần đưa tham số self vào (vì đây là phương thức độc lập nhưng nằm trong class)
    def find_continuous_range(data): # [0, 1, 2, 6, 7]
        if not data:
            return []
        ranges = []
        start = data[0]
        prev = data[0]

        for number in data[1:]: # [1, 2, 6, 7]
            if number != prev + 1: # Mất đi tính liên tục
                ranges.append(list(range(start, prev + 1)))
                start = number
            prev = number
        ranges.append(list(range(start, prev + 1)))
        return ranges

In [None]:
# with open("/content/MACCROBAT2020/15939911.ann", "r") as f:
#     print([t.split("\t") for t in f.read().split("\n") if t.startswith("T")])

[['T1', 'Age 8 19', '28-year-old'], ['T2', 'History 20 38', 'previously healthy'], ['T3', 'Sex 39 42', 'man'], ['T4', 'Clinical_event 43 52', 'presented'], ['T5', 'Sign_symptom 31 38', 'healthy'], ['T6', 'Duration 60 66', '6-week'], ['T7', 'Sign_symptom 78 90', 'palpitations'], ['T8', 'Coreference 96 104', 'symptoms'], ['T9', 'Clinical_event 121 125', 'rest'], ['T10', 'Frequency 127 145', '2–3 times per week'], ['T12', 'Sign_symptom 206 213', 'dyspnea'], ['T11', 'Detailed_description 154 180', 'up to 30 minutes at a time'], ['T13', 'Sign_symptom 261 281', 'regurgitation murmur'], ['T14', 'Biological_structure 251 260', 'tricuspid'], ['T15', 'Detailed_description 238 250', 'holosystolic'], ['T16', 'Lab_value 228 237', 'grade 2/6'], ['T17', 'Biological_structure 301 320', 'left sternal border'], ['T18', 'Detailed_description 326 350', 'inspiratory accentuation'], ['T19', 'Diagnostic_procedure 353 373', 'physical examination'], ['T21', 'Diagnostic_procedure 408 425', 'electrocardiogram'],

In [None]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("d4data/biomedical-ner-all")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/373 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

In [None]:
dataset_folder = "/content/MACCROBAT2020"

Maccrobat_builder = Preprocessing_Maccrobat(dataset_folder, tokenizer)
input_texts, input_labels = Maccrobat_builder.process()

In [None]:
label2id = Preprocessing_Maccrobat.build_label2id(input_labels)
id2label = {v: k for k, v in label2id.items()}

# **DataLoader**

In [None]:
from sklearn.model_selection import train_test_split

input_train, input_val, labels_train, labels_val = train_test_split(
    input_texts,
    input_labels,
    test_size=0.2,
    random_state=42
)

In [None]:
import torch
from torch.utils.data import Dataset

MAX_LEN = 512

class NER_Dataset(Dataset):
    def __init__(self, input_texts, input_labels, tokenizer, label2id, max_len=MAX_LEN):
        super().__init__()
        self.tokens = input_texts
        self.labels = input_labels
        self.tokenizer = tokenizer
        self.label2id = label2id
        self.max_len = max_len

    def __len__(self):
        return len(self.tokens)

    def __getitem__(self, idx):
        # Lấy tokens và labels dựa vào index
        input_token = self.tokens[idx]
        # Chuyển label từ string sang index dùng label2id
        label_token = [self.label2id[label] for label in self.labels[idx]]

        # Chuyển tokens sang input_ids dùng tokenizer
        input_token = self.tokenizer.convert_tokens_to_ids(input_token)
        attention_mask = [1] * len(input_token) # Model sẽ phải chú ý đến tất cả các token như nhau

        input_ids = self.pad_and_truncate(input_token, pad_id=self.tokenizer.pad_token_id)
        labels = self.pad_and_truncate(label_token, pad_id=0)
        attention_mask = self.pad_and_truncate(attention_mask, pad_id=0)

        return {
            "input_ids": torch.as_tensor(input_ids),
            "labels": torch.as_tensor(labels),
            "attention_mask": torch.as_tensor(attention_mask)
        }


    # Khai báo phương thức pad_and_truncate
    # Thêm pad cho những câu ngắn, truncate (cắt) nếu câu quá dài
    def pad_and_truncate(self, inputs, pad_id):
        if len(inputs) < self.max_len: # Thêm pad (id của <pad>, pad_id)
            padded_inputs = inputs + [pad_id] * (self.max_len - len(inputs))
        else: # truncate
            padded_inputs = inputs[:self.max_len]

        return padded_inputs

    def label2id(self, labels):
        return [self.label2id[label] for label in labels]

In [None]:
train_set = NER_Dataset(input_train, labels_train, tokenizer, label2id)
val_set = NER_Dataset(input_val, labels_val, tokenizer, label2id)

# **Model**

In [None]:
from transformers import AutoModelForTokenClassification

model = AutoModelForTokenClassification.from_pretrained(
    "d4data/biomedical-ner-all",
    label2id=label2id,
    id2label=id2label,
    ignore_mismatched_sizes=True
)

config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/266M [00:00<?, ?B/s]

Some weights of DistilBertForTokenClassification were not initialized from the model checkpoint at d4data/biomedical-ner-all and are newly initialized because the shapes did not match:
- classifier.bias: found shape torch.Size([84]) in the checkpoint and torch.Size([83]) in the model instantiated
- classifier.weight: found shape torch.Size([84, 768]) in the checkpoint and torch.Size([83, 768]) in the model instantiated
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
model

DistilBertForTokenClassification(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(30522, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0-5): 6 x TransformerBlock(
          (attention): DistilBertSdpaAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropout): Dropout(p=0.1, inplace=False)
   

# **Fine-tuning**

In [None]:
import os
os.environ["WANDB_DISABLED"] = "true"

In [None]:
import evaluate
import numpy as np

accuracy = evaluate.load("accuracy")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    mask = labels != 0
    predictions = np.argmax(predictions, axis=-1)
    return accuracy.compute(predictions=predictions[mask], references=labels[mask])

Downloading builder script: 0.00B [00:00, ?B/s]

In [None]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="ner-biomedical-maccrobat2020",
    learning_rate=1e-4,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=20,
    eval_strategy="epoch",
    save_strategy="epoch",
    logging_strategy="epoch",
    load_best_model_at_end=True,
    optim="adamw_torch"
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_set,
    eval_dataset=val_set,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).
  trainer = Trainer(


In [None]:
trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy
1,2.7305,1.615563,0.665503
2,1.4369,1.01391,0.760589
3,0.9582,0.75442,0.819736
4,0.6705,0.643838,0.842276
5,0.504,0.597812,0.849515
6,0.3895,0.559413,0.854598
7,0.3099,0.565193,0.858602
8,0.2601,0.553346,0.859116
9,0.2182,0.547157,0.862299
10,0.1893,0.563831,0.863018


TrainOutput(global_step=200, training_loss=0.4403379964828491, metrics={'train_runtime': 528.1047, 'train_samples_per_second': 6.059, 'train_steps_per_second': 0.379, 'total_flos': 418702245888000.0, 'train_loss': 0.4403379964828491, 'epoch': 20.0})

# **Model Inference**

In [None]:
def inference(sentence, model):
    input = torch.as_tensor([tokenizer.convert_tokens_to_ids(sentence.split())])
    input = input.to("cuda")
    with torch.no_grad():
        outputs = model(input)
    _, preds = torch.max(outputs.logits, -1)
    preds = preds[0].cpu().numpy()
    return preds

In [None]:
# Đầu ra: Một list các tuple (entity_type, text), trong đó:

# Nếu là 'O' (không phải entity): Mỗi từ riêng lẻ với type 'O'.
# Nếu là entity: Nhóm các từ liên tiếp thành một string (join bằng space hoặc comma tùy code), gắn với type (như 'PER').

def merge_entity(sentence, preds, model):
    # List kết quả cuối cùng, chứa các tuple (type, text).
    merged_list = []
    # Lưu type entity trước đó để kiểm tra liên tiếp (ban đầu None).
    prev_value = None
    # List tạm để lưu các từ (token) thuộc cùng một entity.
    temp_keys = []

    # Ghép từng từ trong câu (split bằng space) với nhãn dự đoán tương ứng.
    for key, value in zip(sentence.split(), preds):
        # Chuyển ID nhãn (value) thành string label (ví dụ: 1 → 'B-PER'), rồi split bằng '-' và lấy phần cuối (→ 'PER'). Điều này bỏ qua B/I, chỉ giữ type entity (O vẫn là 'O').
        value = model.config.id2label[value].split('-')[-1]
        # Nếu có temp_keys (tức entity trước chưa append), append nó với type prev_value và join words bằng comma + space (", ").
        # Append từ hiện tại với ('O', key) – tức mỗi 'O' là riêng lẻ.
        # Reset prev_value thành None để kết thúc entity trước.
        if value == "O":
            if temp_keys:
                merged_list.append((prev_value, ", ".join(temp_keys)))
                temp_keys = []
            merged_list.append((value, key))
            prev_value = None

        # Nếu value == prev_value: Thêm key vào temp_keys (tiếp tục entity).
        elif value == prev_value:
            temp_keys.append(key)
        # Nếu khác (bắt đầu entity mới):
        # Nếu có temp_keys cũ, append với type cũ và join bằng space (" ").
        # Reset temp_keys với key mới, cập nhật prev_value.
        else:
            if temp_keys:
                merged_list.append((prev_value, " ".join(temp_keys)))
            temp_keys = [key]
            prev_value = value

    # Nếu còn temp_keys (entity cuối cùng), append với join bằng comma + space (", ").
    if temp_keys:
        merged_list.append((prev_value, ", ".join(temp_keys)))
    return merged_list

In [None]:
sentence = """A 48 year - old female presented with vaginal bleeding and abnormal Pap smears .
Upon diagnosis of invasive non - keratinizing SCC of the cervix ,
she underwent a radical hysterectomy with salpingo - oophorectomy
which demonstrated positive spread to the pelvic lymph nodes and the parametrium .
Pathological examination revealed that the tumour also extensively involved the lower uterine segment .
"""
preds = inference(sentence, model)
results = merge_entity(sentence, preds, model)

In [None]:
results

[('O', 'A'),
 ('Age', '48 year - old'),
 ('Sex', 'female'),
 ('Clinical_event', 'presented'),
 ('O', 'with'),
 ('O', 'vaginal'),
 ('Detailed_description', 'bleeding'),
 ('O', 'and'),
 ('Detailed_description', 'abnormal'),
 ('O', 'Pap'),
 ('O', 'smears'),
 ('O', '.'),
 ('O', 'Upon'),
 ('O', 'diagnosis'),
 ('O', 'of'),
 ('O', 'invasive'),
 ('O', 'non'),
 ('Detailed_description', '-, keratinizing'),
 ('O', 'SCC'),
 ('O', 'of'),
 ('O', 'the'),
 ('O', 'cervix'),
 ('O', ','),
 ('O', 'she'),
 ('O', 'underwent'),
 ('O', 'a'),
 ('O', 'radical'),
 ('O', 'hysterectomy'),
 ('O', 'with'),
 ('Detailed_description', 'salpingo, -, oophorectomy'),
 ('O', 'which'),
 ('O', 'demonstrated'),
 ('O', 'positive'),
 ('O', 'spread'),
 ('O', 'to'),
 ('O', 'the'),
 ('O', 'pelvic'),
 ('O', 'lymph'),
 ('O', 'nodes'),
 ('O', 'and'),
 ('O', 'the'),
 ('O', 'parametrium'),
 ('O', '.'),
 ('O', 'Pathological'),
 ('O', 'examination'),
 ('O', 'revealed'),
 ('O', 'that'),
 ('O', 'the'),
 ('O', 'tumour'),
 ('O', 'also'),
 ('