<a href="https://colab.research.google.com/github/mr1er0y/Topic-Modelling-Neuro/blob/main/model_BERT_Adapter_Fusion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Combining Pre-Trained Adapters using AdapterFusion



Задача: По анотации статьи и определить темы, к которым она относится. 

Эта задача относится к Multi-label classification.

Для задачи многоклассовой классификации с несколькими метками (multi-label classification) требуется модифицировать данные и метки, чтобы алгоритм мог предсказывать несколько меток для каждого объекта.



In [None]:
!pip install -U adapter-transformers  > /dev/null
!pip install datasets  > /dev/null

## Dataset Preprocessing

В первую очередь нужно скачать данные из Kaggle(у меня они хранятся на Google Drive) и произвести преобразования  
1. Токенизировать данные
2. Бинанизировать вектор тем с помощью MultiLabelBinarizer

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MultiLabelBinarizer

path = "drive/MyDrive/Data_arXiv/filtered_arxiv_db.csv"
SEED = 77

df = pd.read_csv(path)
df[['created_date', 'update_date']] = df[['created_date', 'update_date']].apply(pd.to_datetime)
df = df.drop(['versions', 'description', 'new_category', 'sub_category'], axis=1)
df.columns = ['id', 'title', 'authors', 'category', 'published_date', 'updated_date', 'abstract']
df["category"] = df["category"].apply(eval)
# df["sub_category"] = df["sub_category"].apply(eval)
df.head()

  df = pd.read_csv(path)


Unnamed: 0,id,title,authors,category,published_date,updated_date,abstract
0,704.0033,Convergence of the discrete dipole approximati...,"Maxim A. Yurkin, Valeri P. Maltsev, Alfons G. ...","[physics.optics, physics.comp-ph]",2022-03-29,2022-03-31,We performed a rigorous theoretical converge...
1,704.0038,The discrete dipole approximation: an overview...,"Maxim A. Yurkin, Alfons G. Hoekstra","[physics.optics, physics.comp-ph]",2022-03-29,2022-03-30,We present a review of the discrete dipole a...
2,704.0275,Mapping radii of metric spaces,George M. Bergman (U.C.Berkeley),[math.MG],2008-03-28,2021-10-15,It is known that every closed curve of lengt...
3,704.0479,The affine part of the Picard scheme,T.Geisser,"[math.AG, math.KT]",2021-01-28,2021-01-29,We describe the maximal torus and maximal un...
4,704.0752,Actions for the Bosonic String with the Curved...,Davoud Kamani,[hep-th],2008-04-18,2020-08-21,At first we introduce an action for the stri...


In [None]:
def abstract_prep(data):
    # lower abstract and remove numbers, punctuation, and special characters
    #metadata['abstract'] = [a.strip() for a in metadata['abstract']]
    data['abstract'] = [a.strip() for a in data['abstract']]
    data['abstract'] = data['abstract'].str.replace('\n', ' ', regex = False).str.replace('\t', ' ', regex = False).str.replace(r'\s\s+', ' ', regex = True)
    data['abstract'] = data['abstract'].str.replace('([.,!?()])', r' \1 ')
    return data

df = abstract_prep(df)
df = df[df['abstract'].str.contains('paper has been withdrawn') == False]
df.head()

  data['abstract'] = data['abstract'].str.replace('([.,!?()])', r' \1 ')


Unnamed: 0,id,title,authors,category,published_date,updated_date,abstract
0,704.0033,Convergence of the discrete dipole approximati...,"Maxim A. Yurkin, Valeri P. Maltsev, Alfons G. ...","[physics.optics, physics.comp-ph]",2022-03-29,2022-03-31,We performed a rigorous theoretical convergenc...
1,704.0038,The discrete dipole approximation: an overview...,"Maxim A. Yurkin, Alfons G. Hoekstra","[physics.optics, physics.comp-ph]",2022-03-29,2022-03-30,We present a review of the discrete dipole app...
2,704.0275,Mapping radii of metric spaces,George M. Bergman (U.C.Berkeley),[math.MG],2008-03-28,2021-10-15,It is known that every closed curve of length ...
3,704.0479,The affine part of the Picard scheme,T.Geisser,"[math.AG, math.KT]",2021-01-28,2021-01-29,We describe the maximal torus and maximal unip...
4,704.0752,Actions for the Bosonic String with the Curved...,Davoud Kamani,[hep-th],2008-04-18,2020-08-21,At first we introduce an action for the string...


In [None]:
df['unifed_text'] = df['title'] + '[SEP]' + df['abstract'] + '[SEP]'

In [None]:
# Extract the categories column as a list of lists
categories = []
for el in df["category"]:
    categories.extend(el)
categories = np.unique(categories)
num_categories = len(categories)

# Initialize the MultiLabelBinarizer and fit_transform the categories
mlb = MultiLabelBinarizer()
df['labels'] =  mlb.fit_transform(df["category"].values).tolist()

In [None]:
len(categories)

170

In [None]:
categories

array(['adap-org', 'alg-geom', 'astro-ph', 'astro-ph.CO', 'astro-ph.EP',
       'astro-ph.GA', 'astro-ph.HE', 'astro-ph.IM', 'astro-ph.SR',
       'chao-dyn', 'cmp-lg', 'comp-gas', 'cond-mat', 'cond-mat.dis-nn',
       'cond-mat.mes-hall', 'cond-mat.mtrl-sci', 'cond-mat.other',
       'cond-mat.quant-gas', 'cond-mat.soft', 'cond-mat.stat-mech',
       'cond-mat.str-el', 'cond-mat.supr-con', 'cs.AI', 'cs.AR', 'cs.CC',
       'cs.CE', 'cs.CG', 'cs.CL', 'cs.CR', 'cs.CV', 'cs.CY', 'cs.DB',
       'cs.DC', 'cs.DL', 'cs.DM', 'cs.DS', 'cs.ET', 'cs.FL', 'cs.GL',
       'cs.GR', 'cs.GT', 'cs.HC', 'cs.IR', 'cs.IT', 'cs.LG', 'cs.LO',
       'cs.MA', 'cs.MM', 'cs.MS', 'cs.NA', 'cs.NE', 'cs.NI', 'cs.OH',
       'cs.OS', 'cs.PF', 'cs.PL', 'cs.RO', 'cs.SC', 'cs.SD', 'cs.SE',
       'cs.SI', 'cs.SY', 'dg-ga', 'econ.EM', 'econ.GN', 'econ.TH',
       'eess.AS', 'eess.IV', 'eess.SP', 'eess.SY', 'funct-an', 'gr-qc',
       'hep-ex', 'hep-lat', 'hep-ph', 'hep-th', 'math-ph', 'math.AC',
       'math.AG', 'm

In [None]:
t = df["abstract"].apply(len)
print("Max:" + str(max(t)))
print("Mean:" + str(np.mean(t)))

Max:5216
Mean:1098.1211080387932


In [None]:
df[["abstract", "labels"]].sample(2)

Unnamed: 0,abstract,labels
560010,The high computational complexity and high ene...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."
221178,Weighted First-Order Model Counting ( WFOMC )...,"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ..."


In [None]:
from transformers import BertTokenizer, DistilBertTokenizerFast
from datasets import Dataset
import torch

dataset = Dataset.from_pandas(df[["unifed_text", "labels"]].sample(300000, random_state=SEED))
dataset.set_format(type="torch", columns=["unifed_text", "labels"])

# https://stackoverflow.com/questions/66096703/running-huggingface-bert-tokenizer-on-gpu
# tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', lowercase=True)
# tokenizer.save_pretrained('/std-bert-base-uncased')
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased', lowercase=True)



def encode_batch(batch):
  """Encodes a batch of input data using the model tokenizer."""
  # токенизируем текстовые данные
  return tokenizer(
      batch["unifed_text"],
      max_length=350,
      truncation=True,
      padding="max_length"
  )

# Encode the input data
dataset = dataset.map(encode_batch, batched=True)

Map:   0%|          | 0/300000 [00:00<?, ? examples/s]

In [None]:
# dataset = dataset.remove_columns(['title', 'abstract'])
dataset

Dataset({
    features: ['unifed_text', 'labels', '__index_level_0__', 'input_ids', 'attention_mask'],
    num_rows: 300000
})

In [None]:
dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "labels"])

dataset = dataset.train_test_split( test_size=0.2, shuffle=True, seed=SEED)
train_dataset = dataset["train"]
test_dataset = dataset["test"]


In [None]:
del dataset

`labels` - это закодированные в бинарном виде темы статей. Он состоит из 0 и 1, где 1 на i позиции обозначает, что тема i соотвествует тексту, а 0 - нет.

`input_ids` - это последовательность чисел, которые представляют отдельные токены в тексте, каждый токен преобразуется в уникальное число, которое соответствует его позиции в словаре модели BERT. Это основной входной тензор, который передается в модель.

`token_type_ids` - это последовательность чисел, которая указывает, к какому из двух предложений относится каждый токен в input_ids (0 для первого предложения и 1 для второго). Это необходимо в многих задачах, например, в задачах сравнения двух предложений, где модель должна понимать, какой токен относится к какому предложению.

`attention_mask`  это последовательность чисел, которая указывает, какие токены должны быть проигнорированы моделью в процессе обработки текста. Она состоит из 0 и 1, где 1 обозначает, что токен должен быть учтен в модели, а 0 - игнорирован.

Теперь мы готовы настроить Adapter Fusion...

## Fusion Training
Мы используем предварительно обученную лучшую модель из `Hugging Face` и создаем экземпляр нашей модели с помощью `BertModelWithHeads`.

In [None]:
from transformers import BertConfig, BertModelWithHeads

config = BertConfig.from_pretrained(
    "bert-base-uncased",
)
model = BertModelWithHeads.from_pretrained(
    "bert-base-uncased",
    config=config,

)



Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModelWithHeads: ['cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.predictions.transform.LayerNorm.weight']
- This IS expected if you are initializing BertModelWithHeads from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModelWithHeads from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Теперь у нас есть все настроенное для загрузки нашей программы Adapter Fusion setup. Сначала мы загружаем из концентратора три адаптера, предварительно обученных различным задачам: `MultiNLI`, `QQP` и `QNLI`. Поскольку нам не нужны их заголовки предсказаний, мы передаем `with_head=False` методу загрузки. Далее мы добавляем новый слой fusion, который объединяет все адаптеры, которые мы только что загрузили. Наконец, мы добавляем новую классификационную рубрику для нашей целевой задачи сверху.

## FUSION обучение 

In [None]:
from transformers.adapters.composition import Fuse
# список адаптеров https://adapterhub.ml/explore/nli/multinli/bert/

# Load the pre-trained adapters we want to fuse
# config = AdapterConfig.load("pfeiffer", non_linearity="gelu", reduction_factor=16)
model.load_adapter("sts/qqp@ukp", with_head=False)
model.load_adapter("AdapterHub/bert-base-uncased-pf-ud_deprel", source="hf", load_as="ewt", with_head=False)

# Add a fusion layer for all loaded adapters
model.add_adapter_fusion(Fuse( "qqp", "ewt"))
model.set_active_adapters(Fuse("qqp", "ewt"))

# Add a classification head for our target task
model.add_classification_head("cb", num_labels=len(categories), multilabel=True)

Downloading (…)rt-base-uncased.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

Downloading (…)sts_qqp_pfeiffer.zip:   0%|          | 0.00/6.64M [00:00<?, ?B/s]

Fetching 6 files:   0%|          | 0/6 [00:00<?, ?it/s]

Downloading pytorch_model_head.bin:   0%|          | 0.00/155k [00:00<?, ?B/s]

Downloading pytorch_adapter.bin:   0%|          | 0.00/3.60M [00:00<?, ?B/s]

Downloading (…)d4832/.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading (…)7e48fd4832/README.md:   0%|          | 0.00/2.29k [00:00<?, ?B/s]

Downloading (…)832/head_config.json:   0%|          | 0.00/1.30k [00:00<?, ?B/s]

Downloading (…)/adapter_config.json:   0%|          | 0.00/581 [00:00<?, ?B/s]

Последним подготовительным шагом является определение и активация нашей настройки адаптера. Подобно `train_adapter()`, `train_adapter_fusion()` делает две вещи: замораживает все веса модели (включая адаптеры!), за исключением слоя слияния и классификационной головки. Это также активирует данную настройку адаптера для использования при очень прямом проходе.




In [None]:
# Unfreeze and activate fusion setup
adapter_setup = Fuse("qqp", "ewt")
model.train_adapter_fusion(adapter_setup)

Для обучения мы используем класс `Trainer`, встроенный в `transformers`. Мы настраиваем процесс обучения с использованием объекта `TrainingArguments` и определяем метод, который в конечном итоге вычислит точность оценки. Мы передаем и то, и другое, вместе с разделением нашего набора данных на обучение и проверку, экземпляру trainer.

In [None]:
from transformers import TrainingArguments, AdapterTrainer, EvalPrediction
from sklearn.metrics import f1_score, roc_auc_score, accuracy_score


training_args = TrainingArguments(
    learning_rate=1e-4,
    num_train_epochs=2,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    logging_steps=200,
    output_dir="./training_output",
    overwrite_output_dir=True,
    # The next line is important to ensure the dataset labels are properly passed to the model
    remove_unused_columns=False,
)

# source: https://jesusleal.io/2021/04/21/Longformer-multilabel-classification/
def multi_label_metrics(predictions, labels, threshold=0.45):
    # first, apply sigmoid on predictions which are of shape (batch_size, num_labels)
    sigmoid = torch.nn.Sigmoid()
    probs = sigmoid(torch.Tensor(predictions))
    # next, use threshold to turn them into integer predictions
    y_pred = np.zeros(probs.shape)
    y_pred[np.where(probs >= threshold)] = 1
    # finally, compute metrics
    y_true = labels
    f1_micro_average = f1_score(y_true=y_true, y_pred=y_pred, average='micro')
    roc_auc = roc_auc_score(y_true, y_pred, average = 'micro')
    accuracy = accuracy_score(y_true, y_pred)
    # return as dictionary
    # print(y_true[:5], y_pred[:5], predictions[:5])
    metrics = {'f1': f1_micro_average,
               'roc_auc': roc_auc,
               'accuracy': accuracy}
    return metrics

def compute_metrics(p: EvalPrediction):
    preds = p.predictions[0] if isinstance(p.predictions, 
            tuple) else p.predictions
    result = multi_label_metrics(
        predictions=preds, 
        labels=p.label_ids)
    return result


trainer = AdapterTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    compute_metrics=compute_metrics,
)

Start the training 🚀 (this will take a while)

In [None]:
trainer.train()

***** Running training *****
  Num examples = 240000
  Num Epochs = 1
  Instantaneous batch size per device = 32
  Total train batch size (w. parallel, distributed & accumulation) = 32
  Gradient Accumulation steps = 1
  Total optimization steps = 7500
  Number of trainable parameters = 21973418


Step,Training Loss
200,0.163


После завершения обучения давайте проверим, насколько хорошо наша настройка работает с набором проверки нашего целевого набора данных:

In [None]:
print(trainer.evaluate(), flush=True)