In [None]:
!pip install --quiet transformers evaluate datasets baal

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.0/7.0 MB[0m [31m46.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.4/81.4 kB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m468.7/468.7 kB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m61.7/61.7 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.1/200.1 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.9/132.9 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m212.2/212.2 kB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!cp "/content/drive/MyDrive/NIR/data(markup 1, 2, 3, 5).csv" /content/data.csv

In [None]:
!cp "/content/drive/MyDrive/NIR/train.csv" /content/train.csv
!cp "/content/drive/MyDrive/NIR/eval.csv" /content/eval.csv

#### Разметка релевантных новостей с активным обучением

In [None]:
import os
import random
from copy import deepcopy

import numpy as np
import torch.backends
import transformers
import evaluate

from datasets import load_dataset
from tqdm import tqdm
from transformers import BertForSequenceClassification
from transformers import BertTokenizer, TrainingArguments
from transformers import set_seed

from transformers import (
    AutoConfig,
    AutoModelForSequenceClassification,
    AutoTokenizer,
    DataCollatorWithPadding,
    PretrainedConfig,
    set_seed,
    Trainer,
    TrainingArguments
)

transformers.utils.logging.set_verbosity_warning()

from baal.active import get_heuristic
from baal.active.dataset.nlp_datasets import (
    active_huggingface_dataset,
    HuggingFaceDatasets,
)
from baal.bayesian.dropout import patch_module
from baal.transformers_trainer_wrapper import BaalTransformersTrainer
from baal.active import get_heuristic, ActiveLearningDataset
from baal.active.dataset.base import Dataset

from typing import List
from pprint import pprint

SEED = 3

random.seed(SEED)
torch.manual_seed(SEED)

# Set tranformer seed to ensure that initial weights are identical
set_seed(SEED)

In [None]:
class CustomHuggingFaceDatasets(Dataset):
    """
    Support for `huggingface.datasets`: (https://github.com/huggingface/datasets).
    The purpose of this wrapper is to separate the labels from the rest of the sample information
    and make the dataset ready to be used by `baal.active.ActiveLearningDataset`.
    Args:
        dataset (Dataset): a dataset provided by huggingface.
        tokenizer (transformers.PreTrainedTokenizer): a tokenizer provided by huggingface.
        target_key (str): target key used in the dataset's dictionary.
        input_key (str): input key used in the dataset's dictionary.
        max_seq_len (int): max length of a sequence to be used for padding the shorter
            sequences.
    """

    def __init__(
        self,
        dataset,
        tokenizer=None,
        target_key: str = "label",
        input_key_1: str = "sentence1",
        input_key_2: str = "sentence1",
        max_seq_len: int = 250,
    ):
        self.dataset = dataset
        self.targets, self.text1, self.text2 = self.dataset[target_key], self.dataset[input_key_1], self.dataset[input_key_2]
        self.targets_list: List = np.unique(self.targets).tolist()
        self.input_ids, self.attention_masks = (
            self._tokenize(tokenizer, max_seq_len) if tokenizer else ([], [])
        )

    @property
    def num_classes(self):
        return len(self.targets_list)

    def _tokenize(self, tokenizer, max_seq_len):
        # For speed purposes, we should use fast tokenizers here, but that is up to the caller
        tokenized = tokenizer(
            self.text1,
            self.text2,
            add_special_tokens=True,
            max_length=max_seq_len,
            return_token_type_ids=False,
            padding="max_length",
            return_attention_mask=True,
            return_tensors="pt",
            truncation=True,
        )
        return tokenized["input_ids"], tokenized["attention_mask"]

    def label(self, idx: int, value: int):
        """Label the item.
        Args:
            idx: index to label
            value: Value to label the index.
        """
        self.targets[idx] = value

    def __len__(self):
        return len(self.text1)

    def __getitem__(self, idx):
        target = self.targets_list.index(self.targets[idx])

        return {
            "input_ids": self.input_ids[idx].flatten() if len(self.input_ids) > 0 else None,
            "inputs": self.text1[idx] + '\n' + self.text2[idx],
            "attention_mask": self.attention_masks[idx].flatten()
            if len(self.attention_masks) > 0
            else None,
            "label": torch.tensor(target, dtype=torch.long),
        }

def custom_active_huggingface_dataset(
    dataset,
    tokenizer=None,
    target_key: str = "label",
    input_key_1: str = "sentence1",
    input_key_2: str = "sentence2",
    max_seq_len: int = 512,
    **kwargs
):
    """
    Wrapping huggingface.datasets with baal.active.ActiveLearningDataset.
    Args:
        dataset (torch.utils.data.Dataset): a dataset provided by huggingface.
        tokenizer (transformers.PreTrainedTokenizer): a tokenizer provided by huggingface.
        target_key (str): target key used in the dataset's dictionary.
        input_key (str): input key used in the dataset's dictionary.
        max_seq_len (int): max length of a sequence to be used for padding the shorter sequences.
        kwargs (Dict): Parameters forwarded to 'ActiveLearningDataset'.
    Returns:
        an baal.active.ActiveLearningDataset object.
    """

    return ActiveLearningDataset(
        CustomHuggingFaceDatasets(dataset, tokenizer, target_key, input_key_1, input_key_2, max_seq_len), **kwargs
    )

Information on the hyperparms below

* epoch: Number of times you want to run and AL loop
* batch_size: The train and eval batch size for hf trainer arguments
* model: Hugging Face Model
* query_size: Number of samples you want to query at each AL iteration for labelling
* heuristic: The acquisition function/heuristic based on which you want to query the important samples
* iterations: The number of iterations you want to run for MCdropout to find the uncertanities
* shuffle_prop: Additional Noise to counter selection bias
* learning_epoch: Traing epochs for hugging face trainer

In [None]:
hyperparams = {
    "epoch": 6,
    "batch_size": 10,
    "model": "DeepPavlov/rubert-base-cased",
    "query_size": 50,
    "heuristic": "bald",
    "iterations": 10,
    "shuffle_prop": 0.05,
    "learning_epoch": 3,
}

In [None]:
# Check for CUDA
use_cuda = torch.cuda.is_available()
torch.backends.cudnn.benchmark = True

id2label = {0: "LABEL_0", 1: "LABEL_1"}
label2id = {"LABEL_0": 0, "LABEL_1": 1}

# Load Model
hf_model = AutoModelForSequenceClassification.from_pretrained(
    hyperparams["model"], num_labels=2, id2label=id2label, label2id=label2id
    )

# Setup tokenizer for model
tokenizer = AutoTokenizer.from_pretrained(hyperparams["model"])

# Enable dropouts for predictions
hf_model = patch_module(hf_model)

# Send model to device and setup cuda arguments
if use_cuda:
    hf_model.to("cuda:0")
    no_cuda = False
else:
    hf_model.to("cpu")
    no_cuda = True

Downloading (…)lve/main/config.json:   0%|          | 0.00/642 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.bias', 'cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.predictions.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were n

Downloading (…)okenizer_config.json:   0%|          | 0.00/24.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/1.65M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [None]:
# Define labels in your dataset
label_list = [0, 1]

# Load data from files
data = load_dataset("csv", data_files={'train': '/content/train.csv', 'eval': "/content/eval.csv"})

Downloading and preparing dataset csv/default to /root/.cache/huggingface/datasets/csv/default-53afec5e94009a99/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating eval split: 0 examples [00:00, ? examples/s]

Dataset csv downloaded and prepared to /root/.cache/huggingface/datasets/csv/default-53afec5e94009a99/0.0.0/6954658bab30a358235fa864b05cf819af0e179325c740e4bc853bcc7ec513e1. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

In [None]:
def get_label_from_data(active_dataset, data, target, input1, input2, indexes) -> List[int]:
    """
    Get labels from the active dataset, this assumes that you have
    already labelled some samples in your initial dataset

    Args:
    ----
    active_dataset : Active dataset which consists of train and pool

    indexes : Indexes of the points for which labels are to be fetched
    from the data

    Returns:
    ----
    labels: Returns the corresponding labels

    """

    labels = []

    # Now since you labelled points earlier now some part of pool has become train
    # so in order to get the pool indexes based on your 'original' data i.e
    # your raw_train_set. Make sure to user __pool_tp

    raw_data_idx = active_dataset._pool_to_oracle_index(indexes)

    for idx in raw_data_idx:
        #print(f"Adding labels for Raw data Index {idx} : {data[input1][idx]}")
        #print(f"Adding labels for Raw data Index {idx} : {data[input2][idx]}")

        label = data[target][idx]
        labels.append(label)
        #print(label)
        #print("\n")

    return labels

In [None]:
def get_label_human_oracle(active_dataset, indexes) -> List[int]:
    """
    Get labels from human oracle. During the AL loop some samples
    will go to the human labeller

    Args:
    ----
    active_dataset : Active dataset which consists of train and pool

    indexes : Indexes of the points for which labels are to be fetched
    from the data

    Returns:
    ----
    labels: Returns the corresponding labels

    """
    # List for corresponding labels
    labels = []

    skipped = []
    
    for sample_idx, idx in enumerate(indexes):

        while True:
            try:
                print(idx)
                pprint(active_dataset.pool.__getitem__(idx)['inputs'], width=150)
                label = int(input())
            except ValueError:
                print("Sorry, I didn't understand that.")
                continue
            if label != -1 and label not in label_list:
                print(f"Allowed labels are {label_list}")
                continue
            if label == -1:
                print("Skipping this sample")
                skipped.append(sample_idx)
                break
            else:
                labels.append(label)
                break
        print("\n")

    indexes_upd = np.delete(indexes, skipped)

    return labels, indexes_upd

In [None]:
small_data = data['train'].select(range(5_000))
#small_data = data['train']

active_set = custom_active_huggingface_dataset(
    small_data,
    tokenizer=tokenizer,
    target_key='relevant_part',
    input_key_1='content',
    input_key_2="part_body"
)

active_set.can_label = True

# 1000 первых объектов набора данных
label_from_data = get_label_from_data(active_set, small_data, 'relevant_part', 'content', 'part_body', range(1_150))

active_set.label(
    range(1_150),
    label_from_data,
)

valid_set = CustomHuggingFaceDatasets(data['eval'], tokenizer=tokenizer, target_key='relevant_part', input_key_1='content', input_key_2="part_body")

active_set, test_set = active_set, valid_set

In [None]:
# Setup Heuristics
heuristic = get_heuristic(
    hyperparams["heuristic"], hyperparams["shuffle_prop"]
)

# Model save checkpoint
save_checkpoint = 2

metric = evaluate.load("f1")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)

# Keep track of initial model weights
init_weights = deepcopy(hf_model.state_dict())

training_args = TrainingArguments(
    output_dir=".",
    num_train_epochs=hyperparams["learning_epoch"],
    per_device_train_batch_size=hyperparams["batch_size"],
    per_device_eval_batch_size=hyperparams["batch_size"],
    weight_decay=0.01,
    logging_steps=10,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True
)

# Active Learning Trainer Wrapper
baal_trainer = BaalTransformersTrainer(
    model=hf_model,
    args=training_args,
    train_dataset=active_set,
    eval_dataset=test_set,
    tokenizer=None,
    compute_metrics=compute_metrics
)

Downloading builder script:   0%|          | 0.00/6.77k [00:00<?, ?B/s]

In [None]:
logs = []
last_epoch = hyperparams["epoch"] - 1

for epoch in tqdm(range(hyperparams["epoch"])):
    # we use the default setup of HuggingFace for training (ex: epoch=1).
    # The setup is adjustable when BaalHuggingFaceTrainer is defined.
    baal_trainer.train()
    print("\n")

    # Validation!
    #eval_metrics = baal_trainer.evaluate()
    #print("\n")

    if (epoch != last_epoch):
      # MCdropout to gather uncertanities
      predictions = baal_trainer.predict_on_dataset(
          active_set.pool, iterations=hyperparams["iterations"]
      )
      print("\n")

      # Acquistion of the most informative and diverse samples based on BatchBALD
      top_uncertainty = heuristic(predictions)[: hyperparams.get("query_size", 1)]

      # Send the samples for labelling from human oracle
      label_from_oracle, points_to_label_oracle = get_label_human_oracle(
          active_set, top_uncertainty
      )

      # Label active dataset
      active_set.label(points_to_label_oracle, label_from_oracle)

      # We reset the model weights to relearn from the new trainset.
      baal_trainer.load_state_dict(init_weights)
      baal_trainer.lr_scheduler = None

      active_logs = {
          "epoch": epoch,
          "labeled_data": active_set.labelled_map,
          "Next Training set size": len(active_set),
      }
      logs.append({**active_logs})



Epoch,Training Loss,Validation Loss,F1
1,0.3267,0.578277,0.114286
2,0.4303,0.604353,0.433735
3,0.1332,0.580405,0.543478




[666-MainThread  ] [baal.transformers_trainer_wrapper:predict_on_dataset_generator:67] [2m2023-04-22T15:14:36.853781Z[0m [[32m[1minfo     [0m] [1mStart Predict                 [0m [36mdataset[0m=[35m3850[0m



  0%|          | 0/385 [00:00<?, ?it/s][A
  0%|          | 1/385 [00:03<22:16,  3.48s/it][A
  1%|          | 2/385 [00:06<22:07,  3.47s/it][A
  1%|          | 3/385 [00:10<22:04,  3.47s/it][A
  1%|          | 4/385 [00:13<22:03,  3.47s/it][A
  1%|▏         | 5/385 [00:17<22:01,  3.48s/it][A
  2%|▏         | 6/385 [00:20<22:02,  3.49s/it][A
  2%|▏         | 7/385 [00:24<22:02,  3.50s/it][A
  2%|▏         | 8/385 [00:27<22:01,  3.50s/it][A
  2%|▏         | 9/385 [00:31<21:59,  3.51s/it][A
  3%|▎         | 10/385 [00:34<21:59,  3.52s/it][A
  3%|▎         | 11/385 [00:38<21:57,  3.52s/it][A
  3%|▎         | 12/385 [00:42<21:54,  3.52s/it][A
  3%|▎         | 13/385 [00:45<21:53,  3.53s/it][A
  4%|▎         | 14/385 [00:49<21:50,  3.53s/it][A
  4%|▍         | 15/385 [00:52<22:02,  3.57s/it][A
  4%|▍         | 16/385 [00:56<21:55,  3.57s/it][A
  4%|▍         | 17/385 [00:59<21:54,  3.57s/it][A
  5%|▍         | 18/385 [01:03<21:50,  3.57s/it][A
  5%|▍         | 19/385 [01:0



182
('2 минута. Михнов чуть не пролез с левого края на пятак - сработала подстраховка у хозяев. В ответ Горохов со второй попытки попал в створ с '
 'правого фланга. 3 минута. ПЕТРОВ! Легко обыграл Калимулина, а Вьюхин вдруг выскочил вперед, чем, похоже, смутил Олега! КОторый очень раздосадован. '
 '3 минута. СУББОТИН! 0:1! Делает передачу с левого края в расчете на замыкание Калянина, но после рикошета на пятаке шайба скользнула в ближний '
 'угол! 4 минута. УППЕР! 1:1! Гуськов ошибся с выбором позиции за воротами, Левандовский его опередил и выдал передачу с ближней штанги на дальнюю - '
 'Уппер бросал уже в пустые! 5 минута. Королюк несложно швыряет справа, однако рикошет чуть не сделал бросок голевым. 5 минута. Бросок в упор со '
 'средней дистанции от Булиса парирует Вьюхин! 6 минута. Иргл щелкает справа от борта, шайба попадает в каркас ворот с внешней стороны и покидает '
 'лед.\n'
 'Урычев удален до конца матча за удар коленом. Защитник «Локомотива» Юрий Урычев был удален до 

 17%|█▋        | 1/6 [40:32<3:22:42, 2432.51s/it]





Epoch,Training Loss,Validation Loss,F1
1,0.3351,0.579285,0.0
2,0.2169,0.410643,0.553191
3,0.1408,0.603425,0.615385




[666-MainThread  ] [baal.transformers_trainer_wrapper:predict_on_dataset_generator:67] [2m2023-04-22T15:55:26.261291Z[0m [[32m[1minfo     [0m] [1mStart Predict                 [0m [36mdataset[0m=[35m3800[0m



  0%|          | 0/380 [00:00<?, ?it/s][A
  0%|          | 1/380 [00:03<22:02,  3.49s/it][A
  1%|          | 2/380 [00:06<21:53,  3.47s/it][A
  1%|          | 3/380 [00:10<21:52,  3.48s/it][A
  1%|          | 4/380 [00:13<21:51,  3.49s/it][A
  1%|▏         | 5/380 [00:17<21:50,  3.49s/it][A
  2%|▏         | 6/380 [00:20<21:51,  3.51s/it][A
  2%|▏         | 7/380 [00:24<21:50,  3.51s/it][A
  2%|▏         | 8/380 [00:28<21:49,  3.52s/it][A
  2%|▏         | 9/380 [00:31<21:48,  3.53s/it][A
  3%|▎         | 10/380 [00:35<21:49,  3.54s/it][A
  3%|▎         | 11/380 [00:38<21:48,  3.55s/it][A
  3%|▎         | 12/380 [00:42<21:47,  3.55s/it][A
  3%|▎         | 13/380 [00:45<21:47,  3.56s/it][A
  4%|▎         | 14/380 [00:49<21:45,  3.57s/it][A
  4%|▍         | 15/380 [00:53<21:44,  3.57s/it][A
  4%|▍         | 16/380 [00:56<21:43,  3.58s/it][A
  4%|▍         | 17/380 [01:00<21:42,  3.59s/it][A
  5%|▍         | 18/380 [01:03<21:40,  3.59s/it][A
  5%|▌         | 19/380 [01:0



917
('25 минута. "Локомотив" забил второй гол "Мордовии", и "Кубань" забила "Анжи". "Спартак" отползает на шестое место в таблице - это граница '
 'еврозоны... 26 минута. 1:0 - Брызгалов ! Здорово разыграли москвичи угловой справа, Макгид навесил на ближнюю, и там Брызгалов совершенно без '
 'помех пробил в нижний левый угол ворот. 26 минута. Правда, на повторе видно, что Яковлев блокировал Пришкина, рвавшегося к Брызгалову и при '
 'желании гол можно было и отменить. 27 минута. Да, и "Спартак" сразу возвращается на виртуальное четвертое место в таблице, передавая привет '
 'Краснодару и Казани. А всего то надо было убрать с поля Вукоевича, правда?\n'
 '«Спартак» – «Алания». Дакоста удален на 6-й минуте матча за неприличный жест в адрес болельщиков хозяев. Ивуарийский защитник «Алании» Акес Гооре '
 'Дакоста получил красную карточку на 6-й минуте матча 30-го тура премьер-лиги со «Спартаком» (0:0, первый тайм). 28-летний футболист показал '
 'неприличный жест болельщикам «Спартака», о

 33%|███▎      | 2/6 [1:21:12<2:42:27, 2436.93s/it]





Epoch,Training Loss,Validation Loss,F1
1,0.3697,0.408073,0.524272
2,0.2507,0.558791,0.395062
3,0.2593,0.560507,0.470588




[666-MainThread  ] [baal.transformers_trainer_wrapper:predict_on_dataset_generator:67] [2m2023-04-22T16:36:20.777675Z[0m [[32m[1minfo     [0m] [1mStart Predict                 [0m [36mdataset[0m=[35m3750[0m



  0%|          | 0/375 [00:00<?, ?it/s][A
  0%|          | 1/375 [00:03<21:37,  3.47s/it][A
  1%|          | 2/375 [00:06<21:36,  3.48s/it][A
  1%|          | 3/375 [00:10<21:35,  3.48s/it][A
  1%|          | 4/375 [00:13<21:33,  3.49s/it][A
  1%|▏         | 5/375 [00:17<21:34,  3.50s/it][A
  2%|▏         | 6/375 [00:20<21:33,  3.51s/it][A
  2%|▏         | 7/375 [00:24<21:32,  3.51s/it][A
  2%|▏         | 8/375 [00:28<21:31,  3.52s/it][A
  2%|▏         | 9/375 [00:31<21:30,  3.52s/it][A
  3%|▎         | 10/375 [00:35<21:29,  3.53s/it][A
  3%|▎         | 11/375 [00:38<21:29,  3.54s/it][A
  3%|▎         | 12/375 [00:42<21:28,  3.55s/it][A
  3%|▎         | 13/375 [00:45<21:26,  3.55s/it][A
  4%|▎         | 14/375 [00:49<21:25,  3.56s/it][A
  4%|▍         | 15/375 [00:52<21:21,  3.56s/it][A
  4%|▍         | 16/375 [00:56<21:21,  3.57s/it][A
  5%|▍         | 17/375 [01:00<21:19,  3.57s/it][A
  5%|▍         | 18/375 [01:03<21:14,  3.57s/it][A
  5%|▌         | 19/375 [01:0



605
('87 минута. Бускетсу достается, хотя многие наверняка засомневались в том, насколько изображение того, как сильно ему досталось, соответствовало '
 'действительности. 88 минута. Пуйоль выходит вместо Алвеса. Под вручение. 89 минута. "Манчестер" сам катает мяч на своей половине поля.... 90 '
 'минута. Три минуты добавлено к основному времени тайма! 90 минута. "Манчестер" подавлен. Толком со своей половины поля не могут выйти манкунианцы. '
 'Что хотите говорите, но это фактически признание победы "Барселоны". 90 минута. "Барселона" - лучшая команда мира, лучшая команда в истории. '
 'Эпоха. Эта победа ее венчает. Или только подводит к венчанию; мы же не знаем, что будет дальше. Это частное мнение автора этих строк. Думаю, так '
 'же считает добрый десяток миллионов, может и больше. 90 минута. Иньеста в касание бил в ворота, из которых далековато вышел ван дер Сар, но успел '
 'вернуться. Афеллай вместо Педро. 90 минута. Фергюсон поздравил Гвардиолу с победой с улыбкой на лице. Сэ

 50%|█████     | 3/6 [2:03:48<2:04:33, 2491.15s/it]





Epoch,Training Loss,Validation Loss,F1
1,0.185,0.60932,0.058824
2,0.4073,0.91643,0.059701
3,0.0966,0.581117,0.533333




[666-MainThread  ] [baal.transformers_trainer_wrapper:predict_on_dataset_generator:67] [2m2023-04-22T17:19:10.432958Z[0m [[32m[1minfo     [0m] [1mStart Predict                 [0m [36mdataset[0m=[35m3700[0m



  0%|          | 0/370 [00:00<?, ?it/s][A
  0%|          | 1/370 [00:03<21:33,  3.50s/it][A
  1%|          | 2/370 [00:07<21:27,  3.50s/it][A
  1%|          | 3/370 [00:10<21:28,  3.51s/it][A
  1%|          | 4/370 [00:14<21:26,  3.52s/it][A
  1%|▏         | 5/370 [00:17<21:27,  3.53s/it][A
  2%|▏         | 6/370 [00:21<21:27,  3.54s/it][A
  2%|▏         | 7/370 [00:24<21:28,  3.55s/it][A
  2%|▏         | 8/370 [00:28<21:28,  3.56s/it][A
  2%|▏         | 9/370 [00:31<21:30,  3.57s/it][A
  3%|▎         | 10/370 [00:35<21:29,  3.58s/it][A
  3%|▎         | 11/370 [00:39<21:30,  3.59s/it][A
  3%|▎         | 12/370 [00:42<21:32,  3.61s/it][A
  4%|▎         | 13/370 [00:46<21:31,  3.62s/it][A
  4%|▍         | 14/370 [00:50<21:30,  3.63s/it][A
  4%|▍         | 15/370 [00:53<21:28,  3.63s/it][A
  4%|▍         | 16/370 [00:57<21:26,  3.63s/it][A
  5%|▍         | 17/370 [01:00<21:22,  3.63s/it][A
  5%|▍         | 18/370 [01:04<21:22,  3.64s/it][A
  5%|▌         | 19/370 [01:0



1600
('45 минута. Перерыв! Айю отчаянно пытается вытянуть "Виллу" из болота, но Куртуа и неточности не дали ему забить. А вот лондонская молодежь во '
 'главе с Лофтусом-Чиком очень ловко орудует в тылах бирмингемцев. Да и гол Пато в дебютном матче тоже стоит отметить. 45 минута. гол! ПАТО! '
 'Прошивает перчатки Гьюзана! 0:2! 45 минута. 45 минута. 46 минута. Продолжаем. 46 минута. Хиддинк сменил Кенеди на Пато. 47 минута. гол! ПЕДРО! '
 'Очень легко обыгрался в стеночку с Оскаром и катнул под Гьюзаном! 0:3! 47 минута.\n'
 '«Астон Вилла» – «Челси». Пато забил в дебютном матче за лондонцев. Форвард «Челси» Алешандре Пато дебютировал за лондонский клуб в матче '
 'чемпионата Англии против «Астон Виллы». Бразильский нападающий вышел на поле в первом тайме вместо травмированного Лоика Реми . При этом Пато '
 'отметился голом, реализовав пенальти на 45-й минуте. Sports.ru проводит онлайн-трансляцию матча «Астон Вилла» – «Челси» .')
1


2212
('29 минута. Пяярви! Чуть было не удвоил счет, о

 67%|██████▋   | 4/6 [2:44:36<1:22:28, 2474.19s/it]





Epoch,Training Loss,Validation Loss,F1
1,0.4364,0.537418,0.030303
2,0.3195,0.719309,0.059701
3,0.1562,0.713341,0.189189




[666-MainThread  ] [baal.transformers_trainer_wrapper:predict_on_dataset_generator:67] [2m2023-04-22T18:00:17.940107Z[0m [[32m[1minfo     [0m] [1mStart Predict                 [0m [36mdataset[0m=[35m3650[0m



  0%|          | 0/365 [00:00<?, ?it/s][A
  0%|          | 1/365 [00:03<21:10,  3.49s/it][A
  1%|          | 2/365 [00:06<21:04,  3.48s/it][A
  1%|          | 3/365 [00:10<21:03,  3.49s/it][A
  1%|          | 4/365 [00:13<21:02,  3.50s/it][A
  1%|▏         | 5/365 [00:17<21:03,  3.51s/it][A
  2%|▏         | 6/365 [00:21<21:03,  3.52s/it][A
  2%|▏         | 7/365 [00:24<21:03,  3.53s/it][A
  2%|▏         | 8/365 [00:28<21:03,  3.54s/it][A
  2%|▏         | 9/365 [00:31<21:05,  3.55s/it][A
  3%|▎         | 10/365 [00:35<21:03,  3.56s/it][A
  3%|▎         | 11/365 [00:38<21:03,  3.57s/it][A
  3%|▎         | 12/365 [00:42<21:03,  3.58s/it][A
  4%|▎         | 13/365 [00:46<21:00,  3.58s/it][A
  4%|▍         | 14/365 [00:49<20:59,  3.59s/it][A
  4%|▍         | 15/365 [00:53<20:58,  3.59s/it][A
  4%|▍         | 16/365 [00:56<20:58,  3.61s/it][A
  5%|▍         | 17/365 [01:00<20:56,  3.61s/it][A
  5%|▍         | 18/365 [01:04<20:55,  3.62s/it][A
  5%|▌         | 19/365 [01:0



2917
('87 минута. Мовсисян покидает поле. Барриосу дают немного побегать. 88 минута. И Быстров уходит с поля. Вместо него Сердеров. 88 минута. Ой, что '
 'творится-то! Кержаков зачем-то выбежал из штрафной на перехват, хотя мяч контролировал Епуряну. А молдаванин не глядя отдал голкиперу. В итоге, '
 'едва спартаковцы не забили в пустые ворота. 89 минута. Снова "Спартак" на своей половине и отбивается. 90 минута. Боккетти удачно поставил корпус '
 'Максимову и не пустил того к мячу в штрафной. Максимов толкнул итальянца в спину, а тут еще и Митрюшкин в него врезался. В итоге, потолкались - '
 'разошлись. 90 минута. Ромуло меняет Кариоку на последние несколько минут. 90 минута. 5 минут, кстати, добавлено. 90 минута. Прострел Сердерова '
 'неудачный - мяч становится легкой добычей Митрюшкина. 90 минута. гол! Сердеров! 2:2! Вот это да! Фантастика! Бесперспективный заброс Гаджибекова, '
 'и Боккетти зачем-то тронул мяч, тот неудобно прилетает к Ташчи, которого обкрадывает Сердеров и нано

 83%|████████▎ | 5/6 [3:23:17<40:18, 2418.93s/it]  





Epoch,Training Loss,Validation Loss,F1
1,0.4517,0.830417,0.059701
2,0.245,0.545258,0.35443
3,0.1956,0.713329,0.488372


100%|██████████| 6/6 [3:30:50<00:00, 2108.37s/it]








In [None]:
m = AutoModelForSequenceClassification.from_pretrained("/content/checkpoint-360")
trainer = BaalTransformersTrainer(
    model=m,
    args=training_args,
    train_dataset=active_set,
    eval_dataset=test_set,
    tokenizer=None,
    compute_metrics=compute_metrics
)
output = trainer.evaluate()
output

{'eval_loss': 0.5071448087692261,
 'eval_f1': 0.6666666666666666,
 'eval_runtime': 3.6073,
 'eval_samples_per_second': 73.463,
 'eval_steps_per_second': 7.485}

In [None]:
!cp -r "/content/checkpoint-390" "/content/drive/MyDrive/NIR/bald-390"

#### Разметка релевантных новостей со случайным обучением

In [None]:
# Setup Heuristics
heuristic = get_heuristic(
    hyperparams["heuristic"], hyperparams["shuffle_prop"]
)

metric = evaluate.load("f1")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return metric.compute(predictions=predictions, references=labels)

# Keep track of initial model weights
init_weights = deepcopy(hf_model.state_dict())

training_args = TrainingArguments(
    output_dir=".",
    num_train_epochs=hyperparams["learning_epoch"],
    per_device_train_batch_size=hyperparams["batch_size"],
    per_device_eval_batch_size=hyperparams["batch_size"],
    weight_decay=0.01,
    logging_steps=10,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True
)

# Active Learning Trainer Wrapper
baal_trainer = BaalTransformersTrainer(
    model=hf_model,
    args=training_args,
    train_dataset=active_set,
    eval_dataset=test_set,
    tokenizer=None,
    compute_metrics=compute_metrics
)

Downloading builder script:   0%|          | 0.00/6.77k [00:00<?, ?B/s]

In [None]:
logs = []
last_epoch = hyperparams["epoch"] - 1

for epoch in tqdm(range(hyperparams["epoch"])):
    # we use the default setup of HuggingFace for training (ex: epoch=1).
    # The setup is adjustable when BaalHuggingFaceTrainer is defined.
    baal_trainer.train()
    print("\n")

    # Validation!
    #eval_metrics = baal_trainer.evaluate()
    #print("\n")
    if (epoch != last_epoch):
      point_idx_train = np.random.choice(len(active_set.pool) - 1, hyperparams.get("query_size", 1), replace=False)

      # Send the samples for labelling from human oracle
      label_from_oracle, points_to_label_oracle = get_label_human_oracle(
          active_set, point_idx_train
      )

      # Label active dataset
      active_set.label(points_to_label_oracle, label_from_oracle)

      # Save model
      #if epoch == save_checkpoint:
      #    save_model(baal_trainer)

      # We reset the model weights to relearn from the new trainset.
      baal_trainer.load_state_dict(init_weights)
      baal_trainer.lr_scheduler = None

      active_logs = {
          "epoch": epoch,
          "labeled_data": active_set.labelled_map,
          "Next Training set size": len(active_set),
      }
      logs.append({**active_logs})



Epoch,Training Loss,Validation Loss,F1
1,0.4142,0.331453,0.0
2,0.3826,0.274154,0.0
3,0.2525,0.285223,0.0




7974
('32 минута. "Ростов" неубедителен, прежде всего, в созидании. 32 минута. Калачев получил карточку. 33 минута. Калачев ворвался в штрафную, мощно '
 'пробил в сторону ворот, Шунин сумел парировать в сторону. 35 минута. "Ростов" провел быструю атаку, теперь интересно, продолжат ли динамовцы '
 'активничать или предпочтут идти в атаку меньшими силами?\n'
 'Семшов забил 100-й гол в карьере. Полузащитник «Динамо» Игорь Семшов открыл счет на 11-й минуте гостевого матча 17-го тура премьер-лиги с '
 '«Ростовом». Этот гол стал для футболиста 100-м в карьере. Подробную статистику выступлений Семшова смотрите здесь . ВИДЕО')


  0%|          | 0/4 [06:36<?, ?it/s]


KeyboardInterrupt: ignored

In [None]:
m = AutoModelForSequenceClassification.from_pretrained("/content/checkpoint-390")
trainer = BaalTransformersTrainer(
    model=m,
    args=training_args,
    train_dataset=active_set,
    eval_dataset=test_set,
    tokenizer=None,
    compute_metrics=compute_metrics
)
output = trainer.evaluate()
output

{'eval_loss': 0.4910638630390167,
 'eval_f1': 0.6666666666666666,
 'eval_runtime': 3.6883,
 'eval_samples_per_second': 71.849,
 'eval_steps_per_second': 7.32}

In [None]:
!cp -r "/content/checkpoint-61" "/content/drive/MyDrive/NIR/random"