# Лаба 2

**Дедлайн**: 9 апреля

**Задача**: написать определитель тональности текста (сообщениея в Twitter) c помощью fine-tuning-а на датасете RuSentiTweet (https://github.com/sismetanin/rusentitweet)

На что обратить внимание:
* Подготовка данных (очистка, токенизация и упаковка датасета в удобный класс) - у вас в задании другой датасет, соответственно обработка может поменяться. В датасете несколько файлов, скачайте rusentitweet_full.csv и работайте с ним
* Процедура дообучения. Вам необходимо доработать имеющуюся процедуру:
    * Добавить графики качества обучения модели в зависимости от шага (делать валидацию каждые 100 шагов (например), а не раз в эпоху)
    * Замерить время обучения
    * Добавить больше метрик для отслеживания (изучите по открытым источникам, какие метрики используются для задачи определения тональности и почему)
    * Добавить заморозку части слоев (все, кроме слоя классификации, или кроме слоя классификации + 2-3 последних слоев с интентами)
    * Подобрать количество эпох, размер батча и заморозку так, чтобы модель давала лучший результат
* Модель для дообучения (попробуйте как минимум 2 разных модели), искать подходящие модели можно с помощью гугла и https://huggingface.co/
* Результаты **всех** экспериментов должны быть описаны в отдельной ячейке
* Inference модели - обученную модель нужно обернуть в удобную функцию для использования, которая по тексту будет возвращать его тональность



# Imports

Устанавливаем и подключаем необходимые библиотеки

In [29]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [30]:
import torch
from torch.utils.data import TensorDataset, DataLoader
from transformers import BertTokenizer, BertForSequenceClassification
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

import pandas as pd
import numpy as np

from tqdm.notebook import tqdm
tqdm.pandas()

# Загрузка и обработка данных

В примере используется датасет https://www.kaggle.com/datasets/blackmoon/russian-language-toxic-comments, нужно поменять его на тот, что указан выше

In [31]:
df = pd.read_csv("rusentitweet_full.csv")
# Обратите внимание, что для корректной работы BertForSequenceClassification
# метки классов должны быть в виде целого числа из промежутка (0, 1, ..., num_classes - 1)
# обязательно (!) типа int, а не float, str и т.д.
df.head()

Unnamed: 0.1,Unnamed: 0,text,label,id
0,0,@varlamov @McFaul На,skip,1327934765807308801
1,1,велл они всё равно что мусор так что ничего с...,negative,1252943181387350017
2,2,"""трезвая жизнь какая-то такая стрёмная""\r\n(с)...",negative,1323610669061677056
3,3,Ой какие неожиданные результаты 🤭 https://t.co...,neutral,1336231661160247297
4,4,@Shvonder_chief @dimsmirnov175 На заборе тоже ...,neutral,1292421736454127617


In [32]:
# Проверим количество классов - если больше 3-х (позитив, негатив и нейтральный)
# или двух (позитив и негатив), то нужно убрать лишние или привести к описанной шкале
# (все градации негатива свернуть в один класс)
df["label"].unique()

array(['skip', 'negative', 'neutral', 'speech', 'positive'], dtype=object)

**Функция для обработки текста**

Поддерживает следующие этапы:
1. Приведение к lowercase
2. Удаление спецсимволов

Возможные улучшения:
1. Обработка смайликов
2. Замена цифр на слова (например, "5" на "пять")
3. Удаление пунктуации (зависит от используемой базовой модели)
4. Убрать приведение к lowercase, если модель позволяет

**Подготовим датасет**

In [33]:
import re

def clean_text(text):
    text = re.sub('((www\.[^\s]+)|(https?://[^\s]+))','url', text)
    text = re.sub('@[^\s]+','user', text)
    text = text.lower().replace("ё", "е")
    return text.strip()

df['text_cleaned'] = [clean_text(t) for t in df['text']]

In [34]:
def sort_by_label(text):
    text = text.lower().replace("skip", "1")
    text = text.lower().replace("negative", "2")
    text = text.lower().replace("neutral", "3")
    text = text.lower().replace("speech", "4")
    text = text.lower().replace("positive", "5")
    return text

df['labels_to_int'] = [sort_by_label(t) for t in df['label']]
df["labels_to_int"] = df["labels_to_int"].astype(int)

In [35]:
df.head()

Unnamed: 0.1,Unnamed: 0,text,label,id,text_cleaned,labels_to_int
0,0,@varlamov @McFaul На,skip,1327934765807308801,user user на,1
1,1,велл они всё равно что мусор так что ничего с...,negative,1252943181387350017,велл они все равно что мусор так что ничего с...,2
2,2,"""трезвая жизнь какая-то такая стрёмная""\r\n(с)...",negative,1323610669061677056,"""трезвая жизнь какая-то такая стремная""\r\n(с)...",2
3,3,Ой какие неожиданные результаты 🤭 https://t.co...,neutral,1336231661160247297,ой какие неожиданные результаты 🤭 url,3
4,4,@Shvonder_chief @dimsmirnov175 На заборе тоже ...,neutral,1292421736454127617,"user user на заборе тоже написано,а там другое...",3


In [36]:
# Загружаем токенайзер - по имени модели на huggingface hub-е

tokenizer = BertTokenizer.from_pretrained(
    "DeepPavlov/rubert-base-cased",
    do_lower_case = True
  
)

In [37]:
def tokenize(text):
    res = tokenizer.encode_plus(
        text,
        add_special_tokens=True,  # Да, добавляем, т.к. дальше даем на вход BERT-у
        max_length=32,  # Максимальная длина входной последовательности - позволяет оптимизировать память
                        # Ограничение BERT-a - 512, но если сделать меньше, то модель
                        # будет обучаться быстрее
                        # Можно заранее посчитать максимальную длину последовательности 
                        # на датасете (считать нужно в токенах по attention mask)
        pad_to_max_length=True,  # Нужно ли дополнять предложение до максимальной длины
                                 # Да, нужно - в таком случае можно делить на батчи
                                 # (если векторы будут разной размерности, упадем с ошибкой)
        return_attention_mask=True,  # Attention mask - показывает, имеет ли токен смысл
                                     # токен [PAD] - 0, остальные - 1 
        return_tensors="pt"  # Указываем тип тензоров, нам нуше PyTorch
    )
    return pd.Series([res["input_ids"], res["attention_mask"]])

df[["input_ids", "attention_mask"]] = df["text_cleaned"].progress_apply(tokenize)

  0%|          | 0/13392 [00:00<?, ?it/s]

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


In [38]:
test_size = 0.3
batch_size = 16

# Делим выборку на трейн и тест со стратификацией - сохраняя распределение классов
train_df, test_df = train_test_split(
    df,
    test_size=test_size,
    shuffle=True,
    stratify=df["labels_to_int"].values
)

# Train and validation sets
train_set = TensorDataset(torch.cat(list(train_df["input_ids"].values), dim=0),
                          torch.cat(list(train_df["attention_mask"].values), dim=0), 
                          torch.tensor(train_df["labels_to_int"].values))

test_set = TensorDataset(torch.cat(list(test_df["input_ids"].values), dim=0),
                         torch.cat(list(test_df["attention_mask"].values), dim=0), 
                         torch.tensor(test_df["labels_to_int"].values))

# Prepare DataLoader
train_dataloader = DataLoader(
            train_set,
            batch_size=batch_size
        )

test_dataloader = DataLoader(
            test_set,
            batch_size=batch_size
        )

# Обучаем модель

In [39]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

device(type='cpu')

In [40]:
model = BertForSequenceClassification.from_pretrained(
    "DeepPavlov/rubert-base-cased",
    num_labels = 6,
    output_attentions = False,
    output_hidden_states = False,
)

model.to(device)

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertForSequenceClassification: ['cls.seq_relationship.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.decoder.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were n

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12

In [41]:
epochs = 3

optimizer = torch.optim.AdamW(
    model.parameters(), 
    lr = 5e-6,
    eps = 1e-08
)

for _ in tqdm(range(epochs), desc='Epoch'):
    # ========== Training ==========
    
    # Set model to training mode
    model.train()
    
    # Tracking variables
    tr_loss = 0
    nb_tr_examples, nb_tr_steps = 0, 0
  
    for step, batch in tqdm(enumerate(train_dataloader), total=len(train_dataloader)):
        batch = tuple(t.to(device) for t in batch)
        b_input_ids, b_input_mask, b_labels = batch

        optimizer.zero_grad()

        # Forward pass
        train_output = model(b_input_ids, 
                             token_type_ids = None, 
                             attention_mask = b_input_mask, 
                             labels = b_labels)
        
        # Backward pass
        train_output.loss.backward()
        optimizer.step()

        # Update tracking variables
        tr_loss += train_output.loss.item()
        nb_tr_examples += b_input_ids.size(0)
        nb_tr_steps += 1

    # ========== Validation ==========

    # Set model to evaluation mode
    model.eval()

    # Tracking variables 
    val_f1 = []

    for batch in tqdm(test_dataloader, total=len(test_dataloader)):
        batch = tuple(t.to(device) for t in batch)
        b_input_ids, b_input_mask, b_labels = batch

        with torch.no_grad():
          # Forward pass
          eval_output = model(b_input_ids, 
                              token_type_ids = None, 
                              attention_mask = b_input_mask)
          
        logits = eval_output.logits
        y_pred = torch.argmax(logits, dim = -1)
        
        y_pred = y_pred.detach().cpu().numpy()
        y_true = b_labels.to('cpu').numpy()
        
        # Calculate validation metrics
        val_f1_value = f1_score(y_true, y_pred, average='macro')
        val_f1.append(val_f1_value)

    print('\n\t - Train loss: {:.4f}'.format(tr_loss / nb_tr_steps))
    print('\t - Validation F1-score: {:.4f}'.format(sum(val_f1)/len(val_f1)))

Epoch:   0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/586 [00:00<?, ?it/s]

  0%|          | 0/252 [00:00<?, ?it/s]


	 - Train loss: 1.1605
	 - Validation F1-score: 0.5386


  0%|          | 0/586 [00:00<?, ?it/s]

KeyboardInterrupt: ignored

# Применение (inference) модели

Ниже напишите функцию, которая будет получать на вход текст, а на выходе писать его тональность 