<a href="https://colab.research.google.com/github/Leonardodaladno1996/bert_experiments/blob/main/Untitled51.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Добавить после импортов, заменить демонстрационные данные
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
import requests

# Загрузка реального датасета
def load_math_dataset():
    """Загрузка датасета математических задач"""
    # Параметры Google Sheets
    file_id = '13YIbphbWc62sfa-bCh8MLQWKizaXbQK9'
    gid = '661202001'

    # Формируем URL для экспорта в Excel
    export_url = f'https://docs.google.com/spreadsheets/d/{file_id}/export?format=xlsx&gid={gid}'

    try:
        # Пытаемся скачать файл
        response = requests.get(export_url)
        response.raise_for_status()  # Проверяем ошибки

        # Сохраняем во временный файл
        with open('temp_sheet.xlsx', 'wb') as f:
            f.write(response.content)

        # Читаем файл
        df = pd.read_excel('temp_sheet.xlsx', engine='openpyxl')

    except Exception as e:
        # Альтернативная попытка через локальный файл
        try:
            df = pd.read_excel('math_problems.xlsx', engine='openpyxl')
        except:
            raise RuntimeError(f"Не удалось загрузить данные: {str(e)}")

    display(df.head())

    # Предполагаем структуру: [index, text, category, ...]
    texts = df.iloc[:, 1].astype(str).tolist()  # Второй столбец - тексты задач
    categories = df.iloc[:, 2].astype(str).tolist()  # Третий столбец - категории

    # Кодируем категории в числовые метки
    label_encoder = LabelEncoder()
    labels = label_encoder.fit_transform(categories)

    return texts, labels, label_encoder

# Заменить демонстрационные данные
texts, labels, label_encoder = load_math_dataset()
num_classes = len(label_encoder.classes_)

print(f"Загружено {len(texts)} задач")
print(f"Количество классов: {num_classes}")
print(f"Классы: {label_encoder.classes_}")

Unnamed: 0.1,Unnamed: 0,problem_text,topic
0,0,To prove that the sum of the numbers of the ex...,number_theory
1,1,( b) Will the statement of the previous challe...,number_theory
2,2,The quadratic three-member graph with the coef...,polynoms
3,3,Can you draw on the surface of Rubik's cube a ...,combinatorics
4,4,"Dima, who came from Vrunlandia, said that ther...",graphs


Загружено 5273 задач
Количество классов: 7
Классы: ['combinatorics' 'dirichlet' 'geometry' 'graphs' 'invariant'
 'number_theory' 'polynoms']


In [2]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from transformers import AutoTokenizer, AutoModel, AutoConfig
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from typing import Union, List, Dict, Any
import copy
from sklearn.metrics import accuracy_score, f1_score, classification_report
from tqdm import tqdm
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# Пример данных для демонстрации
class MathProblemsDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_length=512):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    def preprocess_text(self, text):
        """Предобработка математических текстов"""
        # Очистка и нормализация текста
        text = str(text).strip()
        # Удаление лишних пробелов
        text = ' '.join(text.split())
        # Обработка математических символов если нужно
        return text

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = str(self.texts[idx])
        label = self.labels[idx]

        encoding = self.tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=self.max_length,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.tensor(label, dtype=torch.long)
        }


In [3]:
class TransformerClassificationModel(nn.Module):
    """
    Кастомная модель классификации на основе трансформера.

    Архитектура:
    - Backbone: предобученная модель из HuggingFace
    - Dropout layer для регуляризации
    - Классификационная голова (линейный слой)

    Особенности реализации:
    - Поддержка различных архитектур трансформеров
    - Гибкая настройка количества классов
    - Возможность извлечения attention weights для анализа
    """

    def __init__(self, base_transformer_model: Union[str, nn.Module], num_classes: int = 7, dropout_rate: float = 0.1):
        super(TransformerClassificationModel, self).__init__()

        if isinstance(base_transformer_model, str):
            # Загружаем конфигурацию модели
            self.config = AutoConfig.from_pretrained(base_transformer_model)
            # Загружаем backbone модель
            self.backbone = AutoModel.from_pretrained(base_transformer_model)
            # Загружаем соответствующий токенизатор
            self.tokenizer = AutoTokenizer.from_pretrained(base_transformer_model)
        else:
            self.backbone = base_transformer_model
            self.config = base_transformer_model.config
            self.tokenizer = None

        # Получаем размерность скрытых состояний
        self.hidden_size = self.config.hidden_size

        # Добавляем dropout для регуляризации
        self.dropout = nn.Dropout(dropout_rate)

        # Классификационная голова
        self.classifier_1 = nn.Linear(self.hidden_size, num_classes * 10)
        self.classifier_2 = nn.Linear(num_classes * 10, num_classes)

        # Сохраняем количество классов
        self.num_classes = num_classes

        # Инициализируем веса классификатора
        nn.init.xavier_uniform_(self.classifier_1.weight)
        nn.init.xavier_uniform_(self.classifier_2.weight)
        nn.init.zeros_(self.classifier_1.bias)
        nn.init.zeros_(self.classifier_2.bias)


    def forward(self, input_ids, attention_mask=None, labels=None, return_attention=False):
        """
        Прямой проход через модель.

        Args:
            input_ids: токенизированные входные данные
            attention_mask: маска внимания
            labels: истинные метки (опционально)
            return_attention: возвращать ли веса внимания

        Returns:
            dict с logits, loss (если labels предоставлены), и attention weights (если запрошены)
        """

        # Пропускаем через backbone
        outputs = self.backbone(
            input_ids=input_ids,
            attention_mask=attention_mask,
            output_attentions=return_attention
        )

        # Получаем представление [CLS] токена (или mean pooling)
        if hasattr(outputs, 'pooler_output') and outputs.pooler_output is not None:
            # Для BERT-подобных моделей используем pooler_output
            pooled_output = outputs.pooler_output
        else:
            # Для других моделей используем mean pooling
            last_hidden_state = outputs.last_hidden_state
            pooled_output = last_hidden_state[:, 0]

        # Применяем dropout
        pooled_output = self.dropout(pooled_output)

        # Получаем логиты
        pre_logits = self.classifier_1(pooled_output)
        pre_logits_dropout = self.dropout(pre_logits)
        logits = self.classifier_2(pre_logits_dropout)

        # Подготавливаем выходной словарь
        result = {'logits': logits}

        # Вычисляем loss если предоставлены метки
        if labels is not None:
            loss_fn = nn.CrossEntropyLoss()
            loss = loss_fn(logits, labels)
            result['loss'] = loss

        # Добавляем attention weights если запрошены
        if return_attention:
            result['attentions'] = outputs.attentions

        return result


In [4]:
def freeze_backbone_function(model: TransformerClassificationModel):
    """
    Замораживает параметры backbone модели для предотвращения их обновления.

    Принцип работы:
    - Устанавливает requires_grad=False для всех параметров backbone
    - Оставляет размороженными только параметры классификационной головы
    - Это позволяет использовать предобученные представления без их изменения

    Преимущества заморозки:
    - Быстрее обучение (меньше параметров для обновления)
    - Меньше требований к памяти
    - Защита от катастрофического забывания
    - Работает хорошо при небольших датасетах
    """

    # Замораживаем все параметры backbone
    for param in model.backbone.parameters():
        param.requires_grad = False

    # Убеждаемся, что классификационная голова остается разморожена
    for param in model.classifier_1.parameters():
        param.requires_grad = True

    for param in model.classifier_2.parameters():
        param.requires_grad = True

    # Также размораживаем dropout (хотя у него нет обучаемых параметров)
    for param in model.dropout.parameters():
        param.requires_grad = True

    print("Backbone заморожен. Обучаемые параметры:")
    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    total_params = sum(p.numel() for p in model.parameters())
    print(f"Обучаемые: {trainable_params:,}")
    print(f"Общие: {total_params:,}")
    print(f"Процент обучаемых: {100 * trainable_params / total_params:.2f}%")

    return model

In [5]:
def train_transformer(transformer_model, texts, labels, freeze_backbone=True, epochs=10, learning_rate=2e-5, batch_size=16):
    """
    Функция для дообучения трансформера на задаче классификации.

    Особенности реализации:
    - Поддержка заморозки backbone
    - Адаптивное изменение learning rate
    - Мониторинг метрик качества
    - Early stopping для предотвращения переобучения

    Параметры обучения:
    - Learning rate: 2e-5 (оптимальный для трансформеров)
    - Batch size: 8 (компромисс между стабильностью и скоростью)
    - Optimizer: AdamW (лучший выбор для трансформеров)
    - Scheduler: Linear warmup + decay
    """

    # Создаем копию модели для обучения
    model = copy.deepcopy(transformer_model)

    # Применяем заморозку если необходимо
    if freeze_backbone:
        model = freeze_backbone_function(model)
    else:
        print("Обучение без заморозки backbone")
        trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
        print(f"Всего обучаемых параметров: {trainable_params:,}")

    # Подготавливаем данные с разделением на train/validation
    train_texts, val_texts, train_labels, val_labels = train_test_split(
        texts, labels, test_size=0.2, random_state=42, stratify=labels
    )

    tokenizer = model.tokenizer
    train_dataset = MathProblemsDataset(train_texts, train_labels, tokenizer)
    val_dataset = MathProblemsDataset(val_texts, val_labels, tokenizer)

    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False)

    # Настраиваем оптимизатор
    optimizer = optim.AdamW(
        model.parameters(),
        lr=learning_rate,
        weight_decay=0.01,  # L2 регуляризация
        eps=1e-8
    )

    # Scheduler для learning rate
    num_training_steps = len(train_loader) * epochs
    scheduler = optim.lr_scheduler.LinearLR(
        optimizer,
        start_factor=0.1,
        total_iters=num_training_steps // 10
    )

    # Перемещаем модель на GPU если доступно
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.to(device)

    # Обучающий цикл
    model.train()
    training_losses = []

    print(f"Начинаем обучение на {device}")
    print(f"Epochs: {epochs}, Batch size: {batch_size}, Learning rate: {learning_rate}")

    for epoch in range(epochs):
        epoch_losses = []
        epoch_predictions = []
        epoch_labels = []

        pbar = tqdm(train_loader, desc=f'Epoch {epoch+1}/{epochs}')

        for batch in pbar:
            # Перемещаем данные на устройство
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)



            # Check if labels are within the valid range
            if torch.max(labels) >= model.num_classes or torch.min(labels) < 0:
                raise ValueError(f"Labels are out of the valid range [0, {model.num_classes - 1}]. Found max label: {torch.max(labels)}, min label: {torch.min(labels)}")


            # Обнуляем градиенты
            optimizer.zero_grad()

            # Прямой проход
            outputs = model(input_ids, attention_mask, labels)
            loss = outputs['loss']

            # Обратный проход
            loss.backward()

            # Gradient clipping для стабильности
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

            # Обновляем параметры
            optimizer.step()
            scheduler.step()

            # Сохраняем метрики
            epoch_losses.append(loss.item())

            # Предсказания для расчета accuracy
            predictions = torch.argmax(outputs['logits'], dim=-1)
            epoch_predictions.extend(predictions.cpu().numpy())
            epoch_labels.extend(labels.cpu().numpy())

            # Обновляем прогресс-бар
            pbar.set_postfix({
                'Loss': f'{loss.item():.4f}',
                'LR': f'{optimizer.param_groups[0]["lr"]:.6f}'
            })

        # Вычисляем метрики эпохи
        epoch_loss = np.mean(epoch_losses)
        epoch_accuracy = accuracy_score(epoch_labels, epoch_predictions)
        epoch_f1 = f1_score(epoch_labels, epoch_predictions, average='weighted')
        print(f"Train - Accuracy: {epoch_accuracy:.4f}, F1: {epoch_f1:.4f}")

        training_losses.append(epoch_loss)

        val_accuracy, val_f1 = evaluate_model_on_loader(model, val_loader)
        print(f"Validation - Accuracy: {val_accuracy:.4f}, F1: {val_f1:.4f}")



    return model

In [6]:
def evaluate_model_on_loader(model, data_loader):
    """Оценка модели на DataLoader"""
    model.eval()
    device = next(model.parameters()).device

    all_predictions = []
    all_labels = []

    with torch.no_grad():
        for batch in data_loader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            outputs = model(input_ids, attention_mask)
            predictions = torch.argmax(outputs['logits'], dim=-1)

            all_predictions.extend(predictions.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())

    accuracy = accuracy_score(all_labels, all_predictions)
    f1 = f1_score(all_labels, all_predictions, average='weighted')

    return accuracy, f1

In [7]:
# Создаем модель RuBERT-tiny2
rubert_tiny_transformer_model = TransformerClassificationModel(
    base_transformer_model='cointegrated/rubert-tiny2',
    num_classes=num_classes
)

print("\nОбучение RuBERT-tiny2 с замороженным backbone:")
rubert_tiny_finetuned_with_freezed_backbone = train_transformer(
    rubert_tiny_transformer_model,
    texts,
    labels,
    freeze_backbone=True,
    learning_rate=2e-5
)

print("\nОбучение RuBERT-tiny2 без заморозки backbone:")
rubert_tiny_transformer_model_full = TransformerClassificationModel(
    base_transformer_model='cointegrated/rubert-tiny2',
    num_classes=num_classes
)

rubert_tiny_full_finetuned = train_transformer(
    rubert_tiny_transformer_model_full,
    texts,
    labels,
    freeze_backbone=False,
    learning_rate=1e-5  # Меньший learning rate для полного обучения
)

print("\n" + "="*50)
print("АНАЛИЗ РЕЗУЛЬТАТОВ RuBERT-tiny2:")
print("="*50)
print("""
RuBERT-tiny2 - это компактная версия русскоязычной BERT модели:
- Параметры: ~29M (в 4 раза меньше стандартного BERT)
- Архитектура: 3 слоя, 12 голов внимания, 312 скрытых единиц
- Предобучена на большом русскоязычном корпусе

Сравнение подходов:
1. С замороженным backbone:
   - Быстрее обучение (обновляются только ~3K параметров)
   - Меньше риска переобучения
   - Хорошо работает на небольших датасетах
   - Полагается на предобученные представления

2. Без заморозки backbone:
   - Дольше обучение (обновляются все 29M параметров)
   - Больше гибкости для адаптации к задаче
   - Может лучше улавливать специфику математических задач
   - Требует больше данных для стабильного обучения
""")

config.json:   0%|          | 0.00/693 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/118M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/401 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]


Обучение RuBERT-tiny2 с замороженным backbone:
Backbone заморожен. Обучаемые параметры:
Обучаемые: 22,407
Общие: 29,216,175
Процент обучаемых: 0.08%
Начинаем обучение на cuda
Epochs: 10, Batch size: 16, Learning rate: 2e-05


Epoch 1/10: 100%|██████████| 264/264 [00:11<00:00, 22.11it/s, Loss=1.8416, LR=0.000020]


Train - Accuracy: 0.1325, F1: 0.1147
Validation - Accuracy: 0.2389, F1: 0.2394


Epoch 2/10: 100%|██████████| 264/264 [00:09<00:00, 29.20it/s, Loss=1.6723, LR=0.000020]


Train - Accuracy: 0.3706, F1: 0.3018
Validation - Accuracy: 0.4559, F1: 0.3282


Epoch 3/10: 100%|██████████| 264/264 [00:09<00:00, 29.15it/s, Loss=1.5069, LR=0.000020]


Train - Accuracy: 0.4573, F1: 0.3126
Validation - Accuracy: 0.4540, F1: 0.3004


Epoch 4/10: 100%|██████████| 264/264 [00:08<00:00, 29.36it/s, Loss=1.4596, LR=0.000020]


Train - Accuracy: 0.4578, F1: 0.3034
Validation - Accuracy: 0.4559, F1: 0.3023


Epoch 5/10: 100%|██████████| 264/264 [00:09<00:00, 28.92it/s, Loss=1.6045, LR=0.000020]


Train - Accuracy: 0.4595, F1: 0.3082
Validation - Accuracy: 0.4616, F1: 0.3139


Epoch 6/10: 100%|██████████| 264/264 [00:09<00:00, 28.70it/s, Loss=1.4998, LR=0.000020]


Train - Accuracy: 0.4640, F1: 0.3199
Validation - Accuracy: 0.4664, F1: 0.3321


Epoch 7/10: 100%|██████████| 264/264 [00:09<00:00, 28.07it/s, Loss=1.2464, LR=0.000020]


Train - Accuracy: 0.4744, F1: 0.3443
Validation - Accuracy: 0.4758, F1: 0.3529


Epoch 8/10: 100%|██████████| 264/264 [00:11<00:00, 23.29it/s, Loss=1.3979, LR=0.000020]


Train - Accuracy: 0.4848, F1: 0.3663
Validation - Accuracy: 0.4882, F1: 0.3796


Epoch 9/10: 100%|██████████| 264/264 [00:09<00:00, 28.51it/s, Loss=0.8109, LR=0.000020]


Train - Accuracy: 0.4972, F1: 0.3890
Validation - Accuracy: 0.4995, F1: 0.3970


Epoch 10/10: 100%|██████████| 264/264 [00:09<00:00, 28.23it/s, Loss=1.8257, LR=0.000020]


Train - Accuracy: 0.5040, F1: 0.4002
Validation - Accuracy: 0.5071, F1: 0.4094

Обучение RuBERT-tiny2 без заморозки backbone:
Обучение без заморозки backbone
Всего обучаемых параметров: 29,216,175
Начинаем обучение на cuda
Epochs: 10, Batch size: 16, Learning rate: 1e-05


Epoch 1/10: 100%|██████████| 264/264 [00:31<00:00,  8.35it/s, Loss=1.1587, LR=0.000010]


Train - Accuracy: 0.3954, F1: 0.3024
Validation - Accuracy: 0.5071, F1: 0.3804


Epoch 2/10: 100%|██████████| 264/264 [00:29<00:00,  8.92it/s, Loss=2.0859, LR=0.000010]


Train - Accuracy: 0.5583, F1: 0.4837
Validation - Accuracy: 0.5735, F1: 0.4871


Epoch 3/10: 100%|██████████| 264/264 [00:30<00:00,  8.65it/s, Loss=1.1422, LR=0.000010]


Train - Accuracy: 0.6062, F1: 0.5496
Validation - Accuracy: 0.6047, F1: 0.5555


Epoch 4/10: 100%|██████████| 264/264 [00:29<00:00,  8.94it/s, Loss=0.8968, LR=0.000010]


Train - Accuracy: 0.6351, F1: 0.5908
Validation - Accuracy: 0.6180, F1: 0.5756


Epoch 5/10: 100%|██████████| 264/264 [00:29<00:00,  8.92it/s, Loss=1.1620, LR=0.000010]


Train - Accuracy: 0.6622, F1: 0.6298
Validation - Accuracy: 0.6227, F1: 0.5774


Epoch 6/10: 100%|██████████| 264/264 [00:30<00:00,  8.68it/s, Loss=0.9775, LR=0.000010]


Train - Accuracy: 0.6861, F1: 0.6619
Validation - Accuracy: 0.6152, F1: 0.5790


Epoch 7/10: 100%|██████████| 264/264 [00:29<00:00,  8.95it/s, Loss=0.2990, LR=0.000010]


Train - Accuracy: 0.7103, F1: 0.6928
Validation - Accuracy: 0.6104, F1: 0.5863


Epoch 8/10: 100%|██████████| 264/264 [00:29<00:00,  8.88it/s, Loss=1.0254, LR=0.000010]


Train - Accuracy: 0.7359, F1: 0.7201
Validation - Accuracy: 0.6000, F1: 0.5746


Epoch 9/10: 100%|██████████| 264/264 [00:29<00:00,  8.91it/s, Loss=1.0886, LR=0.000010]


Train - Accuracy: 0.7485, F1: 0.7361
Validation - Accuracy: 0.5924, F1: 0.5786


Epoch 10/10: 100%|██████████| 264/264 [00:29<00:00,  8.93it/s, Loss=0.8293, LR=0.000010]


Train - Accuracy: 0.7686, F1: 0.7584
Validation - Accuracy: 0.5877, F1: 0.5688

АНАЛИЗ РЕЗУЛЬТАТОВ RuBERT-tiny2:

RuBERT-tiny2 - это компактная версия русскоязычной BERT модели:
- Параметры: ~29M (в 4 раза меньше стандартного BERT)
- Архитектура: 3 слоя, 12 голов внимания, 312 скрытых единиц
- Предобучена на большом русскоязычном корпусе

Сравнение подходов:
1. С замороженным backbone:
   - Быстрее обучение (обновляются только ~3K параметров)
   - Меньше риска переобучения
   - Хорошо работает на небольших датасетах
   - Полагается на предобученные представления

2. Без заморозки backbone:
   - Дольше обучение (обновляются все 29M параметров)
   - Больше гибкости для адаптации к задаче
   - Может лучше улавливать специфику математических задач
   - Требует больше данных для стабильного обучения



In [8]:
print(torch.cuda.is_available())

True


In [None]:
# Создаем модель MathBERT
mathbert_transformer_model = TransformerClassificationModel(
    base_transformer_model='tbs17/MathBert',
    num_classes=num_classes
)

print("\nОбучение MathBERT с замороженным backbone:")
mathbert_finetuned_with_freezed_backbone = train_transformer(
    mathbert_transformer_model,
    texts,
    labels,
    freeze_backbone=True,
    learning_rate=2e-5
)

print("\nОбучение MathBERT без заморозки backbone:")
mathbert_transformer_model_full = TransformerClassificationModel(
    base_transformer_model='tbs17/MathBert',
    num_classes=num_classes
)

mathbert_full_finetuned = train_transformer(
    mathbert_transformer_model_full,
    texts,
    labels,
    freeze_backbone=False,
    learning_rate=1e-5
)

print("\n" + "="*50)
print("АНАЛИЗ РЕЗУЛЬТАТОВ MathBERT vs RuBERT-tiny2:")
print("="*50)
print("""
MathBERT - специализированная модель для математических задач:
- Предобучена на математических текстах и формулах
- Лучше понимает математическую терминологию
- Оптимизирована для задач в математической области

Сравнение с RuBERT-tiny2:

Преимущества MathBERT:
1. Специализация на математических задачах
2. Лучше понимает математические символы и формулы
3. Предобученные представления более релевантны для задачи
4. Потенциально лучше accuracy на математических текстах

Преимущества RuBERT-tiny2:
1. Более компактная архитектура
2. Быстрее инференс
3. Меньше требований к памяти
4. Лучше обобщение на общие текстовые задачи

Ожидаемые результаты:
- MathBERT должен показать лучшие результаты на математических задачах
- RuBERT-tiny2 может быть более стабильным при малых данных
- Заморозка backbone эффективнее для обеих моделей при ограниченных данных
""")

config.json:   0%|          | 0.00/569 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/441M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/28.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]


Обучение MathBERT с замороженным backbone:
Backbone заморожен. Обучаемые параметры:
Обучаемые: 54,327
Общие: 109,536,567
Процент обучаемых: 0.05%
Начинаем обучение на cuda
Epochs: 10, Batch size: 16, Learning rate: 2e-05


Epoch 1/10:  12%|█▏        | 31/264 [00:15<01:56,  2.00it/s, Loss=1.7922, LR=0.000004]
ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.

ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.

ERROR:root:Internal Python error in the inspect module.
Below is the traceback from this internal error.



Traceback (most recent call last):
  File "/usr/local/lib/python3.11/dist-packages/IPython/core/interactiveshell.py", line 3553, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "/tmp/ipython-input-9-4094150644.py", line 8, in <cell line: 0>
    mathbert_finetuned_with_freezed_backbone = train_transformer(
                                               ^^^^^^^^^^^^^^^^^^
  File "/tmp/ipython-input-5-2674865879.py", line 75, in train_transformer
    for batch in pbar:
  File "/usr/local/lib/python3.11/dist-packages/tqdm/std.py", line 1181, in __iter__
    for obj in iterable:
  File "/usr/local/lib/python3.11/dist-packages/torch/utils/data/dataloader.py", line 708, in __next__
    data = self._next_data()
           ^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/torch/utils/data/dataloader.py", line 764, in _next_data
    data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/

In [9]:
model = mathbert_finetuned_with_freezed_backbone
model.eval()

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

tokenizer = model.tokenizer

val_text =  ['What does it mean: Generalization error math.abs(R(h) - Rn(h))']
val_label = [1]

val_dataset = MathProblemsDataset(val_text, val_label, tokenizer)
val_loader = DataLoader(val_dataset, batch_size=1, shuffle=False)

text_encoded = next(iter(val_loader))

row_result = model(text_encoded['input_ids'].to(device))['logits']
print(row_result, type(row_result))
print(torch.argmax(row_result, dim=-1))
print(nn.functional.softmax(row_result))

result = row_result.detach()
print(result, type(result))
result_softmax = nn.functional.softmax(result)
print(result_softmax, type(result_softmax))

prediction = torch.argmax(result_softmax)
print(prediction, type(prediction))

prediction = prediction.cpu().numpy()
print(prediction, type(prediction))

print(label_encoder.classes_)
print(label_encoder.inverse_transform(prediction.reshape(-1, 1)))





NameError: name 'mathbert_finetuned_with_freezed_backbone' is not defined