# Оптимизированное обучение RecRNN модели

Этот ноутбук использует оптимизированный подход с прогнозированием одного целевого токена.

## 1. Клонирование репозитория

Сначала клонируем репозиторий с кодом и данными:

In [None]:
!git clone https://your-repo-url.git /kaggle/working/recurrent-pretraining
%cd /kaggle/working/recurrent-pretraining

## 2. Установка зависимостей

Устанавливаем необходимые библиотеки:

In [None]:
!pip install lightning torch torchdata numpy tqdm

## 3. Анализ датасета

Запускаем улучшенный анализ данных:

In [None]:
!python analyze_dataset.py

## 4. Подготовка оптимизированных данных

Подготовим данные, токенизируя их и оптимизируя для предсказания одного токена:

In [None]:
!python prepare_optimized_data.py

## 5. Обучение с помощью оптимизированного подхода

Есть два варианта запуска обучения:

### Вариант 1: Используя интегрированный тренер для одиночной задачи классификации

In [None]:
!python model_trainer.py --epochs 10 --batch-size 32 --learning-rate 5e-5

### Вариант 2: Используя стандартный тренер с оптимизированными данными

In [None]:
!python run_small_model.py --optimize-data --hidden-size 768 --batch-size 16

## 6. Проверка результатов

Проверяем файлы, созданные в процессе обучения:

In [None]:
import os
print("Files in output directory:")
!ls -la output/

## 7. Тестирование обученной модели

Проверяем работу модели на нескольких примерах из тестового набора:

In [None]:
import json
import torch
from simple_tokenizer import SimpleTokenizer

# Загружаем модель
model_path = "output/best_model.pt"
tokenizer = SimpleTokenizer("data/vocab.json")

# Загружаем несколько примеров из тестового набора
with open("data/test.json", "r") as f:
    test_data = json.load(f)[:5]

# Выводим результаты
for item in test_data:
    print(f"Input: {item['input_text']}")
    print(f"Target: {item['target_text']}")
    print("---")

## 8. Сохранение модели

Копируем модель в постоянное хранилище Kaggle:

In [None]:
!mkdir -p /kaggle/working/saved_models
!cp -r output/* /kaggle/working/saved_models/