In [None]:
!pip install -r requirements.txt
!pip install numpy==1.26.4 scikit-learn==1.3.2 --force-reinstall --no-cache-dir
!pip install --upgrade peft

In [None]:
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, Dataset
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM
from peft import PeftModel, LoraConfig, get_peft_model
from accelerate import Accelerator # Для смешанной точности
import json
import random
from tqdm import tqdm # Для прогресс-бара
import math # Для вычисления перплексии
from tqdm import tqdm
from torch.nn.utils.rnn import pad_sequence
from huggingface_hub import login
import os
import re

# Добавляем импорты для диагностики и визуализации
import matplotlib.pyplot as plt
import numpy as np
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
import wandb  # Для логирования метрик

# ==== CONFIGURATION ====
# login(token="hf_...") 
login(token="hf_...")
SENTENCE_TRANSFORMER_MODEL = "sentence-transformers/paraphrase-multilingual-mpnet-base-v2"
GEMMA_MODEL = "google/gemma-3-4b-pt" # Или "google/gemma-2b-pt" для меньшей модели
CHECKPOINT_DIR = "./persistent_volume/last_checkpoint/" # Путь для сохранения/загрузки чекпоинтов Gemma
BOOKS_PATH = "books.jsonl"
VAL_SPLIT = 0.0025
BATCH_SIZE = 1 
MAX_CHUNK_LENGTH = 256 # Длина отрывка в токенах, как ты указал
EMBEDDING_DIM = 768 # Размерность эмбеддингов paraphrase-multilingual-mpnet-base-v2
PROJECTOR_OUT_DIM = 2560 # Размерность эмбеддингов Gemma (для gemma-3-4b-pt)
LEARNING_RATE = 1e-4
NUM_EPOCHS = 1 # Количество эпох обучения

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
# Используем bfloat16, если поддерживается, иначе float32 для смешанной точности
DTYPE = torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float32


In [None]:
# ==== LOAD MODELS ====
print("Загружаем токенизатор и базовую модель Gemma...")
# Токенизатор для Gemma
# Важно: если ты сохраняешь токенизатор вместе с моделью, загружай его из CHECKPOINT_DIR
# Иначе, если это первый запуск, загружай из GEMMA_MODEL
try:
    tokenizer = AutoTokenizer.from_pretrained(CHECKPOINT_DIR)
except Exception:
    print(f"Не удалось загрузить токенизатор из {CHECKPOINT_DIR}, загружаем из {GEMMA_MODEL}")
    tokenizer = AutoTokenizer.from_pretrained(GEMMA_MODEL)

tokenizer.pad_token = tokenizer.eos_token # Gemma использует EOS как pad токен
tokenizer.padding_side = "right" # Важно для генерации и causal LM

base_model = AutoModelForCausalLM.from_pretrained(
    GEMMA_MODEL,
    torch_dtype=DTYPE,
    device_map="auto" # Автоматически распределяет модель по доступным GPU
)

model = PeftModel.from_pretrained(base_model, CHECKPOINT_DIR)
# model = base_model # Используем базовую Gemma, так как обучаем только проектор
model.eval() # Gemma должна быть в режиме оценки, так как мы ее не обучаем
for p in model.parameters():
    p.requires_grad = False # Замораживаем параметры Gemma

# Проверяем размерность эмбеддингов Gemma
if model.get_input_embeddings().embedding_dim != PROJECTOR_OUT_DIM:
    print(f"ВНИМАНИЕ: Размерность эмбеддингов Gemma ({model.get_input_embeddings().embedding_dim}) не совпадает с PROJECTOR_OUT_DIM ({PROJECTOR_OUT_DIM}). Обновите PROJECTOR_OUT_DIM.")
    PROJECTOR_OUT_DIM = model.get_input_embeddings().embedding_dim

print(f"Загружаем Sentence Transformer энкодер: {SENTENCE_TRANSFORMER_MODEL}...")
# Токенизатор и энкодер для sentence-transformers
sentence_transformer_tokenizer = AutoTokenizer.from_pretrained(SENTENCE_TRANSFORMER_MODEL)
sentence_transformer_encoder = AutoModel.from_pretrained(SENTENCE_TRANSFORMER_MODEL).to(DEVICE)
sentence_transformer_encoder.eval() # Энкодер должен быть в режиме оценки
for p in sentence_transformer_encoder.parameters():
    p.requires_grad = False # Замораживаем параметры энкодера

# ==== PROJECTOR ====
class Projector(nn.Module):
    def __init__(self, in_dim=EMBEDDING_DIM, out_dim=PROJECTOR_OUT_DIM):
        super().__init__()
        # Проектор из 768 (ST) в 2560 (Gemma)
        self.mlp = nn.Sequential(
            nn.Linear(in_dim, out_dim),
            nn.GELU(), # Используем GELU, как часто делают в трансформерах
            nn.Linear(out_dim, out_dim)
        )

    def forward(self, x, **kwargs):
        return self.mlp(x)

projector = Projector(in_dim=EMBEDDING_DIM, out_dim=PROJECTOR_OUT_DIM).to(DEVICE)

# Применяем LoRA к проектору
# target_modules должны быть именами слоев внутри Projector.mlp
# nn.Sequential индексирует свои слои как "0", "1", "2" и т.д.
# Так как у нас два Linear слоя, они будут "0" и "2".
lora_config = LoraConfig(
    r=8, # Ранг LoRA, чем выше, тем больше параметров, но лучше качество
    lora_alpha=16, # Масштабирующий фактор для LoRA
    target_modules=["mlp.0", "mlp.2"], # Указываем пути к Linear слоям внутри mlp
    lora_dropout=0.05, # Добавил dropout для регуляризации
    bias="none", # Обычно "none" для LoRA
    task_type="FEATURE_EXTRACTION", # Это для совместимости с PEFT, хотя проектор не совсем CAUSAL_LM
    inference_mode=False
)
projector = get_peft_model(projector, lora_config)
projector.print_trainable_parameters() # Полезно для проверки, сколько параметров обучается


In [None]:
# ==== ИСПРАВЛЕННАЯ HELPER FOR STYLE EMBEDDING ====
def get_style_embedding_fixed(user_history_batch, current_input_batch, encoder_tokenizer, encoder, projector_model, device, dtype, return_weights=False):
    """
    ИСПРАВЛЕННАЯ версия: Убираем no_grad для current_input_emb и исправляем вызов PEFT.
    
    Args:
        return_weights: если True, возвращает также attention веса для диагностики
    """
    batch_P_u = []
    all_weights = []
    
    for i in range(len(user_history_batch)):
        history_chunks = user_history_batch[i]
        current_input_chunk = current_input_batch[i]

        # Кодируем отрывки истории (остается в no_grad - энкодер заморожен)
        history_inputs = encoder_tokenizer(
            history_chunks,
            return_tensors="pt",
            padding=True,
            truncation=True
        ).to(device)
        with torch.no_grad(): # Важно: энкодер не должен обучаться
            # Получаем эмбеддинги CLS токена (первый токен) для каждого отрывка
            history_embs = encoder(**history_inputs).last_hidden_state[:, 0, :]  # [num_history_chunks, EMBEDDING_DIM]

        # Кодируем текущий промпт (УБИРАЕМ no_grad!)
        current_input_inputs = encoder_tokenizer(
            [current_input_chunk],
            return_tensors="pt",
            padding=True,
            truncation=True
        ).to(device)
        # ИСПРАВЛЕНИЕ: Убираем torch.no_grad() для current_input_emb!
        # Энкодер все равно заморожен, но градиент должен идти к весам attention
        current_input_emb = encoder(**current_input_inputs).last_hidden_state[:, 0, :]  # [1, EMBEDDING_DIM]

        # Вычисляем attention-веса (ТЕПЕРЬ ГРАДИЕНТЫ ИДУТ!)
        # current_input_emb: [1, EMBEDDING_DIM], history_embs: [10, EMBEDDING_DIM]
        # Результат: (1, EMBEDDING_DIM) @ (EMBEDDING_DIM, 10) -> (1, 10)
        weights = torch.softmax(current_input_emb @ history_embs.T, dim=-1) # [1, 10]

        # Взвешенная сумма эмбеддингов истории
        # (1, 10) * (10, EMBEDDING_DIM) -> (1, EMBEDDING_DIM)
        weighted_history_sum = (weights.unsqueeze(-1) * history_embs).sum(dim=1) # [1, EMBEDDING_DIM]
        batch_P_u.append(weighted_history_sum)
        
        if return_weights:
            all_weights.append(weights)

    # Объединяем P_u для всего батча
    P_u = torch.cat(batch_P_u, dim=0) # [batch_size, EMBEDDING_DIM]
    
    # ИСПРАВЛЕНИЕ: Правильный вызов PEFT-модели (не .base_model!)
    projected_P_u = projector_model(P_u)  # Используем обертку PEFT
    
    if return_weights:
        weights_batch = torch.cat(all_weights, dim=0)  # [batch_size, num_history_chunks]
        return projected_P_u, weights_batch
    else:
        return projected_P_u

# Заменяем старую функцию на исправленную
get_style_embedding = get_style_embedding_fixed


In [4]:
# ==== DATA PREPARATION FUNCTIONS ====
def clean_books_texts(texts: list[str]) -> list[str]:
    def clean_text(text: str) -> str:
        # Убираем символы страниц и мусор
        text = re.sub(r'[\f\x0c]', ' ', text)  # page breaks
        text = re.sub(r'[*=_\-]{2,}', ' ', text)  # repeated chars like '====' or '***'
        text = re.sub(r'\n+', ' ', text)  # newlines
        text = re.sub(r'\s{2,}', ' ', text)  # multiple spaces
        text = text.strip()

        # Обрезаем 10% сверху и снизу
        total_len = len(text)
        cut_len = total_len // 10
        if total_len > 2 * cut_len:
            text = text[cut_len:-cut_len]
        return text.strip()

    return [clean_text(t) for t in texts]

def chunk_text(text, chunk_size=MAX_CHUNK_LENGTH, tokenizer_for_chunking=sentence_transformer_tokenizer):
    """Разбивает текст на отрывки по chunk_size токенов, используя указанный токенизатор."""
    tokens = tokenizer_for_chunking.encode(text, truncation=False)
    # Убедимся, что каждый чанк содержит достаточно токенов, чтобы быть осмысленным
    chunks = [tokenizer_for_chunking.decode(tokens[i:i+chunk_size]) for i in range(0, len(tokens), chunk_size) if len(tokens[i:i+chunk_size]) >= 10] # Минимум 10 токенов
    return chunks

def process_book(text, tokenizer_for_chunking=sentence_transformer_tokenizer):
    """Обрабатывает текст книги, создавая примеры для обучения."""
    chunks = chunk_text(text, tokenizer_for_chunking=tokenizer_for_chunking)
    examples = []
    # Убедимся, что достаточно чанков для создания хотя бы одного примера (10 history + 1 current + 1 target = 12)
    if len(chunks) < 12:
        return []
    # Шаг 6 для перекрытия, как ты указал. Это помогает модели видеть больше разнообразных контекстов.
    for i in range(0, len(chunks) - 12 + 1, 6):
        examples.append({
            "user_history": chunks[i:i+10],  # 10 отрывков контекста
            "current_input": chunks[i+10],   # Промпт
            "target": chunks[i+11]            # Продолжение
        })
    return examples

# ==== DATASET CLASS ====
class StyleTransferDataset(Dataset):
    def __init__(self, texts, tokenizer_for_chunking):
        self.samples = []
        print("Обрабатываем данные для датасета...")
        for text in tqdm(texts, desc="Обработка книг"):
            self.samples.extend(process_book(text, tokenizer_for_chunking))
        print(f"Всего создано примеров: {len(self.samples)}")
        if len(self.samples) == 0:
            print("ВНИМАНИЕ: Датасет пуст! Проверьте входные данные и параметры chunking/processing.")

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, idx):
        return self.samples[idx]


# ==== COLLATE FUNCTION ====
def collate_fn(batch):
    """
    Функция для объединения батча данных.
    Возвращает сырые тексты для обработки эмбеддером и токенизированные для Gemma.
    """
    user_history_batch = [x["user_history"] for x in batch]
    current_input_texts = [x["current_input"] for x in batch]
    target_texts = [x["target"] for x in batch]

    # Токенизируем current_input и target для Gemma
    # Важно: max_length для Gemma должна быть достаточной для чанков (512)
    # и padding_side="right" для causal LM
    current_input_gemma_tokenized = tokenizer(
        current_input_texts,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=MAX_CHUNK_LENGTH
    )
    target_gemma_tokenized = tokenizer(
        target_texts,
        return_tensors="pt",
        padding=True,
        truncation=True,
        max_length=MAX_CHUNK_LENGTH
    )

    return {
        "user_history_texts": user_history_batch,
        "current_input_texts_for_encoder": current_input_texts,
        "current_input_gemma_input_ids": current_input_gemma_tokenized["input_ids"],
        "current_input_gemma_attention_mask": current_input_gemma_tokenized["attention_mask"],
        "target_gemma_input_ids": target_gemma_tokenized["input_ids"],
    }

# ==== HELPER FOR STYLE EMBEDDING ====
def get_style_embedding(user_history_batch, current_input_batch, encoder_tokenizer, encoder, projector_model, device, dtype):
    """
    Вычисляет стилевой эмбеддинг P_u для батча.
    """
    batch_P_u = []
    for i in range(len(user_history_batch)):
        history_chunks = user_history_batch[i]
        current_input_chunk = current_input_batch[i]

        # Кодируем отрывки истории
        history_inputs = encoder_tokenizer(
            history_chunks,
            return_tensors="pt",
            padding=True,
            truncation=True
        ).to(device)
        with torch.no_grad(): # Важно: энкодер не должен обучаться
            # Получаем эмбеддинги CLS токена (первый токен) для каждого отрывка
            history_embs = encoder(**history_inputs).last_hidden_state[:, 0, :]  # [num_history_chunks, EMBEDDING_DIM]

        # Кодируем текущий промпт
        current_input_inputs = encoder_tokenizer(
            [current_input_chunk],
            return_tensors="pt",
            padding=True,
            truncation=True
        ).to(device)
        with torch.no_grad(): # Важно: энкодер не должен обучаться
            current_input_emb = encoder(**current_input_inputs).last_hidden_state[:, 0, :]  # [1, EMBEDDING_DIM]

        # Вычисляем attention-веса
        # current_input_emb: [1, EMBEDDING_DIM], history_embs: [10, EMBEDDING_DIM]
        # Результат: (1, EMBEDDING_DIM) @ (EMBEDDING_DIM, 10) -> (1, 10)
        weights = torch.softmax(current_input_emb @ history_embs.T, dim=-1) # [1, 10]

        # Взвешенная сумма эмбеддингов истории
        # (1, 10) * (10, EMBEDDING_DIM) -> (1, EMBEDDING_DIM)
        weighted_history_sum = (weights.unsqueeze(-1) * history_embs).sum(dim=1) # [1, EMBEDDING_DIM]
        batch_P_u.append(weighted_history_sum)

    # Объединяем P_u для всего батча
    P_u = torch.cat(batch_P_u, dim=0) # [batch_size, EMBEDDING_DIM]
    return projector_model.base_model(P_u)
 # Пропускаем через проектор [batch_size, PROJECTOR_OUT_DIM]

# ==== DATA LOADING ====
print("Загружаем данные из books.jsonl...")
try:
    with open(BOOKS_PATH, "r", encoding="utf-8") as f:
        texts = [json.loads(line)["text"] for line in f if "text" in json.loads(line)]
        texts = clean_books_texts(texts)
    print(f"Загружено {len(texts)} книг.")
except FileNotFoundError:
    print(f"Ошибка: Файл {BOOKS_PATH} не найден. Убедитесь, что он существует.")
    exit()
except json.JSONDecodeError:
    print(f"Ошибка: Некорректный формат JSON в файле {BOOKS_PATH}.")
    exit()

random.shuffle(texts)
split_idx = int(len(texts) * (1 - VAL_SPLIT))
train_texts = texts[:split_idx]
val_texts = texts[split_idx:]

train_dataset = StyleTransferDataset(train_texts, sentence_transformer_tokenizer)
val_dataset = StyleTransferDataset(val_texts, sentence_transformer_tokenizer)

train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, collate_fn=collate_fn)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False, collate_fn=collate_fn)
print("Данные готовы к обучению!")

Загружаем данные из books.jsonl...
Загружено 300 книг.
Обрабатываем данные для датасета...


Обработка книг:   0%|          | 0/299 [00:00<?, ?it/s]Token indices sequence length is longer than the specified maximum sequence length for this model (305185 > 512). Running this sequence through the model will result in indexing errors
Обработка книг: 100%|██████████| 299/299 [04:28<00:00,  1.11it/s]


Всего создано примеров: 44856
Обрабатываем данные для датасета...


Обработка книг: 100%|██████████| 1/1 [00:01<00:00,  1.35s/it]

Всего создано примеров: 234
Данные готовы к обучению!





In [None]:
# ==== ДИАГНОСТИЧЕСКИЕ ФУНКЦИИ ====

def log_gradient_norms(model, step):
    """Логирует нормы градиентов для разных частей модели"""
    projector_grad_norms = []
    for name, param in model.named_parameters():
        if param.grad is not None and param.requires_grad:
            grad_norm = param.grad.data.norm(2).item()
            projector_grad_norms.append(grad_norm)
            print(f"  {name}: grad_norm = {grad_norm:.6f}")
    
    total_grad_norm = torch.norm(torch.stack([
        p.grad.data.norm(2) for p in model.parameters()
        if p.grad is not None and p.requires_grad
    ])).item()
    
    print(f"[Шаг {step}] Общая норма градиента проектора: {total_grad_norm:.6f}")
    return total_grad_norm

def analyze_embeddings(P_u, step, save_plot=False):
    """Анализирует распределение и разнообразие эмбеддингов P_u"""
    with torch.no_grad():
        P_u_cpu = P_u.detach().cpu().numpy()
        
        # Статистики
        mean_val = np.mean(P_u_cpu)
        std_val = np.std(P_u_cpu)
        norm_val = np.linalg.norm(P_u_cpu, axis=1).mean()
        
        print(f"[Шаг {step}] P_u статистики:")
        print(f"  Среднее: {mean_val:.4f}")
        print(f"  Стандартное отклонение: {std_val:.4f}")
        print(f"  Средняя L2-норма: {norm_val:.4f}")
        
        # Разнообразие (попарные расстояния)
        if len(P_u_cpu) > 1:
            from scipy.spatial.distance import pdist
            distances = pdist(P_u_cpu, metric='cosine')
            diversity = np.mean(distances)
            print(f"  Среднее косинусное расстояние (разнообразие): {diversity:.4f}")
        
        # Визуализация каждые 100 шагов
        if save_plot and step % 100 == 0 and len(P_u_cpu) >= 10:
            try:
                # PCA для быстрой визуализации
                pca = PCA(n_components=2)
                P_u_2d = pca.fit_transform(P_u_cpu[:min(512, len(P_u_cpu))])
                
                plt.figure(figsize=(8, 6))
                plt.scatter(P_u_2d[:, 0], P_u_2d[:, 1], alpha=0.6, s=20)
                plt.title(f'Шаг {step}: Проекция P_u эмбеддингов (PCA)')
                plt.xlabel('PC1')
                plt.ylabel('PC2')
                plt.grid(True, alpha=0.3)
                plt.savefig(f'embeddings_step_{step}.png', dpi=100, bbox_inches='tight')
                plt.show()
                print(f"  Сохранен график: embeddings_step_{step}.png")
            except Exception as e:
                print(f"  Ошибка при создании графика: {e}")

def check_attention_weights_diversity(weights_batch):
    """Проверяет разнообразие attention весов"""
    with torch.no_grad():
        # weights_batch должен иметь размер [batch_size, num_history_chunks]
        if len(weights_batch.shape) == 3:  # если есть дополнительное измерение
            weights_batch = weights_batch.squeeze(1)
        
        # Энтропия весов (больше = более равномерное распределение)
        entropy = -torch.sum(weights_batch * torch.log(weights_batch + 1e-10), dim=-1).mean()
        
        # Максимальный вес (меньше = более равномерное)
        max_weight = weights_batch.max(dim=-1)[0].mean()
        
        print(f"  Attention энтропия: {entropy:.4f} (больше = лучше)")
        print(f"  Максимальный attention вес: {max_weight:.4f} (меньше = лучше)")
        
        return entropy.item(), max_weight.item()

# Инициализация для отслеживания метрик
training_metrics = {
    'step': [],
    'loss': [],
    'grad_norm': [],
    'embedding_diversity': [],
    'attention_entropy': []
}


In [None]:
# ==== ИСПРАВЛЕННЫЙ TRAIN LOOP С ДИАГНОСТИКОЙ ====

# Улучшенные настройки оптимизации
LEARNING_RATE_FIXED = 3e-4  # Повышаем LR
optimizer = torch.optim.AdamW(projector.parameters(), lr=LEARNING_RATE_FIXED, weight_decay=1e-5)

# Добавляем lr scheduler с warm-up
from torch.optim.lr_scheduler import CosineAnnealingWarmRestarts
scheduler = CosineAnnealingWarmRestarts(optimizer, T_0=100, T_mult=2, eta_min=1e-6)

print("🚀 Начинаем исправленное обучение с диагностикой!")
print(f"📊 Параметры: LR={LEARNING_RATE_FIXED}, Batch={BATCH_SIZE}")
print(f"📈 Trainable parameters: {sum(p.numel() for p in projector.parameters() if p.requires_grad):,}")

for epoch in range(NUM_EPOCHS):
    projector.train() # Проектор в режим обучения
    
    for step, batch in enumerate(tqdm(train_loader, desc=f"Эпоха {epoch}")):
        optimizer.zero_grad()

        # 1. Получаем стилевой эмбеддинг С ВЕСАМИ для диагностики
        P_u, attention_weights = get_style_embedding(
            batch["user_history_texts"],
            batch["current_input_texts_for_encoder"],
            sentence_transformer_tokenizer,
            sentence_transformer_encoder,
            projector, # Передаем проектор
            DEVICE,
            DTYPE,
            return_weights=True  # Включаем возврат весов
        ) # [batch_size, PROJECTOR_OUT_DIM]

        # 2. Подготавливаем вход для Gemma
        current_input_embeds = model.get_input_embeddings()(batch["current_input_gemma_input_ids"].to(DEVICE))
        target_embeds = model.get_input_embeddings()(batch["target_gemma_input_ids"].to(DEVICE))

        # Объединяем эмбеддинги: P_u (как один токен), current_input, target
        inputs_embeds = torch.cat([P_u.unsqueeze(1), current_input_embeds, target_embeds], dim=1)
        inputs_embeds = inputs_embeds.to(dtype=DTYPE) # Приводим к DTYPE

        # Создаем attention_mask для объединенного входа
        attention_mask = torch.cat([
            torch.ones(P_u.size(0), 1, device=DEVICE),
            batch["current_input_gemma_attention_mask"].to(DEVICE),
            torch.ones_like(batch["target_gemma_input_ids"]).to(DEVICE)
        ], dim=1)

        # Подготавливаем labels: -100 для P_u и current_input, реальные токены для target
        labels_for_gemma = torch.cat([
            batch["current_input_gemma_input_ids"].to(DEVICE),
            batch["target_gemma_input_ids"].to(DEVICE)
        ], dim=1)

        full_labels = torch.full(
            (labels_for_gemma.size(0), 1 + labels_for_gemma.size(1)), # 1 для P_u
            -100,
            device=DEVICE,
            dtype=torch.long
        )
        full_labels[:, 1:] = labels_for_gemma

        # Маскируем токены current_input в labels, чтобы loss считался только по target
        for b_idx in range(full_labels.size(0)):
            real_current_input_len = (batch["current_input_gemma_attention_mask"][b_idx] == 1).sum().item()
            full_labels[b_idx, :1 + real_current_input_len] = -100

        # Forward pass со смешанной точностью
        with torch.amp.autocast('cuda', dtype=DTYPE):
            output = model(inputs_embeds=inputs_embeds, attention_mask=attention_mask, labels=full_labels)
            loss = output.loss

        # Backward pass со смешанной точностью
        scaler.scale(loss).backward()
        
        # Gradient clipping для стабильности
        scaler.unscale_(optimizer)
        torch.nn.utils.clip_grad_norm_(projector.parameters(), max_norm=1.0)
        
        scaler.step(optimizer)
        scaler.update()
        scheduler.step()

        # ==== ДИАГНОСТИКА КАЖДЫЕ 25 ШАГОВ ====
        if step % 25 == 0:
            print(f"\n🔍 [Эпоха {epoch} | Шаг {step}] Диагностика:")
            print(f"📉 Loss: {loss.item():.4f}")
            print(f"🎯 LR: {scheduler.get_last_lr()[0]:.6f}")
            
            # Нормы градиентов
            grad_norm = log_gradient_norms(projector, step)
            
            # Статистики эмбеддингов
            analyze_embeddings(P_u, step, save_plot=(step % 100 == 0))
            
            # Анализ attention весов
            print(f"🎯 Attention анализ:")
            entropy, max_weight = check_attention_weights_diversity(attention_weights)
            
            # Сохраняем метрики
            training_metrics['step'].append(step)
            training_metrics['loss'].append(loss.item())
            training_metrics['grad_norm'].append(grad_norm)
            training_metrics['attention_entropy'].append(entropy)
            
            print("-" * 60)

        # Оценка каждые 100 шагов
        if step % 100 == 0 and step != 0:
            val_loss, val_ppl = evaluate()
            print(f"📊 [Эпоха {epoch} | Шаг {step}] Валидация: Loss={val_loss:.4f}, PPL={val_ppl:.2f}")
            
            # Сохраняем чекпоинт проектора
            projector.save_pretrained(f"persistent_volume/projector_checkpoints/projector_epoch{epoch}_step{step:05d}")
            projector.train() # Возвращаем в режим обучения

print("✅ Обучение завершено!")


In [None]:
# ==== ВИЗУАЛИЗАЦИЯ ПРОГРЕССА ОБУЧЕНИЯ ====

def plot_training_progress():
    """Рисует графики прогресса обучения"""
    if len(training_metrics['step']) < 2:
        print("Недостаточно данных для построения графиков")
        return
    
    fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 10))
    
    steps = training_metrics['step']
    
    # Loss
    ax1.plot(steps, training_metrics['loss'], 'b-', alpha=0.7, linewidth=2)
    ax1.set_title('Training Loss', fontsize=14, fontweight='bold')
    ax1.set_xlabel('Step')
    ax1.set_ylabel('Loss')
    ax1.grid(True, alpha=0.3)
    ax1.set_yscale('log')
    
    # Gradient Norm
    ax2.plot(steps, training_metrics['grad_norm'], 'r-', alpha=0.7, linewidth=2)
    ax2.set_title('Gradient Norm', fontsize=14, fontweight='bold')
    ax2.set_xlabel('Step')
    ax2.set_ylabel('Grad Norm')
    ax2.grid(True, alpha=0.3)
    ax2.set_yscale('log')
    
    # Attention Entropy
    if training_metrics['attention_entropy']:
        ax3.plot(steps, training_metrics['attention_entropy'], 'g-', alpha=0.7, linewidth=2)
        ax3.set_title('Attention Entropy (разнообразие)', fontsize=14, fontweight='bold')
        ax3.set_xlabel('Step')
        ax3.set_ylabel('Entropy')
        ax3.grid(True, alpha=0.3)
    
    # Loss vs Grad Norm (correlation)
    if len(training_metrics['loss']) == len(training_metrics['grad_norm']):
        ax4.scatter(training_metrics['grad_norm'], training_metrics['loss'], alpha=0.6, s=30)
        ax4.set_title('Loss vs Gradient Norm', fontsize=14, fontweight='bold')
        ax4.set_xlabel('Grad Norm')
        ax4.set_ylabel('Loss')
        ax4.set_xscale('log')
        ax4.set_yscale('log')
        ax4.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('training_progress.png', dpi=150, bbox_inches='tight')
    plt.show()
    print("📊 График сохранен как 'training_progress.png'")

# Функция для быстрой проверки первых шагов
def quick_diagnostic_run(num_steps=5):
    """Запускает несколько шагов обучения для диагностики"""
    print("🔧 Запуск диагностического прогона...")
    
    projector.train()
    
    for step, batch in enumerate(train_loader):
        if step >= num_steps:
            break
            
        optimizer.zero_grad()
        
        # Получаем эмбеддинг и веса
        P_u, weights = get_style_embedding(
            batch["user_history_texts"],
            batch["current_input_texts_for_encoder"],
            sentence_transformer_tokenizer,
            sentence_transformer_encoder,
            projector,
            DEVICE,
            DTYPE,
            return_weights=True
        )
        
        print(f"\n🔍 Шаг {step}:")
        print(f"  P_u shape: {P_u.shape}")
        print(f"  P_u mean: {P_u.mean().item():.4f}, std: {P_u.std().item():.4f}")
        print(f"  Attention weights shape: {weights.shape}")
        print(f"  Attention max weight: {weights.max().item():.4f}")
        
        # Проверим, требует ли P_u градиент
        print(f"  P_u requires_grad: {P_u.requires_grad}")
        
        # Простая проверка forward pass
        current_input_embeds = model.get_input_embeddings()(batch["current_input_gemma_input_ids"].to(DEVICE))
        inputs_embeds = torch.cat([P_u.unsqueeze(1), current_input_embeds], dim=1)
        
        print(f"  Combined embeds shape: {inputs_embeds.shape}")
        print(f"  Combined embeds requires_grad: {inputs_embeds.requires_grad}")
        
        # Минимальный loss для проверки backward
        dummy_loss = P_u.sum()
        dummy_loss.backward()
        
        grad_norm = log_gradient_norms(projector, step)
        print(f"  Градиенты работают: {grad_norm > 0}")
        
        optimizer.zero_grad()  # Очищаем для следующего шага

print("\n🚀 Все функции загружены! Теперь можно:")
print("1. Запустить quick_diagnostic_run(5) для быстрой проверки")
print("2. Запустить полное обучение выше")
print("3. Использовать plot_training_progress() для визуализации")


In [None]:
# ==== OPTIMIZER & LOSS ====
optimizer = torch.optim.AdamW(projector.parameters(), lr=LEARNING_RATE)
# CrossEntropyLoss с ignore_index для маскирования потерь
loss_fn = nn.CrossEntropyLoss(ignore_index=-100) # Используем -100 как стандартный ignore_index

# Инициализируем GradScaler для смешанной точности
# Замените устаревший вызов
scaler = torch.amp.GradScaler()

# ==== TRAIN LOOP ====
def evaluate():
    model.eval() # Gemma в eval
    projector.eval() # Проектор в eval
    total_loss, total_tokens = 0, 0
    with torch.no_grad():
        for batch in tqdm(val_loader, desc="Оценка"):
            # 1. Получаем стилевой эмбеддинг
            P_u = get_style_embedding(
                batch["user_history_texts"],
                batch["current_input_texts_for_encoder"],
                sentence_transformer_tokenizer,
                sentence_transformer_encoder,
                projector, # Передаем проектор
                DEVICE,
                DTYPE
            ) # [batch_size, PROJECTOR_OUT_DIM]

            # 2. Подготавливаем вход для Gemma
            current_input_embeds = model.get_input_embeddings()(batch["current_input_gemma_input_ids"].to(DEVICE))
            target_embeds = model.get_input_embeddings()(batch["target_gemma_input_ids"].to(DEVICE))

            # Объединяем эмбеддинги: P_u (как один токен), current_input, target
            inputs_embeds = torch.cat([P_u.unsqueeze(1), current_input_embeds, target_embeds], dim=1)
            inputs_embeds = inputs_embeds.to(dtype=DTYPE) # Приводим к DTYPE

            # Создаем attention_mask для объединенного входа
            attention_mask = torch.cat([
                torch.ones(P_u.size(0), 1, device=DEVICE), # Маска для P_u
                batch["current_input_gemma_attention_mask"].to(DEVICE),
                torch.ones_like(batch["target_gemma_input_ids"]).to(DEVICE) # Маска для target
            ], dim=1)

            # Подготавливаем labels: -100 для P_u и current_input, реальные токены для target
            labels_for_gemma = torch.cat([
                batch["current_input_gemma_input_ids"].to(DEVICE),
                batch["target_gemma_input_ids"].to(DEVICE)
            ], dim=1)

            full_labels = torch.full(
                (labels_for_gemma.size(0), 1 + labels_for_gemma.size(1)), # 1 для P_u
                -100,
                device=DEVICE,
                dtype=torch.long
            )
            full_labels[:, 1:] = labels_for_gemma

            # Маскируем токены current_input в labels, чтобы loss считался только по target
            for b_idx in range(full_labels.size(0)):
                real_current_input_len = (batch["current_input_gemma_attention_mask"][b_idx] == 1).sum().item()
                full_labels[b_idx, :1 + real_current_input_len] = -100

            # Forward pass
            output = model(inputs_embeds=inputs_embeds, attention_mask=attention_mask, labels=full_labels)
            loss = output.loss

            # Учитываем только токены, по которым считается loss
            num_target_tokens = (full_labels != -100).sum().item()
            total_loss += loss.item() * num_target_tokens
            total_tokens += num_target_tokens


    avg_loss = total_loss / total_tokens if total_tokens > 0 else 0
    ppl = math.exp(avg_loss) if avg_loss > 0 else float('inf') # Вычисляем перплексию
    return avg_loss, ppl

print("Начинаем обучение! 🚀")
# Создаем директорию для чекпоинтов проектора, если ее нет
os.makedirs("persistent_volume/projector_checkpoints", exist_ok=True)

for epoch in range(NUM_EPOCHS):
    projector.train() # Проектор в режим обучения
    for step, batch in enumerate(tqdm(train_loader, desc=f"Эпоха {epoch}")):
        optimizer.zero_grad()

        # 1. Получаем стилевой эмбеддинг
        P_u = get_style_embedding(
            batch["user_history_texts"],
            batch["current_input_texts_for_encoder"],
            sentence_transformer_tokenizer,
            sentence_transformer_encoder,
            projector, # Передаем проектор
            DEVICE,
            DTYPE
        ) # [batch_size, PROJECTOR_OUT_DIM]

        # 2. Подготавливаем вход для Gemma
        current_input_embeds = model.get_input_embeddings()(batch["current_input_gemma_input_ids"].to(DEVICE))
        target_embeds = model.get_input_embeddings()(batch["target_gemma_input_ids"].to(DEVICE))

        # Объединяем эмбеддинги: P_u (как один токен), current_input, target
        inputs_embeds = torch.cat([P_u.unsqueeze(1), current_input_embeds, target_embeds], dim=1)
        inputs_embeds = inputs_embeds.to(dtype=DTYPE) # Приводим к DTYPE

        # Создаем attention_mask для объединенного входа
        attention_mask = torch.cat([
            torch.ones(P_u.size(0), 1, device=DEVICE),
            batch["current_input_gemma_attention_mask"].to(DEVICE),
            torch.ones_like(batch["target_gemma_input_ids"]).to(DEVICE)
        ], dim=1)

        # Подготавливаем labels: -100 для P_u и current_input, реальные токены для target
        labels_for_gemma = torch.cat([
            batch["current_input_gemma_input_ids"].to(DEVICE),
            batch["target_gemma_input_ids"].to(DEVICE)
        ], dim=1)

        full_labels = torch.full(
            (labels_for_gemma.size(0), 1 + labels_for_gemma.size(1)), # 1 для P_u
            -100,
            device=DEVICE,
            dtype=torch.long
        )
        full_labels[:, 1:] = labels_for_gemma

        # Маскируем токены current_input в labels, чтобы loss считался только по target
        for b_idx in range(full_labels.size(0)):
            real_current_input_len = (batch["current_input_gemma_attention_mask"][b_idx] == 1).sum().item()
            full_labels[b_idx, :1 + real_current_input_len] = -100

        # Forward pass со смешанной точностью
        with torch.cuda.amp.autocast(dtype=DTYPE):
            output = model(inputs_embeds=inputs_embeds, attention_mask=attention_mask, labels=full_labels)
            loss = output.loss

        # Backward pass со смешанной точностью
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()

        if step % 10 == 0 and step != 0: # Оцениваем каждые 25 шагов
            val_loss, val_ppl = evaluate()
            print(f"[Эпоха {epoch} | Шаг {step}] Потери на обучении: {loss.item():.4f} | Потери на валидации: {val_loss:.4f} | PPL: {val_ppl:.2f}")
            # Сохраняем только state_dict проектора, так как он обернут LoRA
            projector.save_pretrained(f"persistent_volume/project_checkpoints/projector_epoch{epoch}_step{step:05d}")
            projector.train() # Возвращаем проектор в режим обучения после оценки

# ==== SAVE ====
# Сохраняем финальную модель проектора
projector.save_pretrained("projector_final.pt")
print("Финальный проектор сохранен в projector_final.pt")



Начинаем обучение! 🚀


  with torch.cuda.amp.autocast(dtype=DTYPE):
Эпоха 0:   0%|          | 10/44856 [00:06<6:47:27,  1.83it/s]
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:08,  3.42it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.37it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.33it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:06,  3.32it/s][A
Оценка:   6

[Эпоха 0 | Шаг 10] Потери на обучении: 2.8387 | Потери на валидации: 3.1415 | PPL: 23.14


Эпоха 0:   0%|          | 20/44856 [01:21<17:03:17,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.37it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.36it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.35it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.36it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.34it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.34it/

[Эпоха 0 | Шаг 20] Потери на обучении: 3.3834 | Потери на валидации: 3.1552 | PPL: 23.46


Эпоха 0:   0%|          | 30/44856 [02:36<17:14:58,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:08,  3.39it/s][A
Оценка:   1%|          | 2/234 [00:00<01:09,  3.35it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.37it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:09,  3.30it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:09,  3.32it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.32it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.35it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.34it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:07,  3.33it/s][A
Оценка:   4%|▍         | 10/234 [00:03<01:07,  3.33it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:07,  3.32it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.38it/

[Эпоха 0 | Шаг 30] Потери на обучении: 3.3068 | Потери на валидации: 3.1565 | PPL: 23.49


Эпоха 0:   0%|          | 40/44856 [03:51<17:20:56,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.44it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.42it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.38it/

[Эпоха 0 | Шаг 40] Потери на обучении: 3.1155 | Потери на валидации: 3.1387 | PPL: 23.07


Эпоха 0:   0%|          | 50/44856 [05:06<17:01:33,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it/

[Эпоха 0 | Шаг 50] Потери на обучении: 3.7054 | Потери на валидации: 3.1283 | PPL: 22.84


Эпоха 0:   0%|          | 60/44856 [06:20<17:01:49,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.41it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.43it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.39it/

[Эпоха 0 | Шаг 60] Потери на обучении: 4.5907 | Потери на валидации: 3.1232 | PPL: 22.72


Эпоха 0:   0%|          | 70/44856 [07:35<17:01:38,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.41it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.36it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.36it/

[Эпоха 0 | Шаг 70] Потери на обучении: 0.8050 | Потери на валидации: 3.1065 | PPL: 22.34


Эпоха 0:   0%|          | 80/44856 [08:49<17:13:43,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.44it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.41it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.41it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.42it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.43it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.37it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.36it/

[Эпоха 0 | Шаг 80] Потери на обучении: 4.3320 | Потери на валидации: 3.0993 | PPL: 22.18


Эпоха 0:   0%|          | 90/44856 [10:04<17:02:24,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.44it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.42it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.42it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it/

[Эпоха 0 | Шаг 90] Потери на обучении: 3.5403 | Потери на валидации: 3.0968 | PPL: 22.13


Эпоха 0:   0%|          | 100/44856 [11:18<17:04:27,  1.37s/it]
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.36it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:07,  3.34it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:07,  3.32it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.33it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.31it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:06,  3.31it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.34it/

[Эпоха 0 | Шаг 100] Потери на обучении: 6.0994 | Потери на валидации: 3.0988 | PPL: 22.17


Эпоха 0:   0%|          | 110/44856 [12:33<17:01:09,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.33it

[Эпоха 0 | Шаг 110] Потери на обучении: 2.5319 | Потери на валидации: 3.0968 | PPL: 22.13


Эпоха 0:   0%|          | 120/44856 [13:48<17:32:25,  1.41s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.40it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.38it

[Эпоха 0 | Шаг 120] Потери на обучении: 3.3397 | Потери на валидации: 3.0987 | PPL: 22.17


Эпоха 0:   0%|          | 130/44856 [15:03<16:58:25,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.41it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.42it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.44it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.44it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.36it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.38it

[Эпоха 0 | Шаг 130] Потери на обучении: 3.3617 | Потери на валидации: 3.0972 | PPL: 22.14


Эпоха 0:   0%|          | 140/44856 [16:17<16:52:48,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.41it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 140] Потери на обучении: 3.2829 | Потери на валидации: 3.0941 | PPL: 22.07


Эпоха 0:   0%|          | 150/44856 [17:31<17:02:34,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 150] Потери на обучении: 4.2675 | Потери на валидации: 3.0957 | PPL: 22.10


Эпоха 0:   0%|          | 160/44856 [18:46<17:05:11,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 160] Потери на обучении: 3.1943 | Потери на валидации: 3.0930 | PPL: 22.04


Эпоха 0:   0%|          | 170/44856 [20:01<16:59:47,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.35it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.37it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.36it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 170] Потери на обучении: 2.9288 | Потери на валидации: 3.0885 | PPL: 21.94


Эпоха 0:   0%|          | 180/44856 [21:16<16:56:56,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.41it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.36it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.37it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.33it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.35it

[Эпоха 0 | Шаг 180] Потери на обучении: 3.2402 | Потери на валидации: 3.0951 | PPL: 22.09


Эпоха 0:   0%|          | 190/44856 [22:30<17:18:18,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.48it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.35it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.37it

[Эпоха 0 | Шаг 190] Потери на обучении: 3.7166 | Потери на валидации: 3.0965 | PPL: 22.12


Эпоха 0:   0%|          | 200/44856 [23:45<17:22:38,  1.40s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.38it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.35it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.35it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.41it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.42it

[Эпоха 0 | Шаг 200] Потери на обучении: 3.6906 | Потери на валидации: 3.1027 | PPL: 22.26


Эпоха 0:   0%|          | 210/44856 [25:00<17:10:11,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.38it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.36it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:07,  3.33it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:07,  3.31it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.34it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.33it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.35it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.33it

[Эпоха 0 | Шаг 210] Потери на обучении: 4.2755 | Потери на валидации: 3.1046 | PPL: 22.30


Эпоха 0:   0%|          | 220/44856 [26:15<17:20:01,  1.40s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:06,  3.48it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.41it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.42it

[Эпоха 0 | Шаг 220] Потери на обучении: 3.3405 | Потери на валидации: 3.1031 | PPL: 22.27


Эпоха 0:   1%|          | 230/44856 [27:30<17:06:21,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.38it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41it

[Эпоха 0 | Шаг 230] Потери на обучении: 3.3569 | Потери на валидации: 3.1036 | PPL: 22.28


Эпоха 0:   1%|          | 240/44856 [28:44<16:52:33,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.41it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41it

[Эпоха 0 | Шаг 240] Потери на обучении: 3.4469 | Потери на валидации: 3.1057 | PPL: 22.32


Эпоха 0:   1%|          | 250/44856 [29:58<17:17:49,  1.40s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.40it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.41it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:03,  3.42it

[Эпоха 0 | Шаг 250] Потери на обучении: 0.5256 | Потери на валидации: 3.1018 | PPL: 22.24


Эпоха 0:   1%|          | 260/44856 [31:13<17:09:33,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.48it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.41it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.42it

[Эпоха 0 | Шаг 260] Потери на обучении: 3.0141 | Потери на валидации: 3.1010 | PPL: 22.22


Эпоха 0:   1%|          | 270/44856 [32:27<16:58:33,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.39it

[Эпоха 0 | Шаг 270] Потери на обучении: 3.5348 | Потери на валидации: 3.0999 | PPL: 22.20


Эпоха 0:   1%|          | 280/44856 [33:42<17:09:37,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.36it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.33it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.36it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.38it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.35it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.36it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41it

[Эпоха 0 | Шаг 280] Потери на обучении: 3.6861 | Потери на валидации: 3.1031 | PPL: 22.27


Эпоха 0:   1%|          | 290/44856 [34:57<17:28:33,  1.41s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:08,  3.42it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.36it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.34it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.35it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.36it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.36it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.35it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.35it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.34it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.34it

[Эпоха 0 | Шаг 290] Потери на обучении: 3.3173 | Потери на валидации: 3.1055 | PPL: 22.32


Эпоха 0:   1%|          | 300/44856 [36:11<16:52:46,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.44it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41it

[Эпоха 0 | Шаг 300] Потери на обучении: 3.6097 | Потери на валидации: 3.1050 | PPL: 22.31


Эпоха 0:   1%|          | 310/44856 [37:26<16:57:02,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.42it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.43it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.41it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.41it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.42it

[Эпоха 0 | Шаг 310] Потери на обучении: 3.3223 | Потери на валидации: 3.1035 | PPL: 22.27


Эпоха 0:   1%|          | 320/44856 [38:40<17:03:33,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.35it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 320] Потери на обучении: 3.5669 | Потери на валидации: 3.1034 | PPL: 22.27


Эпоха 0:   1%|          | 330/44856 [39:55<16:56:04,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.41it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.42it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.44it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.42it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 330] Потери на обучении: 3.6817 | Потери на валидации: 3.1020 | PPL: 22.24


Эпоха 0:   1%|          | 340/44856 [41:09<17:10:42,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:08,  3.42it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.35it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.36it

[Эпоха 0 | Шаг 340] Потери на обучении: 3.9168 | Потери на валидации: 3.1004 | PPL: 22.21


Эпоха 0:   1%|          | 350/44856 [42:24<16:59:22,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.37it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41it

[Эпоха 0 | Шаг 350] Потери на обучении: 4.0002 | Потери на валидации: 3.0985 | PPL: 22.16


Эпоха 0:   1%|          | 360/44856 [43:39<17:07:46,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.38it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.35it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.36it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.36it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.36it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.36it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.37it

[Эпоха 0 | Шаг 360] Потери на обучении: 3.2377 | Потери на валидации: 3.0979 | PPL: 22.15


Эпоха 0:   1%|          | 370/44856 [44:53<16:55:34,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 370] Потери на обучении: 4.7567 | Потери на валидации: 3.1045 | PPL: 22.30


Эпоха 0:   1%|          | 380/44856 [46:08<17:03:20,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:07,  3.34it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:07,  3.33it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.34it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.34it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.31it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:06,  3.33it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.34it

[Эпоха 0 | Шаг 380] Потери на обучении: 3.1827 | Потери на валидации: 3.1052 | PPL: 22.31


Эпоха 0:   1%|          | 390/44856 [47:23<16:56:28,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.36it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.35it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.37it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.38it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.39it

[Эпоха 0 | Шаг 390] Потери на обучении: 1.3485 | Потери на валидации: 3.1061 | PPL: 22.33


Эпоха 0:   1%|          | 400/44856 [48:37<16:53:15,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.36it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.37it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.36it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.34it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.34it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.33it

[Эпоха 0 | Шаг 400] Потери на обучении: 2.9849 | Потери на валидации: 3.1104 | PPL: 22.43


Эпоха 0:   1%|          | 410/44856 [49:52<17:10:56,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.41it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.42it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 410] Потери на обучении: 4.1340 | Потери на валидации: 3.1086 | PPL: 22.39


Эпоха 0:   1%|          | 420/44856 [51:06<16:49:27,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.41it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.42it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.38it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.36it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:07,  3.33it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.34it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.34it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.34it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.35it

[Эпоха 0 | Шаг 420] Потери на обучении: 3.9806 | Потери на валидации: 3.1027 | PPL: 22.26


Эпоха 0:   1%|          | 430/44856 [52:21<16:52:58,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.39it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:06,  3.33it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.34it

[Эпоха 0 | Шаг 430] Потери на обучении: 4.4622 | Потери на валидации: 3.1026 | PPL: 22.26


Эпоха 0:   1%|          | 440/44856 [53:35<16:58:07,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.35it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.35it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.34it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.36it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.37it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41it

[Эпоха 0 | Шаг 440] Потери на обучении: 3.7402 | Потери на валидации: 3.1042 | PPL: 22.29


Эпоха 0:   1%|          | 450/44856 [54:50<17:00:07,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.37it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40it

[Эпоха 0 | Шаг 450] Потери на обучении: 3.6780 | Потери на валидации: 3.1027 | PPL: 22.26


Эпоха 0:   1%|          | 460/44856 [56:04<16:47:31,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.37it

[Эпоха 0 | Шаг 460] Потери на обучении: 3.0215 | Потери на валидации: 3.0992 | PPL: 22.18


Эпоха 0:   1%|          | 470/44856 [57:20<17:02:46,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:08,  3.38it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.37it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:09,  3.33it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:10,  3.28it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:09,  3.29it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.33it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.35it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.34it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:07,  3.32it/s][A
Оценка:   4%|▍         | 10/234 [00:03<01:08,  3.25it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:08,  3.24it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:08,  3.26it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:07,  3.25it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:07,  3.27it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:06,  3.29it

[Эпоха 0 | Шаг 470] Потери на обучении: 3.4735 | Потери на валидации: 3.0964 | PPL: 22.12


Эпоха 0:   1%|          | 480/44856 [58:35<16:59:51,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.41it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.39it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.36it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.36it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.37it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.37it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.35it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.34it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.36it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.37it

[Эпоха 0 | Шаг 480] Потери на обучении: 4.3039 | Потери на валидации: 3.0932 | PPL: 22.05


Эпоха 0:   1%|          | 490/44856 [59:50<16:56:23,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.41it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.38it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.36it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.34it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.31it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:08,  3.32it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.32it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:07,  3.34it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:07,  3.34it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.34it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:06,  3.36it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:06,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:06,  3.33it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.36it

[Эпоха 0 | Шаг 490] Потери на обучении: 3.5861 | Потери на валидации: 3.0957 | PPL: 22.10


Эпоха 0:   1%|          | 500/44856 [1:01:05<17:23:55,  1.41s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:09,  3.36it/s][A
Оценка:   1%|          | 2/234 [00:00<01:10,  3.31it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:10,  3.28it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:10,  3.26it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:09,  3.28it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.31it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.34it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.35it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 10/234 [00:03<01:06,  3.35it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.35it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.38

[Эпоха 0 | Шаг 500] Потери на обучении: 5.4960 | Потери на валидации: 3.0958 | PPL: 22.11


Эпоха 0:   1%|          | 510/44856 [1:02:20<17:04:36,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.41it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.37it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.33it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.34it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.36it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.37it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.39it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.38it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.39

[Эпоха 0 | Шаг 510] Потери на обучении: 2.2000 | Потери на валидации: 3.0996 | PPL: 22.19


Эпоха 0:   1%|          | 520/44856 [1:03:35<16:53:25,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.36it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.37it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.36it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.35it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.36

[Эпоха 0 | Шаг 520] Потери на обучении: 3.0263 | Потери на валидации: 3.0982 | PPL: 22.16


Эпоха 0:   1%|          | 530/44856 [1:04:50<17:01:22,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|          | 2/234 [00:00<01:08,  3.38it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:09,  3.32it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:09,  3.32it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:09,  3.30it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:08,  3.34it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:08,  3.32it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:07,  3.35it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.35it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.36it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.35it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.36it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.37

[Эпоха 0 | Шаг 530] Потери на обучении: 2.9235 | Потери на валидации: 3.0983 | PPL: 22.16


Эпоха 0:   1%|          | 540/44856 [1:06:05<16:50:22,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:08,  3.41it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.38it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.36it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.35

[Эпоха 0 | Шаг 540] Потери на обучении: 2.1119 | Потери на валидации: 3.1012 | PPL: 22.23


Эпоха 0:   1%|          | 550/44856 [1:07:20<16:56:44,  1.38s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.42it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.38it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.40it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.40it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40

[Эпоха 0 | Шаг 550] Потери на обучении: 3.2916 | Потери на валидации: 3.0996 | PPL: 22.19


Эпоха 0:   1%|          | 560/44856 [1:08:34<16:47:07,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.44it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.40it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.41it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.42it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:05,  3.43it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.44it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.42it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.43it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.42it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.40

[Эпоха 0 | Шаг 560] Потери на обучении: 3.6442 | Потери на валидации: 3.0993 | PPL: 22.18


Эпоха 0:   1%|▏         | 570/44856 [1:09:49<16:51:47,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.41it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.40it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.42it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.41it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.37it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:07,  3.34it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:06,  3.36it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.36it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.37it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.35

[Эпоха 0 | Шаг 570] Потери на обучении: 3.4895 | Потери на валидации: 3.0953 | PPL: 22.09


Эпоха 0:   1%|▏         | 580/44856 [1:11:03<16:43:40,  1.36s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.42it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:08,  3.37it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:08,  3.34it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.36it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.36it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.37it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.38it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.40it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:06,  3.39it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.38it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.38it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.39it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41

[Эпоха 0 | Шаг 580] Потери на обучении: 3.5415 | Потери на валидации: 3.0978 | PPL: 22.15


Эпоха 0:   1%|▏         | 590/44856 [1:12:18<17:02:57,  1.39s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.43it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.40it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:08,  3.36it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:07,  3.38it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.39it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.40it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.39it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.41it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:04,  3.40it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:04,  3.41

[Эпоха 0 | Шаг 590] Потери на обучении: 2.6009 | Потери на валидации: 3.0984 | PPL: 22.16


Эпоха 0:   1%|▏         | 600/44856 [1:13:32<16:48:10,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.46it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.39it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:06,  3.41it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.42it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.42it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:05,  3.40it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:05,  3.37it/s][A
Оценка:   6%|▌         | 14/234 [00:04<01:05,  3.36it/s][A
Оценка:   6%|▋         | 15/234 [00:04<01:05,  3.35

[Эпоха 0 | Шаг 600] Потери на обучении: 3.9455 | Потери на валидации: 3.0966 | PPL: 22.12


Эпоха 0:   1%|▏         | 610/44856 [1:14:46<16:49:15,  1.37s/it] 
Оценка:   0%|          | 0/234 [00:00<?, ?it/s][A
Оценка:   0%|          | 1/234 [00:00<01:07,  3.47it/s][A
Оценка:   1%|          | 2/234 [00:00<01:07,  3.45it/s][A
Оценка:   1%|▏         | 3/234 [00:00<01:07,  3.43it/s][A
Оценка:   2%|▏         | 4/234 [00:01<01:07,  3.39it/s][A
Оценка:   2%|▏         | 5/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 6/234 [00:01<01:07,  3.37it/s][A
Оценка:   3%|▎         | 7/234 [00:02<01:06,  3.39it/s][A
Оценка:   3%|▎         | 8/234 [00:02<01:06,  3.41it/s][A
Оценка:   4%|▍         | 9/234 [00:02<01:05,  3.42it/s][A
Оценка:   4%|▍         | 10/234 [00:02<01:05,  3.41it/s][A
Оценка:   5%|▍         | 11/234 [00:03<01:05,  3.41it/s][A
Оценка:   5%|▌         | 12/234 [00:03<01:04,  3.43it/s][A
Оценка:   6%|▌         | 13/234 [00:03<01:04,  3.40it/s][A

In [None]:
# ==== VALIDATION EXAMPLE (после обучения) ====
print("\nЗапускаем пример валидации после обучения... ✨")
model.eval()
projector.eval()

# Возьмем один пример из валидационного датасета
if len(val_dataset) > 0:
    sample = val_dataset[0]
    user_history_sample = sample["user_history"]
    current_input_sample = sample["current_input"]
    target_sample = sample["target"]

    print(f"\nИстория пользователя (первые 2 отрывка): {user_history_sample[:2]}...")
    print(f"Текущий ввод (промпт): {current_input_sample}")
    print(f"Ожидаемое продолжение (таргет): {target_sample}")

        # Получаем стилевой эмбеддинг для одного примера
        P_u_single = get_style_embedding(
            [user_history_sample], # Оборачиваем в список для батча
            [current_input_sample], # Оборачиваем в список для батча
            sentence_transformer_tokenizer,
            sentence_transformer_encoder,
            projector,
            DEVICE,
            DTYPE
        ) # [1, PROJECTOR_OUT_DIM]

        # Подготавливаем вход для Gemma
        current_input_gemma_tokenized_single = tokenizer(
            [current_input_sample],
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=MAX_CHUNK_LENGTH
        ).to(DEVICE)

        current_input_embeds_single = model.get_input_embeddings()(current_input_gemma_tokenized_single["input_ids"])

        # Объединяем P_u с current_input для генерации
        inputs_embeds_for_generation = torch.cat([P_u_single.unsqueeze(1), current_input_embeds_single], dim=1)
        inputs_embeds_for_generation = inputs_embeds_for_generation.to(dtype=DTYPE)

        # Генерируем продолжение
        generated_output = model.generate(
            inputs_embeds=inputs_embeds_for_generation,
            attention_mask=torch.cat([
                torch.ones(1, 1, device=DEVICE), # Маска для P_u
                current_input_gemma_tokenized_single["attention_mask"]
            ], dim=1),
            max_new_tokens=MAX_CHUNK_LENGTH, # Генерируем до длины чанка
            num_beams=1, # Для простоты, можно увеличить для лучшего качества
            do_sample=True, # Для разнообразия
            top_k=50,
            top_p=0.95,
            temperature=0.7,
            pad_token_id=tokenizer.pad_token_id,
            eos_token_id=tokenizer.eos_token_id
        )

        # Декодируем сгенерированный текст.
        # Важно: generated_output включает в себя токены current_input и P_u (как фиктивный токен).
        # Нам нужно декодировать только сгенерированную часть.
        # Длина current_input_gemma_tokenized_single["input_ids"][0] - это длина промпта.
        # +1 для P_u.
        generated_text_ids = generated_output[0, (1 + current_input_gemma_tokenized_single["input_ids"].size(1)):]
        generated_text = tokenizer.decode(generated_text_ids, skip_special_tokens=True)

        print(f"\nСгенерированный текст: {generated_text}")
else:
    print("Валидационный датасет пуст, не могу запустить пример. 😔")
