In [None]:
import sys
from tqdm import tqdm
import subprocess

def install_deps(package_file):
    try:
        with open(package_file, 'r') as f:
            packages = [line.strip() for line in f if line.strip() and not line.startswith('#')]
    except FileNotFoundError:
        return
    
    for package in tqdm(packages, desc="📥 Обновление пакетов"):
        try:
            subprocess.run([sys.executable, "-m", "pip", "install", "--upgrade", package, "-q"], check=True, capture_output=True)
        except subprocess.CalledProcessError:
            pass
    
    print("✅ Dependencies updated")

install_deps("requirements.txt")

In [None]:
import warnings
warnings.filterwarnings('ignore')

import torch
import torch.nn as nn
import torch.optim as optim
import torchaudio
import json
import os
import gc
import numpy as np
from tqdm import tqdm
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence
from torch.amp import autocast, GradScaler
from transformers import AutoConfig, AutoTokenizer, Wav2Vec2FeatureExtractor, Wav2Vec2Model
from transformers.utils.quantization_config import BitsAndBytesConfig
from transformers.models.gemma3.modeling_gemma3 import Gemma3ForCausalLM
from transformers.models.gemma3.configuration_gemma3 import Gemma3TextConfig
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
import jiwer
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from rouge_score import rouge_scorer
from huggingface_hub import notebook_login, login
from sklearn.model_selection import train_test_split
import pandas as pd
from datetime import datetime
from torch.optim.lr_scheduler import OneCycleLR, CosineAnnealingWarmRestarts
from IPython.display import Audio, display
import zipfile
import io
import wandb
import glob
import random
import bitsandbytes as bnb

def set_seed(seed=42):
    np.random.seed(seed)
    torch.manual_seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed(seed)
        torch.cuda.manual_seed_all(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

set_seed(42)

In [None]:
def collate_fn(batch):
    input_values = [item['input_values'] for item in batch]
    input_ids = [item['input_ids'] for item in batch]
    attention_mask = [item['attention_mask'] for item in batch]
    input_values = pad_sequence(input_values, batch_first=True)
    input_ids = pad_sequence(input_ids, batch_first=True, padding_value=-100)
    attention_mask = pad_sequence(attention_mask, batch_first=True, padding_value=0)
    return {
        'input_values': input_values,
        'input_ids': input_ids,
        'attention_mask': attention_mask
    }

def process_batch(batch, model, projector, wav2vec2, tokenizer, prefix_embeds, device, compression_rate_k):
    input_values = batch["input_values"].to(device, dtype=torch.bfloat16)
    input_ids = batch["input_ids"].to(device)

    with autocast('cuda' if torch.cuda.is_available() else 'cpu'):
        audio_embeds = wav2vec2(input_values).last_hidden_state
        
        compressed_audio = compress_audio_features(audio_embeds, compression_rate_k)
        del audio_embeds  # Освобождаем память
        
        projected_audio = projector(compressed_audio)
        del compressed_audio  # Освобождаем память
        # Ensure projected audio is in bfloat16 for consistency
        projected_audio = projected_audio.to(dtype=torch.bfloat16)
        
        batch_prefix_embeds = prefix_embeds.expand(projected_audio.size(0), -1, -1)
        
        prompt_embeds = torch.cat([batch_prefix_embeds, projected_audio], dim=1)
        
        embedding_input_ids = input_ids.clone()
        embedding_input_ids[embedding_input_ids == -100] = tokenizer.pad_token_id
        target_embeds = model.get_input_embeddings()(embedding_input_ids)
        del embedding_input_ids  # Освобождаем память

        inputs_embeds = torch.cat([prompt_embeds, target_embeds], dim=1)
        del target_embeds  # Освобождаем память
        
        prompt_len = prompt_embeds.shape[1]
        prompt_labels = torch.full((projected_audio.size(0), prompt_len), -100, device=device, dtype=torch.long)
        del projected_audio  # Освобождаем память
        
        labels = torch.cat([prompt_labels, input_ids], dim=1)
        del prompt_labels  # Освобождаем память

        outputs = model(inputs_embeds=inputs_embeds, labels=labels)
        del inputs_embeds, labels  # Освобождаем память
        
    return outputs, prompt_embeds

In [None]:
def force_gpu_cleanup():
    """Принудительная очистка GPU памяти"""
    import gc
    import torch
    
    # 1. Удаляем все известные переменные
    variables_to_delete = [
        'gemma_model', 'wav2vec2', 'projector', 'train_loader', 'val_loader',
        'optimizer', 'scheduler', 'scaler', 'train_dataset', 'val_dataset',
        'prefix_embeds', 'tokenizer', 'feature_extractor', 'logger',
        'quantization_config', 'lora_config'
    ]
    
    deleted_count = 0
    for var_name in variables_to_delete:
        if var_name in globals():
            try:
                # Для моделей PyTorch - перемещаем на CPU перед удалением
                obj = globals()[var_name]
                if hasattr(obj, 'cpu'):
                    obj.cpu()
                if hasattr(obj, 'to'):
                    obj.to('cpu')
                del globals()[var_name]
                deleted_count += 1
            except:
                pass
    
    # 2. Удаляем все тензоры из кэша
    torch._C._cuda_clearCublasWorkspaces()
    
    # 3. Очищаем кэш автоградов
    if hasattr(torch.autograd, 'set_grad_enabled'):
        torch.autograd.set_grad_enabled(False)
        torch.autograd.set_grad_enabled(True)
    
    # 4. Принудительный сбор мусора (несколько раз)
    for _ in range(5):
        gc.collect()
        if torch.cuda.is_available():
            torch.cuda.empty_cache()
    
    # 5. Очистка GPU памяти
    if torch.cuda.is_available():
        # Синхронизируем все операции
        torch.cuda.synchronize()
        
        # Очищаем все кэши
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()
        
        # Сбрасываем статистики
        torch.cuda.reset_peak_memory_stats()
        torch.cuda.reset_accumulated_memory_stats()
        
        # Финальный сбор мусора
        gc.collect()
        
        # Получаем статистику памяти
        allocated = torch.cuda.memory_allocated() / 1024**3
        reserved = torch.cuda.memory_reserved() / 1024**3
        
        print(f"🧹 Принудительная очистка GPU памяти:")
        print(f"   📊 Удалено переменных: {deleted_count}")
        print(f"   💾 Выделено сейчас: {allocated:.2f} GB")
        print(f"   🔒 Зарезервировано: {reserved:.2f} GB")
        
        return allocated, reserved
    else:
        print(f"🧹 CPU очистка завершена (удалено переменных: {deleted_count})")
        return 0, 0

# Запускаем принудительную очистку
force_gpu_cleanup()

In [None]:
def load_checkpoint(path, projector, gemma_model, optimizer, scheduler, device, batch_size):
    global best_val_loss
    checkpoint = torch.load(path, map_location=device)
    
    try:
        projector.load_state_dict(checkpoint['projector_state_dict'])
    except RuntimeError as e:
        print(f"⚠️ Несовместимость проектора: {e}")
        print("🔄 Инициализация проектора новыми весами, т.к. конфигурация (напр. compression_rate_k) изменилась.")
        wandb.log({"checkpoint/projector_reinitialized": True})
    
    if 'lora_state_dict' in checkpoint:
        gemma_model.load_state_dict(checkpoint['lora_state_dict'], strict=False)
    
    print("🔄 Пропускаем загрузку состояния оптимизатора для экономии памяти. Он будет инициализирован заново.")
    wandb.log({"checkpoint/optimizer_reset_manual": True})
    
    try:
        scheduler.load_state_dict(checkpoint['scheduler_state_dict'])
    except Exception as e:
        print(f"⚠️ Scheduler error: {e}")
    
    start_epoch = checkpoint['epoch']
    saved_step = checkpoint['step']
    best_val_loss = checkpoint.get('best_val_loss', float('inf'))
    
    # ОБРАТНАЯ СОВМЕСТИМОСТЬ: config может не быть в старых чекпоинтах
    config = checkpoint.get('config', {})
    prev_batch_size = config.get('batch_size', batch_size)
    
    # АВТОМАТИЧЕСКИЙ РАСЧЕТ batch_idx для старых чекпоинтов
    if 'batch_idx' in checkpoint:
        # Новый чекпоинт - берем сохраненный batch_idx
        batch_idx = checkpoint['batch_idx']
        checkpoint_version = "new"
    else:
        # Старый чекпоинт - вычисляем batch_idx автоматически
        checkpoint_version = "legacy"
        
        # Метод 1: Пытаемся извлечь из имени файла (latest_checkpoint_bs4_epoch_4_step_5500.pt)
        import re
        filename = os.path.basename(path)
        match = re.search(r'epoch_(\d+)_step_(\d+)', filename)
        
        if match:
            file_epoch = int(match.group(1))
            file_step = int(match.group(2))
            
            # ИСПРАВЛЕННЫЙ РАСЧЕТ: правильно вычисляем позицию в текущей эпохе
            steps_per_epoch_estimate = len(train_data) // batch_size if 'train_data' in globals() else 2000
            
            # Сколько полных эпох прошло (эпохи считаются с 1, поэтому file_epoch - 1)
            completed_epochs = file_epoch - 1
            steps_in_completed_epochs = completed_epochs * steps_per_epoch_estimate
            
            # batch_idx = позиция в текущей эпохе
            batch_idx = file_step - steps_in_completed_epochs
            
            # Проверяем, что batch_idx в разумных пределах
            if batch_idx < 0:
                batch_idx = 0
            elif batch_idx >= steps_per_epoch_estimate:
                batch_idx = steps_per_epoch_estimate - 1
            
            print(f"📦 Legacy чекпоинт: извлечено из имени файла epoch={file_epoch}, step={file_step}")
            print(f"📊 Расчет: {completed_epochs} полных эпох × {steps_per_epoch_estimate} = {steps_in_completed_epochs} шагов")
            print(f"📊 Позиция в эпохе {file_epoch}: batch_idx = {file_step} - {steps_in_completed_epochs} = {batch_idx}")
        else:
            # Метод 2: Используем start_epoch и saved_step для правильного расчета
            steps_per_epoch_estimate = len(train_data) // batch_size if 'train_data' in globals() else 2000
            
            # Сколько полных эпох прошло
            completed_epochs = start_epoch
            steps_in_completed_epochs = completed_epochs * steps_per_epoch_estimate
            
            # batch_idx = позиция в текущей эпохе
            batch_idx = saved_step - steps_in_completed_epochs
            
            # Проверяем, что batch_idx в разумных пределах
            if batch_idx < 0:
                batch_idx = 0
            elif batch_idx >= steps_per_epoch_estimate:
                batch_idx = steps_per_epoch_estimate - 1
            
            print(f"📦 Legacy чекпоинт: не удалось извлечь из имени, используем saved_step={saved_step}")
            print(f"📊 Расчет: {completed_epochs} полных эпох × {steps_per_epoch_estimate} = {steps_in_completed_epochs} шагов")
            print(f"📊 Позиция в эпохе {start_epoch + 1}: batch_idx = {saved_step} - {steps_in_completed_epochs} = {batch_idx}")
        
        wandb.log({
            "checkpoint/legacy_batch_idx_calculated": True,
            "checkpoint/calculated_batch_idx": batch_idx,
            "checkpoint/filename": filename
        })
    
    if prev_batch_size != batch_size:
        total_samples_seen = saved_step * prev_batch_size
        adjusted_step = total_samples_seen // batch_size
        
        # Пересчитываем batch_idx при изменении batch_size
        if checkpoint_version == "legacy":
            steps_per_epoch_estimate = len(train_data) // batch_size if 'train_data' in globals() else 2000
            
            # Правильно вычисляем позицию в текущей эпохе для adjusted_step
            completed_epochs = start_epoch
            steps_in_completed_epochs = completed_epochs * steps_per_epoch_estimate
            batch_idx = adjusted_step - steps_in_completed_epochs
            
            # Проверяем границы
            if batch_idx < 0:
                batch_idx = 0
            elif batch_idx >= steps_per_epoch_estimate:
                batch_idx = steps_per_epoch_estimate - 1
        
        wandb.log({
            "checkpoint/batch_size_mismatch": True,
            "checkpoint/prev_batch_size": prev_batch_size,
            "checkpoint/new_batch_size": batch_size,
            "checkpoint/samples_seen": total_samples_seen,
            "checkpoint/adjusted_step": adjusted_step,
            "checkpoint/adjusted_batch_idx": batch_idx
        })
        
        global_step = adjusted_step
    else:
        global_step = saved_step
    
    wandb.log({
        "checkpoint/loaded": True,
        "checkpoint/version": checkpoint_version,
        "checkpoint/start_epoch": start_epoch,
        "checkpoint/global_step": global_step,
        "checkpoint/best_val_loss": best_val_loss,
        "checkpoint/batch_idx": batch_idx
    })
    
    if checkpoint_version == "legacy":
        print(f"📦 Legacy чекпоинт: автоматически вычислен batch_idx={batch_idx} для эпохи {start_epoch}")
    
    return start_epoch, global_step, batch_idx

In [None]:
best_val_loss = float('inf')

In [None]:
class AudioProjector(nn.Module):
    def __init__(self, input_dim, output_dim, hidden_dim=2048):
        super().__init__()

        self.proj = nn.Sequential(
            nn.LayerNorm(input_dim),
            nn.Linear(input_dim, hidden_dim),
            nn.GELU(),
            nn.Linear(hidden_dim, output_dim),
            nn.LayerNorm(output_dim)
        )
        
        for layer in self.proj:
            if isinstance(layer, nn.Linear):
                nn.init.xavier_uniform_(layer.weight)
                nn.init.zeros_(layer.bias)
    
    def forward(self, x):
        # Always return in bfloat16 for consistency with model
        return self.proj(x.float()).to(torch.bfloat16)
    
    def get_l2_norm(self):
        total_norm = 0.0
        for param in self.parameters():
            total_norm += param.data.norm(2).item() ** 2
        return total_norm ** 0.5

In [None]:
class DatasetBlender:
    """
    🔄 Управляет плавным переходом между двумя датасетами.
    
    Поддерживает различные стратегии смешивания:
    - linear: Линейный переход от 0% до 100% второго датасета
    - cosine: Косинусный переход (более плавный)
    - exponential: Экспоненциальный переход (быстрее в конце)
    """
    
    def __init__(self, primary_data, secondary_data, transition_start_epoch, transition_end_epoch, blend_schedule="linear"):
        self.primary_data = primary_data
        self.secondary_data = secondary_data
        self.transition_start_epoch = transition_start_epoch
        self.transition_end_epoch = transition_end_epoch
        self.blend_schedule = blend_schedule
        
        print(f"🔄 DatasetBlender инициализирован:")
        print(f"   📊 Основной датасет: {len(primary_data)} примеров")
        print(f"   📊 Второй датасет: {len(secondary_data)} примеров")
        print(f"   🕐 Переход: эпохи {transition_start_epoch}-{transition_end_epoch}")
        print(f"   📈 Стратегия: {blend_schedule}")
    
    def get_blend_ratio(self, current_epoch):
        """Возвращает долю второго датасета для текущей эпохи (0.0 - 1.0)"""
        if current_epoch < self.transition_start_epoch:
            return 0.0
        elif current_epoch >= self.transition_end_epoch:
            return 1.0
        
        # Нормализованный прогресс (0.0 - 1.0)
        progress = (current_epoch - self.transition_start_epoch) / (self.transition_end_epoch - self.transition_start_epoch)
        
        if self.blend_schedule == "linear":
            return progress
        elif self.blend_schedule == "cosine":
            return (1 - np.cos(progress * np.pi)) / 2  # Плавный S-образный переход
        elif self.blend_schedule == "exponential":
            return progress ** 2  # Медленный старт, быстрый финиш
        else:
            raise ValueError(f"Неизвестная стратегия смешивания: {self.blend_schedule}")
    
    def create_blended_dataset(self, current_epoch, random_seed=42):
        """Создает смешанный датасет для текущей эпохи"""
        blend_ratio = self.get_blend_ratio(current_epoch)
        
        # Сколько примеров взять из каждого датасета
        total_size = len(self.primary_data)  # Сохраняем размер основного датасета
        secondary_count = int(total_size * blend_ratio)
        primary_count = total_size - secondary_count
        
        # Детерминированная выборка
        random_state = random.Random(random_seed)
        
        # Выбираем примеры из каждого датасета
        selected_primary = random_state.sample(self.primary_data, min(primary_count, len(self.primary_data))) if primary_count > 0 else []
        selected_secondary = random_state.sample(self.secondary_data, min(secondary_count, len(self.secondary_data))) if secondary_count > 0 else []
        
        # Объединяем и перемешиваем
        blended_data = selected_primary + selected_secondary
        random_state.shuffle(blended_data)
        
        print(f"🔄 Эпоха {current_epoch+1}: Смешивание {primary_count} основных + {secondary_count} вторичных ({blend_ratio*100:.1f}% второго)")
        
        return blended_data, blend_ratio


In [None]:
class TrainingLogger:
    def __init__(self, experiment_name, save_dir):
        self.experiment_name = experiment_name
        self.save_dir = save_dir
        self.logs = {
            'step': [],
            'val_loss': [],
            'val_perplexity': [],
            'val_wer': [],
            'val_bleu': [],
            'val_rouge_l': []
        }
        
    def log_step(self, step, train_loss, lr_list, grad_norm=None, projector_l2_norm=None, gpu_memory_gb=None, gpu_memory_reserved_gb=None, gpu_memory_total_gb=None, memory_breakdown_mb=None):
        log_data = {
            'train/loss': float(train_loss),
            'train/projector_lr': float(lr_list[0]) if len(lr_list) > 0 else 0.0,
            'train/lora_lr': float(lr_list[1]) if len(lr_list) > 1 else 0.0,
            'train/learning_rate': float(lr_list[0]),  # Для совместимости
            'train/grad_norm': float(grad_norm) if grad_norm is not None else 0.0,
            'step': int(step)
        }
        
        if projector_l2_norm is not None:
            log_data['projector/l2_norm'] = float(projector_l2_norm)
        
        if gpu_memory_gb is not None:
            log_data['gpu/memory_used_gb'] = float(gpu_memory_gb) if gpu_memory_gb is not None else 0.0
            log_data['gpu/memory_reserved_gb'] = float(gpu_memory_reserved_gb) if gpu_memory_reserved_gb is not None else 0.0
            log_data['gpu/memory_total_gb'] = float(gpu_memory_total_gb) if gpu_memory_total_gb is not None else 0.0
            # Fix: ensure numeric value for memory utilization
            if gpu_memory_total_gb and gpu_memory_total_gb > 0:
                log_data['gpu/memory_utilization_pct'] = float(gpu_memory_gb / gpu_memory_total_gb * 100)
            else:
                log_data['gpu/memory_utilization_pct'] = 0.0
            
        if memory_breakdown_mb:
            for k, v in memory_breakdown_mb.items():
                if k in ['grad_norm_before_clip', 'grad_norm_after_clip', 'clipping_ratio']:
                    log_data[f'gradient/{k}'] = float(v)
                elif k == 'was_clipped':
                    log_data[f'gradient/{k}'] = bool(v)
                else:
                    log_data[f"memory/{k}_mb"] = float(v)

        wandb.log(log_data)
        
    def log_validation(self, step, val_metrics):
        self.logs['step'].append(int(step))
        self.logs['val_loss'].append(float(val_metrics['loss']))
        self.logs['val_perplexity'].append(float(val_metrics['perplexity']))
        self.logs['val_wer'].append(float(val_metrics['wer']))
        self.logs['val_bleu'].append(float(val_metrics['bleu']))
        self.logs['val_rouge_l'].append(float(val_metrics['rouge_l']))
        
        wandb.log({
            'val/loss': float(val_metrics['loss']),
            'val/perplexity': float(val_metrics['perplexity']),
            'val/wer': float(val_metrics['wer']),
            'val/bleu': float(val_metrics['bleu']),
            'val/rouge_l': float(val_metrics['rouge_l']),
            'step': int(step)
        })
    
    def save_logs(self):
        if len(self.logs['step']) == 0:
            return None
        df = pd.DataFrame(self.logs)
        csv_path = os.path.join(self.save_dir, 'validation_logs.csv')
        df.to_csv(csv_path, index=False)
        return df

In [None]:
class AudioTextDataset(Dataset):
    def __init__(self, data, tokenizer, feature_extractor, zip_path=None):
        self.data = data
        self.tokenizer = tokenizer
        self.feature_extractor = feature_extractor
        self.zip_file = None
        self.zip_manifest = None
        
        if zip_path and os.path.exists(zip_path):
            try:
                self.zip_file = zipfile.ZipFile(zip_path, 'r')
                
                self.zip_manifest = {
                    p: p
                    for p in self.zip_file.namelist()
                    if p.lower().endswith(('.flac', '.wav', '.mp3'))
                }
                
                wandb.log({
                    "dataset/zip_loaded": 1.0,  # Convert bool to numeric
                    "dataset/zip_audio_files": int(len(self.zip_manifest)),
                    "dataset/total_records": int(len(self.data))
                })

            except Exception as e:
                self.zip_file = None
                wandb.log({"dataset/zip_error": str(e)})
        else:
            wandb.log({"dataset/zip_loaded": 0.0, "dataset/total_records": int(len(self.data))})
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        item = self.data[idx]
        audio_path = item["audio_path"]
        speaker_text = item["speaker_text"]
        
        try:
            if self.zip_file and self.zip_manifest is not None:
                found_path = self.zip_manifest.get(audio_path)
                if found_path:
                    with self.zip_file.open(found_path) as audio_file:
                        audio_data = audio_file.read()
                        waveform, sr = torchaudio.load(io.BytesIO(audio_data))
                else:
                    raise FileNotFoundError(f"Файл '{audio_path}' не найден в манифесте ZIP.")
            else:
                waveform, sr = torchaudio.load(audio_path)
                
        except Exception as e:
            print(f"⚠️ Ошибка загрузки {audio_path}: {e}")
            waveform = torch.zeros(1, 16000)
            sr = 16000
        
        if sr != self.feature_extractor.sampling_rate:
            waveform = torchaudio.functional.resample(waveform, sr, self.feature_extractor.sampling_rate)
        
        if waveform.shape[0] > 1:
            waveform = waveform.mean(dim=0, keepdim=True)
        
        waveform_np = waveform.squeeze().numpy()
        waveform_mean = np.mean(waveform_np)
        waveform_std = np.std(waveform_np)
        
        if waveform_std > 1e-8:
            waveform_np = (waveform_np - waveform_mean) / waveform_std
        
        inputs = self.feature_extractor(
            waveform_np,
            sampling_rate=self.feature_extractor.sampling_rate,
            return_tensors="pt"
        )
        
        tokens = self.tokenizer(
            speaker_text,
            return_tensors="pt",
            padding=True,
            truncation=True,
            max_length=512
        )
        return {
            "input_values": inputs.input_values.squeeze(0),
            "input_ids": tokens.input_ids.squeeze(0),
            "attention_mask": tokens.attention_mask.squeeze(0)
        }
    
    def __del__(self):
        if hasattr(self, 'zip_file') and self.zip_file:
            self.zip_file.close()

In [None]:
def compress_audio_features(audio_features, compression_rate_k):
    batch_size, seq_len, hidden_dim = audio_features.shape
    
    new_seq_len = (seq_len // compression_rate_k) * compression_rate_k
    audio_features = audio_features[:, :new_seq_len, :]
    
    reshaped = audio_features.view(batch_size, new_seq_len // compression_rate_k, compression_rate_k, hidden_dim)
    compressed = reshaped.view(batch_size, new_seq_len // compression_rate_k, compression_rate_k * hidden_dim)
    
    return compressed

In [None]:
def evaluate_with_metrics(model, projector, wav2vec2, dataloader, tokenizer, prefix_embeds, device, max_new_tokens, compression_rate_k, beam_width, temperature, top_k, top_p, repetition_penalty):
    model.eval()
    projector.eval()
    wav2vec2.eval()
    total_loss = 0.0
    total_wer = 0.0
    total_bleu = 0.0
    total_rouge_l = 0.0
    count = 0
    examples_shown = 0
    smooth = SmoothingFunction().method1
    rouge_scorer_obj = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
    
    with torch.no_grad():
        for batch in tqdm(dataloader, desc="Validation"):
            input_ids = batch["input_ids"].to(device)

            outputs, prompt_embeds = process_batch(
                batch, model, projector, wav2vec2, tokenizer, prefix_embeds, device, compression_rate_k
            )
            loss = outputs.loss
            total_loss += loss.item()

            # Keep bfloat16 for generation consistency
            prompt_embeds = prompt_embeds.to(dtype=torch.bfloat16)

            generated_ids = model.generate(
                inputs_embeds=prompt_embeds,
                max_new_tokens=max_new_tokens,
                eos_token_id=tokenizer.eos_token_id,
                pad_token_id=tokenizer.pad_token_id,
                num_beams=beam_width,
                temperature=temperature,
                do_sample=True,
                top_k=top_k,
                top_p=top_p,
                repetition_penalty=repetition_penalty,
                early_stopping=True
            )

            for j in range(generated_ids.size(0)):
                pred_text = tokenizer.decode(generated_ids[j], skip_special_tokens=True).strip()
                ref_text_ids = input_ids[j]
                ref_text_ids = ref_text_ids[ref_text_ids != -100]
                ref_text = tokenizer.decode(ref_text_ids, skip_special_tokens=True).strip()
                
                if ref_text and pred_text:
                    current_wer = jiwer.wer(ref_text, pred_text)
                    current_bleu = sentence_bleu([ref_text.split()], pred_text.split(), smoothing_function=smooth)
                    rouge_scores = rouge_scorer_obj.score(ref_text, pred_text)
                    
                    total_wer += current_wer
                    total_bleu += current_bleu
                    total_rouge_l += rouge_scores['rougeL'].fmeasure
                    count += 1
                    
                    if examples_shown < 3:
                        print(f"\nПример {examples_shown + 1}:")
                        print(f"Эталон: '{ref_text}'")
                        print(f"Генерация: '{pred_text}'")
                        print(f"WER: {current_wer:.3f}, BLEU: {current_bleu:.3f}")
                        examples_shown += 1
                    
    avg_loss = total_loss / len(dataloader)
    perplexity = torch.exp(torch.tensor(avg_loss)).item()
    avg_wer = total_wer / count if count > 0 else 0.0
    avg_bleu = total_bleu / count if count > 0 else 0.0
    avg_rouge_l = total_rouge_l / count if count > 0 else 0.0
    
    print(f"\nВалидация ({count} примеров):")
    print(f"Loss: {avg_loss:.4f}, WER: {avg_wer:.4f}, BLEU: {avg_bleu:.4f}")
    
    return {
        'loss': avg_loss, 'perplexity': perplexity,
        'wer': avg_wer, 'bleu': avg_bleu, 'rouge_l': avg_rouge_l
    }

In [None]:
device = torch.device("cuda")
model_id = "google/gemma-3-4b-pt"
audio_model_name = "facebook/wav2vec2-xls-r-300m"

batch_size = 4
num_epochs = 10
projector_learning_rate = 2e-3
lora_learning_rate = 2e-4
weight_decay = 0.1  # 🔧 Увеличено для стабилизации обучения
max_grad_norm = 10.0
gradient_accumulation_steps = 4
save_every_steps = 2000
save_latest_every_steps = 50
max_new_tokens = 70
compression_rate_k = 2
beam_width = 15
temperature = 0.6
top_k = 50
top_p = 0.9
repetition_penalty = 1.2
val_subset_size = 15
use_8bit_optimizer = True

# 🔄 Новые параметры для плавного перехода между датасетами
enable_dataset_blending = True  # Включить смешивание датасетов
transition_start_epoch = 8      # Эпоха начала перехода (с 8-й эпохи)
transition_end_epoch = 10       # Эпоха завершения перехода (10-я эпоха = 100% второй датасет)
blend_schedule = "linear"       # Тип перехода: "linear", "cosine", "exponential"

# Пути к датасетам
primary_jsonl_path = "transcripts.jsonl"     # Основной датасет
primary_zip_path = "LibriSpeech.zip"
secondary_jsonl_path = "transcripts_v2.jsonl"  # Второй датасет (можно заменить)
secondary_zip_path = "LibriSpeech_v2.zip"      # Второй ZIP (можно заменить)

input_dim = 1024
output_dim = 2560

experiment_name = f"audio_projector_{datetime.now().strftime('%Y%m%d_%H%M%S')}"
checkpoint_dir = "/home/jovyan/persistent_volume/"
resume_training = True
checkpoint_path = "/home/jovyan/persistent_volume/latest_checkpoint_bs4_epoch_1_step_2000.pt"
skip_validation = False
interactive_mode = True

wandb.init(
    project="audio-projector",
    name=experiment_name,
    config={
        "batch_size": batch_size,
        "num_epochs": num_epochs,
        "projector_learning_rate": projector_learning_rate,
        "lora_learning_rate": lora_learning_rate,
        "weight_decay": weight_decay,
        "max_grad_norm": max_grad_norm,
        "gradient_accumulation_steps": gradient_accumulation_steps,
        "max_new_tokens": max_new_tokens,
        "compression_rate_k": compression_rate_k,
        "beam_width": beam_width,
        "temperature": temperature,
        "top_k": top_k,
        "top_p": top_p,
        "repetition_penalty": repetition_penalty,
        "val_subset_size": val_subset_size,
        "input_dim": input_dim,
        "output_dim": output_dim,
        "model_id": model_id,
        "audio_model_name": audio_model_name,
        "resume_training": resume_training,
        "z_normalization": True,
        "projector_hidden_dim": 2048,
        "activation": "GELU",
        "scheduler_type": "CosineAnnealingWarmRestarts",
        "use_8bit_optimizer": use_8bit_optimizer,
        "optimizer_type": "AdamW8bit" if use_8bit_optimizer else "AdamW",
        "mse_loss_removed": "MSE loss disabled due to alignment issues",
        "enable_dataset_blending": enable_dataset_blending,
        "transition_start_epoch": transition_start_epoch,
        "transition_end_epoch": transition_end_epoch,
        "blend_schedule": blend_schedule,
        "primary_jsonl_path": primary_jsonl_path,
        "secondary_jsonl_path": secondary_jsonl_path,
        "lora_config": {
            "r": 64,
            "lora_alpha": 128,
            "target_modules": ["k_proj", "v_proj", "o_proj", "gate_proj", "up_proj"],
            "lora_dropout": 0.05
        }
    }
)

best_val_loss = float('inf')
best_checkpoint_path = None
latest_checkpoint_path = None

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True
)

hf_token = os.getenv('HF_TOKEN')
if hf_token:
    login(token=hf_token)


In [None]:
notebook_login()

tokenizer = AutoTokenizer.from_pretrained(model_id)
if tokenizer.pad_token_id is None:
    tokenizer.pad_token_id = tokenizer.eos_token_id

multi_cfg = AutoConfig.from_pretrained(model_id, token=hf_token)

text_cfg_dict = multi_cfg.text_config.to_dict()
text_cfg_dict["vocab_size"] = 262208
text_cfg_dict.update({"bos_token_id": tokenizer.bos_token_id, "eos_token_id": tokenizer.eos_token_id, "pad_token_id": tokenizer.pad_token_id})

text_cfg = Gemma3TextConfig(**text_cfg_dict)
gemma_model = Gemma3ForCausalLM.from_pretrained(
    model_id,
    config=text_cfg,
    torch_dtype=torch.bfloat16,
    quantization_config=quantization_config,
    device_map="cuda",
    token=hf_token
)

gemma_model.gradient_checkpointing_enable()
gemma_model = prepare_model_for_kbit_training(gemma_model)

lora_config = LoraConfig(
    r=64,
    lora_alpha=128,
    target_modules=["k_proj", "v_proj", "o_proj", "gate_proj", "up_proj"],
    lora_dropout=0.2,
    bias="none",
    init_lora_weights=False,
    task_type="CAUSAL_LM"
)

gemma_model = get_peft_model(gemma_model, lora_config)

# Cast lm_head to bfloat16 for consistency with the rest of the model
if hasattr(gemma_model, 'lm_head'):
    gemma_model.lm_head = gemma_model.lm_head.to(torch.bfloat16)
elif hasattr(gemma_model, 'base_model') and hasattr(gemma_model.base_model, 'lm_head'):
    gemma_model.base_model.lm_head = gemma_model.base_model.lm_head.to(torch.bfloat16)

gemma_model.eval()

In [None]:
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(audio_model_name)
wav2vec2 = Wav2Vec2Model.from_pretrained(audio_model_name)
wav2vec2 = wav2vec2.to(torch.bfloat16).to(device)
wav2vec2.eval()
for param in wav2vec2.parameters():
    param.requires_grad = False

In [None]:
projector_input_dim = input_dim * compression_rate_k
projector_hidden_dim = 2048
projector = AudioProjector(projector_input_dim, output_dim, hidden_dim=projector_hidden_dim).to(device).float()

params_to_optimize = [
    {"params": projector.parameters(), "lr": projector_learning_rate},
    {"params": gemma_model.parameters(), "lr": lora_learning_rate}
]

# Используем 8-битный оптимизатор для экономии памяти (~75% снижение использования памяти)
if use_8bit_optimizer:
    optimizer = bnb.optim.AdamW8bit(
        params_to_optimize,
        weight_decay=weight_decay,
        betas=(0.9, 0.999),
        eps=1e-8
    )
    print("✅ Используется 8-битный AdamW оптимизатор (экономия памяти ~75%)")
else:
    optimizer = optim.AdamW(
        params_to_optimize,
        weight_decay=weight_decay,
        betas=(0.9, 0.999),
        eps=1e-8
    )
    print("⚠️ Используется обычный AdamW оптимизатор")

scaler = GradScaler()
loss_fn = nn.CrossEntropyLoss(ignore_index=-100)

prefix = "Transcribe speech to text."
prefix_ids = tokenizer(prefix, return_tensors="pt").input_ids.to(device)
with torch.no_grad():
    prefix_embeds = gemma_model.get_input_embeddings()(prefix_ids).to(dtype=torch.bfloat16)

In [None]:
# 🔄 Загрузка данных с поддержкой плавного перехода между датасетами
def load_dataset_data(jsonl_path, zip_path=None):
    """Загружает и нормализует данные из JSONL файла"""
    try:
        with open(jsonl_path, "r", encoding="utf-8") as f:
            raw_data = [json.loads(line) for line in f]
        
        # Нормализация данных
        normalized_data = []
        for item in raw_data:
            normalized_item = {
                "audio_path": item.get("audio_filepath", ""),
                "speaker_text": item.get("text", ""),
                "language": item.get("language", "en"),
                "source": item.get("source", "unknown")
            }
            normalized_data.append(normalized_item)
        
        print(f"📊 Загружено {len(normalized_data)} примеров из {jsonl_path}")
        return normalized_data
    
    except FileNotFoundError:
        print(f"⚠️ Файл {jsonl_path} не найден, возвращаем пустой список")
        return []

# Загружаем основной датасет
primary_data = load_dataset_data(primary_jsonl_path, primary_zip_path)

# Загружаем второй датасет (если включено смешивание)
secondary_data = []
if enable_dataset_blending:
    secondary_data = load_dataset_data(secondary_jsonl_path, secondary_zip_path)
    if len(secondary_data) == 0:
        print(f"⚠️ Второй датасет пуст, отключаем смешивание")
        enable_dataset_blending = False

# Объединяем для train/val split
if enable_dataset_blending:
    all_data = primary_data + secondary_data  # Для создания единого val_data
    print(f"📊 Объединено {len(primary_data)} + {len(secondary_data)} = {len(all_data)} примеров")
else:
    all_data = primary_data
    print(f"📊 Используется только основной датасет: {len(all_data)} примеров")

# Создаем единый val_data из всех доступных данных
total_records = len(all_data)
_, val_data = train_test_split(all_data, test_size=0.1, random_state=42)

# 🔄 Инициализируем DatasetBlender если включено смешивание
dataset_blender = None
if enable_dataset_blending:
    # Разделяем primary_data на train/val с тем же random_state
    primary_train_data, _ = train_test_split(primary_data, test_size=0.1, random_state=42)
    secondary_train_data, _ = train_test_split(secondary_data, test_size=0.1, random_state=42)
    
    dataset_blender = DatasetBlender(
        primary_data=primary_train_data,
        secondary_data=secondary_train_data,
        transition_start_epoch=transition_start_epoch,
        transition_end_epoch=transition_end_epoch,
        blend_schedule=blend_schedule
    )
    train_data = primary_train_data  # Начинаем с основного датасета
else:
    # Обычный режим без смешивания
    train_data, _ = train_test_split(all_data, test_size=0.1, random_state=42)

val_subset_data = random.sample(val_data, min(val_subset_size, len(val_data)))

print(f"📊 Data: {len(train_data)} train, {len(val_subset_data)} val")

In [None]:
# ИСПРАВЛЕНО: пропускаем данные на уровне JSON, а не батчей!
# Это будет установлено после загрузки чекпоинта
skip_samples_from_checkpoint = 0

train_dataset = AudioTextDataset(train_data, tokenizer, feature_extractor, zip_path=primary_zip_path)
val_dataset = AudioTextDataset(val_subset_data, tokenizer, feature_extractor, zip_path=primary_zip_path)

train_loader = DataLoader(
    train_dataset,
    batch_size=batch_size,
    shuffle=True,  # Будет изменен на False при возобновлении
    collate_fn=collate_fn,
    num_workers=0,
    pin_memory=False
)
val_loader = DataLoader(
    val_dataset,
    batch_size=batch_size,
    shuffle=False,
    collate_fn=collate_fn,
    num_workers=0,
    pin_memory=False
)

print(f"🔧 DataLoaders: {len(train_loader)} train, {len(val_loader)} val batches")


In [None]:
wav2vec2 = wav2vec2.to(device)
projector = projector.to(device)
gemma_model = gemma_model.to(device)

total_steps = num_epochs * len(train_loader) // gradient_accumulation_steps

def calculate_restart_period(base_examples, batch_size, grad_accum_steps):
    """
    Рассчитывает период рестарта в шагах оптимизации.
    
    Args:
        base_examples: Базовое количество примеров до рестарта
        batch_size: Текущий физический размер батча
        grad_accum_steps: Количество шагов градиентного накопления
    
    Returns:
        int: Количество шагов оптимизации до рестарта
    """
    actual_batch_size = batch_size * grad_accum_steps
    restart_steps = max(1, base_examples // actual_batch_size)
    return restart_steps

base_examples = 30000
adaptive_restart_period = calculate_restart_period(
    base_examples=base_examples,
    batch_size=batch_size,
    grad_accum_steps=gradient_accumulation_steps
)

scheduler = CosineAnnealingWarmRestarts(
    optimizer,
    T_0=adaptive_restart_period,
    T_mult=1,
    eta_min=1e-6
)

print(f"🔧 Training: {total_steps} steps, LR({projector_learning_rate}/{lora_learning_rate}), GradAcc({gradient_accumulation_steps})")
print(f"🔄 Scheduler: CosineAnnealingWarmRestarts с периодом {adaptive_restart_period} шагов")

os.makedirs(checkpoint_dir, exist_ok=True)
logger = TrainingLogger(experiment_name, checkpoint_dir)

In [None]:
def get_gpu_memory_stats(device):
    """Получить статистику использования GPU памяти"""
    if not torch.cuda.is_available():
        return None, None, None
    
    try:
        allocated = torch.cuda.memory_allocated(device) / 1024**3  # GB
        reserved = torch.cuda.memory_reserved(device) / 1024**3   # GB
        
        # Попытаемся получить общий объем GPU памяти
        gpu_properties = torch.cuda.get_device_properties(device)
        total_memory = gpu_properties.total_memory / 1024**3  # GB
        
        return allocated, reserved, total_memory
    except Exception as e:
        print(f"⚠️ Ошибка получения GPU статистики: {e}")
        return None, None, None

def light_gpu_cleanup(device):
    """
    Легкая очистка GPU памяти, которая не удаляет переменные,
    а только очищает кэш и собирает мусор.
    """
    import gc
    import torch
    if not torch.cuda.is_available():
        print("🧹 GPU недоступен, выполняется только сборка мусора.")
        gc.collect()
        return

    # Синхронизация для завершения всех текущих операций
    torch.cuda.synchronize(device)
    
    # Сбор мусора Python
    gc.collect()
    
    # Очистка кэша PyTorch
    torch.cuda.empty_cache()
    
    # Дополнительная очистка для межпроцессного взаимодействия
    torch.cuda.ipc_collect()
    
    # Сброс статистики для более точного мониторинга
    torch.cuda.reset_peak_memory_stats(device)
    torch.cuda.reset_accumulated_memory_stats(device)
    
    print(f"🧹 Легкая очистка GPU завершена.")

In [None]:
def get_gpu_memory_stats(device):
    """Получить статистику использования GPU памяти"""
    if not torch.cuda.is_available():
        return None, None, None
    
    try:
        allocated = torch.cuda.memory_allocated(device) / 1024**3  # GB
        reserved = torch.cuda.memory_reserved(device) / 1024**3   # GB
        
        # Попытаемся получить общий объем GPU памяти
        gpu_properties = torch.cuda.get_device_properties(device)
        total_memory = gpu_properties.total_memory / 1024**3  # GB
        
        return allocated, reserved, total_memory
    except Exception as e:
        print(f"⚠️ Ошибка получения GPU статистики: {e}")
        return None, None, None

def get_model_memory_footprint(model: nn.Module, trainable_only: bool = False) -> float:
    """Calculates the memory footprint of a model's parameters in megabytes."""
    total_bytes = 0
    for param in model.parameters():
        if trainable_only and not param.requires_grad:
            continue
        total_bytes += param.nelement() * param.element_size()
    return total_bytes / 1024**2

def light_gpu_cleanup(device):
    """
    Легкая очистка GPU памяти, которая не удаляет переменные,
    а только очищает кэш и собирает мусор.
    """
    import gc
    import torch
    if not torch.cuda.is_available():
        print("🧹 GPU недоступен, выполняется только сборка мусора.")
        gc.collect()
        return

    # Синхронизация для завершения всех текущих операций
    torch.cuda.synchronize(device)
    
    # Сбор мусора Python
    gc.collect()
    
    # Очистка кэша PyTorch
    torch.cuda.empty_cache()
    
    # Дополнительная очистка для межпроцессного взаимодействия
    torch.cuda.ipc_collect()
    
    # Сброс статистики для более точного мониторинга
    torch.cuda.reset_peak_memory_stats(device)
    torch.cuda.reset_accumulated_memory_stats(device)
    
    print(f"🧹 Легкая очистка GPU завершена.")


In [None]:
def find_latest_checkpoint(checkpoint_dir):
    pattern = os.path.join(checkpoint_dir, "latest_checkpoint_bs*_epoch*_step*.pt")    
    checkpoints = glob.glob(pattern) 
    return max(checkpoints, key=os.path.getctime) if checkpoints else None

def find_best_checkpoint(checkpoint_dir):
    pattern = os.path.join(checkpoint_dir, "best_checkpoint_bs*_step*.pt")
    checkpoints = glob.glob(pattern)
    return checkpoints[0] if checkpoints else None

def save_checkpoint(step, epoch, batch_idx=0, is_best=False):
    global best_checkpoint_path
    
    checkpoint_data = {
        'step': step,
        'epoch': epoch,
        'batch_idx': batch_idx,
        'projector_state_dict': projector.state_dict(),
        'lora_state_dict': gemma_model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict(),
        'scheduler_state_dict': scheduler.state_dict(),
        'best_val_loss': best_val_loss,
        'config': {
            'projector_learning_rate': projector_learning_rate,
            'lora_learning_rate': lora_learning_rate,
            'weight_decay': weight_decay,
            'max_grad_norm': max_grad_norm,
            'batch_size': batch_size,
            'compression_rate_k': compression_rate_k,
            'input_dim': input_dim,
            'output_dim': output_dim,
            'experiment_name': experiment_name,
            'lora_config': {
                'r': 64,
                'lora_alpha': 128,
                'target_modules': ["k_proj", "v_proj", "o_proj", "gate_proj", "up_proj"],
                'lora_dropout': 0.05
            }
        }
    }
    
    if is_best:
        if best_checkpoint_path and os.path.exists(best_checkpoint_path):
            os.remove(best_checkpoint_path)
        
        best_checkpoint_path = os.path.join(checkpoint_dir, f"best_checkpoint_bs{batch_size}_step_{step}.pt")
        torch.save(checkpoint_data, best_checkpoint_path)
        print_ephemeral(f"🏆 Лучший чекпоинт сохранен: best_checkpoint_bs{batch_size}_step_{step}.pt")
    else:
        checkpoint_path = os.path.join(checkpoint_dir, f"checkpoint_bs{batch_size}_step_{step}.pt")
        torch.save(checkpoint_data, checkpoint_path)
        print_ephemeral(f"💾 Чекпоинт сохранен: checkpoint_bs{batch_size}_step_{step}.pt")

def save_latest_checkpoint(step, epoch, batch_idx=0):
    global latest_checkpoint_path
    
    checkpoint_data = {
        'step': step,
        'epoch': epoch,
        'batch_idx': batch_idx,
        'projector_state_dict': projector.state_dict(),
        'lora_state_dict': gemma_model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict(),
        'scheduler_state_dict': scheduler.state_dict(),
        'best_val_loss': best_val_loss,
        'config': {
            'projector_learning_rate': projector_learning_rate,
            'lora_learning_rate': lora_learning_rate,
            'weight_decay': weight_decay,
            'max_grad_norm': max_grad_norm,
            'batch_size': batch_size,
            'compression_rate_k': compression_rate_k,
            'input_dim': input_dim,
            'output_dim': output_dim,
            'experiment_name': experiment_name,
            'lora_config': {
                'r': 64,
                'lora_alpha': 128,
                'target_modules': ["k_proj", "v_proj", "o_proj", "gate_proj", "up_proj"],
                'lora_dropout': 0.05
            }
        }
    }
    
    if latest_checkpoint_path and os.path.exists(latest_checkpoint_path):
        os.remove(latest_checkpoint_path)
    
    latest_checkpoint_path = os.path.join(checkpoint_dir, f"latest_checkpoint_bs{batch_size}_epoch_{epoch}_step_{step}.pt")
    torch.save(checkpoint_data, latest_checkpoint_path)
    
    print_ephemeral(f"📄 Последний чекпоинт: bs{batch_size}_epoch_{epoch}_step_{step}")

def print_ephemeral(message):
    """Печатает сообщение которое заменяется следующим принтом"""
    print(f"\r{' ' * 120}\r{message}", end="", flush=True)

def print_vanishing(message):
    print(f"\r{message}", end="", flush=True)

def check_user_input():
    global skip_validation
    
    try:
        import sys
        import select
        if sys.stdin in select.select([sys.stdin], [], [], 0)[0]:
            user_input = sys.stdin.readline().strip().lower()
            
            if user_input == 's':
                skip_validation = True
                print("\rПропуск валидации на следующем шаге", end="", flush=True)
    except:
        pass

In [None]:
start_epoch = 0
global_step = 0
batch_idx = 0

if resume_training:
    if os.path.exists(checkpoint_path):
        checkpoint_epoch, global_step, batch_idx = load_checkpoint(checkpoint_path, projector, gemma_model, optimizer, scheduler, device, batch_size)
        start_epoch = checkpoint_epoch - 1
        
        # ИСПРАВЛЕННАЯ ЛОГИКА: детерминированное перемешивание + правильный пропуск
        print(f"🔄 Возобновление с эпохи {start_epoch + 1}, шага {global_step}, batch_idx {batch_idx}")
        
        # Создаем детерминированные индексы для эпохи возобновления
        random_state = random.Random(start_epoch * 12345)  # Фиксированный seed для эпохи
        shuffled_indices = list(range(len(train_data)))
        random_state.shuffle(shuffled_indices)
        
        # Вычисляем индекс в датасете, откуда продолжать
        batches_to_skip = batch_idx
        samples_to_skip = batches_to_skip * batch_size
        
        if samples_to_skip < len(shuffled_indices):
            # Берем оставшиеся индексы (НЕ теряем пропущенные данные!)
            remaining_indices = shuffled_indices[samples_to_skip:]
            remaining_train_data = [train_data[i] for i in remaining_indices]
            
            print(f"⚡ Детерминированно перемешано {len(train_data)} примеров")
            print(f"📊 Пропускаем первые {samples_to_skip} индексов, осталось: {len(remaining_train_data)} примеров")
            
            # Пересоздаем датасет с оставшимися данными по правильным индексам
            train_dataset = AudioTextDataset(remaining_train_data, tokenizer, feature_extractor, zip_path=primary_zip_path)
            train_loader = DataLoader(
                train_dataset,
                batch_size=batch_size,
                shuffle=False,  # НЕ перемешиваем - индексы уже детерминированно перемешаны
                collate_fn=collate_fn,
                num_workers=0,
                pin_memory=False
            )
            print(f"🔧 Обновлен DataLoader: {len(train_loader)} батчей")
        else:
            print(f"⚠️ Нужно пропустить {samples_to_skip} примеров, но в эпохе только {len(shuffled_indices)}")
            print("🔄 Переходим к следующей эпохе")
            start_epoch += 1
            batch_idx = 0
    else:
        resume_training = False
else:
    batch_idx = 0

print(f"🚀 Audio Projector | {wandb.run.project}/{wandb.run.name} | {'Resume' if resume_training else 'New'}")

In [None]:
for epoch in range(start_epoch, num_epochs):
    epoch_header = f"\n{'='*50}\n"
    epoch_header += f"🔄 ЭПОХА {epoch+1}/{num_epochs}\n"
    epoch_header += f"{'='*50}"
    print_vanishing(epoch_header)
    
    projector.train()
    wav2vec2.eval()
    gemma_model.eval()
    
    is_resumed_epoch = resume_training and epoch == start_epoch
    
    # 🔄 Создание датасета с поддержкой плавного перехода
    if is_resumed_epoch:
        print(f"🔄 Эпоха {epoch+1}: продолжение с предварительно созданным DataLoader ({len(train_loader)} батчей)")
        print(f"📊 Начинаем с batch_idx={batch_idx}, global_step={global_step}")
    elif not is_resumed_epoch:
        if dataset_blender is not None:
            # Используем DatasetBlender для смешивания датасетов
            current_train_data, blend_ratio = dataset_blender.create_blended_dataset(
                current_epoch=epoch,
                random_seed=epoch * 12345
            )
            
            # Логируем метрики смешивания
            wandb.log({
                "dataset/blend_ratio": float(blend_ratio),
                "dataset/primary_examples": int(len(current_train_data) * (1 - blend_ratio)),
                "dataset/secondary_examples": int(len(current_train_data) * blend_ratio),
                "dataset/total_examples": int(len(current_train_data)),
                "dataset/epoch": int(epoch + 1)
            })
            
            # Выбираем правильный ZIP файл в зависимости от преобладающего датасета
            current_zip_path = secondary_zip_path if blend_ratio > 0.5 else primary_zip_path
        else:
            # Обычная логика без смешивания
            random_state = random.Random(epoch * 12345)  # Уникальный seed для каждой эпохи
            shuffled_indices = list(range(len(train_data)))
            random_state.shuffle(shuffled_indices)
            current_train_data = [train_data[i] for i in shuffled_indices]
            current_zip_path = primary_zip_path
            print(f"🔄 Эпоха {epoch+1}: детерминированно перемешано {len(current_train_data)} примеров")
        
        train_dataset = AudioTextDataset(current_train_data, tokenizer, feature_extractor, zip_path=current_zip_path)
        train_loader = DataLoader(
            train_dataset,
            batch_size=batch_size,
            shuffle=False,  # Данные уже детерминированно перемешаны
            collate_fn=collate_fn,
            num_workers=0,
            pin_memory=False
        )
    
    first_batch_logged = False
    accumulated_loss = 0.0

    progress_bar = tqdm(
        enumerate(train_loader), 
        total=len(train_loader),
        initial=batch_idx if is_resumed_epoch else 0,
        desc="Epoch " + str(epoch+1),
        leave=True,
        position=0,
        dynamic_ncols=True
    )

    for batch_idx, batch in progress_bar:
        try:
            # Простой и правильный расчет: global_step уже учитывает все предыдущие шаги
            # batch_idx из enumerate идет 0, 1, 2... для текущего DataLoader
            real_batch_number = global_step + batch_idx
            
            if not first_batch_logged:
                wandb.log({
                    "batch/audio_seq_len": int(batch['input_values'].shape[1]),
                    "batch/audio_batch_size": int(batch['input_values'].shape[0]),
                    "batch/text_seq_len": int(batch['input_ids'].shape[1]),
                    "batch/text_batch_size": int(batch['input_ids'].shape[0]),
                    "batch/grad_accum_steps": int(gradient_accumulation_steps)
                })
                first_batch_logged = True
                    
            current_global_step = real_batch_number
            
            outputs, _ = process_batch(
                batch, gemma_model, projector, wav2vec2, tokenizer, prefix_embeds, device, compression_rate_k
            )
            loss = outputs.loss
            del outputs  # Освобождаем память от логитов
            
            loss = loss / gradient_accumulation_steps
            accumulated_loss += loss.item()
            
        except torch.cuda.OutOfMemoryError:
            print_ephemeral(f"🔥 OOM шаг {current_global_step}, аудио: {batch['input_values'].shape}, текст: {batch['input_ids'].shape}")
            force_gpu_cleanup()
            wandb.log({
                "train/oom_skipped_batch": 1,
                "train/oom_audio_shape": str(batch['input_values'].shape),
                "train/oom_text_shape": str(batch['input_ids'].shape),
                "step": current_global_step
            })

        if not hasattr(projector, '_gpu_logged') and torch.cuda.is_available():
            projector._gpu_logged = True
            gpu_memory = torch.cuda.memory_allocated(device) / 1024**3
            gpu_memory_reserved = torch.cuda.memory_reserved(device) / 1024**3
            gpu_memory_max = torch.cuda.max_memory_allocated(device) / 1024**3
            
            # Numeric memory utilization classification  
            memory_util_numeric = 3.0 if gpu_memory > 20 else 2.0 if gpu_memory >= 8 else 1.0
            
            wandb.log({
                "gpu/memory_allocated_gb": float(gpu_memory),
                "gpu/memory_reserved_gb": float(gpu_memory_reserved),
                "gpu/memory_peak_gb": float(gpu_memory_max),
                "gpu/batch_size": int(batch_size),
                "gpu/memory_utilization_level": memory_util_numeric  # 1=low, 2=optimal, 3=high
            })
                
        scaler.scale(loss).backward()
        
        if (batch_idx + 1) % gradient_accumulation_steps == 0:
            scaler.unscale_(optimizer)
            
            # Вычисляем норму градиентов ДО clipping'а для диагностики
            grad_norm_before_clip = 0.0
            for param in projector.parameters():
                if param.grad is not None:
                    grad_norm_before_clip += param.grad.data.norm(2).item() ** 2
            grad_norm_before_clip = grad_norm_before_clip ** 0.5
            
            # Применяем clipping
            grad_norm = torch.nn.utils.clip_grad_norm_(projector.parameters(), max_grad_norm)
            
            # Определяем был ли clipping
            was_clipped = grad_norm_before_clip > max_grad_norm
            

            projector_l2_norm = projector.get_l2_norm()
            
            scaler.step(optimizer)
            scaler.update()
            scheduler.step()
            optimizer.zero_grad()
            
            current_lr_list = scheduler.get_last_lr()  # Получаем весь список LR
            
            # --- Детальная диагностика памяти ---
            gpu_memory_used, gpu_memory_reserved, gpu_memory_total = get_gpu_memory_stats(device)
            
            memory_breakdown = {}
            memory_breakdown['projector'] = get_model_memory_footprint(projector)
            memory_breakdown['lora_adapter'] = get_model_memory_footprint(gemma_model, trainable_only=True)
            memory_breakdown['wav2vec2'] = get_model_memory_footprint(wav2vec2)

            trainable_params_count = sum(p.nelement() for p in projector.parameters() if p.requires_grad) + sum(p.nelement() for p in gemma_model.parameters() if p.requires_grad)
            memory_breakdown['optimizer_state'] = (trainable_params_count * 2) / 1024**2

            total_allocated_mb = gpu_memory_used * 1024 if gpu_memory_used is not None else 0
            model_related_mb = sum(memory_breakdown.values())
            memory_breakdown['activations_grads_misc'] = max(0, total_allocated_mb - model_related_mb)
            # --- Конец диагностики ---
            
            # Добавляем дополнительные метрики градиентов к memory_breakdown
            memory_breakdown['grad_norm_before_clip'] = grad_norm_before_clip
            memory_breakdown['grad_norm_after_clip'] = grad_norm.item()
            memory_breakdown['was_clipped'] = was_clipped
            memory_breakdown['clipping_ratio'] = grad_norm.item() / max(grad_norm_before_clip, 1e-8)
            
            logger.log_step(
                current_global_step, 
                accumulated_loss, 
                current_lr_list,  # Передаем весь список
                grad_norm.item(),
                projector_l2_norm,
                gpu_memory_used,
                gpu_memory_reserved,
                gpu_memory_total,
                memory_breakdown
            )
            
            clip_info = f"[CLIPPED {grad_norm_before_clip:.2f}→{grad_norm.item():.2f}]" if was_clipped else ""
            metrics_str = f"Loss={accumulated_loss:.4f}, LR-Proj={current_lr_list[0]:.2e}, LR-LoRA={current_lr_list[1]:.2e}, GN={grad_norm.item():.2f}{clip_info}, L2={projector_l2_norm:.1f}"
            mem_str = f"Mem(MB):Alloc={total_allocated_mb:.0f},Act={memory_breakdown['activations_grads_misc']:.0f}"
            progress_bar.set_postfix_str(f"{metrics_str} | {mem_str}")
            
            if current_global_step % 50 == 0:
                progress_bar.write(f"📊 Step {current_global_step}: {metrics_str} | {mem_str}")
            
            accumulated_loss = 0.0
        
        check_user_input()
        
        if current_global_step % save_latest_every_steps == 0:
            save_latest_checkpoint(current_global_step, epoch + 1, batch_idx)
            # Отладочная информация для понимания сохранения
            if current_global_step % 100 == 0:  # Каждые 100 шагов
                print_ephemeral(f"💾 Сохранен чекпоинт: epoch={epoch+1}, global_step={current_global_step}, batch_idx={batch_idx}")
        
        if current_global_step % save_every_steps == 0:
            if skip_validation:
                skip_validation = False
            else:
                val_metrics = evaluate_with_metrics(
                    gemma_model, projector, wav2vec2, val_loader, 
                    tokenizer, prefix_embeds, device, max_new_tokens, compression_rate_k,
                    beam_width, temperature, top_k, top_p, repetition_penalty
                )
            
                logger.log_validation(current_global_step, val_metrics)
                
                is_best = val_metrics['loss'] < best_val_loss
                if is_best:
                    best_val_loss = val_metrics['loss']
                    print_ephemeral(f"🏆 Новый лучший результат! Loss: {best_val_loss:.4f}")
                
                save_checkpoint(current_global_step, epoch + 1, batch_idx, is_best)
                
                del val_metrics
                torch.cuda.empty_cache()
                
                projector.train()
    
    if is_resumed_epoch:
        resume_training = False
        print_vanishing("✅ Эпоха " + str(epoch+1) + " завершена, переходим к обычному режиму")

In [None]:
print_ephemeral("🎉 Обучение завершено! Финальная валидация...")

full_val_dataset = AudioTextDataset(val_data, tokenizer, feature_extractor, zip_path=zip_path)
full_val_loader = DataLoader(full_val_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

final_val_metrics = evaluate_with_metrics(
    gemma_model, projector, wav2vec2, full_val_loader, 
    tokenizer, prefix_embeds, device, max_new_tokens, compression_rate_k,
    beam_width, temperature, top_k, top_p, repetition_penalty
)

# Финальные результаты показываем эфемерно
print_ephemeral(f"📊 Final: Loss={final_val_metrics['loss']:.4f} PPL={final_val_metrics['perplexity']:.2f} WER={final_val_metrics['wer']:.3f}")

logger.log_validation(global_step, final_val_metrics)

del final_val_metrics, full_val_dataset, full_val_loader
torch.cuda.empty_cache()

logger.save_logs()

final_model_path = os.path.join(checkpoint_dir, "final_projector.pt")
torch.save(projector.state_dict(), final_model_path)
print_ephemeral(f"🏆 Модель сохранена: {final_model_path}")

wandb.finish()
torch.cuda.empty_cache()
gc.collect()
print_ephemeral("✅ Завершено")

In [None]:
print_ephemeral("🎉 Обучение завершено! Финальная валидация...")

full_val_dataset = AudioTextDataset(val_data, tokenizer, feature_extractor, zip_path=zip_path)
full_val_loader = DataLoader(full_val_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)

final_val_metrics = evaluate_with_metrics(
    gemma_model, projector, wav2vec2, full_val_loader, 
    tokenizer, prefix_embeds, device, max_new_tokens, compression_rate_k,
    beam_width, temperature, top_k, top_p, repetition_penalty
)

# Финальные результаты показываем эфемерно
print_ephemeral(f"📊 Final: Loss={final_val_metrics['loss']:.4f} PPL={final_val_metrics['perplexity']:.2f} WER={final_val_metrics['wer']:.3f}")

logger.log_validation(global_step, final_val_metrics)

del final_val_metrics, full_val_dataset, full_val_loader
torch.cuda.empty_cache()

logger.save_logs()

final_model_path = os.path.join(checkpoint_dir, "final_projector.pt")
torch.save(projector.state_dict(), final_model_path)
print_ephemeral(f"🏆 Модель сохранена: {final_model_path}")

wandb.finish()
torch.cuda.empty_cache()
gc.collect()
print_ephemeral("✅ Завершено")

In [None]:
# 🚀 ОБНОВЛЕННЫЙ КОД ДЛЯ БОРЬБЫ СО СТАГНАЦИЕЙ ОБУЧЕНИЯ

## ✅ Все новые изменения для выхода из локальных минимумов:

### 1. **🚫 MSE Loss убран из-за фундаментальных проблем**
- ❌ **Проблема выравнивания**: Невозможно корректно сопоставить непрерывный аудио-поток с дискретными токенами
- ❌ **Игнорирование LLM**: MSE не учитывает внутреннюю логику замороженной Gemma 
- ❌ **Косвенная оптимизация**: L2-близость эмбеддингов не гарантирует высокую вероятность правильного токена
- ✅ **Решение**: Используем только Cross-Entropy loss для end-to-end обучения через LLM

### 2. **🔄 CosineAnnealingWarmRestarts для выхода из локальных минимумов**
- ✅ **Заменен OneCycleLR**: Теперь используется CosineAnnealingWarmRestarts
- ✅ **Частые рестарты**: T_0=250 шагов (~каждые 15 минут обучения)
- ✅ **Константный период**: T_mult=1 (период не увеличивается)
- ✅ **Минимальный LR**: 1e-6 перед каждым рестартом
- ✅ **Выход из минимумов**: Регулярные скачки LR помогают выйти из локальных минимумов

### 3. **🚀 Увеличенный Learning Rate в 3 раза**
- ✅ **С 1e-3 до 3e-3**: Агрессивный подход для преодоления стагнации
- ✅ **Больше свободы**: Проектор получает больше энергии для изменений
- ✅ **Сочетание с рестартами**: LR периодически сбрасывается, предотвращая расхождение

### 4. **📊 Очищенное логирование и мониторинг**
- ✅ **Убран MSE Loss**: Больше не отслеживается избыточный MSE loss
- ✅ **Все метрики**: Projector L2 norm, weight update ratio, gradient norm
- ✅ **Scheduler type**: Flexibile выбор между "onecycle" и "cosine_restarts"
- ✅ **Restart параметры**: T_0, T_mult, eta_min в конфигурации

### 5. **🔧 Централизованные гиперпараметры для scheduler**
- ✅ **scheduler_type**: Легкое переключение между подходами
- ✅ **cosine_restart_period**: Настройка периода рестарта
- ✅ **cosine_restart_mult**: Контроль роста периода
- ✅ **cosine_eta_min**: Минимальный LR для рестартов
- 🚫 **mse_loss_weight**: Убран вместе с MSE loss

## 🎯 Механизм борьбы со стагнацией:

**ПРОБЛЕМА**: Train loss быстро падает с 6-7 до ~3.5, затем стагнирует  
**ПРИЧИНА**: Маленький проектор (7M параметров) быстро находит локальный минимум  

**РЕШЕНИЯ**:
1. **🚫 Убран MSE Loss**: Избегаем проблем с выравниванием, доверяем LLM feedback
2. **🔄 Warm Restarts**: Периодические "толчки" LR для выхода из локальных минимумов  
3. **🚀 3x Learning Rate**: Больше энергии для изменения весов
4. **📊 Мониторинг**: Отслеживание всех ключевых метрик для диагностики

## 📈 Ожидаемые улучшения:

1. **📉 Преодоление стагнации**: Loss должен продолжать падать после ~3.5
2. **🎯 Лучший WER**: Чистый end-to-end сигнал от LLM без искажений от MSE
3. **🔄 Стабильное обучение**: Рестарты предотвращают застревание
4. **⚡ Фокус на Cross-Entropy**: Проектор учится "говорить" на языке LLM

## 🚀 Готово к запуску с агрессивными настройками против стагнации!