# Вычисление WER для TTS модели

**Примечание:** WER (Word Error Rate) обычно используется для оценки ASR моделей, но по требованию задания мы вычисляем WER для TTS модели следующим образом:
1. Синтезируем аудио из текста через TTS модель
2. Распознаем синтезированное аудио через ASR модель (Whisper)
3. Сравниваем оригинальный текст с распознанным текстом через WER

Это позволяет оценить качество синтеза речи косвенно - если синтезированное аудио распознается с низким WER, значит синтез качественный.


## Импорты и настройка


In [None]:
import os
import json
import glob
import wave
import shutil
from pathlib import Path
from typing import List, Optional

import numpy as np
from tqdm.auto import tqdm

print("✓ Базовые импорты загружены")


## Установка зависимостей


In [None]:
# Установка Whisper для ASR (если не установлен)
print("="*60)
print("УСТАНОВКА И ПРОВЕРКА ЗАВИСИМОСТЕЙ")
print("="*60)

try:
    import whisper
    print("✓ Whisper уже установлен")
except ImportError:
    print("Установка Whisper...")
    %pip install openai-whisper -q
    import whisper
    print("✓ Whisper установлен")

try:
    from piper import PiperVoice
    print("✓ Piper уже установлен")
except ImportError:
    print("Установка Piper...")
    %pip install piper-tts -q
    from piper import PiperVoice
    print("✓ Piper установлен")

try:
    from jiwer import wer
    print("✓ jiwer уже установлен")
except ImportError:
    print("Установка jiwer...")
    %pip install jiwer -q
    from jiwer import wer
    print("✓ jiwer установлен")

print("\n✓ Все зависимости готовы")


## Поиск TTS модели и конфигурации


In [None]:
print("="*60)
print("ПОИСК TTS МОДЕЛИ")
print("="*60)

# Определяем корневую директорию (где находится этот ноутбук)
# В Jupyter ноутбуке используем текущую рабочую директорию
NOTEBOOK_DIR = os.getcwd()

print(f"Корневая директория: {NOTEBOOK_DIR}")

# Возможные места для поиска модели
# ПРИОРИТЕТ: сначала ищем в tts_data (обученная модель), потом в examples (примеры от преподавателя)
possible_model_paths = [
    # Сначала ищем в tts_data (обученная модель)
    os.path.join(NOTEBOOK_DIR, "tts_data", "final_model", "final_model.onnx"),
    os.path.join(NOTEBOOK_DIR, "tts_data", "**", "*.onnx"),
    # Потом в examples (примеры от преподавателя)
    os.path.join(NOTEBOOK_DIR, "examples", "nataha_ruslan.onnx"),
    os.path.join(NOTEBOOK_DIR, "examples", "*.onnx"),
]

# Ищем ONNX модель
onnx_model_path = None
onnx_config_path = None

for path_pattern in possible_model_paths:
    if '*' in path_pattern:
        # Глоб паттерн
        matches = glob.glob(path_pattern, recursive=True)
        if matches:
            # Берем первый найденный
            onnx_model_path = matches[0]
            print(f"✓ Найдена модель (glob): {onnx_model_path}")
            break
    else:
        # Прямой путь
        if os.path.exists(path_pattern):
            onnx_model_path = path_pattern
            print(f"✓ Найдена модель: {onnx_model_path}")
            break

if not onnx_model_path:
    print("⚠️  ONNX модель не найдена автоматически")
    print("\nПроверяемые пути:")
    for path in possible_model_paths:
        exists = "✓" if os.path.exists(path) else "✗"
        print(f"  {exists} {path}")
    print("\nПожалуйста, укажите путь к модели вручную в следующей ячейке")
else:
    # Ищем конфигурационный файл
    # ПРИОРИТЕТ: сначала ищем рядом с моделью, потом в tts_data, потом в examples
    config_candidates = [
        onnx_model_path + ".json",  # Рядом с моделью
        os.path.join(os.path.dirname(onnx_model_path), "nata_config.json"),
        os.path.join(NOTEBOOK_DIR, "tts_data", "nata_config.json"),  # В tts_data
        os.path.join(NOTEBOOK_DIR, "examples", "nata_config.json"),  # В examples (примеры)
    ]
    
    for config_path in config_candidates:
        if os.path.exists(config_path):
            onnx_config_path = config_path
            print(f"✓ Найден конфиг: {onnx_config_path}")
            break
    
    if not onnx_config_path:
        print("⚠️  Конфигурационный файл не найден, модель может загрузиться без него")

print(f"\n{'='*60}")


In [None]:
print("="*60)
print("ЗАГРУЗКА TTS МОДЕЛИ")
print("="*60)

if not onnx_model_path:
    print("⚠️  Модель не найдена. Пожалуйста, укажите путь вручную:")
    print("   onnx_model_path = '/path/to/model.onnx'")
    print("   onnx_config_path = '/path/to/model.onnx.json'  # опционально")
    voice = None
else:
    try:
        print(f"Загрузка модели: {onnx_model_path}")
        if onnx_config_path:
            print(f"Использование конфига: {onnx_config_path}")
            voice = PiperVoice.load(onnx_model_path, config_path=onnx_config_path, use_cuda=True)
        else:
            print("Загрузка без конфига...")
            voice = PiperVoice.load(onnx_model_path, use_cuda=True)
        print("✓ TTS модель успешно загружена")
    except Exception as e:
        print(f"✗ Ошибка при загрузке модели: {e}")
        import traceback
        traceback.print_exc()
        voice = None

print(f"\n{'='*60}")


## Инициализация ASR модели (Whisper)


In [None]:
print("="*60)
print("ИНИЦИАЛИЗАЦИЯ ASR МОДЕЛИ (WHISPER)")
print("="*60)

print("Загрузка модели Whisper для распознавания...")
try:
    asr_model = whisper.load_model("base")  # Используем base для баланса скорости и качества
    print("✓ Модель Whisper загружена")
except Exception as e:
    print(f"✗ Ошибка при загрузке Whisper: {e}")
    import traceback
    traceback.print_exc()
    asr_model = None

# Функция для распознавания аудио
def transcribe_audio_with_whisper(audio_path: str) -> str:
    """Распознает аудио через Whisper."""
    if asr_model is None:
        return ""
    
    try:
        result = asr_model.transcribe(audio_path, language="ru")
        return result["text"].strip()
    except Exception as e:
        print(f"Ошибка при распознавании {audio_path}: {e}")
        return ""

print("\n✓ ASR модель готова к использованию")
print(f"\n{'='*60}")


## Подготовка тестовых данных


In [None]:
print("="*60)
print("ПОДГОТОВКА ТЕСТОВЫХ ДАННЫХ")
print("="*60)

# Функция для вычисления WER
def calculate_wer(true_text: str, predicted_text: str) -> float:
    """Вычисляет Word Error Rate между двумя текстами."""
    try:
        from jiwer import wer
        return wer(true_text, predicted_text)
    except:
        # Простая реализация, если jiwer не работает
        true_words = true_text.lower().split()
        pred_words = predicted_text.lower().split()
        
        if len(true_words) == 0:
            return 1.0 if len(pred_words) > 0 else 0.0
        
        errors = sum(1 for t, p in zip(true_words, pred_words) if t != p)
        errors += abs(len(true_words) - len(pred_words))
        return errors / len(true_words)

# Тестовые тексты для синтеза
# Можно заменить на загрузку из файла или использовать свои
test_texts = [
    "Привет, как дела?",
    "Распознавание и синтез речи это интересная область.",
    "Сегодня хорошая погода.",
    "Машинное обучение помогает создавать умные системы.",
    "Нейронные сети используются для обработки естественного языка.",
    "Технологии искусственного интеллекта развиваются очень быстро.",
    "Голосовые помощники становятся все более популярными.",
    "Синтез речи позволяет компьютерам говорить как люди.",
    "Качество синтеза речи постоянно улучшается.",
    "Современные модели могут генерировать очень естественную речь.",
]

# Пробуем найти тестовые данные из CSV файлов
possible_csv_paths = [
    os.path.join(NOTEBOOK_DIR, "tts_data", "valid.csv"),
    os.path.join(NOTEBOOK_DIR, "tts_data", "test.csv"),
    os.path.join(NOTEBOOK_DIR, "**", "valid.csv"),
    os.path.join(NOTEBOOK_DIR, "**", "test.csv"),
]

csv_data = []
csv_path = None

for path_pattern in possible_csv_paths:
    if '*' in path_pattern:
        matches = glob.glob(path_pattern, recursive=True)
        if matches:
            csv_path = matches[0]
            break
    else:
        if os.path.exists(path_pattern):
            csv_path = path_pattern
            break

if csv_path:
    print(f"✓ Найден CSV файл: {csv_path}")
    print("Загрузка данных из CSV...")
    try:
        with open(csv_path, 'r', encoding='utf-8') as f:
            for line in f:
                line = line.strip()
                if '|' in line:
                    # Формат: audio_file|text
                    parts = line.split('|', 1)
                    if len(parts) == 2:
                        csv_data.append(parts[1])  # Текст
        print(f"✓ Загружено {len(csv_data)} текстов из CSV")
        if len(csv_data) > 0:
            # Используем данные из CSV, ограничиваем до 50 примеров
            test_texts = csv_data[:50]
            print(f"Используем {len(test_texts)} примеров из CSV")
    except Exception as e:
        print(f"⚠️  Ошибка при чтении CSV: {e}")
        print("Используем стандартные тестовые тексты")
else:
    print("⚠️  CSV файл не найден, используем стандартные тестовые тексты")
    print(f"Количество тестовых текстов: {len(test_texts)}")

print(f"\nИтого тестовых примеров: {len(test_texts)}")
print(f"\n{'='*60}")


In [None]:
print("="*60)
print("ВЫЧИСЛЕНИЕ WER ДЛЯ TTS МОДЕЛИ")
print("="*60)

# Проверяем, что модели загружены
if not voice:
    print("⚠️  TTS модель не загружена. Невозможно вычислить WER.")
    print("   Убедитесь, что модель найдена и загружена в предыдущих ячейках")
elif asr_model is None:
    print("⚠️  ASR модель не загружена. Невозможно вычислить WER.")
    print("   Убедитесь, что Whisper загружен в предыдущих ячейках")
else:
    print("\n✓ Обе модели загружены")
    print(f"Обрабатываем {len(test_texts)} примеров...")
    
    wers = []
    original_texts = []
    recognized_texts = []
    processed_count = 0
    errors_count = 0
    
    # Создаем временную директорию для синтезированных аудио
    temp_dir = os.path.join(NOTEBOOK_DIR, "temp_wer_audio")
    os.makedirs(temp_dir, exist_ok=True)
    
    # Обрабатываем примеры
    for i, original_text in enumerate(tqdm(test_texts, desc="Вычисление WER", unit="пример")):
        try:
            if not original_text or not original_text.strip():
                errors_count += 1
                continue
            
            # Синтезируем аудио
            temp_wav = os.path.join(temp_dir, f"synth_{i:03d}.wav")
            try:
                with wave.open(temp_wav, "wb") as wav_file:
                    voice.synthesize_wav(original_text, wav_file)
                
                # Проверяем, что файл создан и не пустой
                if not os.path.exists(temp_wav) or os.path.getsize(temp_wav) == 0:
                    errors_count += 1
                    if errors_count <= 3:
                        print(f"⚠️  Пример {i}: не удалось синтезировать аудио")
                    continue
            except Exception as synth_error:
                errors_count += 1
                if errors_count <= 3:
                    print(f"⚠️  Пример {i}: ошибка синтеза: {synth_error}")
                continue
            
            # Распознаем синтезированное аудио
            recognized_text = transcribe_audio_with_whisper(temp_wav)
            
            if not recognized_text:
                errors_count += 1
                if errors_count <= 3:
                    print(f"⚠️  Пример {i}: не удалось распознать аудио")
                continue
            
            # Вычисляем WER
            wer_value = calculate_wer(original_text, recognized_text)
            wers.append(wer_value)
            original_texts.append(original_text)
            recognized_texts.append(recognized_text)
            processed_count += 1
            
            # Выводим первые несколько примеров
            if processed_count <= 5:
                print(f"\nПример {processed_count}:")
                print(f"  Оригинальный текст: {original_text[:80]}...")
                print(f"  Распознанный текст: {recognized_text[:80]}...")
                print(f"  WER: {wer_value:.4f}")
        
        except Exception as e:
            errors_count += 1
            if errors_count <= 3:
                import traceback
                print(f"⚠️  Пример {i}: неожиданная ошибка: {e}")
                traceback.print_exc()
    
    # Очищаем временные файлы
    if os.path.exists(temp_dir):
        try:
            shutil.rmtree(temp_dir)
        except:
            pass
    
    # Выводим статистику
    print(f"\n{'='*60}")
    print("РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЯ WER ДЛЯ TTS")
    print(f"{'='*60}")
    print(f"\nСтатистика обработки:")
    print(f"  Всего примеров: {len(test_texts)}")
    print(f"  Успешно обработано: {processed_count}")
    print(f"  Ошибок: {errors_count}")
    
    if wers:
        print(f"\nWER (Word Error Rate) - чем меньше, тем лучше:")
        print(f"  Вычислено метрик: {len(wers)}")
        print(f"  Средний WER: {np.mean(wers):.4f}")
        print(f"  Медианный WER: {np.median(wers):.4f}")
        print(f"  Минимальный WER: {np.min(wers):.4f}")
        print(f"  Максимальный WER: {np.max(wers):.4f}")
        print(f"  Стандартное отклонение: {np.std(wers):.4f}")
        
        # Дополнительная статистика
        print(f"\nРаспределение WER:")
        print(f"  WER < 0.1 (отлично): {sum(1 for w in wers if w < 0.1)} ({100*sum(1 for w in wers if w < 0.1)/len(wers):.1f}%)")
        print(f"  WER < 0.2 (хорошо): {sum(1 for w in wers if w < 0.2)} ({100*sum(1 for w in wers if w < 0.2)/len(wers):.1f}%)")
        print(f"  WER < 0.3 (удовлетворительно): {sum(1 for w in wers if w < 0.3)} ({100*sum(1 for w in wers if w < 0.3)/len(wers):.1f}%)")
        print(f"  WER >= 0.3 (требует улучшения): {sum(1 for w in wers if w >= 0.3)} ({100*sum(1 for w in wers if w >= 0.3)/len(wers):.1f}%)")
        
        # Показываем примеры с лучшим и худшим WER
        if len(wers) > 0:
            best_idx = np.argmin(wers)
            worst_idx = np.argmax(wers)
            
            print(f"\nЛучший пример (WER = {wers[best_idx]:.4f}):")
            print(f"  Оригинал: {original_texts[best_idx][:100]}...")
            print(f"  Распознано: {recognized_texts[best_idx][:100]}...")
            
            print(f"\nХудший пример (WER = {wers[worst_idx]:.4f}):")
            print(f"  Оригинал: {original_texts[worst_idx][:100]}...")
            print(f"  Распознано: {recognized_texts[worst_idx][:100]}...")
        
        # Сохраняем результаты в файл
        results_file = os.path.join(NOTEBOOK_DIR, "wer_results.txt")
        with open(results_file, 'w', encoding='utf-8') as f:
            f.write("РЕЗУЛЬТАТЫ ВЫЧИСЛЕНИЯ WER ДЛЯ TTS МОДЕЛИ\n")
            f.write("="*60 + "\n\n")
            f.write(f"Модель: {onnx_model_path}\n")
            f.write(f"Обработано примеров: {processed_count}\n")
            f.write(f"Средний WER: {np.mean(wers):.4f}\n")
            f.write(f"Медианный WER: {np.median(wers):.4f}\n")
            f.write(f"Минимальный WER: {np.min(wers):.4f}\n")
            f.write(f"Максимальный WER: {np.max(wers):.4f}\n")
            f.write(f"Стандартное отклонение: {np.std(wers):.4f}\n\n")
            f.write("Детальные результаты:\n")
            f.write("-"*60 + "\n")
            for i, (orig, rec, wer_val) in enumerate(zip(original_texts, recognized_texts, wers)):
                f.write(f"\nПример {i+1} (WER = {wer_val:.4f}):\n")
                f.write(f"  Оригинал: {orig}\n")
                f.write(f"  Распознано: {rec}\n")
        
        print(f"\n✓ Результаты сохранены в: {results_file}")
    else:
        print(f"\n⚠️  Не удалось вычислить WER ни для одного примера.")
        print(f"   Возможные причины:")
        print(f"   - Ошибки при синтезе аудио")
        print(f"   - Ошибки при распознавании аудио")
        print(f"   - Проблемы с ASR моделью (Whisper)")

print(f"\n{'='*60}")
