# TTS Models Evaluation - Zero-Shot Voice Cloning

Este notebook analiza las m√©tricas de rendimiento de los 3 modelos TTS implementados:
- **YourTTS**: Modelo multiling√ºe general
- **XTTS v2**: Modelo avanzado de alta calidad
- **VITS**: Modelo ligero y r√°pido

## M√©tricas Evaluadas

1. **RTF (Real-Time Factor)**: Tiempo de generaci√≥n / Duraci√≥n del audio
   - RTF < 1: M√°s r√°pido que tiempo real
   - RTF = 1: Tiempo real
   - RTF > 1: M√°s lento que tiempo real

2. **Generation Time**: Tiempo total de inferencia

3. **Audio Duration**: Duraci√≥n del audio generado

## 1. Setup e Importaci√≥n de Datos

In [None]:
import json
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import numpy as np
from datetime import datetime

# Configuraci√≥n de estilo
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

In [None]:
# Cargar todos los archivos JSON de resultados
results_dir = Path('../results')
json_files = sorted(results_dir.glob('metrics_*.json'))

print(f"Found {len(json_files)} result files:")
for f in json_files:
    print(f"  - {f.name}")

In [None]:
# Funci√≥n para cargar y procesar los datos
def load_metrics_from_json(json_path):
    """
    Carga m√©tricas desde un archivo JSON.
    
    Returns:
        DataFrame con las m√©tricas de cada modelo
    """
    with open(json_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    # Extraer informaci√≥n general
    timestamp = data.get('timestamp', 'unknown')
    text = data.get('text', '')
    reference = data.get('reference_audio', '')
    
    # Crear DataFrame con los resultados de cada modelo
    models_data = []
    for model in data.get('models', []):
        if model.get('success', False):
            models_data.append({
                'timestamp': timestamp,
                'text': text,
                'model': model['model'],
                'audio_duration': model['audio_duration'],
                'generation_time': model['generation_time'],
                'rtf': model['rtf'],
                'output_path': model['output_path'],
                'success': True
            })
        else:
            models_data.append({
                'timestamp': timestamp,
                'text': text,
                'model': model['model'],
                'error': model.get('error', 'Unknown error'),
                'success': False
            })
    
    return pd.DataFrame(models_data)

# Cargar todos los resultados
all_results = []
for json_file in json_files:
    df = load_metrics_from_json(json_file)
    all_results.append(df)

# Combinar todos los resultados
if all_results:
    metrics_df = pd.concat(all_results, ignore_index=True)
    print(f"\nLoaded {len(metrics_df)} model evaluations")
    display(metrics_df.head())
else:
    print("\n‚ö†Ô∏è No se encontraron archivos de m√©tricas.")
    print("Ejecuta primero: make run-all TEXT='Your test text'")
    metrics_df = pd.DataFrame()

## 2. Estad√≠sticas Generales

In [None]:
if not metrics_df.empty:
    # Filtrar solo resultados exitosos
    successful_df = metrics_df[metrics_df['success'] == True].copy()
    
    if not successful_df.empty:
        print("=" * 60)
        print("ESTAD√çSTICAS POR MODELO")
        print("=" * 60)
        
        # Agrupar por modelo y calcular estad√≠sticas
        stats = successful_df.groupby('model').agg({
            'rtf': ['mean', 'std', 'min', 'max'],
            'generation_time': ['mean', 'std', 'min', 'max'],
            'audio_duration': ['mean', 'std']
        }).round(3)
        
        display(stats)
    else:
        print("‚ö†Ô∏è No hay resultados exitosos para analizar.")

## 3. Comparaci√≥n de RTF (Real-Time Factor)

El RTF mide la eficiencia del modelo. Un RTF menor indica generaci√≥n m√°s r√°pida.

In [None]:
if not metrics_df.empty and 'rtf' in successful_df.columns:
    fig, ax = plt.subplots(figsize=(10, 6))
    
    # Crear gr√°fico de barras
    models = successful_df.groupby('model')['rtf'].mean().sort_values()
    colors = ['green' if rtf < 1 else 'orange' if rtf < 2 else 'red' for rtf in models]
    
    models.plot(kind='barh', ax=ax, color=colors)
    
    # A√±adir l√≠nea de referencia en RTF=1
    ax.axvline(x=1, color='red', linestyle='--', linewidth=2, label='Real-time (RTF=1)')
    
    ax.set_xlabel('RTF (Real-Time Factor)', fontsize=12)
    ax.set_ylabel('Model', fontsize=12)
    ax.set_title('Comparaci√≥n de Eficiencia: RTF por Modelo\n(Menor es mejor)', fontsize=14, fontweight='bold')
    ax.legend()
    ax.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Interpretaci√≥n
    fastest = models.idxmin()
    print(f"\nüèÜ Modelo m√°s r√°pido: {fastest} (RTF: {models[fastest]:.2f}x)")
    
    if models[fastest] < 1:
        print(f"   ‚Üí Genera audio {1/models[fastest]:.2f}x m√°s r√°pido que tiempo real")
    else:
        print(f"   ‚Üí Tarda {models[fastest]:.2f}x el tiempo del audio en generar")

## 4. Tiempo de Generaci√≥n Absoluto

In [None]:
if not metrics_df.empty and 'generation_time' in successful_df.columns:
    fig, ax = plt.subplots(figsize=(10, 6))
    
    # Box plot para mostrar distribuci√≥n
    successful_df.boxplot(column='generation_time', by='model', ax=ax)
    
    ax.set_xlabel('Model', fontsize=12)
    ax.set_ylabel('Generation Time (seconds)', fontsize=12)
    ax.set_title('Distribuci√≥n de Tiempo de Generaci√≥n por Modelo', fontsize=14, fontweight='bold')
    plt.suptitle('')  # Remove automatic title
    ax.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

## 5. Comparaci√≥n M√∫ltiple: RTF vs Generation Time

In [None]:
if not metrics_df.empty:
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))
    
    # RTF comparison
    rtf_data = successful_df.groupby('model')['rtf'].mean().sort_values()
    axes[0].barh(rtf_data.index, rtf_data.values, color='skyblue')
    axes[0].axvline(x=1, color='red', linestyle='--', linewidth=2, alpha=0.7)
    axes[0].set_xlabel('RTF', fontsize=12)
    axes[0].set_title('Real-Time Factor (RTF)', fontsize=13, fontweight='bold')
    axes[0].grid(True, alpha=0.3, axis='x')
    
    # Generation time comparison
    time_data = successful_df.groupby('model')['generation_time'].mean().sort_values()
    axes[1].barh(time_data.index, time_data.values, color='lightcoral')
    axes[1].set_xlabel('Seconds', fontsize=12)
    axes[1].set_title('Average Generation Time', fontsize=13, fontweight='bold')
    axes[1].grid(True, alpha=0.3, axis='x')
    
    plt.tight_layout()
    plt.show()

## 6. An√°lisis de √âxitos y Fallos

In [None]:
if not metrics_df.empty:
    # Contar √©xitos y fallos por modelo
    success_counts = metrics_df.groupby(['model', 'success']).size().unstack(fill_value=0)
    
    print("=" * 60)
    print("TASA DE √âXITO POR MODELO")
    print("=" * 60)
    
    # Calcular porcentajes
    if True in success_counts.columns:
        success_counts['Success Rate (%)'] = (success_counts.get(True, 0) / 
                                               success_counts.sum(axis=1) * 100).round(2)
    
    display(success_counts)
    
    # Mostrar errores si existen
    failed_df = metrics_df[metrics_df['success'] == False]
    if not failed_df.empty:
        print("\n‚ö†Ô∏è ERRORES ENCONTRADOS:")
        print("=" * 60)
        for _, row in failed_df.iterrows():
            print(f"Model: {row['model']}")
            print(f"Error: {row.get('error', 'Unknown')}")
            print("-" * 60)

## 7. Resumen y Recomendaciones

In [None]:
if not metrics_df.empty and not successful_df.empty:
    print("=" * 60)
    print("RESUMEN DE EVALUACI√ìN")
    print("=" * 60)
    
    # Modelo m√°s r√°pido (menor RTF)
    fastest_model = successful_df.groupby('model')['rtf'].mean().idxmin()
    fastest_rtf = successful_df.groupby('model')['rtf'].mean().min()
    
    # Modelo m√°s consistente (menor std en RTF)
    most_consistent = successful_df.groupby('model')['rtf'].std().idxmin()
    consistency_std = successful_df.groupby('model')['rtf'].std().min()
    
    print(f"\nüèÜ Modelo m√°s r√°pido: {fastest_model}")
    print(f"   RTF promedio: {fastest_rtf:.2f}x")
    
    print(f"\nüìä Modelo m√°s consistente: {most_consistent}")
    print(f"   Desviaci√≥n est√°ndar RTF: {consistency_std:.3f}")
    
    print("\n" + "=" * 60)
    print("RECOMENDACIONES")
    print("=" * 60)
    
    if fastest_rtf < 1:
        print(f"‚úì {fastest_model} puede generar audio en tiempo real")
        print("  ‚Üí Ideal para aplicaciones interactivas")
    
    print(f"\n‚úì Para m√°xima velocidad: usar {fastest_model}")
    print(f"‚úì Para resultados predecibles: usar {most_consistent}")
    
    # An√°lisis de calidad vs velocidad
    print("\nüìù NOTA: Este an√°lisis solo considera m√©tricas de rendimiento (velocidad).")
    print("   Para evaluar calidad de audio, considera:")
    print("   - Speaker Similarity (Resemblyzer, ECAPA-TDNN)")
    print("   - Audio Quality (PESQ, STOI)")
    print("   - Evaluaci√≥n subjetiva (MOS)")

## 8. Exportar Resultados

In [None]:
if not metrics_df.empty:
    # Exportar a CSV
    output_csv = results_dir / 'metrics_summary.csv'
    successful_df.to_csv(output_csv, index=False)
    print(f"‚úì Resumen exportado a: {output_csv}")
    
    # Exportar estad√≠sticas agregadas
    if not successful_df.empty:
        summary_stats = successful_df.groupby('model').agg({
            'rtf': ['mean', 'std', 'min', 'max'],
            'generation_time': ['mean', 'std', 'min', 'max'],
            'audio_duration': ['mean']
        }).round(3)
        
        output_stats = results_dir / 'metrics_statistics.csv'
        summary_stats.to_csv(output_stats)
        print(f"‚úì Estad√≠sticas exportadas a: {output_stats}")

---

## Notas

Este notebook analiza las m√©tricas b√°sicas de rendimiento. Para una evaluaci√≥n completa, considera implementar:

1. **Speaker Similarity**: Usar Resemblyzer o SpeechBrain ECAPA-TDNN para medir similitud de voz
2. **Audio Quality**: Usar PESQ y STOI para evaluar calidad perceptual
3. **Subjective Evaluation**: MOS (Mean Opinion Score) con evaluadores humanos

Para m√°s informaci√≥n, consulta el README del proyecto.