# üéôÔ∏è PersonaPlex Demo ‚Äî Proof of Concept

**Proyecto:** PersonaPlex Callbot (Fase 1)

Este notebook prueba PersonaPlex en Google Colab.

### ‚ö†Ô∏è Requisitos de GPU:
- **T4 (free tier): NO funciona** ‚Äî 15GB VRAM + 12GB RAM insuficiente. El proceso es `Killed` por OOM.
- **L4 o superior: Recomendado** ‚Äî Necesitas Colab Pro o cr√©ditos de GPU.
- **A100: Ideal** ‚Äî Es el hardware de referencia de NVIDIA.

### Antes de empezar:
1. ‚úÖ Acepta la licencia del modelo: [nvidia/personaplex-7b-v1](https://huggingface.co/nvidia/personaplex-7b-v1)
2. ‚úÖ Ten tu HuggingFace token listo
3. ‚úÖ Selecciona Runtime ‚Üí **L4 GPU o superior**

---

## 1Ô∏è‚É£ Verificar GPU

In [None]:
!nvidia-smi
import torch
print(f"\n‚úÖ CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    gpu_name = torch.cuda.get_device_name(0)
    vram_gb = torch.cuda.get_device_properties(0).total_memory / 1024**3
    print(f"GPU: {gpu_name}")
    print(f"VRAM: {vram_gb:.1f} GB")
    if vram_gb < 20:
        print(f"\n‚ö†Ô∏è  {gpu_name} tiene solo {vram_gb:.0f}GB VRAM.")
        print("   PersonaPlex necesita ~17GB. Se usar√° --cpu-offload.")
        print("   Si la GPU tiene <16GB VRAM y el sistema <16GB RAM, puede fallar (OOM/Killed).")
        print("   T4 (15GB) en Colab Free NO funciona. Usa L4 o superior.")

## 2Ô∏è‚É£ Instalar dependencias del sistema

In [None]:
!apt-get update -qq && apt-get install -y -qq libopus-dev > /dev/null 2>&1
print("‚úÖ libopus-dev instalado")

## 3Ô∏è‚É£ Clonar el repositorio e instalar PersonaPlex

In [None]:
!git clone https://github.com/NVIDIA/personaplex.git
%cd personaplex
!pip install -q moshi/.
!pip install -q accelerate  # Needed for --cpu-offload
print("\n‚úÖ PersonaPlex instalado")

## 4Ô∏è‚É£ Autenticaci√≥n con HuggingFace

Ingresa tu token de HuggingFace (necesario para descargar los weights).

In [None]:
import os
from getpass import getpass

# Opci√≥n 1: Ingreso manual
hf_token = getpass("üîë Ingresa tu HuggingFace Token: ")
os.environ["HF_TOKEN"] = hf_token

# Verificar
print(f"‚úÖ Token configurado ({len(hf_token)} chars)")

## 5Ô∏è‚É£ Test Offline ‚Äî Modo Asistente

Primer test: usar el audio de prueba incluido con la voz NATF2 (femenina natural).

‚ö†Ô∏è Usamos `--cpu-offload` si la GPU tiene <20GB VRAM.

In [None]:
%%time
import torch
vram_gb = torch.cuda.get_device_properties(0).total_memory / 1024**3 if torch.cuda.is_available() else 0
offload = "--cpu-offload" if vram_gb < 20 else ""
print(f"GPU VRAM: {vram_gb:.0f}GB ‚Üí {'cpu-offload ON' if offload else 'full GPU'}")

!python -m moshi.offline \
    --voice-prompt "NATF2.pt" \
    --input-wav "assets/test/input_assistant.wav" \
    --seed 42424242 \
    --output-wav "output_assistant.wav" \
    --output-text "output_assistant.json" \
    {offload} 2>&1

import os
if os.path.exists("output_assistant.wav"):
    print(f"\n‚úÖ Audio generado: output_assistant.wav ({os.path.getsize('output_assistant.wav')} bytes)")
else:
    print("\n‚ùå FALL√ì: output_assistant.wav no fue generado.")
    print("   Probable causa: OOM. Esta GPU no tiene suficiente memoria.")
    print("   Soluci√≥n: Usar una GPU con ‚â•20GB VRAM (L4, A100) o probar localmente con personaplex-mlx.")

### Reproducir resultado

In [None]:
import os
from IPython.display import Audio, display
import json

print("üéß Audio de entrada (lo que 'escuch√≥' PersonaPlex):")
display(Audio("assets/test/input_assistant.wav"))

if os.path.exists("output_assistant.wav"):
    print("\nüéôÔ∏è Respuesta de PersonaPlex (24kHz):")
    display(Audio("output_assistant.wav", rate=24000))
else:
    print("\n‚ùå No hay audio de salida ‚Äî la generaci√≥n fall√≥. Ver celda anterior.")

if os.path.exists("output_assistant.json"):
    print("\nüìù Transcripci√≥n de la respuesta:")
    with open("output_assistant.json") as f:
        transcript = json.load(f)
        print(json.dumps(transcript, indent=2))
else:
    print("\nüìù No hay transcripci√≥n disponible.")

## 6Ô∏è‚É£ Test Offline ‚Äî Modo Customer Service

Segundo test: modo servicio al cliente con voz masculina NATM1 y un prompt de rol.

In [None]:
%%time
import torch, os
vram_gb = torch.cuda.get_device_properties(0).total_memory / 1024**3 if torch.cuda.is_available() else 0
offload = "--cpu-offload" if vram_gb < 20 else ""

!python -m moshi.offline \
    --voice-prompt "NATM1.pt" \
    --text-prompt "$(cat assets/test/prompt_service.txt)" \
    --input-wav "assets/test/input_service.wav" \
    --seed 42424242 \
    --output-wav "output_service.wav" \
    --output-text "output_service.json" \
    {offload} 2>&1

if os.path.exists("output_service.wav"):
    print(f"\n‚úÖ Audio generado: output_service.wav ({os.path.getsize('output_service.wav')} bytes)")
else:
    print("\n‚ùå FALL√ì: output_service.wav no fue generado (OOM probable).")

In [None]:
import os
from IPython.display import Audio, display
import json

print("üéß Audio de entrada (cliente):")
display(Audio("assets/test/input_service.wav"))

if os.path.exists("output_service.wav"):
    print("\nüéôÔ∏è Respuesta de PersonaPlex (agente):")
    display(Audio("output_service.wav", rate=24000))
else:
    print("\n‚ùå No hay audio de salida.")

if os.path.exists("output_service.json"):
    print("\nüìù Transcripci√≥n:")
    with open("output_service.json") as f:
        transcript = json.load(f)
        print(json.dumps(transcript, indent=2))
else:
    print("\nüìù No hay transcripci√≥n disponible.")

## 7Ô∏è‚É£ Probar diferentes voces

Iteramos sobre varias voces para comparar calidad y estilo.

In [None]:
import subprocess, json, os, torch
from IPython.display import Audio, display

vram_gb = torch.cuda.get_device_properties(0).total_memory / 1024**3 if torch.cuda.is_available() else 0
offload_args = ["--cpu-offload"] if vram_gb < 20 else []

voices_to_test = ["NATF0", "NATF2", "NATM0", "NATM2", "VARF1", "VARM1"]
results = {}

for voice in voices_to_test:
    print(f"\n{'='*50}")
    print(f"üé§ Probando voz: {voice}")
    print(f"{'='*50}")
    
    out_wav = f"output_voice_{voice}.wav"
    out_json = f"output_voice_{voice}.json"
    
    result = subprocess.run([
        "python", "-m", "moshi.offline",
        "--voice-prompt", f"{voice}.pt",
        "--input-wav", "assets/test/input_assistant.wav",
        "--seed", "42424242",
        "--output-wav", out_wav,
        "--output-text", out_json,
    ] + offload_args, capture_output=True, text=True)
    
    if result.returncode == 0 and os.path.exists(out_wav):
        print(f"‚úÖ {voice} completado")
        display(Audio(out_wav, rate=24000))
        
        if os.path.exists(out_json):
            with open(out_json) as f:
                transcript = json.load(f)
                results[voice] = transcript
                print(f"üìù {json.dumps(transcript, indent=2)[:300]}")
    else:
        print(f"‚ùå Error con {voice}: {result.stderr[:300] if result.stderr else 'Killed (OOM)'}")

print(f"\n\nüèÅ Voces completadas: {len(results)}/{len(voices_to_test)}")

## 8Ô∏è‚É£ Probar prompt personalizado (Callbot)

Simulamos un escenario de callbot tipo OnBotGo.

In [None]:
# Prompt personalizado estilo callbot
custom_prompt = """You work for TechSupport Pro which is a technical support service and your name is Sarah. \
Information: You help customers troubleshoot internet connectivity issues. \
Common solutions: restart router (wait 30 seconds), check cable connections, \
run speed test at speedtest.net. If issue persists, schedule technician visit \
(next available: tomorrow 2-4 PM or Thursday 9-11 AM). \
Service costs: Basic plan $29.99/month, Premium $49.99/month with priority support."""

# Guardar prompt
with open("custom_prompt.txt", "w") as f:
    f.write(custom_prompt)

print("Prompt guardado ‚úÖ")
print(f"\nüìã Prompt:\n{custom_prompt}")

In [None]:
%%time
import torch, os
vram_gb = torch.cuda.get_device_properties(0).total_memory / 1024**3 if torch.cuda.is_available() else 0
offload = "--cpu-offload" if vram_gb < 20 else ""

!python -m moshi.offline \
    --voice-prompt "NATF2.pt" \
    --text-prompt "$(cat custom_prompt.txt)" \
    --input-wav "assets/test/input_service.wav" \
    --seed 42424242 \
    --output-wav "output_callbot.wav" \
    --output-text "output_callbot.json" \
    {offload} 2>&1

if os.path.exists("output_callbot.wav"):
    print(f"\n‚úÖ Callbot test completado ({os.path.getsize('output_callbot.wav')} bytes)")
else:
    print("\n‚ùå FALL√ì (OOM probable).")

In [None]:
import os
from IPython.display import Audio, display
import json

if os.path.exists("output_callbot.wav"):
    print("üéôÔ∏è Respuesta del callbot:")
    display(Audio("output_callbot.wav", rate=24000))
else:
    print("‚ùå No hay audio de salida.")

if os.path.exists("output_callbot.json"):
    print("\nüìù Transcripci√≥n:")
    with open("output_callbot.json") as f:
        transcript = json.load(f)
        print(json.dumps(transcript, indent=2))
else:
    print("üìù No hay transcripci√≥n disponible.")

## 9Ô∏è‚É£ M√©tricas de Rendimiento

Capturamos tiempos y uso de recursos para evaluar viabilidad.

In [None]:
import time, os, subprocess, torch

vram_gb = torch.cuda.get_device_properties(0).total_memory / 1024**3 if torch.cuda.is_available() else 0
offload_args = ["--cpu-offload"] if vram_gb < 20 else []

print("üìä Benchmark: Latencia de generaci√≥n offline")
print("="*50)

start = time.time()
result = subprocess.run([
    "python", "-m", "moshi.offline",
    "--voice-prompt", "NATF2.pt",
    "--input-wav", "assets/test/input_assistant.wav",
    "--seed", "12345",
    "--output-wav", "benchmark_output.wav",
    "--output-text", "benchmark_output.json",
] + offload_args, capture_output=True, text=True)
elapsed = time.time() - start

if os.path.exists("benchmark_output.wav"):
    import wave
    with wave.open("assets/test/input_assistant.wav") as w:
        input_duration = w.getnframes() / w.getframerate()

    with wave.open("benchmark_output.wav") as w:
        output_duration = w.getnframes() / w.getframerate()

    gpu_name = torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'CPU'
    print(f"‚è±Ô∏è  Tiempo total: {elapsed:.1f}s")
    print(f"üéµ Duraci√≥n input: {input_duration:.1f}s")
    print(f"üéµ Duraci√≥n output: {output_duration:.1f}s")
    print(f"‚ö° RTF (Real Time Factor): {elapsed/output_duration:.2f}x")
    print(f"   (< 1.0 = m√°s r√°pido que tiempo real)")
    !nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader
    print(f"\n{'='*50}")
    print("üìã Resumen para PROJECT.md:")
    print(f"   GPU: {gpu_name} + {'cpu-offload' if offload_args else 'full GPU'}")
    print(f"   RTF: {elapsed/output_duration:.2f}x")
    print(f"   Tiempo gen: {elapsed:.1f}s para {output_duration:.1f}s de audio")
else:
    print(f"‚ùå Benchmark fall√≥ ‚Äî no se gener√≥ audio.")
    print(f"   GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A'}")
    print(f"   VRAM: {vram_gb:.0f}GB")
    print(f"   Resultado: OOM/Killed despu√©s de {elapsed:.0f}s")
    print(f"   Conclusi√≥n: Esta GPU no es suficiente para PersonaPlex.")

---

## ‚úÖ Resultados Fase 1

| M√©trica | Valor |
|---------|-------|
| GPU usada | *(llenar)* |
| cpu-offload | S√≠/No |
| RTF | *(llenar)* |
| Calidad audio | *(evaluar subjetivamente)* |
| Mejor voz femenina | *(llenar)* |
| Mejor voz masculina | *(llenar)* |
| Adherencia al prompt | *(evaluar)* |
| Solo ingl√©s | ‚úÖ Confirmado |

### ‚ö†Ô∏è Hallazgo: T4 Colab Free NO funciona
- T4 (15GB VRAM, ~12GB RAM) ‚Üí Proceso `Killed` por OOM al cargar moshi (16.7GB)
- M√≠nimo requerido: GPU con ‚â•20GB VRAM o sistema con ‚â•24GB RAM para cpu-offload
- Alternativa local: personaplex-mlx en Apple Silicon (RAM unificada)

### Pr√≥ximos pasos:
- [ ] Probar en Mac mini con personaplex-mlx (Fase 1, tarea 2)
- [ ] Evaluar si RTF < 1.0 es alcanzable en local
- [ ] Dise√±ar integraci√≥n con Twilio (Fase 2)