# üéôÔ∏è PersonaPlex Demo ‚Äî Proof of Concept

**Proyecto:** PersonaPlex Callbot (Fase 1)

Este notebook prueba PersonaPlex en Google Colab con GPU T4.

### Antes de empezar:
1. ‚úÖ Acepta la licencia del modelo: [nvidia/personaplex-7b-v1](https://huggingface.co/nvidia/personaplex-7b-v1)
2. ‚úÖ Ten tu HuggingFace token listo
3. ‚úÖ Aseg√∫rate de estar en Runtime ‚Üí GPU T4

---

## 1Ô∏è‚É£ Verificar GPU

In [None]:
!nvidia-smi
import torch
print(f"\n‚úÖ CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"VRAM: {torch.cuda.get_device_properties(0).total_mem / 1024**3:.1f} GB")

## 2Ô∏è‚É£ Instalar dependencias del sistema

In [None]:
!apt-get update -qq && apt-get install -y -qq libopus-dev > /dev/null 2>&1
print("‚úÖ libopus-dev instalado")

## 3Ô∏è‚É£ Clonar el repositorio e instalar PersonaPlex

In [None]:
!git clone https://github.com/NVIDIA/personaplex.git
%cd personaplex
!pip install -q moshi/.
!pip install -q accelerate  # Needed for --cpu-offload
print("\n‚úÖ PersonaPlex instalado")

## 4Ô∏è‚É£ Autenticaci√≥n con HuggingFace

Ingresa tu token de HuggingFace (necesario para descargar los weights).

In [None]:
import os
from getpass import getpass

# Opci√≥n 1: Ingreso manual
hf_token = getpass("üîë Ingresa tu HuggingFace Token: ")
os.environ["HF_TOKEN"] = hf_token

# Verificar
print(f"‚úÖ Token configurado ({len(hf_token)} chars)")

## 5Ô∏è‚É£ Test Offline ‚Äî Modo Asistente

Primer test: usar el audio de prueba incluido con la voz NATF2 (femenina natural).

‚ö†Ô∏è Usamos `--cpu-offload` porque el T4 tiene 16GB VRAM y el modelo pesa ~14GB en FP16.

In [None]:
%%time
!python -m moshi.offline \
    --voice-prompt "NATF2.pt" \
    --input-wav "assets/test/input_assistant.wav" \
    --seed 42424242 \
    --output-wav "output_assistant.wav" \
    --output-text "output_assistant.json" \
    --cpu-offload

print("\n‚úÖ Audio generado: output_assistant.wav")

### Reproducir resultado

In [None]:
from IPython.display import Audio, display, JSON
import json

print("üéß Audio de entrada (lo que 'escuch√≥' PersonaPlex):")
display(Audio("assets/test/input_assistant.wav"))

print("\nüéôÔ∏è Respuesta de PersonaPlex:")
display(Audio("output_assistant.wav"))

print("\nüìù Transcripci√≥n de la respuesta:")
with open("output_assistant.json") as f:
    transcript = json.load(f)
    print(json.dumps(transcript, indent=2))

## 6Ô∏è‚É£ Test Offline ‚Äî Modo Customer Service

Segundo test: modo servicio al cliente con voz masculina NATM1 y un prompt de rol.

In [None]:
%%time
!python -m moshi.offline \
    --voice-prompt "NATM1.pt" \
    --text-prompt "$(cat assets/test/prompt_service.txt)" \
    --input-wav "assets/test/input_service.wav" \
    --seed 42424242 \
    --output-wav "output_service.wav" \
    --output-text "output_service.json" \
    --cpu-offload

print("\n‚úÖ Audio generado: output_service.wav")

In [None]:
print("üéß Audio de entrada (cliente):")
display(Audio("assets/test/input_service.wav"))

print("\nüéôÔ∏è Respuesta de PersonaPlex (agente):")
display(Audio("output_service.wav"))

print("\nüìù Transcripci√≥n:")
with open("output_service.json") as f:
    transcript = json.load(f)
    print(json.dumps(transcript, indent=2))

## 7Ô∏è‚É£ Probar diferentes voces

Iteramos sobre varias voces para comparar calidad y estilo.

In [None]:
voices_to_test = ["NATF0", "NATF2", "NATM0", "NATM2", "VARF1", "VARM1"]

import subprocess, json
from IPython.display import Audio, display

results = {}

for voice in voices_to_test:
    print(f"\n{'='*50}")
    print(f"üé§ Probando voz: {voice}")
    print(f"{'='*50}")
    
    out_wav = f"output_voice_{voice}.wav"
    out_json = f"output_voice_{voice}.json"
    
    result = subprocess.run([
        "python", "-m", "moshi.offline",
        "--voice-prompt", f"{voice}.pt",
        "--input-wav", "assets/test/input_assistant.wav",
        "--seed", "42424242",
        "--output-wav", out_wav,
        "--output-text", out_json,
        "--cpu-offload"
    ], capture_output=True, text=True)
    
    if result.returncode == 0:
        print(f"‚úÖ {voice} completado")
        display(Audio(out_wav))
        
        with open(out_json) as f:
            transcript = json.load(f)
            results[voice] = transcript
            print(f"üìù {json.dumps(transcript, indent=2)[:300]}")
    else:
        print(f"‚ùå Error con {voice}: {result.stderr[:200]}")

print(f"\n\nüèÅ Voces probadas: {len(results)}/{len(voices_to_test)}")

## 8Ô∏è‚É£ Probar prompt personalizado (Callbot)

Simulamos un escenario de callbot tipo OnBotGo.

In [None]:
# Prompt personalizado estilo callbot
custom_prompt = """You work for TechSupport Pro which is a technical support service and your name is Sarah. \
Information: You help customers troubleshoot internet connectivity issues. \
Common solutions: restart router (wait 30 seconds), check cable connections, \
run speed test at speedtest.net. If issue persists, schedule technician visit \
(next available: tomorrow 2-4 PM or Thursday 9-11 AM). \
Service costs: Basic plan $29.99/month, Premium $49.99/month with priority support."""

# Guardar prompt
with open("custom_prompt.txt", "w") as f:
    f.write(custom_prompt)

print("Prompt guardado ‚úÖ")
print(f"\nüìã Prompt:\n{custom_prompt}")

In [None]:
%%time
# Usar el audio de servicio como input (simula un cliente llamando)
!python -m moshi.offline \
    --voice-prompt "NATF2.pt" \
    --text-prompt "$(cat custom_prompt.txt)" \
    --input-wav "assets/test/input_service.wav" \
    --seed 42424242 \
    --output-wav "output_callbot.wav" \
    --output-text "output_callbot.json" \
    --cpu-offload

print("\n‚úÖ Callbot test completado")

In [None]:
print("üéôÔ∏è Respuesta del callbot:")
display(Audio("output_callbot.wav"))

print("\nüìù Transcripci√≥n:")
with open("output_callbot.json") as f:
    transcript = json.load(f)
    print(json.dumps(transcript, indent=2))

## 9Ô∏è‚É£ M√©tricas de Rendimiento

Capturamos tiempos y uso de recursos para evaluar viabilidad.

In [None]:
import time, os, subprocess

print("üìä Benchmark: Latencia de generaci√≥n offline")
print("="*50)

# Medir tiempo de una generaci√≥n
start = time.time()
result = subprocess.run([
    "python", "-m", "moshi.offline",
    "--voice-prompt", "NATF2.pt",
    "--input-wav", "assets/test/input_assistant.wav",
    "--seed", "12345",
    "--output-wav", "benchmark_output.wav",
    "--output-text", "benchmark_output.json",
    "--cpu-offload"
], capture_output=True, text=True)
elapsed = time.time() - start

# Duraci√≥n del audio input
import wave
with wave.open("assets/test/input_assistant.wav") as w:
    input_duration = w.getnframes() / w.getframerate()

with wave.open("benchmark_output.wav") as w:
    output_duration = w.getnframes() / w.getframerate()

print(f"‚è±Ô∏è  Tiempo total: {elapsed:.1f}s")
print(f"üéµ Duraci√≥n input: {input_duration:.1f}s")
print(f"üéµ Duraci√≥n output: {output_duration:.1f}s")
print(f"‚ö° RTF (Real Time Factor): {elapsed/output_duration:.2f}x")
print(f"   (< 1.0 = m√°s r√°pido que tiempo real)")

# GPU memory
!nvidia-smi --query-gpu=memory.used,memory.total --format=csv,noheader

print(f"\n{'='*50}")
print("üìã Resumen para PROJECT.md:")
print(f"   GPU: T4 16GB + cpu-offload")
print(f"   RTF: {elapsed/output_duration:.2f}x")
print(f"   Tiempo gen: {elapsed:.1f}s para {output_duration:.1f}s de audio")

## üîü (Bonus) Servidor Web Interactivo

‚ö†Ô∏è Solo funciona si tienes **micr√≥fono** disponible (Colab con Chrome).

Esto levanta el Web UI de PersonaPlex con interacci√≥n en tiempo real.

In [None]:
# Descomenta para probar el servidor interactivo
# ‚ö†Ô∏è En Colab free, la sesi√≥n puede morir por timeout
# ‚ö†Ô∏è Necesita HTTPS para acceso al micr√≥fono

# import subprocess, threading
# 
# def run_server():
#     subprocess.run([
#         "python", "-m", "moshi.server",
#         "--ssl", "/tmp/ssl_certs",
#         "--cpu-offload"
#     ])
# 
# # Crear dir SSL
# !mkdir -p /tmp/ssl_certs
# 
# # Lanzar en background
# thread = threading.Thread(target=run_server, daemon=True)
# thread.start()
# 
# print("üåê Servidor lanzado. Accede via:")
# print("   https://localhost:8998")
# print("   (O usa localtunnel/ngrok para acceso remoto)")

---

## ‚úÖ Resultados Fase 1

| M√©trica | Valor |
|---------|-------|
| GPU usada | T4 16GB |
| cpu-offload | S√≠ |
| RTF | *(llenar)* |
| Calidad audio | *(evaluar subjetivamente)* |
| Mejor voz femenina | *(llenar)* |
| Mejor voz masculina | *(llenar)* |
| Adherencia al prompt | *(evaluar)* |
| Solo ingl√©s | ‚úÖ Confirmado |

### Pr√≥ximos pasos:
- [ ] Probar en Mac mini con personaplex-mlx (Fase 1, tarea 2)
- [ ] Evaluar si RTF < 1.0 es alcanzable en local
- [ ] Dise√±ar integraci√≥n con Twilio (Fase 2)