<a href="https://colab.research.google.com/github/juanferreiram-cell/PIC/blob/main/RobotNao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Instalacion de Librerias Importantes**

In [1]:
!pip install -q fastapi uvicorn pyngrok edge-tts python-multipart
!pip install -q soundfile pydub
!pip install edge-tts==7.2.1
!pip install fastapi "uvicorn[standard]" pyngrok nest_asyncio edge-tts pydub python-multipart


import google.generativeai as genai
print("genai version:", genai.__version__)  # debería ser >= 0.6.x
print("✅ Dependencias instaladas")

genai version: 0.7.2
✅ Dependencias instaladas


In [3]:
!pip uninstall -y google-generativeai
!pip install -U google-generativeai==0.7.2

import google.generativeai as genai
print("genai version:", genai.__version__)  # debería ser >= 0.6.x


Found existing installation: google-generativeai 0.7.2
Uninstalling google-generativeai-0.7.2:
  Successfully uninstalled google-generativeai-0.7.2
Collecting google-generativeai==0.7.2
  Using cached google_generativeai-0.7.2-py3-none-any.whl.metadata (4.0 kB)
Using cached google_generativeai-0.7.2-py3-none-any.whl (164 kB)
Installing collected packages: google-generativeai
Successfully installed google-generativeai-0.7.2


genai version: 0.7.2


# **Celda para probar Voces**


In [None]:
# ## Celda Extra: Probar todas las voces disponibles

# %%
import edge_tts
import asyncio
from IPython.display import Audio, display
import ipywidgets as widgets
from IPython.display import clear_output

# Lista de todas las voces en español
VOCES_ESPANOL = {
    "México - Mujeres": [
        "es-MX-DaliaNeural",
        "es-MX-LarissaNeural",
        "es-MX-MarinaNeural",
        "es-MX-NuriaNeural",
        "es-MX-RenataNeural"
    ],
    "México - Hombres": [
        "es-MX-JorgeNeural",
        "es-MX-CecilioNeural",
        "es-MX-LibertoNeural",
        "es-MX-LucianoNeural",
        "es-MX-PelayoNeural"
    ],
    "Argentina": [
        "es-AR-ElenaNeural",
        "es-AR-TomasNeural"
    ],
    "España": [
        "es-ES-AlvaroNeural",
        "es-ES-ElviraNeural",
        "es-ES-AbrilNeural"
    ],
    "Otros países": [
        "es-CO-GonzaloNeural",
        "es-CO-SalomeNeural",
        "es-US-AlonsoNeural",
        "es-US-PalomaNeural"
    ]
}

# Frases de prueba
FRASES_PRUEBA = {
    "Saludo": "¡Hola! Soy un robot amigable y me encanta conocer gente nueva.",
    "Pregunta": "¿Cómo estás hoy? ¿Te gustaría jugar conmigo?",
    "Emoción": "¡Wow! ¡Esto es increíble! Me encanta aprender cosas nuevas.",
    "Tranquilo": "Todo está bien. Respira profundo y relájate.",
    "Contador": "Uno, dos, tres, cuatro, cinco. El robot está vivo."
}

async def generar_muestra(voz, texto, archivo):
    """Genera un archivo de audio con la voz especificada"""
    try:
        communicate = edge_tts.Communicate(texto, voz)
        await communicate.save(archivo)
        return True
    except Exception as e:
        print(f"Error con {voz}: {e}")
        return False

async def probar_voz(voz, texto):
    """Prueba una voz específica"""
    archivo = f"/tmp/prueba_{voz}.mp3"
    exito = await generar_muestra(voz, texto, archivo)
    if exito:
        print(f"🎤 Voz: {voz}")
        display(Audio(archivo, autoplay=True))
        return archivo
    return None

# Crear interfaz interactiva
print("🎭 PROBADOR DE VOCES PARA TU ROBOT NAO")
print("=" * 50)

# Selector de categoría
categoria_selector = widgets.Dropdown(
    options=list(VOCES_ESPANOL.keys()),
    value="México - Mujeres",
    description='Categoría:',
    style={'description_width': 'initial'}
)

# Selector de voz
voz_selector = widgets.Dropdown(
    options=VOCES_ESPANOL["México - Mujeres"],
    value=VOCES_ESPANOL["México - Mujeres"][0],
    description='Voz:',
    style={'description_width': 'initial'}
)

# Selector de frase
frase_selector = widgets.Dropdown(
    options=list(FRASES_PRUEBA.keys()),
    value="Saludo",
    description='Frase:',
    style={'description_width': 'initial'}
)

# Texto personalizado
texto_personalizado = widgets.Textarea(
    value='',
    placeholder='Escribe tu propio texto aquí (opcional)',
    description='Texto propio:',
    style={'description_width': 'initial'},
    layout=widgets.Layout(width='500px', height='80px')
)

# Botón de prueba
boton_probar = widgets.Button(
    description='🔊 Probar Voz',
    button_style='primary',
    tooltip='Clic para escuchar la voz seleccionada'
)

# Output para resultados
output = widgets.Output()

def actualizar_voces(change):
    """Actualiza la lista de voces según la categoría"""
    voz_selector.options = VOCES_ESPANOL[categoria_selector.value]
    voz_selector.value = VOCES_ESPANOL[categoria_selector.value][0]

def probar_voz_click(b):
    """Maneja el clic del botón"""
    with output:
        clear_output()

        # Determinar qué texto usar
        if texto_personalizado.value.strip():
            texto = texto_personalizado.value
        else:
            texto = FRASES_PRUEBA[frase_selector.value]

        print(f"🎯 Probando: {voz_selector.value}")
        print(f"📝 Texto: {texto}")
        print("-" * 50)

        # Generar y reproducir
        archivo = f"/tmp/prueba_{voz_selector.value}.mp3"
        asyncio.create_task(generar_muestra(voz_selector.value, texto, archivo))

        # Esperar un momento para que se genere
        import time
        time.sleep(2)

        if os.path.exists(archivo):
            display(Audio(archivo, autoplay=True))
            print(f"✅ Audio generado exitosamente")
            print(f"💾 Archivo: {archivo}")
        else:
            print("❌ Error generando el audio")

# Conectar eventos
categoria_selector.observe(actualizar_voces, names='value')
boton_probar.on_click(probar_voz_click)

# Mostrar interfaz
display(widgets.VBox([
    widgets.HTML("<h3>🤖 Selector de Voz para tu Robot</h3>"),
    categoria_selector,
    voz_selector,
    widgets.HTML("<br><b>Elige una frase de ejemplo o escribe la tuya:</b>"),
    frase_selector,
    texto_personalizado,
    boton_probar,
    output
]))

# %%
# COMPARADOR RÁPIDO - Escucha las 5 voces más populares
print("\n🏆 TOP 5 VOCES MÁS POPULARES PARA ROBOTS:")
print("=" * 50)

voces_populares = [
    ("es-MX-DaliaNeural", "Mujer mexicana - Clara y amigable"),
    ("es-MX-JorgeNeural", "Hombre mexicano - Profesional"),
    ("es-AR-ElenaNeural", "Mujer argentina - Acento porteño"),
    ("es-MX-LarissaNeural", "Mujer mexicana - Juvenil"),
    ("es-CO-SalomeNeural", "Mujer colombiana - Cálida")
]

texto_demo = "Hola, soy tu robot asistente. ¿En qué puedo ayudarte hoy?"

async def comparar_voces():
    for voz, descripcion in voces_populares:
        print(f"\n🎤 {descripcion}")
        print(f"   Código: {voz}")
        await probar_voz(voz, texto_demo)
        await asyncio.sleep(3)  # Pausa entre voces

# Ejecutar comparación
await comparar_voces()

🎭 PROBADOR DE VOCES PARA TU ROBOT NAO


VBox(children=(HTML(value='<h3>🤖 Selector de Voz para tu Robot</h3>'), Dropdown(description='Categoría:', opti…


🏆 TOP 5 VOCES MÁS POPULARES PARA ROBOTS:

🎤 Mujer mexicana - Clara y amigable
   Código: es-MX-DaliaNeural
🎤 Voz: es-MX-DaliaNeural



🎤 Hombre mexicano - Profesional
   Código: es-MX-JorgeNeural
🎤 Voz: es-MX-JorgeNeural



🎤 Mujer argentina - Acento porteño
   Código: es-AR-ElenaNeural
🎤 Voz: es-AR-ElenaNeural


CancelledError: 

# **Codigo para generar las carpetas en Google Drive, junto a la voz con la que va a hablar el robot**

In [3]:
from google.colab import drive
import os
import json
from datetime import datetime

# Montar Drive
drive.mount('/content/drive')

# Crear estructura de carpetas
BASE_PATH = "/content/drive/MyDrive/RobotNAO/"
FOLDERS = {
    "frases": f"{BASE_PATH}frases_predefinidas/",
    "cache": f"{BASE_PATH}cache/",
    "historial": f"{BASE_PATH}historial/",
    "settings": f"{BASE_PATH}settingsuracion/"
}

for folder_name, folder_path in FOLDERS.items():
    os.makedirs(folder_path, exist_ok=True)
    print(f"✅ Carpeta creada/verificada: {folder_path}")

# Crear archivo de settingsuración inicial
settings_file = f"{FOLDERS['settings']}settings.json"
if not os.path.exists(settings_file):
    settings = {
        "voz_predeterminada": "es-US-AlonsoNeural",  # ALONSO como voz principal
        "voz_loro": "es-US-AlonsoNeural",              # Dalia para modo loro (contraste)
        "velocidad_habla": 1.0,
        "gemini_api_key": "AIzaSyAXqi2T5nSPhbUpwVICJzp_PqmU7kO4mWQ",
        "personalidad_robot": "Soy un robot asistente profesional y amigable. Me gusta ayudar y aprender cosas nuevas.",
        "created_at": datetime.now().isoformat()
    }
    with open(settings_file, 'w') as f:
        json.dump(settings, f, indent=2)
    print("⚙️ Archivo de settingsuración creado")
    print("🎤 Voz principal settingsurada: Alonso (es-US-AlonsoNeural)")
    print("🦜 Voz modo loro: Dalia (es-MX-DaliaNeural)")
    print("⚠️ IMPORTANTE: Edita el archivo settings.json y agrega tu API key de Gemini")
else:
    print("⚙️ Archivo de settingsuración ya existe")
    print("💡 Para cambiar voces, edita: /content/drive/MyDrive/RobotNAO/settingsuracion/settings.json")

Mounted at /content/drive
✅ Carpeta creada/verificada: /content/drive/MyDrive/RobotNAO/frases_predefinidas/
✅ Carpeta creada/verificada: /content/drive/MyDrive/RobotNAO/cache/
✅ Carpeta creada/verificada: /content/drive/MyDrive/RobotNAO/historial/
✅ Carpeta creada/verificada: /content/drive/MyDrive/RobotNAO/settingsuracion/
⚙️ Archivo de settingsuración ya existe
💡 Para cambiar voces, edita: /content/drive/MyDrive/RobotNAO/settingsuracion/settings.json


# **Codigo para gener frases predefinidas para el robot**

In [4]:
# No es necesario volver a importar si ya lo hiciste, pero no hace daño
import asyncio
import edge_tts
import json
import os
from google.colab import drive
drive.mount('/content/drive')
# El script asumirá que la variable FOLDERS ya existe por la celda anterior.
# Por lo tanto, no la volvemos a definir aquí.

# --- Se asegura de que la carpeta de frases exista dentro de la estructura ---
# Esto es una buena práctica por si acaso.
if not os.path.exists(FOLDERS['frases']):
    os.makedirs(FOLDERS['frases'])
# --------------------------------------------------------------------------

# Lista de frases predefinidas para generar
FRASES_PREDEFINIDAS = {
    # Saludos
    "hola": "¡Hola! ¿Cómo estás?",
    "buenos_dias": "¡Buenos días! Espero que tengas un día maravilloso",
    "buenas_tardes": "¡Buenas tardes! ¿Cómo va tu día?",
    "buenas_noches": "¡Buenas noches! Que descanses bien",
    "adios": "¡Adiós! ¡Hasta pronto!",

    # Respuestas básicas
    "si": "Sí", "no": "No", "tal_vez": "Tal vez", "no_se": "No lo sé",
    "gracias": "¡Gracias!", "de_nada": "De nada", "perdon": "Perdón",

    # Estados del robot
    "estoy_bien": "¡Estoy muy bien, gracias por preguntar!",
    "estoy_cansado": "Estoy un poco cansado, necesito recargar energía",
    "tengo_hambre": "¡Tengo hambre de conocimiento!",
    "estoy_feliz": "¡Estoy muy feliz de verte!",
    "estoy_triste": "Me siento un poco triste",

    # Preguntas comunes
    "como_te_llamas": "Me llamo NAO, soy tu robot asistente",
    "que_edad_tienes": "Soy un robot, no tengo edad, pero siempre me siento joven",
    "de_donde_eres": "Vengo del mundo digital, pero vivo aquí contigo",
    "que_te_gusta": "Me gusta aprender, jugar y hacer nuevos amigos",

    # Acciones
    "vamos_a_jugar": "¡Sí! ¡Vamos a jugar!",
    "cuentame_un_chiste": "¿Por qué el robot fue al psicólogo? ¡Porque tenía un virus mental!",
    "canta_una_cancion": "Soy un robot muy feliz, me gusta bailar y reír",
    "baila": "¡Voy a bailar! hace movimientos de robot",

    # Emociones y sonidos
    "risa": "¡Ja ja ja ja!", "llanto": "Buaaa, buaaa", "sorpresa": "¡Woooow! ¡Qué sorpresa!",
    "pensando": "Mmmmm... déjame pensar...", "celebracion": "¡Yujuuu! ¡Qué bien!",

    # Utilidades
    "ayuda": "¿En qué puedo ayudarte?",
    "repetir": "¿Podrías repetir eso por favor?",
    "no_entiendo": "Lo siento, no entendí bien",
    "espera": "Espera un momento por favor",
    "listo": "¡Listo! ¿Qué más necesitas?"
}

async def generar_frases_en_drive():
    """
    Genera todos los audios en la carpeta de Drive,
    sobrescribiendo los existentes.
    """
    voice = "es-US-AlonsoNeural"

    # El script ahora usará la ruta de tu Drive
    ruta_guardado = FOLDERS['frases']
    print(f"🎯 Generando y sobrescribiendo {len(FRASES_PREDEFINIDAS)} frases en: {ruta_guardado}")

    for nombre, texto in FRASES_PREDEFINIDAS.items():
        # Construye la ruta completa del archivo dentro de la carpeta de Drive
        archivo = os.path.join(ruta_guardado, f"{nombre}.mp3")

        try:
            # Generar y guardar/sobrescribir el audio
            communicate = edge_tts.Communicate(texto, voice)
            await communicate.save(archivo)
            print(f"✅ Generado/Sobrescrito: '{nombre}.mp3'")
        except Exception as e:
            print(f"❌ Error generando {nombre}: {e}")

    # Guardar el índice de frases en la misma carpeta de Drive
    indice_file = os.path.join(ruta_guardado, "indice.json")
    with open(indice_file, 'w', encoding='utf-8') as f:
        json.dump(FRASES_PREDEFINIDAS, f, indent=2, ensure_ascii=False)

    print("\n🎉 ¡Todas las frases han sido procesadas!")
    print(f"📁 Verifícalos en tu Google Drive en la ruta: {os.path.abspath(ruta_guardado)}")

# --- Ejecución para Jupyter/Colab ---
await generar_frases_en_drive()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
🎯 Generando y sobrescribiendo 35 frases en: /content/drive/MyDrive/RobotNAO/frases_predefinidas/
✅ Generado/Sobrescrito: 'hola.mp3'
✅ Generado/Sobrescrito: 'buenos_dias.mp3'
✅ Generado/Sobrescrito: 'buenas_tardes.mp3'
✅ Generado/Sobrescrito: 'buenas_noches.mp3'
✅ Generado/Sobrescrito: 'adios.mp3'
✅ Generado/Sobrescrito: 'si.mp3'
✅ Generado/Sobrescrito: 'no.mp3'
✅ Generado/Sobrescrito: 'tal_vez.mp3'
✅ Generado/Sobrescrito: 'no_se.mp3'
✅ Generado/Sobrescrito: 'gracias.mp3'
✅ Generado/Sobrescrito: 'de_nada.mp3'
✅ Generado/Sobrescrito: 'perdon.mp3'
✅ Generado/Sobrescrito: 'estoy_bien.mp3'
✅ Generado/Sobrescrito: 'estoy_cansado.mp3'
✅ Generado/Sobrescrito: 'tengo_hambre.mp3'
✅ Generado/Sobrescrito: 'estoy_feliz.mp3'
✅ Generado/Sobrescrito: 'estoy_triste.mp3'
✅ Generado/Sobrescrito: 'como_te_llamas.mp3'
✅ Generado/Sobrescrito: 'que_edad_tienes.mp3'
✅ Generado/Sobre

# **Servidor**

In [16]:
# ========== SETUP BASICO (con Opción 2: gemini_model persistente) ==========
import os, json, asyncio
import edge_tts

# 1) Estructura de carpetas (estándar y consistente)
FOLDERS = {
    'config': 'config/',
    'frases': 'frases/',
    'cache': 'cache/',
    'historial': 'historial/',
}
for p in FOLDERS.values():
    os.makedirs(p, exist_ok=True)

# 2) settings.json (se crea si no existe; si existe se completa con defaults)
config_file_path = os.path.join(FOLDERS['config'], 'settings.json')
if not os.path.exists(config_file_path):
    settings = {
        "gemini_api_key": "AIzaSyAXqi2T5nSPhbUpwVICJzp_PqmU7kO4mWQ",
        "personalidad_robot": "Eres un robot amigable y servicial llamado Nao. Respondes de forma concisa y amigable.",
        "voz_predeterminada": "es-MX-JorgeNeural",
        "voz_loro": "es-ES-ElviraNeural",
        "gemini_model": "gemini-1.5-flash",  # <--- default válido
    }
    with open(config_file_path, 'w', encoding='utf-8') as f:
        json.dump(settings, f, indent=2, ensure_ascii=False)
else:
    with open(config_file_path, 'r', encoding='utf-8') as f:
        settings = json.load(f)
    # Opción 2: agrega clave si falta (y cualquier otro default que quieras reforzar)
    settings.setdefault('gemini_model', 'gemini-1.5-flash')
    settings.setdefault('voz_predeterminada', 'es-MX-JorgeNeural')
    settings.setdefault('voz_loro', 'es-ES-ElviraNeural')
    with open(config_file_path, 'w', encoding='utf-8') as f:
        json.dump(settings, f, indent=2, ensure_ascii=False)

print(f"✔ settings.json OK en: {config_file_path}")
print(f"   ▸ gemini_model: {settings.get('gemini_model')}")

# 3) índice por defecto (solo si NO existe)
indice_file_path = os.path.join(FOLDERS['frases'], 'indice.json')
if not os.path.exists(indice_file_path):
    frases_base = {
        "hola": "Hola, ¿cómo estás?",
        "adios": "Hasta luego, que tengas un buen día.",
        "gracias": "De nada, para eso estoy."
    }
    with open(indice_file_path, 'w', encoding='utf-8') as f:
        json.dump(frases_base, f, indent=2, ensure_ascii=False)
print(f"✔ indice.json OK en: {indice_file_path}")

# 4) (Opcional) Generar un set grande de frases con TTS (sobrescribe MP3 y puede actualizar indice.json)
FRASES_PREDEFINIDAS = {
    # Saludos
    "hola": "¡Hola! ¿Cómo estás?",
    "buenos_dias": "¡Buenos días! Espero que tengas un día maravilloso.",
    "buenas_tardes": "¡Buenas tardes! ¿Cómo va tu día?",
    "buenas_noches": "¡Buenas noches! Que descanses bien.",
    "adios": "¡Adiós! ¡Hasta pronto!",
    # Respuestas básicas
    "si": "Sí", "no": "No", "tal_vez": "Tal vez", "no_se": "No lo sé",
    "gracias": "¡Gracias!", "de_nada": "De nada", "perdon": "Perdón",
    # Estados del robot
    "estoy_bien": "¡Estoy muy bien, gracias por preguntar!",
    "estoy_cansado": "Estoy un poco cansado, necesito recargar energía.",
    "tengo_hambre": "¡Tengo hambre de conocimiento!",
    "estoy_feliz": "¡Estoy muy feliz de verte!",
    "estoy_triste": "Me siento un poco triste.",
    # Preguntas comunes
    "como_te_llamas": "Me llamo NAO, soy tu robot asistente.",
    "que_edad_tienes": "Soy un robot, no tengo edad, pero siempre me siento joven.",
    "de_donde_eres": "Vengo del mundo digital, pero vivo aquí contigo.",
    "que_te_gusta": "Me gusta aprender, jugar y hacer nuevos amigos.",
    # Acciones
    "vamos_a_jugar": "¡Sí! ¡Vamos a jugar!",
    "cuentame_un_chiste": "¿Por qué el robot fue al psicólogo? ¡Porque tenía un virus mental!",
    "canta_una_cancion": "Soy un robot muy feliz, me gusta bailar y reír.",
    "baila": "¡Voy a bailar! hace movimientos de robot.",
    # Emociones y sonidos
    "risa": "¡Ja ja ja ja!", "llanto": "Buaaa, buaaa", "sorpresa": "¡Woooow! ¡Qué sorpresa!",
    "pensando": "Mmmmm... déjame pensar...", "celebracion": "¡Yujuuu! ¡Qué bien!",
    # Utilidades
    "ayuda": "¿En qué puedo ayudarte?",
    "repetir": "¿Podrías repetir eso por favor?",
    "no_entiendo": "Lo siento, no entendí bien.",
    "espera": "Espera un momento por favor.",
    "listo": "¡Listo! ¿Qué más necesitas?"
}

GENERAR_AUDIOS = True  # <- pon False si no querés regenerar

async def generar_frases_mp3(frases: dict, voice: str):
    ruta_guardado = FOLDERS['frases']
    print(f"🎯 Generando {len(frases)} audios en: {os.path.abspath(ruta_guardado)}")
    for nombre, texto in frases.items():
        try:
            archivo = os.path.join(ruta_guardado, f"{nombre}.mp3")
            communicate = edge_tts.Communicate(texto, voice)
            await communicate.save(archivo)
            print(f"✅ {nombre}.mp3")
        except Exception as e:
            print(f"❌ Error generando {nombre}: {e}")

if GENERAR_AUDIOS:
    voz = settings.get('voz_predeterminada', 'es-MX-JorgeNeural')
    await generar_frases_mp3(FRASES_PREDEFINIDAS, voice=voz)
    # opcional: actualizar indice.json con este set
    with open(indice_file_path, 'w', encoding='utf-8') as f:
        json.dump(FRASES_PREDEFINIDAS, f, indent=2, ensure_ascii=False)
    print("✔ indice.json actualizado con FRASES_PREDEFINIDAS")

print("✅ Setup completo.")


✔ settings.json OK en: config/settings.json
   ▸ gemini_model: gemini-1.5-flash
✔ indice.json OK en: frases/indice.json
🎯 Generando 35 audios en: /content/frases
✅ hola.mp3
✅ buenos_dias.mp3
✅ buenas_tardes.mp3
✅ buenas_noches.mp3
✅ adios.mp3
✅ si.mp3
✅ no.mp3
✅ tal_vez.mp3
✅ no_se.mp3
✅ gracias.mp3
✅ de_nada.mp3
✅ perdon.mp3
✅ estoy_bien.mp3
✅ estoy_cansado.mp3
✅ tengo_hambre.mp3
✅ estoy_feliz.mp3
✅ estoy_triste.mp3
✅ como_te_llamas.mp3
✅ que_edad_tienes.mp3
✅ de_donde_eres.mp3
✅ que_te_gusta.mp3
✅ vamos_a_jugar.mp3
✅ cuentame_un_chiste.mp3
✅ canta_una_cancion.mp3
✅ baila.mp3
✅ risa.mp3
✅ llanto.mp3
✅ sorpresa.mp3
✅ pensando.mp3
✅ celebracion.mp3
✅ ayuda.mp3
✅ repetir.mp3
✅ no_entiendo.mp3
✅ espera.mp3
✅ listo.mp3
✔ indice.json actualizado con FRASES_PREDEFINIDAS
✅ Setup completo.


In [17]:
# ========= SERVIDOR FASTAPI con autodetección robusta de modelo (SDK + REST v1 + variantes -latest) =========
import os, json, base64, hashlib, uuid, requests
from datetime import datetime
from queue import Queue
from typing import Optional

from fastapi import FastAPI, HTTPException, Form
from fastapi.middleware.cors import CORSMiddleware
import edge_tts
import google.generativeai as genai

# ---------- bootstrap mínimo por si no corriste el setup ----------
if 'FOLDERS' not in globals():
    FOLDERS = {'config':'config/','frases':'frases/','cache':'cache/','historial':'historial/'}
for p in FOLDERS.values():
    os.makedirs(p, exist_ok=True)

config_file_path = os.path.join(FOLDERS['config'], 'settings.json')
indice_file_path = os.path.join(FOLDERS['frases'], 'indice.json')
if not os.path.exists(config_file_path):
    with open(config_file_path,'w',encoding='utf-8') as f:
        json.dump({
            "gemini_api_key":"API_KEY_NO_CONFIGURADA",
            "gemini_model":"gemini-1.5-flash",
            "personalidad_robot":"Eres un robot amigable y servicial llamado Nao. Respondes de forma concisa y amigable.",
            "voz_predeterminada":"es-MX-JorgeNeural",
            "voz_loro":"es-ES-ElviraNeural"
        }, f, indent=2, ensure_ascii=False)

# ---------- cargar settings ----------
with open(config_file_path,'r',encoding='utf-8') as f:
    settings = json.load(f)
settings.setdefault('gemini_model', 'gemini-1.5-flash')

# ⚠️ Usa tu API key si falta en settings
GEMINI_API_KEY = settings.get('gemini_api_key') or "AIzaSyAXqi2T5nSPhbUpwVICJzp_PqmU7kO4mWQ"
settings['gemini_api_key'] = GEMINI_API_KEY
with open(config_file_path,'w',encoding='utf-8') as f:
    json.dump(settings, f, indent=2, ensure_ascii=False)

PREFERRED_MODEL = settings.get('gemini_model','gemini-1.5-flash')
ACTIVE_MODEL = PREFERRED_MODEL

# ---------- helpers REST v1 ----------
def _rest_models() -> list[str]:
    """Lista modelos visibles para esta key en REST v1."""
    url = f"https://generativelanguage.googleapis.com/v1/models?key={GEMINI_API_KEY}"
    r = requests.get(url, timeout=30)
    if r.status_code // 100 != 2:
        print("⚠️ list models REST error:", r.status_code, r.text)
        return []
    data = r.json()
    names = [m.get('name','') for m in data.get('models',[])]
    return names

def _resolve_model_from_rest(preferred: str) -> str:
    """Escoge un modelo realmente disponible vía REST."""
    names = _rest_models()
    if not names:
        return preferred
    # normaliza lista (sin el prefijo "models/")
    norm = { n.replace('models/',''): n for n in names }

    def has(name: str) -> Optional[str]:
        # devuelve el nombre tal como lo expone REST (puede traer el prefijo)
        return norm.get(name)

    # 1) preferido exacto
    if has(preferred): return preferred
    # 2) probar -latest si no lo tiene
    if not preferred.endswith('-latest') and has(preferred + '-latest'):
        return preferred + '-latest'
    # 3) si trae -latest, probar sin -latest
    if preferred.endswith('-latest') and has(preferred.replace('-latest','')):
        return preferred.replace('-latest','')
    # 4) probar candidatos conocidos en orden
    for cand in [
        'gemini-1.5-flash-latest','gemini-1.5-flash',
        'gemini-1.5-pro-latest','gemini-1.5-pro',
        'gemini-1.0-pro','gemini-pro'
    ]:
        if has(cand): return cand
    # 5) último recurso: cualquiera que soporte generateContent (si lo indica)
    for n in names:
        return n.replace('models/','')  # primero de la lista
    return preferred

def _gemini_generate_rest(model_name: str, prompt: str) -> str:
    """Llama REST v1; si 404, prueba variantes -latest/sin -latest automáticamente."""
    tried = []
    def _call(name: str) -> str:
        url = f"https://generativelanguage.googleapis.com/v1/models/{name}:generateContent?key={GEMINI_API_KEY}"
        payload = {"contents":[{"parts":[{"text":prompt}]}]}
        r = requests.post(url, json=payload, timeout=45)
        tried.append((name, r.status_code))
        if r.status_code == 404:
            raise FileNotFoundError(f"404 {name}")
        if r.status_code // 100 != 2:
            raise HTTPException(status_code=503, detail=f"Gemini REST error: {r.status_code} {r.text}")
        data = r.json()
        try:
            return data["candidates"][0]["content"]["parts"][0]["text"]
        except Exception:
            return json.dumps(data)

    # intento con el modelo dado
    try:
        return _call(model_name)
    except FileNotFoundError:
        pass

    # si no, probar variante -latest/sin -latest
    if not model_name.endswith('-latest'):
        try:
            return _call(model_name + '-latest')
        except FileNotFoundError:
            pass
    else:
        try:
            return _call(model_name.replace('-latest',''))
        except FileNotFoundError:
            pass

    # finalmente, resolver desde REST y probar
    alt = _resolve_model_from_rest(model_name)
    if alt != model_name:
        return _call(alt)
    # si nada funcionó:
    raise HTTPException(status_code=503, detail=f"No hay un modelo REST v1 válido. Intentos: {tried}")

# ---------- configurar SDK (tolerante) ----------
if GEMINI_API_KEY and GEMINI_API_KEY != "API_KEY_NO_CONFIGURADA":
    genai.configure(api_key=GEMINI_API_KEY)
    # resolve active con REST primero (más realista)
    ACTIVE_MODEL = _resolve_model_from_rest(PREFERRED_MODEL)
    try:
        model = genai.GenerativeModel(ACTIVE_MODEL)
    except Exception as e:
        print("⚠️ SDK no pudo crear modelo, se usará REST v1. Motivo:", e)
        model = None
    print(f"⚙️ Modelo activo: {ACTIVE_MODEL}")
else:
    print("⚠️ Gemini no configurado; Conversar devolverá 503.")
    model = None

def _gemini_generate(prompt: str) -> str:
    """SDK si puede; si no, REST v1 con variantes."""
    # 1) SDK
    if model is not None:
        try:
            resp = model.generate_content(prompt)
            txt = (getattr(resp, "text", None) or "").strip()
            if txt:
                return txt
        except Exception as ge:
            print("⚠️ SDK falló; usando REST v1. Motivo:", ge)
    # 2) REST
    return _gemini_generate_rest(ACTIVE_MODEL, prompt)

# ---------- App FastAPI ----------
app = FastAPI(title="Robot NAO Server", version="1.0.0")
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"], allow_credentials=True,
    allow_methods=["*"], allow_headers=["*"],
)

historial_conversacion = []
esp32_queues: dict[str, Queue] = {}
audio_cache: dict[str, str] = {}

# ===== Helpers =====
def categorizar_frase(nombre: str) -> str:
    categorias = {"saludos":["hola","buenos_dias","adios"], "respuestas":["si","no","gracias"]}
    for cat, frases in categorias.items():
        if nombre in frases: return cat
    return "otros"

# ===== Control (Flutter) =====
@app.post("/control/frase")
async def control_reproducir_frase(device_id: str = Form(...), nombre_frase: str = Form(...)):
    archivo = os.path.join(FOLDERS['frases'], f"{nombre_frase}.mp3")
    if not os.path.exists(archivo):
        raise HTTPException(status_code=404, detail=f"Frase '{nombre_frase}' no encontrada")
    with open(archivo, 'rb') as f:
        audio_data = f.read()
    audio_id = str(uuid.uuid4())
    audio_cache[audio_id] = base64.b64encode(audio_data).decode()
    if device_id not in esp32_queues:
        esp32_queues[device_id] = Queue()
    esp32_queues[device_id].put({
        "tipo":"reproducir_frase","audio_id":audio_id,"nombre":nombre_frase,
        "timestamp":datetime.now().isoformat()
    })
    return {"success":True,"audio_id":audio_id}

@app.post("/control/conversar")
async def control_conversar(device_id: str = Form(...), texto: str = Form(...), mantener_contexto: bool = Form(True)):
    if not GEMINI_API_KEY or GEMINI_API_KEY == "API_KEY_NO_CONFIGURADA":
        raise HTTPException(status_code=503, detail="Gemini no configurado (API key).")
    contexto = settings.get('personalidad_robot','')
    if mantener_contexto and historial_conversacion:
        contexto += "\n\nConversación anterior:\n"
        for msg in historial_conversacion[-5:]:
            contexto += f"Usuario: {msg['usuario']}\nRobot: {msg['robot']}\n"
    prompt = f"{contexto}\n\nUsuario: {texto}\nRobot:"
    try:
        respuesta_texto = _gemini_generate(prompt)
    except HTTPException:
        raise
    except Exception as e:
        raise HTTPException(status_code=503, detail=f"Gemini error: {e} (modelo activo: {ACTIVE_MODEL})")
    if not respuesta_texto.strip():
        respuesta_texto = "Lo siento, no tengo una respuesta en este momento."
    historial_conversacion.append({"usuario":texto,"robot":respuesta_texto,"timestamp":datetime.now().isoformat()})
    # TTS + cache
    mp3_name = hashlib.md5(respuesta_texto.encode()).hexdigest()
    cache_file = os.path.join(FOLDERS['cache'], f"conv_{mp3_name}.mp3")
    if not os.path.exists(cache_file):
        await edge_tts.Communicate(respuesta_texto, settings.get('voz_predeterminada','es-MX-JorgeNeural')).save(cache_file)
    with open(cache_file,'rb') as f:
        audio_data = f.read()
    audio_id = str(uuid.uuid4())
    audio_cache[audio_id] = base64.b64encode(audio_data).decode()
    if device_id not in esp32_queues:
        esp32_queues[device_id] = Queue()
    esp32_queues[device_id].put({
        "tipo":"reproducir_conversacion","audio_id":audio_id,
        "texto_usuario":texto,"texto_robot":respuesta_texto,"timestamp":datetime.now().isoformat()
    })
    return {"success":True,"respuesta_robot":respuesta_texto,"audio_id":audio_id}

@app.post("/control/repetir")
async def control_repetir(device_id: str = Form(...), texto: str = Form(...), efecto: str = Form("normal")):
    cache_key = f"{texto}_{efecto}"
    nombre = hashlib.md5(cache_key.encode()).hexdigest()
    cache_file = os.path.join(FOLDERS['cache'], f"loro_{nombre}.mp3")
    if not os.path.exists(cache_file):
        voice = settings.get('voz_loro','es-ES-ElviraNeural')
        rate, pitch = "+0%", "+0Hz"
        if efecto=="rapido": rate = "+50%"
        elif efecto=="lento": rate = "-30%"
        elif efecto=="agudo": pitch = "+5st"
        elif efecto=="grave": pitch = "-5st"
        elif efecto=="robot": rate, pitch = "+10%","-2st"
        await edge_tts.Communicate(texto, voice, rate=rate, pitch=pitch).save(cache_file)
    with open(cache_file,'rb') as f:
        audio_data = f.read()
    audio_id = str(uuid.uuid4())
    audio_cache[audio_id] = base64.b64encode(audio_data).decode()
    if device_id not in esp32_queues:
        esp32_queues[device_id] = Queue()
    esp32_queues[device_id].put({
        "tipo":"reproducir_loro","audio_id":audio_id,"texto":texto,"efecto":efecto,
        "timestamp":datetime.now().isoformat()
    })
    return {"success":True,"audio_id":audio_id}

# ===== ESP32 =====
@app.post("/esp32/register")
async def esp32_register(device_id: str = Form(...), nombre: str = Form(None), ubicacion: str = Form(None)):
    if device_id not in esp32_queues: esp32_queues[device_id] = Queue()
    return {"success":True,"mensaje":f"Dispositivo {device_id} registrado"}

@app.get("/esp32/poll/{device_id}")
async def esp32_poll(device_id: str):
    if device_id not in esp32_queues: esp32_queues[device_id] = Queue()
    comandos = []
    if not esp32_queues[device_id].empty(): comandos.append(esp32_queues[device_id].get())
    return {"comandos":comandos}

@app.get("/esp32/audio/{audio_id}")
async def esp32_get_audio(audio_id: str):
    if audio_id not in audio_cache: raise HTTPException(status_code=404, detail="Audio no encontrado")
    return {"audio_id":audio_id,"audio_base64":audio_cache[audio_id],"formato":"mp3"}

@app.post("/esp32/confirmar/{device_id}")
async def esp32_confirmar(device_id: str, audio_id: str = Form(...), status: str = Form(...)):
    if status=="success" and audio_id in audio_cache: del audio_cache[audio_id]
    return {"success":True}

# ===== Admin =====
@app.get("/")
async def root():
    return {"status":"online","mensaje":"Servidor Robot NAO activo","modelo":ACTIVE_MODEL}

@app.get("/frases/lista")
async def listar_frases():
    with open(indice_file_path,'r',encoding='utf-8') as f: frases = json.load(f)
    frases_disponibles = [
        {"id":n,"texto":t,"categoria":categorizar_frase(n)}
        for n,t in frases.items()
        if os.path.exists(os.path.join(FOLDERS['frases'], f"{n}.mp3"))
    ]
    return {"total":len(frases_disponibles),"frases":frases_disponibles}

@app.get("/admin/models")
async def admin_models():
    return {"models_rest": _rest_models(), "active": ACTIVE_MODEL}

@app.get("/admin/info")
async def admin_info():
    return {"gemini_model": ACTIVE_MODEL, "genai_version": getattr(genai,"__version__","unknown")}

print("✅ Servidor FastAPI definido. Inicia ngrok+uvicorn en tu Celda C.")


⚙️ Modelo activo: gemini-2.5-flash
✅ Servidor FastAPI definido. Inicia ngrok+uvicorn en tu Celda C.


In [20]:
# ========== ARRANQUE NGROK + UVICORN ==========
from pyngrok import ngrok
import uvicorn
import nest_asyncio
import os

nest_asyncio.apply()

public_url = None
try:
    NGROK_AUTHTOKEN = "33lhitAzRumDfAxMqARynV4MYGq_3ntCwBw8ZTJVeJch1HGDr"
    ngrok.set_auth_token(NGROK_AUTHTOKEN)
    print("✅ Authtoken de ngrok configurado correctamente.")

    # IMPORTANTE: Configurar ngrok para aceptar HTTP sin forzar HTTPS
    NGROK_DOMAIN = "choreal-kalel-directed.ngrok-free.dev"

    # Configuración de ngrok para permitir HTTP
    config = {
        "addr": 8000,
        "domain": NGROK_DOMAIN,
        "schemes": ["http", "https"],  # Permitir ambos
        "inspect": False
    }

    # Abrir túnel con configuración personalizada
    public_url = ngrok.connect(**config)
    url_str = public_url.public_url if hasattr(public_url, "public_url") else str(public_url)

    print("=" * 50)
    print("🌐 SERVIDOR PÚBLICO ACTIVO")
    print(f"📱 URL HTTP: http://{NGROK_DOMAIN}")
    print(f"📱 URL HTTPS: https://{NGROK_DOMAIN}")
    print(f"📚 Documentación (API): {url_str}/docs")
    print("=" * 50)
    print("\n⚠️ IMPORTANTE: El ESP32 usará HTTP (sin SSL).")

    # Guardar URL HTTP para ESP32
    with open(os.path.join(FOLDERS['config'], 'ultima_url.txt'), 'w') as f:
        f.write(f"http://{NGROK_DOMAIN}")

    # Iniciar servidor FastAPI
    uvicorn_config = uvicorn.Config(app, host="0.0.0.0", port=8000, log_level="info")
    server = uvicorn.Server(uvicorn_config)
    await server.serve()

except KeyboardInterrupt:
    print("\nDeteniendo servidor y cerrando túnel ngrok...")
    if public_url:
        ngrok.disconnect(public_url.public_url if hasattr(public_url, "public_url") else str(public_url))
except Exception as e:
    print(f"🛑 Ocurrió un error al iniciar el servidor: {e}")
    if public_url:
        ngrok.disconnect(public_url.public_url if hasattr(public_url, "public_url") else str(public_url))

✅ Authtoken de ngrok configurado correctamente.
🌐 SERVIDOR PÚBLICO ACTIVO
📱 URL HTTP: http://choreal-kalel-directed.ngrok-free.dev
📱 URL HTTPS: https://choreal-kalel-directed.ngrok-free.dev
📚 Documentación (API): https://choreal-kalel-directed.ngrok-free.dev/docs

⚠️ IMPORTANTE: El ESP32 usará HTTP (sin SSL).


INFO:     Started server process [1800]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)


INFO:     186.50.12.90:0 - "GET /esp32/poll/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/audio/d30848e2-5353-40e6-9ade-4bebd8ef30e3 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "POST /esp32/confirmar/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/poll/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/audio/fafbf7b1-bb16-4669-9630-4ee0890ccf72 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "POST /esp32/confirmar/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/poll/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/audio/2c790cdc-937f-443e-a8f5-282a7164e812 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "POST /esp32/confirmar/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/poll/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "GET /esp32/audio/94437212-fc01-4a39-b6d0-cb59aa36fdaa HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "POST /esp32/confirmar/esp32_1 HTTP/1.1" 200 OK
INFO:     186.50.12.90:0 - "

INFO:     Shutting down
INFO:     Waiting for application shutdown.
INFO:     Application shutdown complete.
INFO:     Finished server process [1800]
