# Trabajo Integrador Técnicas de procesamiento de imágenes

## IFTS 24

Profesor: Matías Barreto

Alumna Gabriela Pari Vaca



---


## Asistente por voz

Descripción del proyecto

El proyecto consiste en una interfaz que permite al usuario interactuar con imagen y voz. Mediante la camara web se podrá sacar una foto y hacerle una pregunta por voz, la respuesta también será mediante la voz.

Tecnologías usadas
- PaliGemma
- Gradio
- Torch
- Transformers de Hugging Face
- gTTS(Google Text-to-Speech)


## Instalación e importación de librerías

In [None]:
!pip install gradio
!pip install torch transformers
!pip install Pillow
!pip install gTTS

In [None]:
import gradio as gr
import torch
from transformers import AutoProcessor, PaliGemmaForConditionalGeneration, pipeline
from PIL import Image
from gtts import gTTS
import os

## Token
Para el uso de la libreria de Paligemma que se encuentra en HuggingFace.

Se necesita tener creado un usuario con las credenciales. https://huggingface.co/settings/tokens

Para el uso de este notebook se puede ir a la sección de "secrets" crear una clave con el nombre de 'HF_TOKEN'. Otra opción es usar el código de "notebook_login" donde se copia el token sin guardarlo

In [None]:
from huggingface_hub import notebook_login
from huggingface_hub import login
from google.colab import userdata

hf_token = userdata.get('HF_TOKEN')

#notebook_login(hf_token)
login(hf_token)

## 1. Configuración

- Cargar el modelo VLM(visual-language-model) de Paligemma 3b
- Configurar la máquina para que use GPU
- Speech-to-Text

In [None]:
print("Cargando modelo PaliGemma")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32
model_id = "google/paligemma-3b-mix-224"
processor = AutoProcessor.from_pretrained(model_id)
pali_model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=model_dtype,
    device_map=device,
    revision="bfloat16",
).eval()

# --- Pipeline de Speech-to-Text (Whisper) ---
print("Cargando modelo Whisper (Speech-to-Text)...")
# Usamos un modelo más pequeño para un inicio más rápido. Puedes cambiar a "openai/whisper-large-v3" para mayor precisión.
asr_pipeline = pipeline("automatic-speech-recognition", model="openai/whisper-base", device=device)

print("Modelos cargados")


## 2. Función Principal

In [None]:
def procesar_foto_y_voz(pil_image, audio_filepath):
    """
    Orquesta todo el proceso:
    1. Transcribe la voz a texto.
    2. Hace la pregunta sobre la imagen al modelo PaliGemma.
    3. Convierte la respuesta de texto a voz.

    """
    # Validar entradas
    if pil_image is None:
        error_msg = "ERROR: Por favor, toma una foto primero."
        gTTS(text=error_msg, lang='es').save("error.mp3")
        return error_msg, "error.mp3"

    if audio_filepath is None:
        error_msg = "ERROR: Por favor, graba una pregunta."
        gTTS(text=error_msg, lang='es').save("error.mp3")
        return error_msg, "error.mp3"

    try:
        # Paso 1: Transcribir la voz a texto
        print(f"Transcribiendo audio desde: {audio_filepath}")
        transcripcion = asr_pipeline(audio_filepath)
        pregunta_texto = transcripcion['text']
        print(f"Texto transcrito: '{pregunta_texto}'")

        if not pregunta_texto:
            error_msg = "No pude entender la pregunta. Por favor, habla más claro."
            gTTS(text=error_msg, lang='es').save("error.mp3")
            return error_msg, "error.mp3"

        # Paso 2: Usar PaliGemma para responder la pregunta sobre la imagen
        prompt = pregunta_texto
        inputs = processor(text=prompt, images=pil_image, return_tensors="pt").to(pali_model.device)
        reply = pali_model.generate(**inputs, max_new_tokens=100)
        respuesta_texto = processor.decode(reply[0], skip_special_tokens=True)
        respuesta_limpia = respuesta_texto.split(prompt)[-1].strip()
        print(f"Respuesta del modelo: '{respuesta_limpia}'")

        # Paso 3: Convertir la respuesta de texto a voz
        output_audio_path = "respuesta.mp3"
        tts = gTTS(text=respuesta_limpia, lang='es', slow=False)
        tts.save(output_audio_path)
        print(f"Audio de respuesta guardado en: {output_audio_path}")

        # Devolver la respuesta en texto y la ruta al archivo de audio de respuesta
        return respuesta_limpia, output_audio_path

    except Exception as e:
        print(f"Ocurrió un error general: {e}")
        error_msg = f"Lo siento, ocurrió un error: {e}"
        gTTS(text="Ocurrió un error inesperado", lang='es').save("error.mp3")
        return error_msg, "error.mp3"


## 3. Creación de la Interfaz



In [None]:
with gr.Blocks(theme=gr.themes.Soft(), title="Asistente Visual por Voz") as demo:
    gr.Markdown(
        """
        # Asistente Visual por Voz
        Usa tu cámara para tomar una foto y luego graba una pregunta en español sobre ella.
        """
    )

    with gr.Row():
        with gr.Column():
            image_input = gr.Image(label="Paso 1: Toma una foto", sources=["webcam"], type="pil", elem_id="camera-container")
            audio_input = gr.Audio(label="Paso 2: Graba tu pregunta", sources=["microphone"], type="filepath", elem_id="voice-recorder-container")
            submit_button = gr.Button("Procesar", variant="primary")

        with gr.Column():
            # Salidas
            output_text = gr.Textbox(label="Respuesta en Texto", lines=8, interactive=False)
            output_audio = gr.Audio(label="Respuesta en Audio", type="filepath", autoplay=True)

    # Conectar el botón a la función principal
    submit_button.click(
        fn=procesar_foto_y_voz,
        inputs=[image_input, audio_input],
        outputs=[output_text, output_audio]
    )

if __name__ == "__main__":
    demo.launch() # debug=True te ayuda a ver errores en la consola


## Próximos pasos a seguir

Mi idea de esta aplicación es aumentar la accesibilidad para los usuarios que tienen dificutad visual. El módulo JS se debe agregar con el parametro de js en gradio.



In [None]:
# Modulo JS para agregar mayor accecibilidad
js = """
// Función para simular un clic en un botón dentro de un contenedor específico
console.log("se ingreso");
function clickButtonInContainer(containerId) {
    // Buscamos el contenedor por el ID que le dimos en Python (ej: #camera-container)
    const container = document.querySelector(containerId);
    console.log("clic container");
    if (container) {
        // Buscamos el PRIMER botón que se encuentre DENTRO de ese contenedor
        const button = container.querySelector("button");
        if (button) {
            // Si encontramos el botón, le hacemos clic
            button.click();
            console.log(`Botón clickeado dentro de: ${containerId}`);
        } else {
            console.log(`No se encontró un botón dentro de: ${containerId}`);
        }
    } else {
        console.log(`No se encontró el contenedor: ${containerId}`);
    }
}

// Agregamos un "escuchador" de eventos para las pulsaciones de teclas en toda la página
document.addEventListener("keydown", (event) => {
    console.log("se ingreso addeventListener");

    // Si se presiona la tecla "f"
    if (event.key.toLowerCase() === "f") {
        // Prevenimos la acción por defecto del navegador (como abrir la búsqueda)
        event.preventDefault();
        // Llamamos a nuestra función para hacer clic en el botón de la cámara
        clickButtonInContainer("#camera-container");
    }

    // Si se presiona la tecla "v"
    if (event.key.toLowerCase() === "v") {
        event.preventDefault();
        // Llamamos a nuestra función para hacer clic en el botón de grabar voz
        clickButtonInContainer("#voice-recorder-container");
    }
});
"""

## Links

https://huggingface.co/google/paligemma-3b-mix-224