# Introducción a la generación de descripciones de imágenes con IA

Propósito general:

Este cuaderno tiene como objetivo introducir a personas sin experiencia previa en el uso de la IA para la generación automática de descripciones de imágenes. A través de un ejemplo práctico, aprenderás a utilizar la biblioteca transformers de Hugging Face para cargar un modelo pre-entrenado, procesar una imagen y generar una descripción textual de la misma.

En este cuaderno, se abordarán los siguientes temas:

* Instalación de la biblioteca transformers: Se explicará cómo instalar la biblioteca transformers y sus dependencias necesarias en Google Colab.

* Carga del modelo y procesador: Aprenderás a cargar un modelo pre-entrenado de Hugging Face, específicamente el modelo "Salesforce/blip-image-captioning-base", junto con su procesador correspondiente.

* Carga y preparación de la imagen: Se te guiará en el proceso de cargar una imagen en el cuaderno y prepararla para ser procesada por el modelo.

* Generación de la descripción: Verás cómo utilizar el modelo para generar una descripción textual de la imagen cargada.

* Visualización de la descripción: Finalmente, se mostrará cómo imprimir la descripción generada por el modelo.


*   Elemento de lista



In [None]:
# Install the transformers library
!pip install transformers Pillow torch torchvision torchaudio -q
from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image

In [None]:
# Initialize the processor and model from Hugging Face
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")

In [None]:
# Load an image
image = Image.open("/content/istockphoto-1403073162-612x612.jpg")

In [None]:
# Prepare the image
inputs = processor(image, return_tensors="pt")

In [None]:
# Generate captions
outputs = model.generate(**inputs)
caption = processor.decode(outputs[0],skip_special_tokens=True)

In [None]:
print("Generated Caption:", caption)

## Interfaz interactiva con Gradio

En esta sección, se implementa una interfaz de usuario interactiva utilizando la biblioteca Gradio. Esta interfaz permite a los usuarios cargar sus propias imágenes y obtener descripciones generadas por el modelo BLIP de manera sencilla e intuitiva, sin necesidad de escribir código.

In [None]:
!pip install gradio -q

In [None]:
import gradio as gr

In [None]:
def generar_descripcion(imagen):
    # Ahora usando directamente el objeto PIL Image
    entradas = processor(images=imagen, return_tensors="pt")
    salidas = model.generate(**entradas)
    descripcion = processor.decode(salidas[0], skip_special_tokens=True)
    return descripcion

In [None]:
def descripcion_imagen(imagen):
    """
    Recibe una imagen PIL y devuelve una descripción.
    """
    try:
        descripcion = generar_descripcion(imagen)
        return descripcion
    except Exception as e:
        return f"Ocurrió un error: {str(e)}"

In [None]:
interfaz = gr.Interface(
    fn=descripcion_imagen,
    inputs=gr.Image(type="pil"),
    outputs="text",
    title="Generación de descripciones de imágenes con BLIP",
    description="Sube una imagen para generar una descripción."
)
interfaz.launch()