In [1]:
# 📘 Image Captioning Mejorado con BLIP-2 + MarianMT

# Este notebook implementa un sistema de generación automática de descripciones de imágenes
# usando BLIP-2 para captioning y MarianMT para traducción al español, con una interfaz Gradio.

# 🧰 Instalación de librerías necesarias (si estás en Colab)
!pip install transformers gradio accelerate -q

# 🔍 Carga de modelos
from transformers import Blip2Processor, Blip2ForConditionalGeneration, MarianTokenizer, MarianMTModel
from PIL import Image
import torch
import gradio as gr

# BLIP-2 para generar descripciones en inglés
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained(
    "Salesforce/blip2-opt-2.7b",
    device_map="auto",
    torch_dtype=torch.float16
)

# MarianMT para traducción EN ➜ ES
tokenizer_es = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-es")
traductor_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-es")

def traducir_marian(texto):
    inputs = tokenizer_es(texto, return_tensors="pt", padding=True)
    translated = traductor_model.generate(**inputs)
    return tokenizer_es.decode(translated[0], skip_special_tokens=True)

# 🧠 Función principal

def generar_descripcion(imagen):
    """
    Genera una descripción en español para una imagen dada usando BLIP-2 y MarianMT.
    """
    inputs = processor(images=imagen, return_tensors="pt").to("cuda", torch.float16)
    output = model.generate(**inputs, max_new_tokens=50)
    descripcion_en = processor.tokenizer.decode(output[0], skip_special_tokens=True)
    descripcion_es = traducir_marian(descripcion_en)
    return {
        "Descripción (English)": descripcion_en,
        "Descripción (Español)": descripcion_es
    }

# 🌐 Interfaz Gradio
with gr.Blocks() as demo:
    gr.Markdown("""
    # 🖼️ Generador Automático de Descripciones de Imágenes
    ¡Subí una imagen y generá automáticamente una descripción en español!
    """)

    with gr.Row():
        imagen_input = gr.Image(type="pil", label="Subí tu imagen acá")

    with gr.Row():
        boton_analizar = gr.Button("Generar Descripción")

    with gr.Row():
        salida = gr.JSON(label="Resultados")

    boton_analizar.click(
        fn=generar_descripcion,
        inputs=imagen_input,
        outputs=salida
    )

    gr.Markdown("""
    ### 🤔 Para Pensar un Poco: Reflexiones

    1. ¿Qué tan precisas te parecieron las descripciones que generó el modelo? ¿Te sorprendió alguna?
    2. ¿Qué tipo de detalles captó mejor el modelo en las imágenes? ¿Y cuáles no tanto?
    3. Si tuvieras que mejorar algo, ¿cómo creés que se podría mejorar la calidad de las traducciones al español?
    4. Pensando en el mundo real, ¿qué aplicaciones prácticas le ves a esta tecnología? ¿Dónde la usarías?
    """)

# Ejecutar interfaz
# demo.launch(share=True)

# 🏁 Conclusión
"""
## 🏆 ¡Felicitaciones!

Llegaste al final de este recorrido y construiste tu propio sistema de generación de descripciones de imágenes. Usaste modelos avanzados de visión y lenguaje (BLIP-2) y traductores automáticos (MarianMT) para obtener resultados en español.

Aprendiste a integrar modelos de Hugging Face, preparar imágenes para procesamiento, y crear una interfaz interactiva con Gradio.

---
"""

# ✅ Próximos Pasos y Respuestas
"""
### 👉 Próximos Pasos y Reflexiones Finales

**1. ¿Hay algún modelo que funcione mejor para captioning o traducción?**
Sí. Para captioning, BLIP-2 y GIT ofrecen mejor rendimiento que el modelo base BLIP. Para traducción, MarianMT es más preciso y personalizable que pipelines genéricos.

**2. ¿Cómo podrías mejorar la calidad de las traducciones al español?**
Usando post-procesamiento lingüístico, ajustando el modelo MarianMT con datos específicos o combinando múltiples traducciones para una versión final optimizada.

**3. ¿Qué funcionalidades podrías agregar al sistema?**
Detección de objetos con YOLO, análisis de sentimientos, OCR, o integración con sistemas de preguntas visuales (VQA).

**4. ¿Cómo podrías optimizar el rendimiento del modelo?**
Reduciendo la resolución de entrada, usando modelos cuantizados, ejecutando en GPU/TPU y aplicando distillation para modelos más livianos.

---
Este trabajo no solo aplica conceptos técnicos, sino que invita a reflexionar sobre el uso responsable y creativo de la inteligencia artificial.
"""


[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m3.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m30.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m25.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m35.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


preprocessor_config.json:   0%|          | 0.00/432 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/882 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.56M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/23.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/548 [00:00<?, ?B/s]

processor_config.json:   0%|          | 0.00/68.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.03k [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/122k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/10.0G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/141 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]



pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/312M [00:00<?, ?B/s]

'\n### 👉 Próximos Pasos y Reflexiones Finales\n\n**1. ¿Hay algún modelo que funcione mejor para captioning o traducción?**\nSí. Para captioning, BLIP-2 y GIT ofrecen mejor rendimiento que el modelo base BLIP. Para traducción, MarianMT es más preciso y personalizable que pipelines genéricos.\n\n**2. ¿Cómo podrías mejorar la calidad de las traducciones al español?**\nUsando post-procesamiento lingüístico, ajustando el modelo MarianMT con datos específicos o combinando múltiples traducciones para una versión final optimizada.\n\n**3. ¿Qué funcionalidades podrías agregar al sistema?**\nDetección de objetos con YOLO, análisis de sentimientos, OCR, o integración con sistemas de preguntas visuales (VQA).\n\n**4. ¿Cómo podrías optimizar el rendimiento del modelo?**\nReduciendo la resolución de entrada, usando modelos cuantizados, ejecutando en GPU/TPU y aplicando distillation para modelos más livianos.\n\n---\nEste trabajo no solo aplica conceptos técnicos, sino que invita a reflexionar sobre 

In [2]:
# 📘 Image Captioning Mejorado con BLIP-2 + MarianMT

# Este notebook implementa un sistema de generación automática de descripciones de imágenes
# usando BLIP-2 para captioning y MarianMT para traducción al español, con una interfaz Gradio.

# 🧰 Instalación de librerías necesarias (si estás en Colab)
!pip install transformers gradio accelerate -q

# 🔍 Carga de modelos
from transformers import Blip2Processor, Blip2ForConditionalGeneration, MarianTokenizer, MarianMTModel
from PIL import Image
import torch
import gradio as gr

# Determinar si hay GPU disponible
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Usando dispositivo: {device}")

# BLIP-2 para generar descripciones en inglés
# NOTA: Se elimina torch_dtype=torch.float16 de aquí para asegurar compatibilidad CPU/GPU
# y se maneja la conversión a float16 solo si hay GPU en la función generar_descripcion.
processor = Blip2Processor.from_pretrained("Salesforce/blip2-opt-2.7b")
model = Blip2ForConditionalGeneration.from_pretrained(
    "Salesforce/blip2-opt-2.7b",
    device_map="auto" # device_map="auto" funciona bien para cargar en GPU si está disponible
)

# MarianMT para traducción EN ➜ ES
tokenizer_es = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-es")
traductor_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-es").to(device) # Mover el traductor a GPU si está disponible

def traducir_marian(texto):
    inputs = tokenizer_es(texto, return_tensors="pt", padding=True).to(device) # Mover inputs a GPU si está disponible
    translated = traductor_model.generate(**inputs)
    return tokenizer_es.decode(translated[0], skip_special_tokens=True)

# 🧠 Función principal

def generar_descripcion(imagen):
    """
    Genera una descripción en español para una imagen dada usando BLIP-2 y MarianMT.
    """
    # Mover la imagen procesada a la GPU si está disponible y convertir a float16
    # Solo BLIP-2 se beneficia del float16, no MarianMT necesariamente
    inputs = processor(images=imagen, return_tensors="pt")

    # Asegúrate de mover los inputs al dispositivo correcto y aplicar float16 solo si es CUDA
    if device == "cuda":
        inputs = {k: v.to(device, torch.float16) for k, v in inputs.items()}
    else: # Si es CPU, simplemente mover a CPU
        inputs = {k: v.to(device) for k, v in inputs.items()}

    output = model.generate(**inputs, max_new_tokens=50)
    descripcion_en = processor.tokenizer.decode(output[0], skip_special_tokens=True)
    descripcion_es = traducir_marian(descripcion_en)
    return {
        "Descripción (English)": descripcion_en,
        "Descripción (Español)": descripcion_es
    }

# 🌐 Interfaz Gradio
with gr.Blocks() as demo:
    gr.Markdown("""
    # 🖼️ Generador Automático de Descripciones de Imágenes
    ¡Subí una imagen y generá automáticamente una descripción en español!
    """)

    with gr.Row():
        imagen_input = gr.Image(type="pil", label="Subí tu imagen acá")

    with gr.Row():
        boton_analizar = gr.Button("Generar Descripción")

    with gr.Row():
        salida = gr.JSON(label="Resultados")

    boton_analizar.click(
        fn=generar_descripcion,
        inputs=imagen_input,
        outputs=salida
    )

    gr.Markdown("""
    ### 🤔 Para Pensar un Poco: Reflexiones

    1. ¿Qué tan precisas te parecieron las descripciones que generó el modelo? ¿Te sorprendió alguna?
    2. ¿Qué tipo de detalles captó mejor el modelo en las imágenes? ¿Y cuáles no tanto?
    3. Si tuvieras que mejorar algo, ¿cómo creés que se podría mejorar la calidad de las traducciones al español?
    4. Pensando en el mundo real, ¿qué aplicaciones prácticas le ves a esta tecnología? ¿Dónde la usarías?
    """)

# Ejecutar interfaz
demo.launch(share=True) # Descomentar para lanzar la interfaz

# 🏁 Conclusión
"""
## 🏆 ¡Felicitaciones!

Llegaste al final de este recorrido y construiste tu propio sistema de generación de descripciones de imágenes. Usaste modelos avanzados de visión y lenguaje (BLIP-2) y traductores automáticos (MarianMT) para obtener resultados en español.

Aprendiste a integrar modelos de Hugging Face, preparar imágenes para procesamiento, y crear una interfaz interactiva con Gradio.

---
"""

# ✅ Próximos Pasos y Respuestas
"""
### 👉 Próximos Pasos y Reflexiones Finales

**1. ¿Hay algún modelo que funcione mejor para captioning o traducción?**
Sí. Para captioning, BLIP-2 y GIT ofrecen mejor rendimiento que el modelo base BLIP. Para traducción, MarianMT es más preciso y personalizable que pipelines genéricos.

**2. ¿Cómo podrías mejorar la calidad de las traducciones al español?**
Usando post-procesamiento lingüístico, ajustando el modelo MarianMT con datos específicos o combinando múltiples traducciones para una versión final optimizada.

**3. ¿Qué funcionalidades podrías agregar al sistema?**
Detección de objetos con YOLO, análisis de sentimientos, OCR, o integración con sistemas de preguntas visuales (VQA).

**4. ¿Cómo podrías optimizar el rendimiento del modelo?**
Reduciendo la resolución de entrada, usando modelos cuantizados, ejecutando en GPU/TPU y aplicando distillation para modelos más livianos.

---
Este trabajo no solo aplica conceptos técnicos, sino que invita a reflexionar sobre el uso responsable y creativo de la inteligencia artificial.
"""

Usando dispositivo: cuda


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]



Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://f6342b077ecf6c34ba.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


'\n### 👉 Próximos Pasos y Reflexiones Finales\n\n**1. ¿Hay algún modelo que funcione mejor para captioning o traducción?**\nSí. Para captioning, BLIP-2 y GIT ofrecen mejor rendimiento que el modelo base BLIP. Para traducción, MarianMT es más preciso y personalizable que pipelines genéricos.\n\n**2. ¿Cómo podrías mejorar la calidad de las traducciones al español?**\nUsando post-procesamiento lingüístico, ajustando el modelo MarianMT con datos específicos o combinando múltiples traducciones para una versión final optimizada.\n\n**3. ¿Qué funcionalidades podrías agregar al sistema?**\nDetección de objetos con YOLO, análisis de sentimientos, OCR, o integración con sistemas de preguntas visuales (VQA).\n\n**4. ¿Cómo podrías optimizar el rendimiento del modelo?**\nReduciendo la resolución de entrada, usando modelos cuantizados, ejecutando en GPU/TPU y aplicando distillation para modelos más livianos.\n\n---\nEste trabajo no solo aplica conceptos técnicos, sino que invita a reflexionar sobre 