# Ejemplo con Hugging Face usando el modelo BLIP (Bootstrapped Language image pretraining) para describir imagenes o responder preguntas.

1. Instalar librerías necesarias.


```
pip install transformers torchvision torch pillow
```



2. Código Python para descripción de imagen.

In [None]:
from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image
import torch

# Cargar imagen
image = Image.open("IMG_0216.jpeg").convert("RGB")

# Cargar modelo y processor
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

# Preprocesar entrada
inputs = processor(image, return_tensors="pt")

# Generar texto
out = model.generate(**inputs)

# Mostrar resultado
print("Descripción generada:", processor.decode(out[0], skip_special_tokens=True))

Descripción generada: a close up of a tarot card with a cartoon cat


3. Visual Question Answering (VQA).

In [None]:
from transformers import BlipProcessor, BlipForQuestionAnswering

# Cargar modelo de VQA
processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")

# Cargar imagen
image = Image.open("IMG_0216.jpeg").convert("RGB")

# Pregunta al modelo
question = "¿Qué animal en la imagen?"

# Preprocesar
inputs = processor(image, question, return_tensors="pt")

# Generar respuesta
out = model.generate(**inputs)

# Imprimir
print("Respuesta:", processor.decode(out[0], skip_special_tokens=True))

Respuesta: cat
