# Procesamiento de imágenes y texto con VLMs

Este notebook demuestra cómo utilizar el modelo `HuggingFaceTB/SmolVLM-Instruct` cuantizado a 4 bits para diversas tareas multimodales, como:

- **Respuesta a preguntas visuales (VQA)**: Responder preguntas basadas en el contenido de una imagen.
- **Reconocimiento de texto (OCR)**: Extraer e interpretar texto dentro de imágenes.
- **Comprensión de videos**: Describir videos mediante el análisis secuencial de fotogramas.

Al estructurar los prompts de manera efectiva, puedes aprovechar el modelo para múltiples aplicaciones, como la comprensión de escenas, el análisis de documentos y el razonamiento visual dinámico.


In [None]:
# Instala los requisitos en Google Colab  
# !pip install transformers datasets trl huggingface_hub bitsandbytes  

# Inicia sesión en Hugging Face  
from huggingface_hub import notebook_login  
notebook_login()


In [2]:
import torch, PIL
from transformers import AutoProcessor, AutoModelForVision2Seq, BitsAndBytesConfig
from transformers.image_utils import load_image

device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps" if torch.backends.mps.is_available() else "cpu"
)

quantization_config = BitsAndBytesConfig(load_in_4bit=True)
model_name = "HuggingFaceTB/SmolVLM-Instruct"
model = AutoModelForVision2Seq.from_pretrained(
    model_name,
    quantization_config=quantization_config,
).to(device)
processor = AutoProcessor.from_pretrained("HuggingFaceTB/SmolVLM-Instruct")

print(processor.image_processor.size)

`low_cpu_mem_usage` was None, now default to True since model is quantized.
You shouldn't move a model that is dispatched using accelerate hooks.
Some kwargs in processor config are unused and will not have any effect: image_seq_len. 


{'longest_edge': 1536}


## Procesando imágenes


Comencemos generando descripciones y respondiendo preguntas sobre una imagen. También exploraremos el procesamiento de múltiples imágenes.  
### 1. Descripción de una sola imagen


In [3]:
from IPython.display import Image, display

image_url1 = "https://cdn.pixabay.com/photo/2024/11/20/09/14/christmas-9210799_1280.jpg"
display(Image(url=image_url1))

image_url2 = "https://cdn.pixabay.com/photo/2024/11/23/08/18/christmas-9218404_1280.jpg"
display(Image(url=image_url2))

In [4]:
# Carga una imagen  
image1 = load_image(image_url1)  

# Crea mensajes de entrada  
messages = [  
    {  
        "role": "user",  
        "content": [  
            {"type": "image"},  
            {"type": "text", "text": "¿Puedes describir la imagen?"}  
        ]  
    },  
]  

# Prepara entradas  
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)  
inputs = processor(text=prompt, images=[image1], return_tensors="pt")  
inputs = inputs.to(device)  

# Genera respuestas  
generated_ids = model.generate(**inputs, max_new_tokens=500)  
generated_texts = processor.batch_decode(  
    generated_ids,  
    skip_special_tokens=True,  
)  

print(generated_texts)



['User:<image>Can you describe the image?\nAssistant: The image is a scene of a person walking in a forest. The person is wearing a coat and a cap. The person is holding the hand of another person. The person is walking on a path. The path is covered with dry leaves. The background of the image is a forest with trees.']


### 2. Comparando múltiples imágenes  
El modelo puede procesar y comparar varias imágenes. Vamos a determinar el tema común entre dos imágenes.

In [5]:
# Carga de imágenes
image2 = load_image(image_url2)

# Crea mensajes de entrada
messages = [
    # {
    #     "role": "user",
    #     "content": [
    #         {"type": "image"},
    #         {"type": "image"},
    #         {"type": "text", "text": "Can you describe the two images?"}
    #     ]
    # },
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "image"},
            {"type": "text", "text": "What event do they both represent?"}
        ]
    },
]

# Prepara las entradas
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[image1, image2], return_tensors="pt")
inputs = inputs.to(device)

# Genera las salidas
generated_ids = model.generate(**inputs, max_new_tokens=500)
generated_texts = processor.batch_decode(
    generated_ids,
    skip_special_tokens=True,
)

print(generated_texts)


['User:<image>What event do they both represent?\nAssistant: Christmas.']


### 🔠 Text Recognition (OCR)
VLM can also recognize and interpret text in images, making it suitable for tasks like document analysis.
You could try experimenting on images with denser text.

In [9]:
document_image_url = "https://cdn.pixabay.com/photo/2020/11/30/19/23/christmas-5792015_960_720.png"
display(Image(url=document_image_url))

# Carga la imagen del documento
document_image = load_image(document_image_url)

# Crea el mensaje de entrada para análisis
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What is written?"}
        ]
    }
]

# Prepara las entradas
prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
inputs = processor(text=prompt, images=[document_image], return_tensors="pt")
inputs = inputs.to(device)

# Genera las salidas
generated_ids = model.generate(**inputs, max_new_tokens=500)
generated_texts = processor.batch_decode(
    generated_ids,
    skip_special_tokens=True,
)

print(generated_texts)


['User:<image>What is written?\nAssistant: MERRY CHRISTMAS AND A HAPPY NEW YEAR']


## Procesando videos

Los Modelos de Lenguaje Visual (VLMs) pueden procesar videos de manera indirecta extrayendo fotogramas clave y razonando sobre ellos en orden temporal. Aunque los VLMs no tienen las capacidades de modelado temporal de los modelos dedicados a video, aún pueden:
- Describir acciones o eventos analizando fotogramas muestreados secuencialmente.
- Responder preguntas sobre videos basándose en fotogramas representativos.
- Resumir el contenido del video combinando descripciones textuales de varios fotogramas.

Hagamos un experimento con un ejemplo:

<video width="640" height="360" controls>
  <source src="https://cdn.pixabay.com/video/2023/10/28/186794-879050032_large.mp4" type="video/mp4">
  Your browser does not support the video tag.
</video>


In [None]:
# !pip install opencv-python

In [7]:
from IPython.display import Video
import cv2
import numpy as np

def extract_frames(video_path, max_frames=50, target_size=None):
    cap = cv2.VideoCapture(video_path)
    if not cap.isOpened():
        raise ValueError(f"Could not open video: {video_path}")
    
    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
    frame_indices = np.linspace(0, total_frames - 1, max_frames, dtype=int)

    frames = []
    for idx in frame_indices:
        cap.set(cv2.CAP_PROP_POS_FRAMES, idx)
        ret, frame = cap.read()
        if ret:
            frame = PIL.Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
            if target_size:
                frames.append(resize_and_crop(frame, target_size))
            else:
                frames.append(frame)
    cap.release()
    return frames

def resize_and_crop(image, target_size):
    width, height = image.size
    scale = target_size / min(width, height)
    image = image.resize((int(width * scale), int(height * scale)), PIL.Image.Resampling.LANCZOS)
    left = (image.width - target_size) // 2
    top = (image.height - target_size) // 2
    return image.crop((left, top, left + target_size, top + target_size))

# Enlace del video
video_link = "https://cdn.pixabay.com/video/2023/10/28/186794-879050032_large.mp4"

In [8]:
question = "Describe what the woman is doing."

def generate_response(model, processor, frames, question):

    image_tokens = [{"type": "image"} for _ in frames]
    messages = [
        {
            "role": "user",
            "content": [{"type": "text", "text": "A continuación, se muestran los fotogramas de un video en orden temporal."}, *image_tokens, {"type": "text", "text": question}]
        }
    ]
    inputs = processor(
        text=processor.apply_chat_template(messages, add_generation_prompt=True),
        images=frames,
        return_tensors="pt"
    ).to(model.device)

    outputs = model.generate(
        **inputs, max_new_tokens=100, num_beams=5, temperature=0.7, do_sample=True, use_cache=True
    )
    return processor.decode(outputs[0], skip_special_tokens=True)


# Extrae fotogramas del video
frames = extract_frames(video_link, max_frames=15, target_size=384)

processor.image_processor.size = (384, 384)
processor.image_processor.do_resize = False
# Genera respuesta
response = generate_response(model, processor, frames, question)

# Muestra el resultado
# print("Question:", question)
print("Response:", response)


Response: User: Following are the frames of a video in temporal order.<image>Describe what the woman is doing.
Assistant: The woman is hanging an ornament on a Christmas tree.


## 💐 ¡Has terminado!

Este notebook demostró cómo usar un Modelo de Lenguaje Visual (VLM) como la formateación de indicaciones para tareas multimodales. Al seguir los pasos descritos aquí, puedes experimentar con VLMs y sus aplicaciones.

### Próximos pasos para explorar:
- Experimenta con más casos de uso de VLMs.
- Colabora con un colega revisando sus solicitudes de extracción (PRs).
- Contribuye a mejorar este material del curso abriendo un problema o enviando un PR para introducir nuevos casos de uso, ejemplos o conceptos.

¡Feliz exploración! 🌟
