# Resnet

In [1]:
import torch
import torchvision.models as models
import torchvision.transforms as transforms
from PIL import Image

# Cargar el modelo ResNet50 preentrenado
model = models.resnet50(pretrained=True)

# Eliminar la capa de clasificación final para obtener solo los embeddings
model = torch.nn.Sequential(*(list(model.children())[:-1]))

# Asegurarse de que el modelo está en modo de evaluación
model.eval()

# Definir las transformaciones para preprocesar la imagen
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

# Cargar y preprocesar la imagen
img_path = "perritos.jpg"  # Cambia por tu imagen
img = Image.open(img_path)
img_tensor = preprocess(img).unsqueeze(0)  # Añadir la dimensión de batch

# Extraer los embeddings de la imagen
with torch.no_grad():
    embeddings = model(img_tensor)

# Convertir los embeddings a un formato numpy
embeddings_np = embeddings.squeeze().numpy()

print("Embeddings de la imagen:", embeddings_np.shape)



Embeddings de la imagen: (2048,)


In [2]:
embeddings_np 

array([0.3880407 , 0.9367521 , 1.1423601 , ..., 0.43771523, 0.12080878,
       0.25377283], dtype=float32)

# CLIP

CLIP puede trabajar tanto con imágenes como con texto, lo que lo hace ideal para tareas donde es necesario asociar imágenes con descripciones o trabajar con ambos tipos de datos simultáneamente.

In [3]:
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch

# Cargar el modelo y el procesador CLIP
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Cargar y preprocesar la imagen
img_path = "perritos.jpg"
image = Image.open(img_path)
inputs = processor(images=image, return_tensors="pt")

# Extraer los embeddings de la imagen
with torch.no_grad():
    embeddings = model.get_image_features(**inputs)

# Convertir los embeddings a numpy
embeddings_np = embeddings.squeeze().numpy()

print("Embeddings de la imagen:", embeddings_np.shape)


Downloading config.json:   0%|          | 0.00/4.19k [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading pytorch_model.bin:   0%|          | 0.00/605M [00:00<?, ?B/s]

Downloading (…)rocessor_config.json:   0%|          | 0.00/316 [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/592 [00:00<?, ?B/s]

Downloading vocab.json:   0%|          | 0.00/862k [00:00<?, ?B/s]

Downloading merges.txt:   0%|          | 0.00/525k [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/2.22M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/389 [00:00<?, ?B/s]

Embeddings de la imagen: (512,)


In [4]:
# Cargar el modelo y el procesador CLIP
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Cargar y preprocesar la imagen
img_path = "perritos.jpg"
image = Image.open(img_path)
inputs = processor(images=image, return_tensors="pt")

# Extraer los embeddings de la imagen
with torch.no_grad():
    embeddings = model.get_image_features(**inputs)

# Convertir los embeddings a numpy
embeddings_np = embeddings.squeeze().numpy()

print("Embeddings de la imagen:", embeddings_np.shape)

Embeddings de la imagen: (512,)


In [6]:
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import torch


In [1]:
from transformers import CLIPProcessor, CLIPModel
import torch
from PIL import Image

# Cargar el modelo CLIP y el procesador
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# Imagen a analizar
image = Image.open("perritos.jpg")

# Descripciones textuales para comparar
text = ["Un gato blanco durmiendo en el sofá", "Una persona paseando varios perros", "un carro estacionado"]

# Preprocesar imagen y texto
inputs = processor(text=text, images=image, return_tensors="pt", padding=True)

# Separar los inputs en características para imagen y texto
image_inputs = inputs['pixel_values']  # Características de la imagen
text_inputs = inputs['input_ids']  # Características del texto
attention_mask = inputs['attention_mask']  # Máscara de atención para el texto

# Obtener las características de la imagen y el texto
with torch.no_grad():
    image_features = model.get_image_features(pixel_values=image_inputs)  # Solo pasar las características de la imagen
    text_features = model.get_text_features(input_ids=text_inputs, attention_mask=attention_mask)  # Solo texto

# Calcular la similitud entre la imagen y los textos
logits_per_image = image_features @ text_features.T  # Producto punto entre características de imagen y texto
probs = logits_per_image.softmax(dim=1)  # Convertir en probabilidades

print("Probabilidades de similitud imagen-texto:", probs)


Probabilidades de similitud imagen-texto: tensor([[2.1143e-08, 1.0000e+00, 1.9094e-06]])


In [2]:
for i, prob in enumerate(probs[0]):
    print(f"Probabilidad de similitud para texto '{text[i]}': {round(prob.item(), 3)}")

Probabilidad de similitud para texto 'Un gato blanco durmiendo en el sofá': 0.0
Probabilidad de similitud para texto 'Una persona paseando varios perros': 1.0
Probabilidad de similitud para texto 'un carro estacionado': 0.0


probs

In [13]:
from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image

# Cargar el modelo BLIP y el procesador
processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")

# Cargar la imagen
image = Image.open("perritos.jpg")

# Preprocesar la imagen
inputs = processor(images=image, return_tensors="pt")

# Generar subtítulo
out = model.generate(**inputs)
caption = processor.decode(out[0], skip_special_tokens=True)

print("Subtítulo generado:", caption)
    

Downloading (…)rocessor_config.json:   0%|          | 0.00/287 [00:00<?, ?B/s]

Downloading tokenizer_config.json:   0%|          | 0.00/506 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/711k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/4.56k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/990M [00:00<?, ?B/s]



Subtítulo generado: a woman walking her dogs down the street
