In [1]:
import pandas as pd
import os
import zipfile
import shutil
import matplotlib.pyplot as plt
import cv2

In [2]:
# ------------------- 1. Montar Google Drive -------------------
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# ------------------- 2. Definir rutas -------------------
# Ruta en Google Drive
proyecto_path = '/content/drive/MyDrive/ProyectoIPD441'
zip_path = f'{proyecto_path}/portadas_data_clip.zip'
csv_drive_path = f'{proyecto_path}/data_clip_limpia.csv'

# Rutas en Colab
extract_to = '/content'
csv_colab_path = '/content/data_clip_limpia.csv'

In [4]:
# ------------------- 3. Copiar CSV a /content -------------------
shutil.copy(csv_drive_path, csv_colab_path)
print("✅ CSV copiado a /content")

✅ CSV copiado a /content


In [5]:
# ------------------- 4. Descomprimir imágenes con progreso -------------------
os.makedirs(extract_to, exist_ok=True)
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    all_files = zip_ref.namelist()
    total = len(all_files)
    print(f"Total de imágenes a descomprimir: {total}")
    for i, file in enumerate(all_files, 1):
        zip_ref.extract(file, extract_to)
        if i % 1000 == 0:
            print(f"✅ {i} imágenes descomprimidas...")
    print(f"✅ Descompresión completa: {i} imágenes extraídas.")

Total de imágenes a descomprimir: 50716
✅ 1000 imágenes descomprimidas...
✅ 2000 imágenes descomprimidas...
✅ 3000 imágenes descomprimidas...
✅ 4000 imágenes descomprimidas...
✅ 5000 imágenes descomprimidas...
✅ 6000 imágenes descomprimidas...
✅ 7000 imágenes descomprimidas...
✅ 8000 imágenes descomprimidas...
✅ 9000 imágenes descomprimidas...
✅ 10000 imágenes descomprimidas...
✅ 11000 imágenes descomprimidas...
✅ 12000 imágenes descomprimidas...
✅ 13000 imágenes descomprimidas...
✅ 14000 imágenes descomprimidas...
✅ 15000 imágenes descomprimidas...
✅ 16000 imágenes descomprimidas...
✅ 17000 imágenes descomprimidas...
✅ 18000 imágenes descomprimidas...
✅ 19000 imágenes descomprimidas...
✅ 20000 imágenes descomprimidas...
✅ 21000 imágenes descomprimidas...
✅ 22000 imágenes descomprimidas...
✅ 23000 imágenes descomprimidas...
✅ 24000 imágenes descomprimidas...
✅ 25000 imágenes descomprimidas...
✅ 26000 imágenes descomprimidas...
✅ 27000 imágenes descomprimidas...
✅ 28000 imágenes descomp

In [6]:
# ------------------- 5. Leer CSV y preparar rutas -------------------
df = pd.read_csv(csv_colab_path)

# Reemplazar '\' por '/' sin quitar carpeta
df['Ruta portada'] = df['Ruta portada'].apply(lambda x: str(x).replace('\\', '/') if pd.notnull(x) else '')

# Crear texto CLIP
textos_clip = df['Título'] + ' - ' + df['Autor/es']

# Crear ruta absoluta combinando extract_to con la ruta relativa completa
rutas_imagenes = df['Ruta portada'].apply(lambda x: os.path.join('/content', x) if x else '')

In [7]:
!pip install open-clip-torch ftfy --quiet

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.5 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.5/1.5 MB[0m [31m63.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m38.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.8/44.8 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m85.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m66.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m43.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [8]:
import open_clip
import torch

# Cargar modelo y tokenizer
model, preprocess, tokenizer = open_clip.create_model_and_transforms(
    model_name="ViT-B-32",
    pretrained="laion2b_s34b_b79k"
)
tokenizer = open_clip.get_tokenizer("ViT-B-32")

# Asegurar uso de GPU si está disponible
device = "cuda" if torch.cuda.is_available() else "cpu"
model = model.to(device)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


open_clip_model.safetensors:   0%|          | 0.00/605M [00:00<?, ?B/s]

In [9]:
from PIL import Image
import torch
from tqdm import tqdm

# ===================== Inicializar listas =====================
image_features_list = []
text_features_list = []
textos_ok = []
rutas_ok = []

# ===================== Procesar todo el dataset =====================
print(f"🔄 Procesando {len(textos_clip)} libros...")

for idx, (texto, ruta) in enumerate(tqdm(zip(textos_clip, rutas_imagenes), total=len(textos_clip))):
    try:
        # Cargar imagen
        img = Image.open(ruta).convert('RGB')
        img_tensor = preprocess(img).unsqueeze(0).to(device)

        # Tokenizar texto
        txt_tensor = tokenizer([texto]).to(device)

        # Obtener embeddings
        with torch.no_grad():
            img_feat = model.encode_image(img_tensor)
            txt_feat = model.encode_text(txt_tensor)

        # Normalizar
        img_feat /= img_feat.norm(dim=-1, keepdim=True)
        txt_feat /= txt_feat.norm(dim=-1, keepdim=True)

        # Guardar
        image_features_list.append(img_feat.cpu())
        text_features_list.append(txt_feat.cpu())
        textos_ok.append(texto)
        rutas_ok.append(ruta)

        # Mostrar cada 1000 procesados
        if idx > 0 and idx % 1000 == 0:
            print(f"✅ Procesadas {idx} imágenes correctamente")

    except Exception as e:
        print(f"⚠️ Error con imagen {idx}: {ruta} - {e}")

print("✅ Proceso completado. Generando archivo final...")


🔄 Procesando 50734 libros...


  2%|▏         | 1009/50734 [00:52<18:38, 44.47it/s]

✅ Procesadas 1000 imágenes correctamente


  4%|▍         | 2005/50734 [01:16<18:41, 43.46it/s]

✅ Procesadas 2000 imágenes correctamente


  6%|▌         | 3009/50734 [01:40<18:03, 44.04it/s]

✅ Procesadas 3000 imágenes correctamente


  8%|▊         | 4007/50734 [02:13<17:10, 45.32it/s]

✅ Procesadas 4000 imágenes correctamente


 10%|▉         | 5007/50734 [02:37<16:19, 46.68it/s]

✅ Procesadas 5000 imágenes correctamente


 12%|█▏        | 6009/50734 [03:02<16:45, 44.48it/s]

✅ Procesadas 6000 imágenes correctamente


 14%|█▍        | 7007/50734 [03:26<16:10, 45.04it/s]

✅ Procesadas 7000 imágenes correctamente


 14%|█▍        | 7213/50734 [03:31<15:22, 47.18it/s]

⚠️ Error con imagen 7207:  - 'str' object has no attribute 'read'


 16%|█▌        | 8005/50734 [03:50<25:28, 27.95it/s]

✅ Procesadas 8000 imágenes correctamente


 18%|█▊        | 9007/50734 [04:15<21:20, 32.58it/s]

✅ Procesadas 9000 imágenes correctamente


 20%|█▉        | 10008/50734 [04:39<15:22, 44.15it/s]

✅ Procesadas 10000 imágenes correctamente


 22%|██▏       | 11006/50734 [05:03<15:07, 43.76it/s]

✅ Procesadas 11000 imágenes correctamente


 24%|██▎       | 12007/50734 [05:27<14:17, 45.14it/s]

✅ Procesadas 12000 imágenes correctamente


 26%|██▌       | 13009/50734 [05:51<15:05, 41.65it/s]

✅ Procesadas 13000 imágenes correctamente


 27%|██▋       | 13574/50734 [06:05<13:46, 44.99it/s]

⚠️ Error con imagen 13564: /content/portadas_data_clip/​El secreto - Erik James Horvat-Marković.jpg - [Errno 2] No such file or directory: '/content/portadas_data_clip/\u200bEl secreto - Erik James Horvat-Marković.jpg'


 28%|██▊       | 14004/50734 [06:14<13:35, 45.03it/s]

✅ Procesadas 14000 imágenes correctamente


 30%|██▉       | 15006/50734 [06:38<13:03, 45.62it/s]

✅ Procesadas 15000 imágenes correctamente


 31%|███       | 15797/50734 [06:58<17:33, 33.15it/s]

⚠️ Error con imagen 15790:  - 'str' object has no attribute 'read'


 32%|███▏      | 16007/50734 [07:03<12:27, 46.43it/s]

✅ Procesadas 16000 imágenes correctamente


 33%|███▎      | 16931/50734 [07:25<12:48, 44.00it/s]

⚠️ Error con imagen 16925:  - 'str' object has no attribute 'read'


 34%|███▎      | 17006/50734 [07:27<12:25, 45.26it/s]

✅ Procesadas 17000 imágenes correctamente


 35%|███▌      | 17772/50734 [07:45<11:27, 47.92it/s]

⚠️ Error con imagen 17765:  - 'str' object has no attribute 'read'


 35%|███▌      | 18005/50734 [07:50<15:50, 34.43it/s]

✅ Procesadas 18000 imágenes correctamente


 37%|███▋      | 19009/50734 [08:14<11:47, 44.85it/s]

✅ Procesadas 19000 imágenes correctamente


 39%|███▉      | 20009/50734 [08:38<10:49, 47.30it/s]

✅ Procesadas 20000 imágenes correctamente


 41%|████      | 20709/50734 [08:55<10:23, 48.16it/s]

⚠️ Error con imagen 20706:  - 'str' object has no attribute 'read'


 41%|████▏     | 21006/50734 [09:02<11:09, 44.42it/s]

✅ Procesadas 21000 imágenes correctamente


 43%|████▎     | 22010/50734 [09:26<09:48, 48.79it/s]

✅ Procesadas 22000 imágenes correctamente


 45%|████▌     | 23006/50734 [09:48<12:56, 35.71it/s]

✅ Procesadas 23000 imágenes correctamente


 47%|████▋     | 24010/50734 [10:12<09:28, 47.01it/s]

✅ Procesadas 24000 imágenes correctamente


 49%|████▉     | 25007/50734 [10:35<09:02, 47.43it/s]

✅ Procesadas 25000 imágenes correctamente


 51%|█████▏    | 26008/50734 [10:59<08:55, 46.21it/s]

✅ Procesadas 26000 imágenes correctamente


 53%|█████▎    | 27003/50734 [11:21<08:29, 46.58it/s]

✅ Procesadas 27000 imágenes correctamente


 55%|█████▌    | 28008/50734 [11:45<07:58, 47.47it/s]

✅ Procesadas 28000 imágenes correctamente


 57%|█████▋    | 29007/50734 [12:08<07:57, 45.52it/s]

✅ Procesadas 29000 imágenes correctamente


 59%|█████▉    | 30007/50734 [12:32<08:06, 42.57it/s]

✅ Procesadas 30000 imágenes correctamente


 61%|██████    | 31004/50734 [12:56<10:12, 32.20it/s]

✅ Procesadas 31000 imágenes correctamente


 63%|██████▎   | 32009/50734 [13:19<06:49, 45.74it/s]

✅ Procesadas 32000 imágenes correctamente


 65%|██████▍   | 32945/50734 [13:42<05:58, 49.65it/s]

⚠️ Error con imagen 32939: /content/portadas_data_clip/La Cruzada de los Niños - Marcel Schwob.jpg - [Errno 2] No such file or directory: '/content/portadas_data_clip/La Cruzada de los Niños - Marcel Schwob.jpg'


 65%|██████▌   | 33010/50734 [13:43<06:27, 45.78it/s]

✅ Procesadas 33000 imágenes correctamente


 67%|██████▋   | 34007/50734 [14:07<05:59, 46.47it/s]

✅ Procesadas 34000 imágenes correctamente


 67%|██████▋   | 34148/50734 [14:10<05:32, 49.91it/s]

⚠️ Error con imagen 34144: /content/portadas_data_clip/El Último Don - Mario Puzo.jpg - [Errno 2] No such file or directory: '/content/portadas_data_clip/El Último Don - Mario Puzo.jpg'


 69%|██████▉   | 35005/50734 [14:31<07:56, 32.98it/s]

✅ Procesadas 35000 imágenes correctamente


 71%|███████   | 35861/50734 [14:51<04:52, 50.81it/s]

⚠️ Error con imagen 35851: /content/portadas_data_clip/El Bastón Rúnico - Michael Moorcock.jpg - [Errno 2] No such file or directory: '/content/portadas_data_clip/El Bastón Rúnico - Michael Moorcock.jpg'


 71%|███████   | 36008/50734 [14:54<05:06, 48.10it/s]

✅ Procesadas 36000 imágenes correctamente


 73%|███████▎  | 37008/50734 [15:17<04:56, 46.27it/s]

✅ Procesadas 37000 imágenes correctamente


 75%|███████▍  | 38008/50734 [15:41<04:29, 47.26it/s]

✅ Procesadas 38000 imágenes correctamente


 77%|███████▋  | 39007/50734 [16:04<05:58, 32.69it/s]

✅ Procesadas 39000 imágenes correctamente


 79%|███████▉  | 40008/50734 [16:27<03:44, 47.76it/s]

✅ Procesadas 40000 imágenes correctamente


 81%|████████  | 41008/50734 [16:50<03:25, 47.29it/s]

✅ Procesadas 41000 imágenes correctamente


 83%|████████▎ | 42010/50734 [17:14<03:10, 45.90it/s]

✅ Procesadas 42000 imágenes correctamente


 85%|████████▍ | 43007/50734 [17:40<03:01, 42.69it/s]

✅ Procesadas 43000 imágenes correctamente


 87%|████████▋ | 44005/50734 [18:04<03:52, 28.95it/s]

✅ Procesadas 44000 imágenes correctamente


 89%|████████▊ | 45004/50734 [18:30<02:15, 42.23it/s]

✅ Procesadas 45000 imágenes correctamente


 91%|█████████ | 46008/50734 [18:56<01:40, 46.90it/s]

✅ Procesadas 46000 imágenes correctamente


 93%|█████████▎| 47009/50734 [19:20<01:16, 48.92it/s]

✅ Procesadas 47000 imágenes correctamente


 95%|█████████▍| 48008/50734 [19:44<01:01, 44.02it/s]

✅ Procesadas 48000 imágenes correctamente


 97%|█████████▋| 49004/50734 [20:07<00:55, 30.99it/s]

✅ Procesadas 49000 imágenes correctamente


 99%|█████████▊| 50009/50734 [20:30<00:15, 46.01it/s]

✅ Procesadas 50000 imágenes correctamente


100%|██████████| 50734/50734 [20:48<00:00, 40.65it/s]

⚠️ Error con imagen 50716: /content/portadas/La Casa de Hades - Rick Riordan.jpg - [Errno 2] No such file or directory: '/content/portadas/La Casa de Hades - Rick Riordan.jpg'
⚠️ Error con imagen 50717: /content/portadas/El laberinto de huesos - Rick Riordan.jpg - [Errno 2] No such file or directory: '/content/portadas/El laberinto de huesos - Rick Riordan.jpg'
⚠️ Error con imagen 50718: /content/portadas/La Marca de Atenea - Rick Riordan.jpg - [Errno 2] No such file or directory: '/content/portadas/La Marca de Atenea - Rick Riordan.jpg'
⚠️ Error con imagen 50719: /content/portadas/El hijo de Neptuno - Rick Riordan.jpg - [Errno 2] No such file or directory: '/content/portadas/El hijo de Neptuno - Rick Riordan.jpg'
⚠️ Error con imagen 50720: /content/portadas/El héroe perdido - Rick Riordan.jpg - [Errno 2] No such file or directory: '/content/portadas/El héroe perdido - Rick Riordan.jpg'
⚠️ Error con imagen 50721: /content/portadas/La sombra de la serpiente - Rick Riordan.jpg - [Errno 2




In [10]:
# Guardar en archivo .pkl
import pickle

# Guardar en archivo .pkl
datos_clip_full = {
    'image_features': torch.cat(image_features_list),
    'text_features': torch.cat(text_features_list),
    'textos': textos_ok,
    'rutas_imagenes': rutas_ok
}

with open('embeddings_clip_full.pkl', 'wb') as f:
    pickle.dump(datos_clip_full, f)

print("✅ Archivo embeddings_clip_full.pkl guardado con éxito.")


✅ Archivo embeddings_clip_full.pkl guardado con éxito.


In [11]:
from google.colab import files
files.download('embeddings_clip_full.pkl')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>