In [3]:
import torch
import gc

# 1. Borramos variables pesadas si existen
if 'model' in locals(): del model
if 'owl_model' in locals(): del owl_model

# 2. Vaciamos la cach√© de CUDA
torch.cuda.empty_cache()
gc.collect()

print("üßπ Memoria de la GPU liberada.")

üßπ Memoria de la GPU liberada.


In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms, models
from PIL import Image
import pandas as pd
import os

device = "cuda" if torch.cuda.is_available() else "cpu"

# Usamos la ruta absoluta de tu proyecto
BASE_DIR = os.path.expanduser("~/Documents/HackUDC_2026")
CARPETA_RECORTES = os.path.join(BASE_DIR, "data", "dataset_entrenar_IA")
CARPETA_CATALOGO = os.path.join(BASE_DIR, "data", "images", "products")
MODELO_SALIDA = os.path.join(BASE_DIR, "modelo_experto_inditex.pt")

# Verificaci√≥n de seguridad antes de empezar
if not os.path.exists(CARPETA_RECORTES):
    print(f"‚ùå ERROR: No existe la carpeta de recortes en {CARPETA_RECORTES}")
else:
    n_fotos = len([f for f in os.listdir(CARPETA_RECORTES) if f.endswith('.jpg')])
    print(f"‚úÖ Carpeta encontrada. Hay {n_fotos} im√°genes listas para entrenar.")

# --- 2. EL DATASET "ESPEJO" ---
class InditexContrastiveDataset(Dataset):
    def __init__(self, carpeta_recortes, carpeta_catalogo, transform=None):
        self.carpeta_recortes = carpeta_recortes
        self.carpeta_catalogo = carpeta_catalogo
        self.transform = transform
        # Listamos los recortes que acabas de generar
        self.lista_recortes = [f for f in os.listdir(carpeta_recortes) if f.endswith('.jpg')]

    def __len__(self):
        return len(self.lista_recortes)

    def __getitem__(self, idx):
        nombre_recorte = self.lista_recortes[idx]
        # Extraemos el ID de producto del nombre (ej: I_476e19..._from_B_...)
        id_producto = nombre_recorte.split('_from_')[0]
        
        ruta_recorte = os.path.join(self.carpeta_recortes, nombre_recorte)
        ruta_catalogo = os.path.join(self.carpeta_catalogo, f"{id_producto}.jpg")
        
        # Cargamos ambas im√°genes
        img_real = Image.open(ruta_recorte).convert("RGB")
        try:
            img_estudio = Image.open(ruta_catalogo).convert("RGB")
        except:
            # Si falta la del cat√°logo, usamos la misma (solo para evitar errores)
            img_estudio = img_real
            
        if self.transform:
            img_real = self.transform(img_real)
            img_estudio = self.transform(img_estudio)
            
        return img_real, img_estudio

# --- 3. PREPARACI√ìN ---
transformaciones = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

dataset = InditexContrastiveDataset(CARPETA_RECORTES, CARPETA_CATALOGO, transform=transformaciones)
# Cambiamos batch_size de 32 a 8 o incluso 4 si sigue petando
loader = DataLoader(dataset, batch_size=8, shuffle=True)
# Usamos una ResNet50 como base (muy buena para texturas de ropa)
modelo = models.resnet50(pretrained=True)
# Cambiamos la √∫ltima capa para que escupa un vector de 512 dimensiones (como CLIP)
modelo.fc = nn.Linear(modelo.fc.in_features, 512)
modelo = modelo.to(device)

criterion = nn.CosineEmbeddingLoss() # Esta p√©rdida es perfecta para comparar vectores
optimizer = optim.Adam(modelo.parameters(), lr=0.0001)

# --- 4. BUCLE DE ENTRENAMIENTO (¬°A por el oro!) ---
print(f"üî• Empezando entrenamiento con {len(dataset)} pares de im√°genes...")
modelo.train()

for epoch in range(5): # Con 5 √©pocas para empezar sobra
    running_loss = 0.0
    for img_real, img_estudio in loader:
        img_real, img_estudio = img_real.to(device), img_estudio.to(device)
        
        optimizer.zero_grad()
        
        # Sacamos los vectores de ambas fotos
        vec_real = modelo(img_real)
        vec_estudio = modelo(img_estudio)
        
        # Target 1 significa: "haz que estos dos vectores se parezcan"
        target = torch.ones(vec_real.size(0)).to(device)
        
        loss = criterion(vec_real, vec_estudio, target)
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
    
    print(f"Epoch {epoch+1}/5 - Loss: {running_loss/len(loader):.4f}")

# Guardamos tu nuevo modelo experto
torch.save(modelo.state_dict(), MODELO_SALIDA)
print(f"‚úÖ ¬°Modelo guardado como {MODELO_SALIDA}!")

‚úÖ Carpeta encontrada. Hay 276 im√°genes listas para entrenar.




üî• Empezando entrenamiento con 276 pares de im√°genes...
Epoch 1/5 - Loss: 0.0301
Epoch 2/5 - Loss: 0.0031
Epoch 3/5 - Loss: 0.0017
Epoch 4/5 - Loss: 0.0011
Epoch 5/5 - Loss: 0.0008
‚úÖ ¬°Modelo guardado como /home/aleixbertranandreu/Documents/HackUDC_2026/modelo_experto_inditex.pt!


In [2]:
import torch
import torch.nn as nn
from torchvision import transforms, models
from PIL import Image
import os
import pandas as pd
from tqdm import tqdm

# --- 1. CONFIGURACI√ìN ---
device = "cuda" if torch.cuda.is_available() else "cpu"
BASE_DIR = os.path.expanduser("~/Documents/HackUDC_2026")
CARPETA_PRODUCTOS = os.path.join(BASE_DIR, "data", "images", "products")
RUTA_MODELO = os.path.join(BASE_DIR, "modelo_experto_inditex.pt")

# --- 2. CARGAR TU MODELO EXPERTO ---
modelo = models.resnet50()
modelo.fc = nn.Linear(modelo.fc.in_features, 512)
modelo.load_state_dict(torch.load(RUTA_MODELO))
modelo = modelo.to(device)
modelo.eval() # Modo "solo lectura"

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

# --- 3. GENERAR LA GALER√çA ---
nombres_productos = []
embeddings_lista = []

print("üõ∞Ô∏è Generando base de datos de huellas dactilares del cat√°logo...")
fotos_catalogo = [f for f in os.listdir(CARPETA_PRODUCTOS) if f.endswith('.jpg')]

with torch.no_grad():
    for nombre in tqdm(fotos_catalogo):
        ruta = os.path.join(CARPETA_PRODUCTOS, nombre)
        try:
            img = Image.open(ruta).convert("RGB")
            img_t = transform(img).unsqueeze(0).to(device)
            
            # Sacamos el vector de 512 dimensiones
            vector = modelo(img_t)
            
            embeddings_lista.append(vector.cpu())
            nombres_productos.append(nombre.replace(".jpg", ""))
        except:
            continue

# Guardamos todo en un solo bloque para que la b√∫squeda sea instant√°nea
galeria_vectores = torch.cat(embeddings_lista)
torch.save({'vectores': galeria_vectores, 'ids': nombres_productos}, "galeria_expert.pt")

print(f"‚úÖ Galer√≠a guardada con {len(nombres_productos)} productos lista para buscar.")

üõ∞Ô∏è Generando base de datos de huellas dactilares del cat√°logo...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5604/5604 [03:58<00:00, 23.54it/s]

‚úÖ Galer√≠a guardada con 5604 productos lista para buscar.





In [4]:
import torch
import torch.nn as nn
from torchvision import transforms, models
from PIL import Image
import os
from tqdm import tqdm

# --- 1. CONFIGURACI√ìN ---
device = "cuda" if torch.cuda.is_available() else "cpu"
BASE_DIR = os.path.expanduser("~/Documents/HackUDC_2026")
CARPETA_PRODUCTOS = os.path.join(BASE_DIR, "data/images/products")
RUTA_MODELO = os.path.join(BASE_DIR, "modelo_experto_inditex.pt")
# üî• RUTA ABSOLUTA PARA QUE NO SE PIERDA üî•
RUTA_GALERIA_SALIDA = os.path.join(BASE_DIR, "galeria_expert.pt")

# --- 2. CARGAR TU MODELO EXPERTO ---
modelo = models.resnet50()
modelo.fc = nn.Linear(modelo.fc.in_features, 512)
modelo.load_state_dict(torch.load(RUTA_MODELO, map_location=device))
modelo = modelo.to(device)
modelo.eval()

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

nombres_productos = []
embeddings_lista = []

print(f"üõ∞Ô∏è Generando galer√≠a en: {RUTA_GALERIA_SALIDA}")
fotos_catalogo = [f for f in os.listdir(CARPETA_PRODUCTOS) if f.endswith('.jpg')]

with torch.no_grad():
    for nombre in tqdm(fotos_catalogo):
        ruta = os.path.join(CARPETA_PRODUCTOS, nombre)
        try:
            img = Image.open(ruta).convert("RGB")
            img_t = transform(img).unsqueeze(0).to(device)
            vector = modelo(img_t)
            embeddings_lista.append(vector.cpu())
            nombres_productos.append(nombre.replace(".jpg", ""))
        except:
            continue

# --- 3. GUARDAR ---
if len(embeddings_lista) > 0:
    galeria_vectores = torch.cat(embeddings_lista)
    torch.save({'vectores': galeria_vectores, 'ids': nombres_productos}, RUTA_GALERIA_SALIDA)
    print(f"‚úÖ ¬°LOGRADO! Galer√≠a guardada con {len(nombres_productos)} productos.")
else:
    print("‚ùå ERROR: No se encontraron fotos en la carpeta de productos.")

üõ∞Ô∏è Generando galer√≠a en: /home/aleixbertranandreu/Documents/HackUDC_2026/galeria_expert.pt


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 5604/5604 [04:16<00:00, 21.84it/s]

‚úÖ ¬°LOGRADO! Galer√≠a guardada con 5604 productos.





üìÇ Archivos en tu carpeta ra√≠z:
 -> modelo_experto_inditex.pt
 -> best.pt


In [5]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import transforms, models
from transformers import OwlViTProcessor, OwlViTForObjectDetection
from PIL import Image
import os
import pandas as pd
from tqdm import tqdm

# --- 1. CONFIGURACI√ìN FINAL ---
device = "cuda" if torch.cuda.is_available() else "cpu"
BASE_DIR = os.path.expanduser("~/Documents/HackUDC_2026")
RUTA_MODELO = os.path.join(BASE_DIR, "modelo_experto_inditex.pt")
RUTA_GALERIA = os.path.join(BASE_DIR, "galeria_expert.pt")
CARPETA_BUNDLES = os.path.join(BASE_DIR, "data/images/bundles")
RUTA_TEST_CSV = os.path.join(BASE_DIR, "data/raw/bundles_product_match_test.csv")
ARCHIVO_SALIDA = os.path.join(BASE_DIR, "submission_chiringuito.csv")

print(f"üöÄ Iniciando generaci√≥n de submission en {device}...")

# --- 2. CARGAR MODELOS Y GALER√çA ---
processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
owl_model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32").to(device)

expert_model = models.resnet50()
expert_model.fc = nn.Linear(expert_model.fc.in_features, 512)
expert_model.load_state_dict(torch.load(RUTA_MODELO, map_location=device))
expert_model = expert_model.to(device).eval()

data_galeria = torch.load(RUTA_GALERIA, map_location=device)
galeria_vectores = F.normalize(data_galeria['vectores'].to(device), p=2, dim=1)
galeria_ids = data_galeria['ids']

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

# --- 3. PROCESAR EL TEST SET ---
df_test = pd.read_csv(RUTA_TEST_CSV)
bundles_test = df_test['bundle_asset_id'].unique()

resultados = []

print(f"üìë Procesando {len(bundles_test)} bundles para la entrega final...")

with torch.no_grad():
    for bundle_id in tqdm(bundles_test):
        ruta_img = os.path.join(CARPETA_BUNDLES, f"{bundle_id}.jpg")
        if not os.path.exists(ruta_img):
            # Si no hay foto, ponemos 15 IDs vac√≠os o aleatorios (mejor que nada)
            resultados.append([bundle_id] + [""] * 15)
            continue
            
        img = Image.open(ruta_img).convert("RGB")
        
        # Intentamos detectar CUALQUIER prenda (upper o lower)
        etiquetas = [["upper clothing", "lower clothing", "dress"]]
        inputs = processor(text=etiquetas, images=img, return_tensors="pt").to(device)
        outputs = owl_model(**inputs)
        
        target_sizes = torch.tensor([img.size[::-1]])
        dets = processor.post_process_grounded_object_detection(
            outputs=outputs, target_sizes=target_sizes, text_labels=etiquetas, threshold=0.1
        )[0]
        
        if len(dets["boxes"]) > 0:
            # Cogemos la detecci√≥n m√°s segura
            box = dets["boxes"][0]
            x1, y1, x2, y2 = map(int, box.tolist())
            recorte = img.crop((x1, y1, x2, y2))
            
            # Sacamos embedding
            rec_t = transform(recorte).unsqueeze(0).to(device)
            query_emb = F.normalize(expert_model(rec_t), p=2, dim=1)
            
            # Buscamos en galer√≠a
            sims = torch.mm(query_emb, galeria_vectores.t())
            _, indices = torch.topk(sims, 15)
            
            top_15 = [galeria_ids[idx] for idx in indices[0]]
        else:
            # Si no detecta nada, devolvemos los 15 primeros de la galer√≠a (fail-safe)
            top_15 = galeria_ids[:15]
            
        resultados.append([bundle_id] + top_15)

# --- 4. GUARDAR RESULTADOS ---
columnas = ['bundle_asset_id'] + [f'product_asset_id_{i}' for i in range(1, 16)]
df_final = pd.DataFrame(resultados, columns=columnas)
df_final.to_csv(ARCHIVO_SALIDA, index=False)

print(f"\nüèÜ ¬°SUBMISSION GENERADA! Archivo listo en: {ARCHIVO_SALIDA}")

üöÄ Iniciando generaci√≥n de submission en cuda...


Loading weights:   0%|          | 0/412 [00:00<?, ?it/s]

[1mOwlViTForObjectDetection LOAD REPORT[0m from: google/owlvit-base-patch32
Key                                         | Status     |  | 
--------------------------------------------+------------+--+-
owlvit.vision_model.embeddings.position_ids | UNEXPECTED |  | 
owlvit.text_model.embeddings.position_ids   | UNEXPECTED |  | 

[3mNotes:
- UNEXPECTED[3m	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.[0m


üìë Procesando 455 bundles para la entrega final...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 455/455 [00:51<00:00,  8.78it/s]


üèÜ ¬°SUBMISSION GENERADA! Archivo listo en: /home/aleixbertranandreu/Documents/HackUDC_2026/submission_chiringuito.csv





In [6]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import transforms, models
from transformers import OwlViTProcessor, OwlViTForObjectDetection
from PIL import Image
import os
import pandas as pd
from tqdm import tqdm

# --- 1. CONFIGURACI√ìN ---
device = "cuda" if torch.cuda.is_available() else "cpu"
BASE_DIR = os.path.expanduser("~/Documents/HackUDC_2026")
RUTA_MODELO = os.path.join(BASE_DIR, "modelo_experto_inditex.pt")
RUTA_GALERIA = os.path.join(BASE_DIR, "galeria_expert.pt")
CARPETA_BUNDLES = os.path.join(BASE_DIR, "data/images/bundles")
# Usamos el archivo de TEST que es el que hay que predecir
RUTA_TEST_CSV = os.path.join(BASE_DIR, "data/raw/bundles_product_match_test.csv")
ARCHIVO_SALIDA = os.path.join(BASE_DIR, "submission.csv")

# --- 2. CARGA DE MODELOS ---
print("‚è≥ Cargando motores...")
processor = OwlViTProcessor.from_pretrained("google/owlvit-base-patch32")
owl_model = OwlViTForObjectDetection.from_pretrained("google/owlvit-base-patch32").to(device)

expert_model = models.resnet50()
expert_model.fc = nn.Linear(expert_model.fc.in_features, 512)
expert_model.load_state_dict(torch.load(RUTA_MODELO, map_location=device))
expert_model = expert_model.to(device).eval()

data_galeria = torch.load(RUTA_GALERIA, map_location=device)
galeria_vectores = F.normalize(data_galeria['vectores'].to(device), p=2, dim=1)
galeria_ids = data_galeria['ids']

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor(),
    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
])

# --- 3. PROCESADO ---
df_test = pd.read_csv(RUTA_TEST_CSV)
bundles_test = df_test['bundle_asset_id'].unique()

rows = [] # Aqu√≠ guardaremos parejas [bundle, producto]

print(f"üèÉ‚Äç‚ôÇÔ∏è Procesando {len(bundles_test)} bundles para el formato oficial...")

with torch.no_grad():
    for bundle_id in tqdm(bundles_test):
        ruta_img = os.path.join(CARPETA_BUNDLES, f"{bundle_id}.jpg")
        
        # Si no existe la foto, metemos 15 vac√≠os para no romper el CSV
        if not os.path.exists(ruta_img):
            for _ in range(15):
                rows.append({'bundle_asset_id': bundle_id, 'product_asset_id': ""})
            continue
            
        img = Image.open(ruta_img).convert("RGB")
        
        # Detecci√≥n r√°pida
        etiquetas = [["upper clothing", "lower clothing", "dress"]]
        inputs = processor(text=etiquetas, images=img, return_tensors="pt").to(device)
        outputs = owl_model(**inputs)
        
        target_sizes = torch.tensor([img.size[::-1]])
        dets = processor.post_process_grounded_object_detection(
            outputs=outputs, target_sizes=target_sizes, text_labels=etiquetas, threshold=0.1
        )[0]
        
        if len(dets["boxes"]) > 0:
            box = dets["boxes"][0]
            x1, y1, x2, y2 = map(int, box.tolist())
            recorte = img.crop((x1, y1, x2, y2))
            
            rec_t = transform(recorte).unsqueeze(0).to(device)
            query_emb = F.normalize(expert_model(rec_t), p=2, dim=1)
            
            sims = torch.mm(query_emb, galeria_vectores.t())
            _, indices = torch.topk(sims, 15)
            top_15 = [galeria_ids[idx] for idx in indices[0]]
        else:
            # Fallback si no detecta nada
            top_15 = galeria_ids[:15]
            
        # üåü LA CLAVE: A√±adimos una fila por cada producto
        for prod_id in top_15:
            rows.append({'bundle_asset_id': bundle_id, 'product_asset_id': prod_id})

# --- 4. GUARDAR ---
df_final = pd.DataFrame(rows)
df_final.to_csv(ARCHIVO_SALIDA, index=False)

print(f"\n‚úÖ ¬°SUBMISSION LISTA! Formato de {len(df_final)} filas generado en: {ARCHIVO_SALIDA}")

‚è≥ Cargando motores...


Loading weights:   0%|          | 0/412 [00:00<?, ?it/s]

[1mOwlViTForObjectDetection LOAD REPORT[0m from: google/owlvit-base-patch32
Key                                         | Status     |  | 
--------------------------------------------+------------+--+-
owlvit.vision_model.embeddings.position_ids | UNEXPECTED |  | 
owlvit.text_model.embeddings.position_ids   | UNEXPECTED |  | 

[3mNotes:
- UNEXPECTED[3m	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.[0m


üèÉ‚Äç‚ôÇÔ∏è Procesando 455 bundles para el formato oficial...


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 455/455 [00:46<00:00,  9.86it/s]


‚úÖ ¬°SUBMISSION LISTA! Formato de 6825 filas generado en: /home/aleixbertranandreu/Documents/HackUDC_2026/submission.csv



