In [None]:
# Load model directly
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

In [None]:
import pandas as pd
import numpy as np
import torch

	
df = pd.read_csv("../mango/train.csv", sep=";")

import pandas as pd
import numpy as np

def combine_attributes_jerarquica(row):
    """
    Combina atributos textuales en formato jer√°rquico
    M√°xima relevancia: categor√≠a/arquetipo ‚Üí atributos f√≠sicos ‚Üí contexto
    """
    # Definir columnas por nivel de importancia (excluyendo num√©ricas)
    texto_cols = [
        'aggregated_family', 'family', 'category',
        'fabric', 'color_name',
        'length_type', 'silhouette_type', 'waist_type',
        'neck_lapel_type', 'sleeve_length_type', 
        'heel_shape_type', 'toecap_type',
        'woven_structure', 'knit_structure',
        'print_type', 'archetype', 'moment'
    ]
    
    # Extraer valores no nulos
    valores = []
    for col in texto_cols:
        val = row[col]
        # Ignorar NaN, None, y strings vac√≠os
        if pd.notna(val) and str(val).strip():
            valores.append(str(val).strip())
    valores.append(f'has plus sizes {row["has_plus_sizes"]}')
    # Unir con separadores claros
    return ' , '.join(valores)  # Usa ' | ' para separaci√≥n visual clara


# Cargar datos (ajusta separador si es necesario)

# ELEGIR UNA ESTRATEGIA
# Para producci√≥n general: usa la jer√°rquica
df['combined_text'] = df.apply(combine_attributes_jerarquica, axis=1)

# Ver ejemplo
print("Ejemplo combinado:\n", df['combined_text'].iloc[0])

# Generar embeddings
embeddings = model.encode(
    df['combined_text'].tolist(),
    convert_to_tensor=True,
    show_progress_bar=True  # Para ver el progreso
)

print(f"\nEmbeddings generados: {embeddings.shape}")

# Guardar
torch.save(embeddings, 'embeddings_prendas.pt')
df[['ID', 'combined_text']].to_csv('textos_combinados.csv', index=False)

In [None]:
embeddings_tensor = torch.load('embeddings_prendas.pt')
print(f"‚úì Embeddings cargados: {embeddings_tensor.shape}")

In [None]:
import pandas as pd
import torch

# ============================================
# 1. CARGAR LOS ARCHIVOS QUE YA TIENES
# ============================================


# Cargar tensor de embeddings (lo que guardaste con torch.save)


# Cargar DataFrame original (tu CSV completo)
df_original = pd.read_csv('../mango/train.csv', sep=';')
print(f"‚úì DataFrame original: {df_original.shape}")

# Cargar referencia de IDs (opcional pero recomendado para verificar)
df_textos = pd.read_csv('textos_combinados.csv')
print(f"‚úì DataFrame de referencia: {df_textos.shape}")


# ============================================
# 2. CREAR DataFrame con embeddings e IDs
# ============================================

# Convertir tensor a lista de listas (cada embedding es una lista)
embeddings_lista = embeddings_tensor.cpu().numpy().tolist()

# Crear DataFrame temporal con ID y embedding
embeddings_df = pd.DataFrame({
    'ID': df_textos['ID'],  # Usamos los IDs del archivo de referencia
    'embedding_tabla': embeddings_lista
})

print(f"\n‚úì DataFrame de embeddings creado: {embeddings_df.shape}")


# ============================================
# 3. FUSIONAR CON EL DATAFRAME ORIGINAL (MERGE POR ID)
# ============================================

# Esto es lo M√ÅS IMPORTANTE: merge por ID asegura alineaci√≥n perfecta
df_final = df_original.merge(embeddings_df, on='ID', how='left')

# Verificar que la fusi√≥n fue exitosa
num_sin_embedding = df_final['embedding_tabla'].isna().sum()
if num_sin_embedding > 0:
    print(f"‚ö†Ô∏è ALERTA: {num_sin_embedding} prendas no tienen embedding")
    print("IDs sin embedding:", df_final[df_final['embedding_tabla'].isna()]['ID'].tolist())
else:
    print("\n‚úÖ Fusi√≥n exitosa: todos los embeddings se unieron correctamente")


# ============================================
# 4. VERIFICAR INTEGRIDAD
# ============================================

print("\nüîç Verificaci√≥n final:")
print(f"   - Filas en DataFrame final: {len(df_final):,}")
print(f"   - Columnas nuevas: {len(df_original.columns)} originales + 1 (embedding) = {len(df_final.columns)}")
print(f"   - Tama√±o del embedding: {len(df_final.iloc[0]['embedding_tabla'])} dimensiones")
print(f"   - Tipo de dato: {type(df_final.iloc[0]['embedding_tabla'])}")

# Verificar que el embedding es v√°lido (norma L2 ‚âà 1.0)
primer_embedding = torch.tensor(df_final.iloc[0]['embedding_tabla'])
norma = torch.norm(primer_embedding).item()
print(f"   - Norma L2 del primer embedding: {norma:.6f} (debe ser ‚âà 1.0)")


# ============================================
# 5. GUARDAR RESULTADO FINAL
# ============================================

print("\nüíæ Guardando archivo final...")

# OPCI√ìN A: Pickle (recomendada - preserva objetos Python)
df_final.to_pickle('prendas_con_embeddings_final.pkl')
print("   ‚úì Guardado como 'prendas_con_embeddings_final.pkl'")

# OPCI√ìN B: Parquet (m√°s eficiente, compatible con Big Data)
df_final.to_parquet('prendas_con_embeddings_final.parquet', index=False)
print("   ‚úì Guardado como 'prendas_con_embeddings_final.parquet'")

# OPCI√ìN C: CSV (solo si necesitas abrirlo en Excel - tama√±o muy grande)
# df_final.to_csv('prendas_con_embeddings_final.csv', index=False, sep=';')
# print("   ‚úì Guardado como 'prendas_con_embeddings_final.csv'")


# ============================================
# 6. EJEMPLO DE USO DEL DATAFRAME FINAL
# ============================================

print("\nüéØ Ejemplo de acceso a embeddings:")

# Acceder al embedding de una prenda espec√≠fica
id_ejemplo = df_final.iloc[0]['ID']
embedding_ejemplo = df_final[df_final['ID'] == id_ejemplo]['embedding_tabla'].iloc[0]

print(f"   Prenda ID: {id_ejemplo}")
print(f"   Categor√≠a: {df_final[df_final['ID'] == id_ejemplo]['category'].iloc[0]}")
print(f"   Color: {df_final[df_final['ID'] == id_ejemplo]['color_name'].iloc[0]}")
print(f"   Embedding (primeros 5 valores): {embedding_ejemplo[:5]}")

print("\n‚ú® ¬°Proceso completado! Tu DataFrame ahora tiene todas las columnas originales + embeddings")

In [None]:
df_final['embedding_tabla']