# Modelo hibrido de recomendaci√≥n para B2C

In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from scipy.sparse import lil_matrix, csr_matrix
from collections import defaultdict
import time
from datetime import datetime


# Carga de Datos

In [2]:
direccion_B2C_transacciones = '../Datos/transacciones_con_features.csv'
direccion_B2C_cotizaciones = '../Datos/cotizaciones_con_features.csv'
transacciones = pd.read_csv(direccion_B2C_transacciones, encoding='utf-8')
cotizaciones = pd.read_csv(direccion_B2C_cotizaciones, encoding='utf-8')


In [3]:
print(f"Tama√±o transacciones: {transacciones.shape}")
print(f"Tama√±o cotizaciones: {cotizaciones.shape}")

Tama√±o transacciones: (2099287, 43)
Tama√±o cotizaciones: (178378, 22)


In [4]:
numeric_columns = transacciones.select_dtypes(include=['number']).columns
print(numeric_columns)

Index(['pedido', 'id', 'edad', 'cantidad', 'precio', 'valor',
       'alineaci√≥n con portafolio estrat√©gico', 'a√±o_venta', 'mes_venta',
       'dia_semana_venta', 'dia_mes_venta', 'semana_a√±o_venta',
       'total_unidades_vendidas', 'valor_total_ventas',
       'precio_promedio_venta', 'n_transacciones_producto',
       'n_clientes_producto', 'frecuencia_venta_prod', 'recency',
       'n_pedidos_cliente', 'monetary', 'n_items_distintos_cliente',
       'n_categorias_distintas_cliente', 'gasto_promedio_pedido_cliente',
       'frecuencia_compra_cliente', 'n_transacciones_cat', 'n_clientes_cat',
       'n_productos_unicos_cat', 'popularidad_valor_prod_en_cat',
       'popularidad_unidad_prod_en_cat', 'popularidad_valor_prod_global',
       'popularidad_unidad_prod_global'],
      dtype='object')


# 1. Selecci√≥n y Agregaci√≥n de Features por Producto 
Se seleccionan columnas clave de transacciones y cotizaciones que describen al producto y su comportamiento (ventas, cotizaciones, categor√≠as, etc.), asegurando que 'producto' est√© presente para agrupar la informaci√≥n. Luego, se agrupan los datos por producto y se agregan usando funciones como media o primera ocurrencia, generando un resumen por producto que puede usarse en modelos o an√°lisis posteriores.


In [5]:
# A√±adimos 'producto' para la agrupaci√≥n y el √≠ndice


relevant_cols_transacciones_user = ['producto'] + [
    'categoria_macro', 'categoria', 'subcategoria', 'color',
    'precio_promedio_venta', 'alineaci√≥n con portafolio estrat√©gico',
    'total_unidades_vendidas', 'valor_total_ventas', 'n_transacciones_producto',
    'n_clientes_producto', 'frecuencia_venta_prod', 'popularidad_valor_prod_en_cat',
    'popularidad_unidad_prod_en_cat', 'popularidad_valor_prod_global',
    'popularidad_unidad_prod_global'
]

relevant_cols_cotizaciones_user = ['producto'] + [
    'categoria_macro', 'categoria',
    'total_unidades_cotizadas', 'valor_total_cotizado',
    'n_cotizaciones_producto', 'producto_fue_comprado_por_cliente' # Agregaremos esto
]

# Verificar que 'producto' existe
if 'producto' not in transacciones.columns or 'producto' not in cotizaciones.columns:
    print("ERROR: La columna 'producto' no se encuentra en uno o ambos DataFrames.")
    exit()

# Filtrar columnas que realmente existen en los dataframes cargados
available_cols_trans = [col for col in relevant_cols_transacciones_user if col in transacciones.columns]
available_cols_cot = [col for col in relevant_cols_cotizaciones_user if col in cotizaciones.columns]

print(f"Columnas disponibles y seleccionadas de Transacciones: {len(available_cols_trans)}")
print(f"Columnas disponibles y seleccionadas de Cotizaciones: {len(available_cols_cot)}")

# Agregar datos para tener una fila por producto

# Transacciones: Agregamos columnas que podr√≠an variar por transacci√≥n (color, alineaci√≥n)
# y tomamos el valor medio/moda. Las features pre-agregadas ('total_unidades_vendidas', etc.)
# deber√≠an ser consistentes, usamos 'mean' como m√©todo seguro.
trans_agg_dict = {
    # Categ√≥ricas: tomar la m√°s frecuente (moda) o la primera si solo hay una
    'categoria_macro': 'first',
    'categoria': 'first',
    'subcategoria': 'first',
    'color': lambda x: x.mode()[0] if not x.mode().empty else 'Desconocido',
    # Num√©ricas: usar la media. Para las pre-agregadas, esto no deber√≠a cambiar el valor.
    'precio_promedio_venta': 'mean',
    'alineaci√≥n con portafolio estrat√©gico': 'mean',
    'total_unidades_vendidas': 'mean',
    'valor_total_ventas': 'mean',
    'n_transacciones_producto': 'mean',
    'n_clientes_producto': 'mean',
    'frecuencia_venta_prod': 'mean',
    'popularidad_valor_prod_en_cat': 'mean',
    'popularidad_unidad_prod_en_cat': 'mean',
    'popularidad_valor_prod_global': 'mean',
    'popularidad_unidad_prod_global': 'mean'
}
# Filtrar el diccionario de agregaci√≥n para usar solo columnas disponibles
valid_trans_agg_dict = {k: v for k, v in trans_agg_dict.items() if k in available_cols_trans}
product_features_trans = transacciones.groupby('producto').agg(valid_trans_agg_dict)
print(f"Features agregadas por producto de Transacciones: {product_features_trans.shape}")

# Cotizaciones: Similar, agregamos flag y calculamos precio/valor promedio de cotizaci√≥n
cot_agg_dict = {
    'categoria_macro': 'first',
    'categoria': 'first',
    'precio': 'mean', # Precio promedio al que se cotiza este producto
    'valor': 'mean',  # Valor promedio (precio*cantidad) de la l√≠nea de cotizaci√≥n
    'total_unidades_cotizadas': 'mean', # Tomar el valor pre-calculado
    'valor_total_cotizado': 'mean', # Tomar el valor pre-calculado
    'n_cotizaciones_producto': 'mean', # Tomar el valor pre-calculado
    'producto_fue_comprado_por_cliente': 'max' # 1 si alguna vez fue comprado post-cotizaci√≥n, 0 si no
}
# Filtrar columnas disponibles y crear diccionario de agregaci√≥n v√°lido
cols_for_cot_agg = [col for col in available_cols_cot if col != 'producto'] # Excluir 'producto' de las claves de agg
# A√±adir precio y valor originales si no est√°n pero se usan en el dict
if 'precio' not in cols_for_cot_agg and 'precio' in cotizaciones.columns: cols_for_cot_agg.append('precio')
if 'valor' not in cols_for_cot_agg and 'valor' in cotizaciones.columns: cols_for_cot_agg.append('valor')

valid_cot_agg_dict = {k: v for k, v in cot_agg_dict.items() if k in cols_for_cot_agg or k in available_cols_cot} # Asegurar que usemos las columnas seleccionadas por el usuario
# Quitar keys del dict si la columna original no existe en cotizaciones
valid_cot_agg_dict = {k: v for k, v in valid_cot_agg_dict.items() if k in cotizaciones.columns or k in available_cols_cot}

product_features_cot = cotizaciones.groupby('producto').agg(valid_cot_agg_dict)
# Renombrar precio/valor promedio de cotizaci√≥n para claridad
product_features_cot = product_features_cot.rename(columns={'precio': 'precio_promedio_cot', 'valor': 'valor_promedio_cot'})
print(f"Features agregadas por producto de Cotizaciones: {product_features_cot.shape}")



Columnas disponibles y seleccionadas de Transacciones: 16
Columnas disponibles y seleccionadas de Cotizaciones: 7
Features agregadas por producto de Transacciones: (7276, 15)
Features agregadas por producto de Cotizaciones: (2735, 8)


# 2. Unificar Features de Producto
Se crea un √≠ndice unificado para todos los productos encontrados, generando dos mapeos: de producto a √≠ndice y de √≠ndice a producto. Esto permite referenciar eficientemente los productos en estructuras num√©ricas como matrices. Finalmente, se reindexa el DataFrame unificado para asegurar que todos los productos est√©n correctamente ordenados y alineados.


In [6]:
# Eliminar las columnas duplicadas del dataframe de cotizaciones
product_features_cot_1 = product_features_cot.drop(columns=['categoria_macro', 'categoria'])

product_features_unified = product_features_trans.join(product_features_cot_1, how='outer')
print(f"Shape unificado inicial: {product_features_unified.shape}")
product_features_unified.head()


Shape unificado inicial: (7277, 21)


Unnamed: 0_level_0,categoria_macro,categoria,subcategoria,color,precio_promedio_venta,alineaci√≥n con portafolio estrat√©gico,total_unidades_vendidas,valor_total_ventas,n_transacciones_producto,n_clientes_producto,...,popularidad_valor_prod_en_cat,popularidad_unidad_prod_en_cat,popularidad_valor_prod_global,popularidad_unidad_prod_global,precio_promedio_cot,valor_promedio_cot,total_unidades_cotizadas,valor_total_cotizado,n_cotizaciones_producto,producto_fue_comprado_por_cliente
producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
producto_1,categoria_macro_1,categoria_1,subcategoria_1,MATE,8.567222,1.076122,134.0,1151.24,90.0,69.0,...,0.000528,0.000107,1.4e-05,2e-06,8.749715,10.208,14.0,122.496006,12.0,1.0
producto_10,categoria_macro_1,categoria_1,subcategoria_7,BLANCO,11.459514,1.784772,1984.0,22600.24,1291.0,1058.0,...,0.010373,0.001582,0.000269,2.5e-05,11.851216,38.529133,1143.0,13639.31311,349.0,1.0
producto_100,categoria_macro_4,categoria_11,subcategoria_12,No encontrado,1.919338,0.837496,1446.0,2467.46,302.0,281.0,...,0.002205,0.003688,2.9e-05,1.8e-05,2.021534,11.929538,543.0,1097.517518,91.0,1.0
producto_1000,categoria_macro_2,categoria_7,subcategoria_39,No encontrado,10.784545,11.03815,98.82,1072.15,11.0,9.0,...,3.3e-05,1e-05,1.3e-05,1e-06,,,,,,
producto_1001,categoria_macro_2,categoria_7,subcategoria_39,No encontrado,4.975563,9.415715,7885.8,38550.79,458.0,370.0,...,0.001176,0.000835,0.000459,9.9e-05,,,,,,


# 3. Crear √çndice Unificado y Mapeos
Para unificar las caracter√≠sticas por producto, primero se eliminan columnas duplicadas como `categoria_macro` y `categoria` del DataFrame de cotizaciones. Luego, se realiza un `join` entre los datos agregados de transacciones y cotizaciones usando el identificador de producto como √≠ndice. El resultado es un DataFrame unificado con informaci√≥n combinada de ambos or√≠genes.



In [7]:

print("\n--- 3. Creando √çndice Unificado ---")
all_unique_products = product_features_unified.index.unique().tolist()
product_to_idx = {product: i for i, product in enumerate(all_unique_products)}
idx_to_product = {i: product for product, i in product_to_idx.items()}
n_products = len(all_unique_products)
print(f"Total de productos √∫nicos encontrados: {n_products}")

# Reindexar por si acaso (aunque el join ya deber√≠a tener el √≠ndice correcto)
product_features_unified = product_features_unified.reindex(all_unique_products)



--- 3. Creando √çndice Unificado ---
Total de productos √∫nicos encontrados: 7277


# 4. Imputar Valores Faltantes (NaN)

En esta etapa, se imputan los valores faltantes tanto en columnas num√©ricas como categ√≥ricas del DataFrame unificado. Para las columnas num√©ricas se utiliza la mediana y para las categ√≥ricas la moda, garantizando que no queden `NaNs` en los datos antes del preprocesamiento.


In [8]:
# Identificar columnas num√©ricas y categ√≥ricas en el DF unificado
final_num_features = product_features_unified.select_dtypes(include=np.number).columns.tolist()
final_cat_features = product_features_unified.select_dtypes(include=['object', 'category']).columns.tolist()

print(f"Columnas num√©ricas para imputar/escalar: {len(final_num_features)}")
# print(final_num_features)
print(f"Columnas categ√≥ricas para imputar/codificar: {len(final_cat_features)}")
# print(final_cat_features)

imputation_count = 0
for col in final_num_features:
    if product_features_unified[col].isnull().any():
        imputation_count += 1
        median_val = product_features_unified[col].median()
        fill_val = median_val if pd.notna(median_val) else 0 
        product_features_unified[col] = product_features_unified[col].fillna(fill_val)

for col in final_cat_features:
    if product_features_unified[col].isnull().any():
        imputation_count += 1
        mode_val = product_features_unified[col].mode()
        fill_value = mode_val[0] if not mode_val.empty else 'Desconocido'
        product_features_unified[col] = product_features_unified[col].fillna(fill_value)

if imputation_count > 0:
    print(f"Se imputaron NaNs en {imputation_count} instancias de columna.")
else:
    print("No se encontraron NaNs para imputar.")

# Verificar que no queden NaNs
nans_remaining = product_features_unified.isnull().sum().sum()
if nans_remaining > 0:
    print(f"ADVERTENCIA: ¬°Todav√≠a quedan {nans_remaining} NaNs despu√©s de la imputaci√≥n!")
    # print(product_features_unified.isnull().sum()[product_features_unified.isnull().sum() > 0])
else:
    print("Verificaci√≥n de NaNs completada: No hay NaNs restantes.")

Columnas num√©ricas para imputar/escalar: 17
Columnas categ√≥ricas para imputar/codificar: 4
Se imputaron NaNs en 21 instancias de columna.
Verificaci√≥n de NaNs completada: No hay NaNs restantes.


In [9]:
product_features_unified.sample(10)

Unnamed: 0_level_0,categoria_macro,categoria,subcategoria,color,precio_promedio_venta,alineaci√≥n con portafolio estrat√©gico,total_unidades_vendidas,valor_total_ventas,n_transacciones_producto,n_clientes_producto,...,popularidad_valor_prod_en_cat,popularidad_unidad_prod_en_cat,popularidad_valor_prod_global,popularidad_unidad_prod_global,precio_promedio_cot,valor_promedio_cot,total_unidades_cotizadas,valor_total_cotizado,n_cotizaciones_producto,producto_fue_comprado_por_cliente
producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
producto_1559,categoria_macro_4,categoria_9,subcategoria_10,No encontrado,3.488182,0.362252,11.0,38.37,11.0,11.0,...,1.4e-05,5.8e-05,4.569211e-07,1.37666e-07,4.217429,4.217429,8.0,33.739429,8.0,1.0
producto_2435,categoria_macro_2,categoria_7,subcategoria_39,CIELO,8.619189,9.644575,1942.79,16908.0,71.0,60.0,...,0.000516,0.000206,0.0002013454,2.431419e-05,9.354571,26.783295,21.0,240.965146,7.0,1.0
producto_163,categoria_macro_2,categoria_5,subcategoria_5,No encontrado,2.508531,5.104894,49138.42,122664.53,1778.0,1435.0,...,0.009695,0.012471,0.001460725,0.0006149716,9.354571,26.783295,21.0,240.965146,7.0,1.0
producto_3488,categoria_macro_2,categoria_5,subcategoria_5,No encontrado,2.407576,2.17817,788.0,1876.52,66.0,60.0,...,0.000148,0.0002,2.234614e-05,9.861889e-06,9.354571,26.783295,21.0,240.965146,7.0,1.0
producto_4015,categoria_macro_4,categoria_10,subcategoria_11,No encontrado,89.63625,19.953648,8.0,717.09,8.0,8.0,...,0.000221,4.5e-05,8.539315e-06,1.001207e-07,82.275071,82.275071,4.0,329.100284,4.0,1.0
producto_4906,categoria_macro_2,categoria_8,subcategoria_50,SILVER,3.47,4.43232,23.0,79.85,2.0,1.0,...,3.2e-05,1.2e-05,9.508769e-07,2.87847e-07,9.354571,26.783295,21.0,240.965146,7.0,1.0
producto_6885,categoria_macro_4,categoria_10,subcategoria_37,No encontrado,5.84,0.5184,4.0,23.36,4.0,4.0,...,7e-06,2.3e-05,2.781776e-07,5.006035e-08,5.841429,5.841429,2.0,11.682858,2.0,1.0
producto_4844,categoria_macro_2,categoria_8,subcategoria_8,MULTICOLOR,10.304688,2.747844,64.9,665.66,32.0,32.0,...,0.000268,3.5e-05,7.926872e-06,8.122292e-07,9.354571,26.783295,21.0,240.965146,7.0,1.0
producto_6552,categoria_macro_3,categoria_4,subcategoria_4,No encontrado,9.29,1.099008,1.0,9.29,1.0,1.0,...,1.1e-05,9e-06,1.10628e-07,1.251509e-08,9.354571,26.783295,21.0,240.965146,7.0,1.0
producto_4601,categoria_macro_2,categoria_7,subcategoria_39,BEIGE,15.345833,14.95296,218.4,3530.0,24.0,22.0,...,0.000108,2.3e-05,4.203626e-05,2.733295e-06,9.354571,26.783295,21.0,240.965146,7.0,1.0


# 5. Preprocesamiento (Escalado y Codificaci√≥n)

Se normalizan las columnas num√©ricas con `MinMaxScaler` y se codifican las categ√≥ricas usando `OneHotEncoder`, generando una matriz de caracter√≠sticas dispersa que resume toda la informaci√≥n de productos de forma estructurada y lista para el c√°lculo de similitud.


In [10]:
final_num_features

['precio_promedio_venta',
 'alineaci√≥n con portafolio estrat√©gico',
 'total_unidades_vendidas',
 'valor_total_ventas',
 'n_transacciones_producto',
 'n_clientes_producto',
 'frecuencia_venta_prod',
 'popularidad_valor_prod_en_cat',
 'popularidad_unidad_prod_en_cat',
 'popularidad_valor_prod_global',
 'popularidad_unidad_prod_global',
 'precio_promedio_cot',
 'valor_promedio_cot',
 'total_unidades_cotizadas',
 'valor_total_cotizado',
 'n_cotizaciones_producto',
 'producto_fue_comprado_por_cliente']

In [11]:
start_time_preprocess = time.time()

# Crear el ColumnTransformer - SOLO NUM√âRICAS PARA PRUEBA
preprocessor = ColumnTransformer(
    transformers=[
        ('num', MinMaxScaler(), final_num_features),
    ],
    remainder='drop' # Ignorar columnas no especificadas (como el √≠ndice si no se quit√≥)
)

# Ajustar y transformar los datos unificados e imputados
try:
    feature_matrix_sparse = preprocessor.fit_transform(product_features_unified)
    end_time_preprocess = time.time()
    print(f"Matriz de caracter√≠sticas dispersa creada: {feature_matrix_sparse.shape}")
    print(f"Preprocesamiento completado en {end_time_preprocess - start_time_preprocess:.2f} segundos.")
    print(f"üîç MODO DIAGN√ìSTICO: Solo usando {feature_matrix_sparse.shape[1]} variables num√©ricas")
    preprocess_ok = True
except Exception as e:
    print(f"ERROR durante el preprocesamiento: {e}")
    preprocess_ok = False
    feature_matrix_sparse = None

Matriz de caracter√≠sticas dispersa creada: (7277, 17)
Preprocesamiento completado en 0.01 segundos.
üîç MODO DIAGN√ìSTICO: Solo usando 17 variables num√©ricas


# 6. C√°lculo de Similitud de Contenido

Usando la matriz de caracter√≠sticas procesada, se calcula una matriz de similitud basada en la m√©trica de coseno. Esta matriz permite cuantificar qu√© tan similares son los productos entre s√≠ con base en sus caracter√≠sticas.


In [12]:

content_similarity_matrix = None
similarity_ok = False
if preprocess_ok and feature_matrix_sparse is not None:
    print("\n--- 6. Calculando Similitud Coseno ---")
    start_time_similarity = time.time()
    try:
        # Asegurarse que la matriz no est√© vac√≠a
        if feature_matrix_sparse.shape[0] > 0 and feature_matrix_sparse.shape[1] > 0:
             content_similarity_matrix = cosine_similarity(feature_matrix_sparse)
             end_time_similarity = time.time()
             print(f"Matriz de similitud coseno calculada: {content_similarity_matrix.shape}")
             print(f"C√°lculo de similitud completado en {end_time_similarity - start_time_similarity:.2f} segundos.")
             similarity_ok = True
        else:
             print("ERROR: La matriz de caracter√≠sticas est√° vac√≠a o tiene dimensiones cero.")

    except Exception as e:
        print(f"ERROR durante el c√°lculo de similitud: {e}")
        content_similarity_matrix = None # Asegurar que sea None si falla
else:
    print("\nSe omite el c√°lculo de similitud debido a un error en el preprocesamiento.")



--- 6. Calculando Similitud Coseno ---
Matriz de similitud coseno calculada: (7277, 7277)
C√°lculo de similitud completado en 0.91 segundos.


# 7. Funci√≥n de Recomendaci√≥n Basada en Contenido

Se implementa una funci√≥n que, dado un producto de entrada, devuelve una lista de productos similares ordenados por su score de similitud coseno. Esta funci√≥n permite generar recomendaciones personalizadas sin necesidad de datos de usuario.


In [13]:

def get_content_recommendations(input_product, N=10):
    """
    Genera recomendaciones basadas puramente en la similitud de contenido.

    Args:
        input_product (str): El ID del producto para el que se quieren recomendaciones.
        N (int): N√∫mero de recomendaciones a generar.

    Returns:
        pandas.DataFrame: DataFrame con 'producto' recomendado y 'similarity_score'.
                          Devuelve DataFrame vac√≠o si el producto no se encuentra o hay error.
    """
    recommendations = pd.DataFrame()
    # Verificar si la matriz de similitud est√° disponible
    if not similarity_ok or content_similarity_matrix is None:
        print("Error: Matriz de similitud no disponible.")
        return recommendations

    # Verificar si el producto de entrada existe en nuestro mapeo
    if input_product not in product_to_idx:
        print(f"Error: Producto '{input_product}' no encontrado en el mapeo.")
        return recommendations

    # Obtener el √≠ndice num√©rico del producto de entrada
    idx = product_to_idx[input_product]

    # Obtener los scores de similitud para este producto (fila 'idx' de la matriz)
    # enumerate a√±ade un contador a los scores para saber su √≠ndice original
    sim_scores = list(enumerate(content_similarity_matrix[idx]))

    # Ordenar los productos basados en el score de similitud (descendente)
    # El score est√° en la posici√≥n 1 de cada tupla (indice, score)
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Obtener los N productos m√°s similares (excluyendo el propio producto)
    top_recommendations = []
    for i, score in sim_scores:
        # Omitir el producto de entrada (su √≠ndice es 'idx')
        if i == idx:
            continue

        # Obtener el nombre del producto usando el mapeo inverso
        recommended_product_id = idx_to_product.get(i)

        # A√±adir a la lista si encontramos el nombre y no hemos alcanzado N
        if recommended_product_id and len(top_recommendations) < N:
             top_recommendations.append({'producto': recommended_product_id, 'similarity_score': score})
        elif len(top_recommendations) >= N:
            break # Salir del bucle si ya tenemos N recomendaciones

    if not top_recommendations:
        print(f"No se encontraron recomendaciones para '{input_product}' (excluy√©ndose a s√≠ mismo).")
    else:
        recommendations = pd.DataFrame(top_recommendations)

    return recommendations


# 8. Ejemplo de Uso

Se muestra un ejemplo pr√°ctico donde se obtienen recomendaciones de productos similares para un producto espec√≠fico. Si la matriz de similitud fue calculada correctamente, se imprimen los resultados y el tiempo que tom√≥ generar las recomendaciones.

In [14]:
if similarity_ok and all_unique_products:
    
    example_product_id = "producto_125"

    if example_product_id:
        print(f"Obteniendo recomendaciones de contenido para: '{example_product_id}'")
        start_rec_time = time.time()
        recs = get_content_recommendations(example_product_id, N=5)
        end_rec_time = time.time()

        if not recs.empty:
            print(recs)
            print(f"\nRecomendaciones generadas en {end_rec_time - start_rec_time:.4f} segundos.")
        else:
            print("No se generaron recomendaciones para el producto de ejemplo.")


else:
    print("No se puede ejecutar el ejemplo: la matriz de similitud no est√° lista o no hay productos.")

print("\n--- Proceso de Modelo de Contenido Completado ---")

Obteniendo recomendaciones de contenido para: 'producto_125'
       producto  similarity_score
0  producto_395          0.999991
1  producto_147          0.999975
2   producto_14          0.999967
3  producto_133          0.999966
4  producto_356          0.999957

Recomendaciones generadas en 0.0035 segundos.

--- Proceso de Modelo de Contenido Completado ---


# 9. C√°lculo de Co-ocurrencia (Co-Compra - Transacciones)

En este paso, se calcula una matriz de co-ocurrencia para las transacciones de productos. Este proceso se realiza agrupando los productos por pedido, incrementando el contador en la matriz cada vez que dos productos aparecen en el mismo pedido. El resultado es una matriz dispersa que representa la co-compra entre productos.


In [15]:

start_time_cf_buy = time.time()
co_occurrence_matrix = None # Inicializar
cf_buy_ok = False

# Verificar si 'pedido' y 'producto' existen y si hay mapeos
if 'pedido' in transacciones.columns and 'producto' in transacciones.columns and product_to_idx:
    # Crear matriz de co-ocurrencia dispersa (LIL para construcci√≥n)
    co_occurrence_matrix_lil = lil_matrix((n_products, n_products), dtype=np.int32)

    # Agrupar por pedido y obtener la lista de productos √∫nicos en cada pedido
    # Asegurarse de que solo procesamos productos conocidos en nuestro mapeo
    pedidos_grouped = transacciones[transacciones['producto'].isin(product_to_idx.keys())].groupby('pedido')['producto'].unique()

    processed_pairs_buy = 0
    # Iterar sobre los pedidos para llenar la matriz
    for products_in_pedido in pedidos_grouped:
        # Obtener los √≠ndices num√©ricos de los productos en este pedido
        indices_in_pedido = [product_to_idx[p] for p in products_in_pedido] # Ya filtramos productos desconocidos

        # Incrementar el contador para cada par de productos distintos en el pedido
        for i in range(len(indices_in_pedido)):
            for j in range(i + 1, len(indices_in_pedido)):
                idx1, idx2 = indices_in_pedido[i], indices_in_pedido[j]
                # Incrementar en ambas direcciones (matriz sim√©trica)
                co_occurrence_matrix_lil[idx1, idx2] += 1
                co_occurrence_matrix_lil[idx2, idx1] += 1
                processed_pairs_buy += 1 # Contar cada par √∫nico

    # Convertir a CSR para operaciones matem√°ticas m√°s r√°pidas despu√©s
    co_occurrence_matrix_csr = co_occurrence_matrix_lil.tocsr()

    end_time_cf_buy = time.time()
    print(f"Matriz de co-compra (dispersa {co_occurrence_matrix_csr.shape}) calculada en {end_time_cf_buy - start_time_cf_buy:.2f} seg.")
    if n_products > 0:
        print(f"Total de pares √∫nicos co-comprados encontrados: {processed_pairs_buy}")
        print(f"Densidad Co-compra: {co_occurrence_matrix_csr.nnz / (n_products * n_products):.6f}")
    else:
        print("No hay productos para calcular densidad.")
    cf_buy_ok = True
    co_occurrence_matrix = co_occurrence_matrix_csr # Asignar la matriz CSR final

else:
    print("Advertencia: No se puede calcular co-compra. Falta 'pedido'/'producto' en transacciones o mapeo de productos.")
    co_occurrence_matrix = None



Matriz de co-compra (dispersa (7277, 7277)) calculada en 122.47 seg.
Total de pares √∫nicos co-comprados encontrados: 3764964
Densidad Co-compra: 0.025644


# 10. C√°lculo de Co-ocurrencia (Co-Cotizaci√≥n - Cotizaciones)

Al igual que con las transacciones, se calcula una matriz de co-ocurrencia para las cotizaciones de productos. Se agrupan los productos por cotizaci√≥n y se actualiza la matriz de co-ocurrencia cada vez que dos productos son cotizados juntos. Este enfoque genera una matriz dispersa que representa las co-cotizaciones entre productos.


In [16]:

start_time_cf_quote = time.time()
co_quotation_matrix = None # Inicializar
cf_quote_ok = False

# Verificar si 'cotizacion' y 'producto' existen y si hay mapeos
if 'cotizacion' in cotizaciones.columns and 'producto' in cotizaciones.columns and product_to_idx:
    # Crear matriz dispersa
    co_quotation_matrix_lil = lil_matrix((n_products, n_products), dtype=np.int32)

    # Agrupar por cotizaci√≥n y obtener productos √∫nicos (filtrando desconocidos)
    cotizaciones_grouped = cotizaciones[cotizaciones['producto'].isin(product_to_idx.keys())].groupby('cotizacion')['producto'].unique()

    processed_pairs_quote = 0
    # Iterar sobre las cotizaciones
    for products_in_quote in cotizaciones_grouped:
        # Obtener √≠ndices num√©ricos (usando el mapeo unificado)
        indices_in_quote = [product_to_idx[p] for p in products_in_quote]
        # Incrementar contador para cada par distinto
        for i in range(len(indices_in_quote)):
            for j in range(i + 1, len(indices_in_quote)):
                idx1, idx2 = indices_in_quote[i], indices_in_quote[j]
                co_quotation_matrix_lil[idx1, idx2] += 1
                co_quotation_matrix_lil[idx2, idx1] += 1
                processed_pairs_quote += 1

    # Convertir a CSR
    co_quotation_matrix_csr = co_quotation_matrix_lil.tocsr()

    end_time_cf_quote = time.time()
    print(f"Matriz de co-cotizaci√≥n (dispersa {co_quotation_matrix_csr.shape}) calculada en {end_time_cf_quote - start_time_cf_quote:.2f} seg.")
    if n_products > 0:
        print(f"Total de pares √∫nicos co-cotizados encontrados: {processed_pairs_quote}")
        print(f"Densidad Co-cotizaci√≥n: {co_quotation_matrix_csr.nnz / (n_products * n_products):.6f}")
    else:
        print("No hay productos para calcular densidad.")
    cf_quote_ok = True
    co_quotation_matrix = co_quotation_matrix_csr # Asignar la matriz CSR final
else:
    print("Advertencia: No se puede calcular co-cotizaci√≥n. Falta 'cotizacion'/'producto' en cotizaciones o mapeo de productos.")
    co_quotation_matrix = None


Matriz de co-cotizaci√≥n (dispersa (7277, 7277)) calculada en 7.17 seg.
Total de pares √∫nicos co-cotizados encontrados: 249001
Densidad Co-cotizaci√≥n: 0.002628


# 11. Funciones de Recomendaci√≥n Basadas en Co-ocurrencia

Se implementan funciones que utilizan las matrices de co-ocurrencia para generar recomendaciones basadas en co-compra y co-cotizaci√≥n. Estas funciones emplean las matrices dispersas generadas en los pasos anteriores para identificar productos que han sido comprados o cotizados juntos y los ordenan en funci√≥n de la frecuencia de co-ocurrencia.


In [17]:

def get_co_purchase_recommendations(input_product, N=10):
    """
    Genera recomendaciones basadas *solo* en co-compras.

    Args:
        input_product (str): El ID del producto de entrada.
        N (int): N√∫mero de recomendaciones.

    Returns:
        pandas.DataFrame: Top N productos co-comprados con 'producto' y 'co_purchase_count'.
                          DF vac√≠o si hay error o no hay co-compras.
    """
    recommendations = pd.DataFrame()
    if not cf_buy_ok or co_occurrence_matrix is None:
        print("Error: Matriz de co-compra no disponible.")
        return recommendations
    if input_product not in product_to_idx:
        print(f"Error: Producto '{input_product}' no encontrado en el mapeo.")
        return recommendations

    idx = product_to_idx[input_product]

    try:
        # Obtener la fila de co-ocurrencias (matriz CSR)
        co_buys = co_occurrence_matrix[idx, :]
        # Obtener √≠ndices y valores de las columnas no cero
        co_bought_indices = co_buys.indices
        co_bought_values = co_buys.data

        if len(co_bought_indices) > 0:
            # Crear lista de tuplas (producto, count)
            recs_list = []
            for i, count in zip(co_bought_indices, co_bought_values):
                if i != idx: # Excluir el producto mismo
                    prod_name = idx_to_product.get(i)
                    if prod_name:
                        recs_list.append({'producto': prod_name, 'co_purchase_count': count})

            if recs_list:
                recommendations = pd.DataFrame(recs_list)
                recommendations = recommendations.sort_values('co_purchase_count', ascending=False).head(N)
            else:
                 print(f"No se encontraron co-compras (excluyendo self) para '{input_product}'.")
        else:
            print(f"Producto '{input_product}' no tiene co-compras registradas.")

    except Exception as e:
        print(f"Error obteniendo recomendaciones de co-compra: {e}")

    return recommendations


def get_co_quotation_recommendations(input_product, N=10):
    """
    Genera recomendaciones basadas *solo* en co-cotizaciones.

    Args:
        input_product (str): El ID del producto de entrada.
        N (int): N√∫mero de recomendaciones.

    Returns:
        pandas.DataFrame: Top N productos co-cotizados con 'producto' y 'co_quotation_count'.
                          DF vac√≠o si hay error o no hay co-cotizaciones.
    """
    recommendations = pd.DataFrame()
    if not cf_quote_ok or co_quotation_matrix is None:
        print("Error: Matriz de co-cotizaci√≥n no disponible.")
        return recommendations
    if input_product not in product_to_idx:
        print(f"Error: Producto '{input_product}' no encontrado en el mapeo.")
        return recommendations

    idx = product_to_idx[input_product]

    try:
        # Obtener la fila de co-cotizaciones (matriz CSR)
        co_quotes = co_quotation_matrix[idx, :]
        co_quote_indices = co_quotes.indices
        co_quote_values = co_quotes.data

        if len(co_quote_indices) > 0:
             recs_list = []
             for i, count in zip(co_quote_indices, co_quote_values):
                 if i != idx: # Excluir self
                     prod_name = idx_to_product.get(i)
                     if prod_name:
                         recs_list.append({'producto': prod_name, 'co_quotation_count': count})

             if recs_list:
                recommendations = pd.DataFrame(recs_list)
                recommendations = recommendations.sort_values('co_quotation_count', ascending=False).head(N)
             else:
                 print(f"No se encontraron co-cotizaciones (excluyendo self) para '{input_product}'.")

        else:
            print(f"Producto '{input_product}' no tiene co-cotizaciones registradas.")

    except Exception as e:
        print(f"Error obteniendo recomendaciones de co-cotizaci√≥n: {e}")

    return recommendations


## Modelo de recomendacion para producto nuevo

In [18]:
def get_popularity_recommendations_new_product(input_product_features, N=10, 
                                             popularity_metric='total_unidades_vendidas'):
    """
    Genera recomendaciones para productos NUEVOS basadas en popularidad por jerarqu√≠a categ√≥rica.
    
    L√≥gica de fallback:
    1. Productos m√°s populares de la misma subcategor√≠a
    2. Si no hay suficientes -> misma categor√≠a  
    3. Si no hay suficientes -> misma categor√≠a_macro
    4. Si no hay suficientes -> m√°s populares en general
    
    Args:
        input_product_features (dict): Caracter√≠sticas del producto nuevo con claves:
                                     ['subcategoria', 'categoria', 'categoria_macro']
        N (int): N√∫mero total de recomendaciones deseadas
        popularity_metric (str): M√©trica de popularidad ('total_unidades_vendidas', 
                               'valor_total_ventas', 'n_transacciones_producto', 'n_clientes_producto')
    
    Returns:
        pandas.DataFrame: Top N recomendaciones con 'producto', 'nivel_categoria' y popularity_metric
    """
    
    recommendations = []
    remaining_slots = N
    
    # Verificar que el DataFrame de productos est√© disponible
    if product_features_unified is None or product_features_unified.empty:
        print("Error: DataFrame de caracter√≠sticas de productos no disponible.")
        return pd.DataFrame()
    
    # Verificar que la m√©trica de popularidad existe
    if popularity_metric not in product_features_unified.columns:
        print(f"Error: M√©trica '{popularity_metric}' no encontrada. Disponibles: {product_features_unified.columns.tolist()}")
        return pd.DataFrame()
    
    # Extraer caracter√≠sticas categ√≥ricas del producto nuevo
    subcategoria_nueva = input_product_features.get('subcategoria')
    categoria_nueva = input_product_features.get('categoria') 
    categoria_macro_nueva = input_product_features.get('categoria_macro')
    
    print(f"üîç Buscando recomendaciones para producto nuevo:")
    print(f"   Subcategor√≠a: {subcategoria_nueva}")
    print(f"   Categor√≠a: {categoria_nueva}")
    print(f"   Categor√≠a Macro: {categoria_macro_nueva}")
    
    # --- NIVEL 1: Misma Subcategor√≠a ---
    if subcategoria_nueva and remaining_slots > 0:
        subcategoria_products = product_features_unified[
            product_features_unified['subcategoria'] == subcategoria_nueva
        ].copy()
        
        if not subcategoria_products.empty:
            # Ordenar por popularidad descendente
            subcategoria_products = subcategoria_products.sort_values(
                popularity_metric, ascending=False
            ).head(remaining_slots)
            
            for _, row in subcategoria_products.iterrows():
                recommendations.append({
                    'producto': row.name,  # El √≠ndice es el producto
                    'nivel_categoria': 'subcategoria',
                    popularity_metric: row[popularity_metric]
                })
            
            remaining_slots -= len(subcategoria_products)
            print(f"‚úÖ Encontrados {len(subcategoria_products)} productos en subcategor√≠a")
    
    # --- NIVEL 2: Misma Categor√≠a (excluyendo ya recomendados) ---
    if categoria_nueva and remaining_slots > 0:
        # Productos ya recomendados
        already_recommended = [r['producto'] for r in recommendations]
        
        categoria_products = product_features_unified[
            (product_features_unified['categoria'] == categoria_nueva) &
            (~product_features_unified.index.isin(already_recommended))
        ].copy()
        
        if not categoria_products.empty:
            categoria_products = categoria_products.sort_values(
                popularity_metric, ascending=False
            ).head(remaining_slots)
            
            for _, row in categoria_products.iterrows():
                recommendations.append({
                    'producto': row.name,
                    'nivel_categoria': 'categoria',
                    popularity_metric: row[popularity_metric]
                })
            
            remaining_slots -= len(categoria_products)
            print(f"‚úÖ Encontrados {len(categoria_products)} productos adicionales en categor√≠a")
    
    # --- NIVEL 3: Misma Categor√≠a Macro (excluyendo ya recomendados) ---
    if categoria_macro_nueva and remaining_slots > 0:
        already_recommended = [r['producto'] for r in recommendations]
        
        categoria_macro_products = product_features_unified[
            (product_features_unified['categoria_macro'] == categoria_macro_nueva) &
            (~product_features_unified.index.isin(already_recommended))
        ].copy()
        
        if not categoria_macro_products.empty:
            categoria_macro_products = categoria_macro_products.sort_values(
                popularity_metric, ascending=False
            ).head(remaining_slots)
            
            for _, row in categoria_macro_products.iterrows():
                recommendations.append({
                    'producto': row.name,
                    'nivel_categoria': 'categoria_macro', 
                    popularity_metric: row[popularity_metric]
                })
            
            remaining_slots -= len(categoria_macro_products)
            print(f"‚úÖ Encontrados {len(categoria_macro_products)} productos adicionales en categor√≠a macro")
    
    # --- NIVEL 4: M√°s Populares en General (excluyendo ya recomendados) ---
    if remaining_slots > 0:
        already_recommended = [r['producto'] for r in recommendations]
        
        general_products = product_features_unified[
            ~product_features_unified.index.isin(already_recommended)
        ].copy()
        
        if not general_products.empty:
            general_products = general_products.sort_values(
                popularity_metric, ascending=False
            ).head(remaining_slots)
            
            for _, row in general_products.iterrows():
                recommendations.append({
                    'producto': row.name,
                    'nivel_categoria': 'general',
                    popularity_metric: row[popularity_metric]
                })
            
            print(f"‚úÖ Completado con {len(general_products)} productos m√°s populares en general")
    
    # Convertir a DataFrame
    if recommendations:
        results_df = pd.DataFrame(recommendations)
        print(f"\nüéØ Total de recomendaciones generadas: {len(results_df)}")
        return results_df
    else:
        print("‚ùå No se pudieron generar recomendaciones.")
        return pd.DataFrame()


# --- EJEMPLO DE USO ---
def ejemplo_producto_nuevo():
    """Ejemplo de c√≥mo usar el recomendador para productos nuevos"""
    
    # Simular un producto nuevo con sus caracter√≠sticas categ√≥ricas
    producto_nuevo = {
        'subcategoria': 'subcategoria_1',
        'categoria': 'categoria_1', 
        'categoria_macro': 'categoria_macro_1'
    }
    
    print("="*60)
    print("üÜï RECOMENDADOR PARA PRODUCTOS NUEVOS - EJEMPLO")
    print("="*60)
    
    start_time = time.time()
    
    # Obtener recomendaciones usando diferentes m√©tricas
    for metric in ['total_unidades_vendidas', 'n_transacciones_producto']:
        print(f"\n--- Usando m√©trica: {metric} ---")
        
        recs = get_popularity_recommendations_new_product(
            producto_nuevo, 
            N=10, 
            popularity_metric=metric
        )
        
        if not recs.empty:
            print(f"\nTop 5 recomendaciones con {metric}:")
            print(recs.head().to_string(index=False))
            
            # Mostrar distribuci√≥n por nivel categ√≥rico
            print(f"\nDistribuci√≥n por nivel:")
            print(recs['nivel_categoria'].value_counts().to_string())
        else:
            print("No se generaron recomendaciones.")
    
    end_time = time.time()
    print(f"\n‚è±Ô∏è Tiempo total: {end_time - start_time:.4f} segundos")
    print("="*60)

# Ejecutar ejemplo
ejemplo_producto_nuevo()

üÜï RECOMENDADOR PARA PRODUCTOS NUEVOS - EJEMPLO

--- Usando m√©trica: total_unidades_vendidas ---
üîç Buscando recomendaciones para producto nuevo:
   Subcategor√≠a: subcategoria_1
   Categor√≠a: categoria_1
   Categor√≠a Macro: categoria_macro_1
‚úÖ Encontrados 10 productos en subcategor√≠a

üéØ Total de recomendaciones generadas: 10

Top 5 recomendaciones con total_unidades_vendidas:
     producto nivel_categoria  total_unidades_vendidas
 producto_651    subcategoria                   1859.0
 producto_192    subcategoria                   1272.0
producto_1429    subcategoria                    829.0
producto_3166    subcategoria                    505.0
producto_1482    subcategoria                    469.0

Distribuci√≥n por nivel:
nivel_categoria
subcategoria    10

--- Usando m√©trica: n_transacciones_producto ---
üîç Buscando recomendaciones para producto nuevo:
   Subcategor√≠a: subcategoria_1
   Categor√≠a: categoria_1
   Categor√≠a Macro: categoria_macro_1
‚úÖ Encontrados

# 12. Ejemplo de Uso de Recomendaciones

Aqu√≠ se muestra un ejemplo de c√≥mo utilizar las funciones de recomendaci√≥n para obtener productos similares basados en co-compra. En este ejemplo, se toma un producto de entrada y se obtienen las recomendaciones basadas en la matriz de co-ocurrencia calculada previamente. Adem√°s, se imprime el tiempo que tom√≥ generar las recomendaciones.


In [19]:

# Usar el mismo producto de ejemplo que en el paso anterior si es posible
example_product_id = 'producto_125'
print(f"\nObteniendo recomendaciones CF para: '{example_product_id}'")

# Ejemplo Co-Compra
if cf_buy_ok:
    print("\n--- Recomendaciones por Co-Compra ---")
    start_rec_time_buy = time.time()
    recs_buy = get_co_purchase_recommendations(example_product_id, N=5)
    end_rec_time_buy = time.time()
    if not recs_buy.empty:
        print(recs_buy)
        print(f"Tiempo: {end_rec_time_buy - start_rec_time_buy:.4f} seg.")
    else:
        print("No se encontraron recomendaciones.")

# Ejemplo Co-Cotizaci√≥n
if cf_quote_ok:
    print("\n--- Recomendaciones por Co-Cotizaci√≥n ---")
    start_rec_time_quote = time.time()
    recs_quote = get_co_quotation_recommendations(example_product_id, N=5)
    end_rec_time_quote = time.time()
    if not recs_quote.empty:
        print(recs_quote)
        print(f"Tiempo: {end_rec_time_quote - start_rec_time_quote:.4f} seg.")
    else:
        print("No se encontraron recomendaciones.")



Obteniendo recomendaciones CF para: 'producto_125'

--- Recomendaciones por Co-Compra ---
         producto  co_purchase_count
726   producto_49                453
634   producto_40                339
255   producto_19                261
225  producto_176                241
98   producto_129                166
Tiempo: 0.0062 seg.

--- Recomendaciones por Co-Cotizaci√≥n ---
Producto 'producto_125' no tiene co-cotizaciones registradas.
No se encontraron recomendaciones.


# 13. Definiendo Funci√≥n para Obtener Top-N por M√©todo Individual

Se define la funci√≥n `get_top_n_candidates_per_method` que obtiene las listas separadas de los Top-N productos recomendados seg√∫n cada m√©todo individual (contenido, co-compra, co-cotizaci√≥n). La funci√≥n recibe como entrada el ID de un producto y el n√∫mero de recomendaciones a obtener para cada m√©todo.


In [20]:
def get_top_n_candidates_per_method(input_product, N=10, input_product_features=None):
    """
    Obtiene las listas separadas de los Top-N productos recomendados seg√∫n
    cada m√©todo individual (contenido, co-compra, co-cotizaci√≥n, popularidad).

    Args:
        input_product (str): El ID del producto de entrada.
        N (int): N√∫mero de recomendaciones a obtener para cada m√©todo.
        input_product_features (dict): Solo para productos NUEVOS. Diccionario con
                                     ['subcategoria', 'categoria', 'categoria_macro']

    Returns:
        dict: Un diccionario donde las claves son 'content', 'co_purchase', 'co_quotation', 'popularity'
              y los valores son DataFrames con las columnas ['producto', 'score'].
              Los DataFrames estar√°n vac√≠os si el m√©todo falla o no hay recomendaciones.
    """
    results = {
        'content': pd.DataFrame(columns=['producto', 'score']),
        'co_purchase': pd.DataFrame(columns=['producto', 'score']),
        'co_quotation': pd.DataFrame(columns=['producto', 'score']),
        'popularity': pd.DataFrame(columns=['producto', 'score'])
    }

    # --- Validaci√≥n Inicial ---
    # Para productos nuevos, usar el m√©todo de popularidad √∫nicamente
    if input_product not in product_to_idx:
        if input_product_features is not None:
            print(f"üÜï Producto '{input_product}' es NUEVO. Usando solo recomendador de popularidad.")
            # Solo usar m√©todo de popularidad para productos nuevos
            try:
                popularity_recs = get_popularity_recommendations_new_product(
                    input_product_features, 
                    N=N, 
                    popularity_metric='total_unidades_vendidas'
                )
                if not popularity_recs.empty:
                    # Convertir a formato esperado
                    popularity_recs_formatted = popularity_recs.rename(columns={'total_unidades_vendidas': 'score'})
                    results['popularity'] = popularity_recs_formatted[['producto', 'score']]
            except Exception as e:
                print(f"Error obteniendo recomendaciones de popularidad: {e}")
        else:
            print(f"Error: Producto '{input_product}' no encontrado en el mapeo y no se proporcionaron caracter√≠sticas.")
        return results # Devuelve con solo popularidad para productos nuevos

    idx = product_to_idx[input_product]

    # --- 1. Top-N por Contenido ---
    if similarity_ok and content_similarity_matrix is not None:
        try:
            sim_scores = list(enumerate(content_similarity_matrix[idx]))
            sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

            content_recs = []
            for i, score in sim_scores:
                if i == idx: continue
                prod_name = idx_to_product.get(i)
                if prod_name and len(content_recs) < N:
                    content_recs.append({'producto': prod_name, 'score': score})
                elif len(content_recs) >= N:
                    break # Ya tenemos N

            if content_recs:
                results['content'] = pd.DataFrame(content_recs)
        except Exception as e:
            print(f"Error obteniendo Top-N de contenido: {e}")

    # --- 2. Top-N por Co-Compra ---
    if cf_buy_ok and co_occurrence_matrix is not None:
        try:
            co_buys = co_occurrence_matrix[idx, :]
            co_buy_indices = co_buys.indices
            co_buy_values = co_buys.data

            if len(co_buy_indices) > 0:
                cobuy_recs = []
                # Crear lista de tuplas (√≠ndice, count) y ordenar
                cobuy_pairs = sorted(zip(co_buy_indices, co_buy_values), key=lambda x: x[1], reverse=True)

                for i, count in cobuy_pairs:
                    if i == idx: continue
                    prod_name = idx_to_product.get(i)
                    if prod_name and len(cobuy_recs) < N:
                        # Guardamos el *conteo* como score aqu√≠
                        cobuy_recs.append({'producto': prod_name, 'score': count})
                    elif len(cobuy_recs) >= N:
                        break

                if cobuy_recs:
                     results['co_purchase'] = pd.DataFrame(cobuy_recs)
        except Exception as e:
            print(f"Error obteniendo Top-N de co-compra: {e}")

    # --- 3. Top-N por Co-Cotizaci√≥n ---
    if cf_quote_ok and co_quotation_matrix is not None:
        try:
            co_quotes = co_quotation_matrix[idx, :]
            co_quote_indices = co_quotes.indices
            co_quote_values = co_quotes.data

            if len(co_quote_indices) > 0:
                coquote_recs = []
                coquote_pairs = sorted(zip(co_quote_indices, co_quote_values), key=lambda x: x[1], reverse=True)

                for i, count in coquote_pairs:
                    if i == idx: continue
                    prod_name = idx_to_product.get(i)
                    if prod_name and len(coquote_recs) < N:
                         # Guardamos el *conteo* como score aqu√≠
                        coquote_recs.append({'producto': prod_name, 'score': count})
                    elif len(coquote_recs) >= N:
                        break

                if coquote_recs:
                    results['co_quotation'] = pd.DataFrame(coquote_recs)
        except Exception as e:
            print(f"Error obteniendo Top-N de co-cotizaci√≥n: {e}")

    # --- 4. Top-N por Popularidad (para productos existentes como fallback) ---
    try:
        # Obtener caracter√≠sticas del producto existente
        if input_product in product_features_unified.index:
            existing_product_features = {
                'subcategoria': product_features_unified.loc[input_product, 'subcategoria'],
                'categoria': product_features_unified.loc[input_product, 'categoria'], 
                'categoria_macro': product_features_unified.loc[input_product, 'categoria_macro']
            }
            
            popularity_recs = get_popularity_recommendations_new_product(
                existing_product_features, 
                N=N, 
                popularity_metric='total_unidades_vendidas'
            )
            
            if not popularity_recs.empty:
                # Excluir el producto de entrada de las recomendaciones de popularidad
                popularity_recs = popularity_recs[popularity_recs['producto'] != input_product]
                popularity_recs_formatted = popularity_recs.rename(columns={'total_unidades_vendidas': 'score'})
                results['popularity'] = popularity_recs_formatted[['producto', 'score']].head(N)
    except Exception as e:
        print(f"Error obteniendo recomendaciones de popularidad: {e}")

    return results

In [21]:
if similarity_ok and all_unique_products:
    
    example_product_id = "producto_125"

    if example_product_id:
        print(f"Obteniendo recomendaciones de contenido para: '{example_product_id}'")
        start_rec_time = time.time()
        recs = get_content_recommendations(example_product_id, N=5)
        end_rec_time = time.time()

        if not recs.empty:
            print(recs)
            print(f"\nRecomendaciones generadas en {end_rec_time - start_rec_time:.4f} segundos.")
        else:
            print("No se generaron recomendaciones para el producto de ejemplo.")


else:
    print("No se puede ejecutar el ejemplo: la matriz de similitud no est√° lista o no hay productos.")

print("\n--- Proceso de Modelo de Contenido Completado ---")

Obteniendo recomendaciones de contenido para: 'producto_125'
       producto  similarity_score
0  producto_395          0.999991
1  producto_147          0.999975
2   producto_14          0.999967
3  producto_133          0.999966
4  producto_356          0.999957

Recomendaciones generadas en 0.0116 segundos.

--- Proceso de Modelo de Contenido Completado ---


# F√≥rmula para calcular el score final con el m√©todo h√≠brido

La f√≥rmula para calcular el score de un producto `p` usando un enfoque h√≠brido de recomendaciones es:


$$
\text{score\_hibrido}(p) = w_{\text{content}} \cdot \frac{1}{\text{rank}_{\text{content}}(p) + k} + w_{\text{buy}} \cdot \frac{1}{\text{rank}_{\text{buy}}(p) + k} + w_{\text{quote}} \cdot \frac{1}{\text{rank}_{\text{quote}}(p) + k}
$$
## Donde:

- **rank_content(p)**: Posici√≥n (rango) del producto `p` en la lista de recomendaciones por contenido.  
  (1 si es el primero, 2 si es el segundo, etc.). Si `p` no est√° en la lista, se puede asignar un rango infinito o simplemente un score de 0 para ese componente.

- **rank_buy(p)**: Rango de `p` en la lista de recomendaciones por co-compra.

- **rank_quote(p)**: Rango de `p` en la lista de recomendaciones por co-cotizaci√≥n.

- **w_content, w_buy, w_quote**: Pesos asignados a cada uno de los m√©todos (contenido, co-compra y co-cotizaci√≥n), que determinan su importancia relativa.

- **k**: Constante peque√±a (por ejemplo, 60 como en el paper original de RRF, o valores menores como 1 o 2).  
  Se usa para evitar que los productos en las primeras posiciones tengan un peso desproporcionado y para otorgar algo de valor a los productos que aparecen en posiciones m√°s bajas.  
  Un valor de `k` m√°s alto suaviza las diferencias entre los primeros puestos.


En el modelo h√≠brido de recomendaci√≥n, se combinan tres enfoques: basado en contenido, co-compra (colaborativo por transacciones) y co-cotizaci√≥n (colaborativo por cotizaciones). Cada uno aporta una puntuaci√≥n a los productos candidatos, y estas se combinan ponderadamente mediante tres pesos: w_content, w_buy y w_quote, que reflejan la importancia relativa de cada fuente de informaci√≥n. Los pesos permiten controlar cu√°nto influye cada tipo de recomendaci√≥n en el resultado final. Adem√°s, para mejorar la robustez del sistema ante casos de baja informaci√≥n colaborativa, se implementa una l√≥gica adaptativa: si el producto de entrada tiene un score bajo de co-compra (por ejemplo, menos de 20), se considera que hay poca evidencia √∫til desde las transacciones, por lo que se incrementa el peso del modelo basado en contenido (por ejemplo, w_content = 0.5, w_buy = 0.3, w_quote = 0.2). Esto permite que el sistema se apoye m√°s en las caracter√≠sticas del producto cuando el historial de interacci√≥n es escaso, mejorando as√≠ la calidad y relevancia de las recomendaciones.

In [22]:
def get_recommendations_hybrid_rerank(input_product, N=10,
                                      content_weight=0.25,
                                      cf_buy_weight=0.4,
                                      cf_quote_weight=0.15,
                                      popularity_weight=0.2,
                                      k=2, # Constante para suavizar RRF-like score
                                      fetch_top_M=50, # Cu√°ntos candidatos obtener de cada m√©todo
                                      input_product_features=None): # Para productos nuevos
    """
    Genera recomendaciones h√≠bridas usando re-ranking basado en la posici√≥n
    en las listas de cada m√©todo individual (incluyendo popularidad).

    Args:
        input_product (str): El ID del producto de entrada.
        N (int): N√∫mero de recomendaciones finales deseadas.
        content_weight (float): Peso para la importancia del ranking de contenido.
        cf_buy_weight (float): Peso para la importancia del ranking de co-compra.
        cf_quote_weight (float): Peso para la importancia del ranking de co-cotizaci√≥n.
        popularity_weight (float): Peso para la importancia del ranking de popularidad.
        k (int): Constante de suavizado para el c√°lculo del score (mayor k, m√°s suave).
        fetch_top_M (int): Cu√°ntos candidatos obtener inicialmente de cada m√©todo individual.
        input_product_features (dict): Solo para productos NUEVOS. Caracter√≠sticas categ√≥ricas.

    Returns:
        pandas.DataFrame: Top N recomendaciones con 'producto' y 'hybrid_score'.
                          DF vac√≠o si hay error o el producto no existe.
    """
    hybrid_scores = defaultdict(float)

    # --- 1. Obtener listas Top-M de cada m√©todo ---
    separate_candidates = get_top_n_candidates_per_method(
        input_product, 
        N=fetch_top_M, 
        input_product_features=input_product_features
    )

    # L√≥gica adaptativa: Si es producto nuevo o tiene pocas co-compras, ajustar pesos
    is_new_product = input_product not in product_to_idx
    
    if not is_new_product:
        # Para productos existentes, verificar si tiene pocas co-compras
        candidates_co_purchase = separate_candidates['co_purchase']
        if not candidates_co_purchase.empty:
            max_co_purchase_score = candidates_co_purchase['score'].iloc[0] if len(candidates_co_purchase) > 0 else 0
        else:
            max_co_purchase_score = 0

    else:
        # Para productos nuevos, dar m√°s peso a popularidad
        content_weight = 0.0  # No hay similaridad de contenido para productos nuevos
        cf_buy_weight = 0.0   # No hay co-compras para productos nuevos
        cf_quote_weight = 0.0 # No hay co-cotizaciones para productos nuevos  
        popularity_weight = 1.0
        print("üÜï Producto nuevo: Usando solo recomendaciones por popularidad")

    # --- 2. Calcular Score H√≠brido basado en Rango Inverso Ponderado ---
    all_candidates = set() # Conjunto de todos los productos √∫nicos recomendados

    # Recolectar todos los candidatos y calcular scores
    for method, weight in [('content', content_weight),
                           ('co_purchase', cf_buy_weight),
                           ('co_quotation', cf_quote_weight),
                           ('popularity', popularity_weight)]:

        if weight <= 0: continue # Saltar si el peso es cero o negativo

        recs_df = separate_candidates.get(method)
        if recs_df is not None and not recs_df.empty:
            # A√±adir candidatos al conjunto general
            all_candidates.update(recs_df['producto'].tolist())
            # Calcular contribuci√≥n al score h√≠brido para cada producto en esta lista
            for rank, product in enumerate(recs_df['producto'], 1): # Rank empieza en 1
                 # Score = peso * (1 / (rango + k))
                 score_contribution = weight * (1.0 / (rank + k))
                 hybrid_scores[product] += score_contribution

    # --- 3. Generar Ranking Final ---
    if not hybrid_scores:
        print(f"No se encontraron candidatos para hibridar para '{input_product}'.")
        return pd.DataFrame()

    # Convertir scores h√≠bridos a DataFrame
    final_recs_df = pd.DataFrame(hybrid_scores.items(), columns=['producto', 'hybrid_score'])

    # Asegurarse de no incluir el producto de entrada (solo para productos existentes)
    if not is_new_product:
        final_recs_df = final_recs_df[final_recs_df['producto'] != input_product]

    # Ordenar por el nuevo score h√≠brido y tomar Top N
    final_recs_df = final_recs_df.sort_values('hybrid_score', ascending=False).head(N)

    return final_recs_df

# 15. Ejemplo de Uso de la Recomendaci√≥n H√≠brida por Re-Ranking

En este paso, se realiza un ejemplo de c√≥mo obtener recomendaciones h√≠bridas utilizando el m√©todo de re-ranking. Para ello, se ajustan los pesos y par√°metros que determinan la influencia de cada m√©todo de recomendaci√≥n (contenido, co-compra y co-cotizaci√≥n). La funci√≥n `get_recommendations_hybrid_rerank` es utilizada para obtener las recomendaciones finales basadas en estos pesos y se imprime el tiempo total del proceso.

In [23]:

# Usar el mismo ID de producto de ejemplo
example_product_id = "producto_125"

if example_product_id:
    start_time_rerank = time.time()
    
    print(f"\nObteniendo recomendaciones H√çBRIDAS (Re-Rank) para: '{example_product_id}'")
    start_rec_time_rerank = time.time()

    # --- AJUSTA LOS PESOS Y PAR√ÅMETROS AQU√ç ---
    recommendations = get_recommendations_hybrid_rerank(
        example_product_id,
        N=10,            # Pedir 10 recomendaciones finales
        fetch_top_M=50,  # Obtener 50 candidatos iniciales de cada m√©todo
        k=1,            # Constante de suavizado RRF (valor com√∫n)
        content_weight=0.3,
        cf_buy_weight=0.5,
        cf_quote_weight=0.2 # Si co-cotizaci√≥n no dio resultados, este peso ser√° inefectivo
    )

    end_rec_time_rerank = time.time()

    if not recommendations.empty:
        print("\n--- Recomendaciones H√≠bridas Finales (Re-Rank) ---")
        print(recommendations)
        print(f"\nTiempo total de recomendaci√≥n h√≠brida (Re-Rank): {end_rec_time_rerank - start_time_rerank:.4f} segundos.")
    else:
        print("No se generaron recomendaciones h√≠bridas para el producto de ejemplo.")

else:
    print("\nNo se puede ejecutar el ejemplo h√≠brido: 'example_product_id' no est√° definido o no es v√°lido.")

print("\n--- Proceso de Modelo H√≠brido (Re-Ranking) Completado ---")


Obteniendo recomendaciones H√çBRIDAS (Re-Rank) para: 'producto_125'
üîç Buscando recomendaciones para producto nuevo:
   Subcategor√≠a: subcategoria_5
   Categor√≠a: categoria_5
   Categor√≠a Macro: categoria_macro_2
‚úÖ Encontrados 50 productos en subcategor√≠a

üéØ Total de recomendaciones generadas: 50

--- Recomendaciones H√≠bridas Finales (Re-Rank) ---
        producto  hybrid_score
50   producto_49      0.250000
51   producto_40      0.166667
0   producto_395      0.150000
52   producto_19      0.125000
86    producto_5      0.111905
1   producto_147      0.110204
53  producto_176      0.100000
54  producto_129      0.089048
2    producto_14      0.075000
55  producto_211      0.071429

Tiempo total de recomendaci√≥n h√≠brida (Re-Rank): 0.0287 segundos.

--- Proceso de Modelo H√≠brido (Re-Ranking) Completado ---


# Extra. Ejemplo de Uso de la Recomendaci√≥n de los metodos totales

Aca se muestra las recomendaciones para un producto y que suelta cada modelo por separado y se puede comparar asi con el resultado por el modelo hibrido para comparar y ver su funcionamiento

In [24]:
# Usar el mismo ID de producto de ejemplo
example_product_id = "producto_125"

if example_product_id:
    start_time_rerank = time.time()
    
    print(f"\nObteniendo recomendaciones H√çBRIDAS (Re-Rank) para: '{example_product_id}'")
    start_rec_time_rerank = time.time()

    # --- AJUSTA LOS PESOS Y PAR√ÅMETROS AQU√ç ---
    recommendations = get_recommendations_hybrid_rerank(
        example_product_id,
        N=10,            # Pedir 10 recomendaciones finales
        fetch_top_M=50,  # Obtener 50 candidatos iniciales de cada m√©todo
        k=1,            # Constante de suavizado RRF (valor com√∫n)
        content_weight=0.25,
        cf_buy_weight=0.4,
        cf_quote_weight=0.15,
        popularity_weight=0.2  # NUEVO: Peso para popularidad
    )

    end_rec_time_rerank = time.time()

    if not recommendations.empty:
        print("\n--- Recomendaciones H√≠bridas Finales (4 M√©todos) ---")
        print(recommendations)
        print(f"\nTiempo total de recomendaci√≥n h√≠brida (Re-Rank): {end_rec_time_rerank - start_time_rerank:.4f} segundos.")
    else:
        print("No se generaron recomendaciones h√≠bridas para el producto de ejemplo.")

else:
    print("\nNo se puede ejecutar el ejemplo h√≠brido: 'example_product_id' no est√° definido o no es v√°lido.")

print("\n--- Proceso de Modelo H√≠brido (4 M√©todos) Completado ---")

# --- EJEMPLO ADICIONAL: PRODUCTO NUEVO ---
print("\n" + "="*60)
print("üÜï EJEMPLO CON PRODUCTO NUEVO")
print("="*60)

# Simular un producto nuevo
producto_nuevo_features = {
    'subcategoria': 'subcategoria_1',
    'categoria': 'categoria_1', 
    'categoria_macro': 'categoria_macro_1'
}

recommendations_nuevo = get_recommendations_hybrid_rerank(
    "producto_nuevo_123",  # ID ficticio
    N=10,
    input_product_features=producto_nuevo_features
)

if not recommendations_nuevo.empty:
    print("\n--- Recomendaciones para Producto Nuevo ---")
    print(recommendations_nuevo)
else:
    print("No se generaron recomendaciones para el producto nuevo.")


Obteniendo recomendaciones H√çBRIDAS (Re-Rank) para: 'producto_125'
üîç Buscando recomendaciones para producto nuevo:
   Subcategor√≠a: subcategoria_5
   Categor√≠a: categoria_5
   Categor√≠a Macro: categoria_macro_2
‚úÖ Encontrados 50 productos en subcategor√≠a

üéØ Total de recomendaciones generadas: 50

--- Recomendaciones H√≠bridas Finales (4 M√©todos) ---
        producto  hybrid_score
50   producto_49      0.200000
51   producto_40      0.133333
0   producto_395      0.125000
86    producto_5      0.109524
52   producto_19      0.100000
1   producto_147      0.091497
53  producto_176      0.080000
54  producto_129      0.072381
95   producto_58      0.066667
71  producto_324      0.065385

Tiempo total de recomendaci√≥n h√≠brida (Re-Rank): 0.0189 segundos.

--- Proceso de Modelo H√≠brido (4 M√©todos) Completado ---

üÜï EJEMPLO CON PRODUCTO NUEVO
üÜï Producto 'producto_nuevo_123' es NUEVO. Usando solo recomendador de popularidad.
üîç Buscando recomendaciones para producto n

## Cargar los modelos para probar en validaci√≥n

In [26]:
import joblib
import os
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.decomposition import TruncatedSVD
import numpy as np

# Crear directorio para guardar modelos si no existe
modelos_dir = '../Modelos/ModelosCompletos'
if not os.path.exists(modelos_dir):
    os.makedirs(modelos_dir)

print("Entrenando y guardando los 5 modelos...")

# ============================================
# 1. MODELO DE CONTENIDO (Content-Based)
# ============================================
print("1. Creando modelo de contenido...")

# Usar la matriz de similitud de contenido ya calculada
content_model_data = {
    'similarity_matrix': content_similarity_matrix,
    'product_to_idx': product_to_idx,
    'idx_to_product': idx_to_product,
    'feature_matrix': feature_matrix_sparse,
    'preprocessor': preprocessor,
    'model_type': 'content_based'
}

# Guardar modelo de contenido
joblib.dump(content_model_data, os.path.join(modelos_dir, 'content_model.pkl'))
print(f"‚úì Modelo de contenido guardado en {modelos_dir}/content_model.pkl")

# ============================================
# 2. MODELO DE CO-COMPRA (Collaborative Filtering)
# ============================================
print("2. Creando modelo de co-compra...")

co_purchase_model_data = {
    'co_occurrence_matrix': co_occurrence_matrix,
    'product_to_idx': product_to_idx,
    'idx_to_product': idx_to_product,
    'model_type': 'collaborative_filtering_purchase'
}

# Guardar modelo de co-compra
joblib.dump(co_purchase_model_data, os.path.join(modelos_dir, 'co_purchase_model.pkl'))
print(f"‚úì Modelo de co-compra guardado en {modelos_dir}/co_purchase_model.pkl")

# ============================================
# 3. MODELO DE CO-COTIZACI√ìN
# ============================================
print("3. Creando modelo de co-cotizaci√≥n...")

co_quotation_model_data = {
    'co_quotation_matrix': co_quotation_matrix,
    'product_to_idx': product_to_idx,
    'idx_to_product': idx_to_product,
    'model_type': 'collaborative_filtering_quotation'
}

# Guardar modelo de co-cotizaci√≥n
joblib.dump(co_quotation_model_data, os.path.join(modelos_dir, 'co_quotation_model.pkl'))
print(f"‚úì Modelo de co-cotizaci√≥n guardado en {modelos_dir}/co_quotation_model.pkl")

# ============================================
# 4. MODELO DE POPULARIDAD (Cold Start / Productos Nuevos)
# ============================================
print("4. Creando modelo de popularidad...")

# Preparar rankings de popularidad por diferentes m√©tricas y niveles categ√≥ricos
popularity_rankings = {}

# M√©tricas de popularidad disponibles
popularity_metrics = [
    'total_unidades_vendidas', 
    'valor_total_ventas',
    'n_transacciones_producto',
    'n_clientes_producto'
]

for metric in popularity_metrics:
    if metric in product_features_unified.columns:
        # Rankings globales
        global_ranking = product_features_unified.sort_values(metric, ascending=False)
        popularity_rankings[f'{metric}_global'] = global_ranking.index.tolist()
        
        # Rankings por categor√≠a macro
        categoria_macro_rankings = {}
        for cat_macro in product_features_unified['categoria_macro'].unique():
            if pd.notna(cat_macro):
                cat_macro_products = product_features_unified[
                    product_features_unified['categoria_macro'] == cat_macro
                ].sort_values(metric, ascending=False)
                categoria_macro_rankings[cat_macro] = cat_macro_products.index.tolist()
        popularity_rankings[f'{metric}_categoria_macro'] = categoria_macro_rankings
        
        # Rankings por categor√≠a
        categoria_rankings = {}
        for cat in product_features_unified['categoria'].unique():
            if pd.notna(cat):
                cat_products = product_features_unified[
                    product_features_unified['categoria'] == cat
                ].sort_values(metric, ascending=False)
                categoria_rankings[cat] = cat_products.index.tolist()
        popularity_rankings[f'{metric}_categoria'] = categoria_rankings
        
        # Rankings por subcategor√≠a
        subcategoria_rankings = {}
        for subcat in product_features_unified['subcategoria'].unique():
            if pd.notna(subcat):
                subcat_products = product_features_unified[
                    product_features_unified['subcategoria'] == subcat
                ].sort_values(metric, ascending=False)
                subcategoria_rankings[subcat] = subcat_products.index.tolist()
        popularity_rankings[f'{metric}_subcategoria'] = subcategoria_rankings

popularity_model_data = {
    'product_features': product_features_unified,
    'popularity_rankings': popularity_rankings,
    'available_metrics': popularity_metrics,
    'model_type': 'popularity_based'
}

# Guardar modelo de popularidad
joblib.dump(popularity_model_data, os.path.join(modelos_dir, 'popularity_model.pkl'))
print(f"‚úì Modelo de popularidad guardado en {modelos_dir}/popularity_model.pkl")

# ============================================
# 5. MODELO H√çBRIDO (4 M√©todos)
# ============================================
print("5. Creando modelo h√≠brido...")

hybrid_model_data = {
    'content_similarity_matrix': content_similarity_matrix,
    'co_occurrence_matrix': co_occurrence_matrix,
    'co_quotation_matrix': co_quotation_matrix,
    'product_features': product_features_unified,
    'popularity_rankings': popularity_rankings,
    'product_to_idx': product_to_idx,
    'idx_to_product': idx_to_product,
    'default_weights': {
        'content_weight': 0.25,
        'cf_buy_weight': 0.4,
        'cf_quote_weight': 0.15,
        'popularity_weight': 0.2
    },
    'adaptive_weights': {
        'low_interaction_threshold': 10,  # Si co-compras < 10, usar pesos adaptativos
        'low_interaction_weights': {
            'content_weight': 0.4,
            'cf_buy_weight': 0.2,
            'cf_quote_weight': 0.1,
            'popularity_weight': 0.3
        },
        'new_product_weights': {
            'content_weight': 0.0,
            'cf_buy_weight': 0.0,
            'cf_quote_weight': 0.0,
            'popularity_weight': 1.0
        }
    },
    'model_type': 'hybrid_reranking_4methods'
}

# Guardar modelo h√≠brido
joblib.dump(hybrid_model_data, os.path.join(modelos_dir, 'hybrid_model.pkl'))
print(f"‚úì Modelo h√≠brido guardado en {modelos_dir}/hybrid_model.pkl")

print("\nüéâ ¬°Todos los modelos han sido entrenados y guardados exitosamente!")
print(f"üìÅ Ubicaci√≥n: {os.path.abspath(modelos_dir)}")
print("\nArchivos creados:")
print("- content_model.pkl")
print("- co_purchase_model.pkl") 
print("- co_quotation_model.pkl")
print("- popularity_model.pkl")  
print("- hybrid_model.pkl")

print("\nüìä Estad√≠sticas de los modelos:")
print(f"- Productos √∫nicos: {len(all_unique_products):,}")
print(f"- Matriz de similitud: {content_similarity_matrix.shape}")
print(f"- Matriz co-compra: {co_occurrence_matrix.shape} (densidad: {co_occurrence_matrix.nnz / (co_occurrence_matrix.shape[0] * co_occurrence_matrix.shape[1]):.6f})")
print(f"- Matriz co-cotizaci√≥n: {co_quotation_matrix.shape} (densidad: {co_quotation_matrix.nnz / (co_quotation_matrix.shape[0] * co_quotation_matrix.shape[1]):.6f})")
print(f"- Rankings de popularidad: {len(popularity_rankings)} configuraciones")
print(f"- Caracter√≠sticas por producto: {product_features_unified.shape[1]} columnas")


print(f"\nüîß Configuraci√≥n del modelo h√≠brido:")
print(f"  Pesos por defecto: {hybrid_model_data['default_weights']}")
print(f"  Umbral de baja interacci√≥n: {hybrid_model_data['adaptive_weights']['low_interaction_threshold']}")
print("  L√≥gica adaptativa: ‚úÖ Activada")
print("  Soporte para productos nuevos: ‚úÖ Activado")

Entrenando y guardando los 5 modelos...
1. Creando modelo de contenido...
‚úì Modelo de contenido guardado en ../Modelos/ModelosCompletos/content_model.pkl
2. Creando modelo de co-compra...
‚úì Modelo de co-compra guardado en ../Modelos/ModelosCompletos/co_purchase_model.pkl
3. Creando modelo de co-cotizaci√≥n...
‚úì Modelo de co-cotizaci√≥n guardado en ../Modelos/ModelosCompletos/co_quotation_model.pkl
4. Creando modelo de popularidad...
‚úì Modelo de popularidad guardado en ../Modelos/ModelosCompletos/popularity_model.pkl
5. Creando modelo h√≠brido...
‚úì Modelo h√≠brido guardado en ../Modelos/ModelosCompletos/hybrid_model.pkl

üéâ ¬°Todos los modelos han sido entrenados y guardados exitosamente!
üìÅ Ubicaci√≥n: c:\Users\andre\OneDrive - Universidad de los andes\Escritorio\universidad\Semestre 9\CoronaReto Mio Nuevo Intento\Modelos\ModelosCompletos

Archivos creados:
- content_model.pkl
- co_purchase_model.pkl
- co_quotation_model.pkl
- popularity_model.pkl
- hybrid_model.pkl

üìä