In [8]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import mlflow
import os
import pickle

df_events = pd.read_csv("../databases/events.csv")
df_order_items = pd.read_csv("../databases/order_items.csv")
df_orders = pd.read_csv("../databases/orders.csv")
df_products = pd.read_csv("../databases/products.csv")
df_reviews = pd.read_csv("../databases/reviews.csv")
df_users = pd.read_csv("../databases/users.csv")

ruta_actual = os.getcwd()
mlflow.set_tracking_uri(f"file:///{ruta_actual}/mlruns")
mlflow.set_experiment("Modelos de RecomendaciÃ³n - Comparativa")

<Experiment: artifact_location=('file:///c:\\Users\\fredd\\Desktop\\Soy '
 'Henry\\ProyectoFinal\\PF-Quantum_Insights\\modelos_recomendacion/mlruns/571001947788603457'), creation_time=1769455506279, experiment_id='571001947788603457', last_update_time=1769455506279, lifecycle_stage='active', name='Modelos de RecomendaciÃ³n - Comparativa', tags={'mlflow.experimentKind': 'custom_model_development'}>

In [9]:
def preparar_nlp(df):
    columnas_clave = ['ProductName', 'Brand', 'Category', 'SubCategory']
    for col in columnas_clave:
        df[col] = df[col].fillna('')
    
    # Creamos el perfil de texto de forma eficiente
    df['perfil_texto'] = (df['Brand'] + " " + df['Category'] + " " + 
                          df['SubCategory'] + " " + df['ProductName']).str.lower().str.strip()
    return df

df_productos = preparar_nlp(pd.read_csv("../databases/products.csv"))

# VectorizaciÃ³n: Convertimos texto a nÃºmeros
tfidf = TfidfVectorizer(stop_words='english') 
tfidf_matrix = tfidf.fit_transform(df_productos['perfil_texto'])

# Matriz de similitud de Coseno
cos_sim = cosine_similarity(tfidf_matrix)
df_sim_nlp = pd.DataFrame(cos_sim, index=df_productos['product_id'], columns=df_productos['product_id'])

print(f"âœ… Matriz NLP creada: {df_sim_nlp.shape}")

âœ… Matriz NLP creada: (2000, 2000)


In [10]:
from sklearn.model_selection import train_test_split

# 1. Identificamos todas las Ã³rdenes Ãºnicas
ordenes_unicas = df_order_items['order_id'].unique()

# 2. Dividimos las Ã³rdenes: 80% para entrenamiento y 20% para prueba
# Usamos random_state=42 para que siempre obtengas los mismos resultados
train_ids, test_ids = train_test_split(ordenes_unicas, test_size=0.2, random_state=42)

# 3. Creamos los DataFrames filtrando por esos IDs
# 'train_data' lo usarÃ­as si quisieras hacer un modelo hÃ­brido mÃ¡s adelante
# 'test_data' es el que usaremos en la funciÃ³n 'evaluar_nlp_baskets'
train_data = df_order_items[df_order_items['order_id'].isin(train_ids)]
test_data = df_order_items[df_order_items['order_id'].isin(test_ids)]

print("âœ… DivisiÃ³n de datos finalizada:")
print(f"   - Ã“rdenes para entrenamiento: {len(train_ids)}")
print(f"   - Ã“rdenes para prueba (test): {len(test_ids)}")
print(f"   - Total de interacciones en test: {len(test_data)}")

âœ… DivisiÃ³n de datos finalizada:
   - Ã“rdenes para entrenamiento: 16000
   - Ã“rdenes para prueba (test): 4000
   - Total de interacciones en test: 12890


In [11]:
def recomendar_nlp(product_id, df_sim, top_n=3):
    if product_id not in df_sim.index:
        return []
    
    # Buscamos los mÃ¡s similares omitiendo el producto mismo
    similares = df_sim[product_id].sort_values(ascending=False).drop(product_id, errors='ignore')
    return similares.head(top_n).index.tolist()

# Prueba rÃ¡pida
print(recomendar_nlp("P000324", df_sim_nlp))

['P001100', 'P000132', 'P001099']


In [12]:
ruta_actual = os.getcwd()

# Identificar la carpeta correcta donde se guardarÃ¡n los modelos
if os.path.exists(os.path.join(ruta_actual, "modelos_entrenados")):
    ruta_modelos = os.path.join(ruta_actual, "modelos_entrenados")
else:
    # Buscar la carpeta subiendo un nivel si no estÃ¡ en el actual
    ruta_modelos = os.path.join(os.path.dirname(ruta_actual), "modelos_entrenados")

# Crear la carpeta automÃ¡ticamente si no existe
if not os.path.exists(ruta_modelos):
    os.makedirs(ruta_modelos)

# Construir la ruta completa con el nombre del archivo final
archivo_salida = os.path.join(ruta_modelos, "modelo_recomendacion_npl.pkl")

# Guardar la tabla de similitudes en un archivo fÃ­sico
with open(archivo_salida, 'wb') as f:
    pickle.dump(df_sim_nlp, f) 

print(f"ðŸ’¾ Modelo guardado exitosamente en:\n{archivo_salida}")

ðŸ’¾ Modelo guardado exitosamente en:
c:\Users\fredd\Desktop\Soy Henry\ProyectoFinal\PF-Quantum_Insights\modelos_entrenados\modelo_recomendacion_npl.pkl


In [13]:
def evaluar_confianza_cobertura(df_sim, df_todos_productos, k=3, n_muestras=1000):
    ids_disponibles = df_sim.index.tolist()
    total_catalogo = len(df_todos_productos)
    if n_muestras > len(ids_disponibles):
        muestras = ids_disponibles
        print(f"Muestra mayor al catalogo. Evaluando TODO el catÃ¡logo ({len(muestras)} items)")
    else:
        muestras = np.random.choice(ids_disponibles, n_muestras, replace=False)
        print(f"Evaluando modelo con una muestra aleatoria de {len(muestras)} productos")

    scores_acumulados = []
    items_recomendados_unicos = set()
    for prod_id in muestras:
        sim_series = df_sim.loc[prod_id]
        top_recs = sim_series.drop(prod_id, errors='ignore').nlargest(k)
        scores_acumulados.extend(top_recs.values)
        items_recomendados_unicos.update(top_recs.index)
        
    # --- CALCULOS FINALES ---
    
    # 1. Confianza (Similitud Promedio)
    confianza_promedio = np.mean(scores_acumulados) if scores_acumulados else 0
    
    # 2. Cobertura
    cobertura = len(items_recomendados_unicos) / total_catalogo
    
    # --- REPORTE ---
    print("\n" + "="*50)
    print(f"Evaluacion de cobertura y confianza (Muestra: {len(muestras)})")
    print("="*50)
    
    # Reporte de Confianza
    print(f"CONFIANZA (Similitud Promedio): {confianza_promedio:.4f}")
    if confianza_promedio > 0.5:
        print("El modelo encuentra similitudes fuertes (textos muy parecidos).")
    else:
        print("Las similitudes son bajas. El modelo podrÃ­a estar recomendando cosas poco relacionadas.")
        
    print("-" * 50)
    
    # Reporte de Cobertura
    print(f"COBERTURA DE CATALOGO: {cobertura:.2%} ({len(items_recomendados_unicos)}/{total_catalogo} productos)")
    if cobertura < 0.10:
        print("Advertencia, siempre se recomienda los mismos pocos productos.")
    elif cobertura > 0.80:
        print("   âœ… Excelente diversidad. Tu modelo explora casi todo el catÃ¡logo.")
    else:
        print("Cobertura moderada.")
        
    print("="*50)
    
    return confianza_promedio, cobertura
confianza, cobertura = evaluar_confianza_cobertura(df_sim_nlp, df_productos, k=3, n_muestras=1000)

Evaluando modelo con una muestra aleatoria de 1000 productos

Evaluacion de cobertura y confianza (Muestra: 1000)
CONFIANZA (Similitud Promedio): 0.6625
El modelo encuentra similitudes fuertes (textos muy parecidos).
--------------------------------------------------
COBERTURA DE CATALOGO: 74.00% (1480/2000 productos)
Cobertura moderada.


In [14]:
def compute_ap(predicciones, objetivos, k):
    """CÃ¡lculo de Average Precision (AP) para una consulta"""
    score = 0.0
    num_hits = 0.0
    for i, p in enumerate(predicciones):
        if p in objetivos:
            num_hits += 1.0
            score += num_hits / (i + 1.0)
    return score / min(len(objetivos), k)

def compute_ndcg(predicciones, objetivos, k):
    """CÃ¡lculo de NDCG - quÃ© tan cerca se estÃ¡ de un ranking ideal"""
    dcg = 0.0
    idcg = 0.0
    for i, p in enumerate(predicciones):
        if p in objetivos:
            dcg += 1.0 / np.log2(i + 2)
    num_posibles = min(len(objetivos), k)
    for i in range(num_posibles):
        idcg += 1.0 / np.log2(i + 2)
    
    return dcg / idcg if idcg > 0 else 0.0

def evaluar_nlp_baskets(df_test, df_sim_nlp, k=3):
    ordenes_test = df_test.groupby('order_id')['product_id'].apply(list)
    
    # diccionario de metricas
    metrics = {
        'Precision': [], 'Recall': [], 'F1': [],
        'MRR': [], 'MAP': [], 'NDCG': []
    }

    for items in ordenes_test:
        if len(items) < 2: continue
        for i in range(len(items)):
            semilla = items[i]
            objetivos = set(items[:i] + items[i+1:])
            predicciones = recomendar_nlp(semilla, df_sim_nlp, top_n=k)
            
            if not predicciones: continue

            # Calculos de metricas
            aciertos = len(set(predicciones) & objetivos)
            
            # Precision & Recall
            prec = aciertos / k
            rec = aciertos / len(objetivos)
            metrics['Precision'].append(prec)
            metrics['Recall'].append(rec)
            
            # F1-Score
            if (prec + rec) > 0:
                f1 = 2 * (prec * rec) / (prec + rec)
            else:
                f1 = 0.0
            metrics['F1'].append(f1)
            
            # MRR
            rank_score = 0
            for rank, p_id in enumerate(predicciones, 1):
                if p_id in objetivos:
                    rank_score = 1 / rank
                    break
            metrics['MRR'].append(rank_score)
            
            # MAP & NDCG
            metrics['MAP'].append(compute_ap(predicciones, objetivos, k))
            metrics['NDCG'].append(compute_ndcg(predicciones, objetivos, k))

    # --- REPORTE FINAL ---
    print("\n" + "="*50)
    print(f"ðŸ“Š REPORTE FINAL NLP (K={k})")
    print("="*50)
    print(f"{'Metrica':<15} | {'Valor':<10}")
    print("-" * 50)
    # Promediamos todos los scores acumulados
    print(f"{'Precision':<15} | {np.mean(metrics['Precision']):.4f}")
    print(f"{'Recall':<15} | {np.mean(metrics['Recall']):.4f}")
    print(f"{'F1-Score':<15} | {np.mean(metrics['F1']):.4f}")
    print("-" * 50)
    print(f"{'MRR':<15} | {np.mean(metrics['MRR']):.4f}")
    print(f"{'MAP':<15} | {np.mean(metrics['MAP']):.4f}")
    print(f"{'NDCG':<15} | {np.mean(metrics['NDCG']):.4f}")
    print("="*50)
    
    name = f"NLP_K{k}"
    with mlflow.start_run(run_name=name):

        # --- ParÃ¡metros ---
        mlflow.log_param("modelo", "NLP")
        mlflow.log_param("k", k)

        # --- MÃ©tricas ---
        mlflow.log_metric("precision", np.mean(metrics['Precision']))
        mlflow.log_metric("recall", np.mean(metrics['Recall']))
        mlflow.log_metric("f1", np.mean(metrics['F1']))
        mlflow.log_metric("mrr", np.mean(metrics['MRR']))
        mlflow.log_metric("map", np.mean(metrics['MAP']))
        mlflow.log_metric("ndcg", np.mean(metrics['NDCG']))
    return metrics

resultados_nlp = evaluar_nlp_baskets(test_data, df_sim_nlp, k=5)


ðŸ“Š REPORTE FINAL NLP (K=5)
Metrica         | Valor     
--------------------------------------------------
Precision       | 0.0069
Recall          | 0.0171
F1-Score        | 0.0098
--------------------------------------------------
MRR             | 0.0126
MAP             | 0.0064
NDCG            | 0.0110


mlflow ui --backend-store-uri ./mlruns