# Intento de mejora del anterior teniendo en cuenta lo que ha comprado el usuario

In [2]:
from pymongo import MongoClient
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import LabelEncoder
import numpy as np
import pickle

# Conexión a MongoDB
client = MongoClient("mongodb://localhost:27017/")
db = client["my_database"]
orders_table = db["orders"]
products_table = db["products"]

# 1. Extraer datos de órdenes y productos con filtrado
def extract_data(min_orders_per_user=5, min_users_per_product=5):
    orders = list(orders_table.find({}, {"Customer ID": 1, "Product ID": 1, "_id": 0}))
    orders_df = pd.DataFrame(orders)

    products = list(products_table.find({}, {"Product ID": 1, "Category": 1, "Name": 1, "_id": 0}))
    products_df = pd.DataFrame(products)

    orders_with_categories = orders_df.merge(products_df, on="Product ID")

    # Filtrar usuarios con pocas órdenes
    user_order_counts = orders_with_categories.groupby("Customer ID").size()
    valid_users = user_order_counts[user_order_counts >= min_orders_per_user].index
    orders_with_categories = orders_with_categories[orders_with_categories["Customer ID"].isin(valid_users)]

    # Filtrar productos con pocas compras
    product_order_counts = orders_with_categories.groupby("Product ID").size()
    valid_products = product_order_counts[product_order_counts >= min_users_per_product].index
    orders_with_categories = orders_with_categories[orders_with_categories["Product ID"].isin(valid_products)]

    # Dividir en conjunto de entrenamiento y prueba
    train_df = orders_with_categories.sample(frac=0.8, random_state=42)
    test_df = orders_with_categories.drop(train_df.index)

    # Análisis del dataset
    print(f"Total de órdenes después del filtrado: {len(orders_with_categories)}")
    print(f"Clientes únicos después del filtrado: {orders_with_categories['Customer ID'].nunique()}")
    print(f"Productos únicos después del filtrado: {orders_with_categories['Product ID'].nunique()}")
    print(f"Órdenes por cliente (distribución):")
    print(train_df.groupby("Customer ID").size().describe())

    return train_df, test_df

# 2. Crear matriz de usuario-producto
def create_user_product_matrix(orders_with_categories):
    user_encoder = LabelEncoder()
    product_encoder = LabelEncoder()

    orders_with_categories["User Index"] = user_encoder.fit_transform(orders_with_categories["Customer ID"])
    orders_with_categories["Product Index"] = product_encoder.fit_transform(orders_with_categories["Product ID"])

    num_users = orders_with_categories["User Index"].nunique()
    num_products = orders_with_categories["Product Index"].nunique()
    matrix = np.zeros((num_users, num_products))

    for _, row in orders_with_categories.iterrows():
        matrix[row["User Index"], row["Product Index"]] += 1

    # Análisis de la matriz usuario-producto
    density = np.count_nonzero(matrix) / (matrix.shape[0] * matrix.shape[1])
    print(f"Densidad de interacciones: {density:.4f}")
    print(f"Tamaño de la matriz: {matrix.shape}")
    print(f"Interacciones no nulas: {np.count_nonzero(matrix)}")

    return matrix, user_encoder, product_encoder, orders_with_categories

# 3. Recomendar productos usando similitud de coseno
def recommend_products(user_id, matrix, user_encoder, product_encoder, orders_with_categories, num_recommendations=5):
    if user_id not in user_encoder.classes_:
        print(f"El usuario {user_id} no tiene datos suficientes para generar recomendaciones.")
        return [], []

    user_index = user_encoder.transform([user_id])[0]
    user_similarities = cosine_similarity(matrix)
    similar_users = np.argsort(-user_similarities[user_index])

    user_categories = orders_with_categories[orders_with_categories["Customer ID"] == user_id]["Category"].unique()
    candidate_products = orders_with_categories[orders_with_categories["Category"].isin(user_categories)]["Product Index"].unique()

    # Excluir productos ya comprados por el usuario
    purchased_products = orders_with_categories[orders_with_categories["Customer ID"] == user_id]["Product Index"].unique()
    candidate_products = [product for product in candidate_products if product not in purchased_products]

    # Recomendar productos basados en usuarios similares
    scores = matrix[similar_users[1:], :].sum(axis=0)
    max_score = scores.max() if scores.max() > 0 else 1
    normalized_scores = [(i, scores[i] / max_score) for i in candidate_products if scores[i] > 0]
    normalized_scores = sorted(normalized_scores, key=lambda x: x[1], reverse=True)

    product_mapping = orders_with_categories[["Product Index", "Product ID", "Name"]].drop_duplicates()
    product_mapping = product_mapping.set_index("Product Index")

    recommended_products = [
        (product_mapping.loc[product[0], "Product ID"], product_mapping.loc[product[0], "Name"], round(product[1], 2))
        for product in normalized_scores[:num_recommendations]
    ]

    user_purchases = orders_with_categories[orders_with_categories["Customer ID"] == user_id][["Product ID", "Name", "Category"]].drop_duplicates()

    return recommended_products, user_purchases

# 4. Guardar el modelo completo
def save_model(matrix, user_encoder, product_encoder, orders_with_categories, file_path="recommendation_model.pkl"):
    model_data = {
        "matrix": matrix,
        "user_encoder": user_encoder,
        "product_encoder": product_encoder,
        "orders_with_categories": orders_with_categories,
    }
    with open(file_path, "wb") as file:
        pickle.dump(model_data, file)
    print(f"Modelo guardado en {file_path}")

# Ejecutar el sistema de recomendación
if __name__ == "__main__":
    # Filtrar usuarios con pocas órdenes y productos con pocas compras
    train_df, test_df = extract_data(min_orders_per_user=5, min_users_per_product=5)
    matrix, user_encoder, product_encoder, orders_with_categories = create_user_product_matrix(train_df)

    # Guardar el modelo al final del entrenamiento
    save_model(matrix, user_encoder, product_encoder, orders_with_categories)


Total de órdenes después del filtrado: 134154
Clientes únicos después del filtrado: 1000
Productos únicos después del filtrado: 2193
Órdenes por cliente (distribución):
count    1000.000000
mean      107.323000
std        35.341869
min         6.000000
25%        95.750000
50%       114.000000
75%       129.000000
max       195.000000
dtype: float64
Densidad de interacciones: 0.0290
Tamaño de la matriz: (1000, 2193)
Interacciones no nulas: 63534
Modelo guardado en recommendation_model.pkl


# Con URI MongoDB Atlas

In [4]:
from pymongo import MongoClient
import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import LabelEncoder
import numpy as np
import pickle

# Conexión a MongoDB Atlas
uri = "mongodb+srv://Suarenguen:Lampara.1@suarenguen.ay1mt6g.mongodb.net/"
client = MongoClient(uri)

# Seleccionar la base de datos y las colecciones
db = client["my_database"]  # Cambia el nombre de la base de datos si es necesario
orders_table = db["orders"]
products_table = db["products"]

# 1. Extraer datos de órdenes y productos con filtrado
def extract_data(min_orders_per_user=5, min_users_per_product=5):
    orders = list(orders_table.find({}, {"Customer ID": 1, "Product ID": 1, "_id": 0}))
    orders_df = pd.DataFrame(orders)

    products = list(products_table.find({}, {"Product ID": 1, "Category": 1, "Name": 1, "_id": 0}))
    products_df = pd.DataFrame(products)

    orders_with_categories = orders_df.merge(products_df, on="Product ID")

    # Filtrar usuarios con pocas órdenes
    user_order_counts = orders_with_categories.groupby("Customer ID").size()
    valid_users = user_order_counts[user_order_counts >= min_orders_per_user].index
    orders_with_categories = orders_with_categories[orders_with_categories["Customer ID"].isin(valid_users)]

    # Filtrar productos con pocas compras
    product_order_counts = orders_with_categories.groupby("Product ID").size()
    valid_products = product_order_counts[product_order_counts >= min_users_per_product].index
    orders_with_categories = orders_with_categories[orders_with_categories["Product ID"].isin(valid_products)]

    # Dividir en conjunto de entrenamiento y prueba
    train_df = orders_with_categories.sample(frac=0.8, random_state=42)
    test_df = orders_with_categories.drop(train_df.index)

    # Análisis del dataset
    print(f"Total de órdenes después del filtrado: {len(orders_with_categories)}")
    print(f"Clientes únicos después del filtrado: {orders_with_categories['Customer ID'].nunique()}")
    print(f"Productos únicos después del filtrado: {orders_with_categories['Product ID'].nunique()}")
    print(f"Órdenes por cliente (distribución):")
    print(train_df.groupby("Customer ID").size().describe())

    return train_df, test_df

# 2. Crear matriz de usuario-producto
def create_user_product_matrix(orders_with_categories):
    user_encoder = LabelEncoder()
    product_encoder = LabelEncoder()

    orders_with_categories["User Index"] = user_encoder.fit_transform(orders_with_categories["Customer ID"])
    orders_with_categories["Product Index"] = product_encoder.fit_transform(orders_with_categories["Product ID"])

    num_users = orders_with_categories["User Index"].nunique()
    num_products = orders_with_categories["Product Index"].nunique()
    matrix = np.zeros((num_users, num_products))

    for _, row in orders_with_categories.iterrows():
        matrix[row["User Index"], row["Product Index"]] += 1

    # Análisis de la matriz usuario-producto
    density = np.count_nonzero(matrix) / (matrix.shape[0] * matrix.shape[1])
    print(f"Densidad de interacciones: {density:.4f}")
    print(f"Tamaño de la matriz: {matrix.shape}")
    print(f"Interacciones no nulas: {np.count_nonzero(matrix)}")

    return matrix, user_encoder, product_encoder, orders_with_categories

# 3. Recomendar productos usando similitud de coseno
def recommend_products(user_id, matrix, user_encoder, product_encoder, orders_with_categories, num_recommendations=5):
    if user_id not in user_encoder.classes_:
        print(f"El usuario {user_id} no tiene datos suficientes para generar recomendaciones.")
        return [], []

    user_index = user_encoder.transform([user_id])[0]
    user_similarities = cosine_similarity(matrix)
    similar_users = np.argsort(-user_similarities[user_index])

    user_categories = orders_with_categories[orders_with_categories["Customer ID"] == user_id]["Category"].unique()
    candidate_products = orders_with_categories[orders_with_categories["Category"].isin(user_categories)]["Product Index"].unique()

    # Excluir productos ya comprados por el usuario
    purchased_products = orders_with_categories[orders_with_categories["Customer ID"] == user_id]["Product Index"].unique()
    candidate_products = [product for product in candidate_products if product not in purchased_products]

    # Recomendar productos basados en usuarios similares
    scores = matrix[similar_users[1:], :].sum(axis=0)
    max_score = scores.max() if scores.max() > 0 else 1
    normalized_scores = [(i, scores[i] / max_score) for i in candidate_products if scores[i] > 0]
    normalized_scores = sorted(normalized_scores, key=lambda x: x[1], reverse=True)

    product_mapping = orders_with_categories[["Product Index", "Product ID", "Name"]].drop_duplicates()
    product_mapping = product_mapping.set_index("Product Index")

    recommended_products = [
        (product_mapping.loc[product[0], "Product ID"], product_mapping.loc[product[0], "Name"], round(product[1], 2))
        for product in normalized_scores[:num_recommendations]
    ]

    user_purchases = orders_with_categories[orders_with_categories["Customer ID"] == user_id][["Product ID", "Name", "Category"]].drop_duplicates()

    return recommended_products, user_purchases

# 4. Guardar el modelo completo
def save_model(matrix, user_encoder, product_encoder, orders_with_categories, file_path="recommendation_model.pkl"):
    model_data = {
        "matrix": matrix,
        "user_encoder": user_encoder,
        "product_encoder": product_encoder,
        "orders_with_categories": orders_with_categories,
    }
    with open(file_path, "wb") as file:
        pickle.dump(model_data, file)
    print(f"Modelo guardado en {file_path}")

# Ejecutar el sistema de recomendación
if __name__ == "__main__":
    # Filtrar usuarios con pocas órdenes y productos con pocas compras
    train_df, test_df = extract_data(min_orders_per_user=5, min_users_per_product=5)
    matrix, user_encoder, product_encoder, orders_with_categories = create_user_product_matrix(train_df)

    # Guardar el modelo al final del entrenamiento
    save_model(matrix, user_encoder, product_encoder, orders_with_categories)



Total de órdenes después del filtrado: 135996
Clientes únicos después del filtrado: 1000
Productos únicos después del filtrado: 2172
Órdenes por cliente (distribución):
count    1000.000000
mean      108.797000
std        33.157582
min         4.000000
25%        97.000000
50%       116.000000
75%       130.000000
max       177.000000
dtype: float64
Densidad de interacciones: 0.0299
Tamaño de la matriz: (1000, 2172)
Interacciones no nulas: 65003
Modelo guardado en recommendation_model.pkl
