VERSION DE CÓDIGO 1 (fue el mostrado en la llamada)

In [None]:
# Importar la biblioteca necesaria para el manejo de datos
import pandas as pd

# Cargar los datos desde URLs públicas (asegúrate de que estén disponibles)
url_products = "https://github.com/it-ces/Rules-puj/blob/main/products.csv?raw=true"  # Archivo de productos
url_orders = "https://github.com/it-ces/Rules-puj/blob/main/order_products__train.csv?raw=true"  # Archivo de pedidos

products = pd.read_csv(url_products)  # Leer los datos de productos
orders = pd.read_csv(url_orders)  # Leer los datos de pedidos

# Merge (unión) de las tablas usando el identificador de producto para relacionarlas
dfMerged = pd.merge(orders, products, on="product_id", how="inner")
# Esto genera un DataFrame combinado que relaciona los pedidos con los nombres de los productos

# Agrupar los productos por ID de pedido para formar transacciones (listas de productos comprados juntos)
transactions = dfMerged.groupby("order_id")["product_name"].apply(list).tolist()
print(f"Primeras transacciones:\n{transactions[:5]}")  # Mostrar un ejemplo de las primeras transacciones


Comentario del bloque:
Propósito: Este bloque prepara los datos para la ejecución del Apriori. Los datos sin procesar se convierten en transacciones listas para analizarse.

Optimización posible: Si los datos son muy grandes, considera filtrar productos o pedidos que ocurran muy poco, ya que tienen menor impacto en las reglas.

In [None]:
from mlxtend.preprocessing import TransactionEncoder  # Herramienta para transformar transacciones en formato adecuado para Apriori

# Codificar las transacciones en una matriz binaria (cada fila representa una transacción)
te = TransactionEncoder()
te_array = te.fit(transactions).transform(transactions)  # Codificación binaria
dfBinary = pd.DataFrame(te_array, columns=te.columns_)  # Convertir la matriz en un DataFrame de pandas

# Validar la matriz binaria generada
print(f"Matriz binaria generada (primeras filas):\n{dfBinary.head()}")


Comentario del bloque:
Propósito: Transforma las transacciones en una representación binaria adecuada para el algoritmo Apriori.

Optimización posible: Si se tienen muchas columnas, podría emplearse una matriz dispersa (scipy.sparse) desde el inicio, lo cual ahorra memoria.

In [None]:
from mlxtend.frequent_patterns import apriori  # Importar función Apriori

# Calcular conjuntos frecuentes con un soporte mínimo establecido
min_support = 0.01  # Este umbral determina la frecuencia mínima de los ítems
frequent_itemsets = apriori(dfBinary, min_support=min_support, use_colnames=True)

# Verificar los conjuntos frecuentes generados
print(f"Conjuntos frecuentes encontrados:\n{frequent_itemsets.head()}")


Comentario del bloque:
Propósito: Genera los conjuntos de ítems frecuentes según el umbral de soporte.

Optimización posible: Si la matriz binaria es muy grande, calcular estos conjuntos en bloques o usar estructuras dispersas puede mejorar el rendimiento.

In [None]:
from mlxtend.frequent_patterns import association_rules  # Importar función para reglas de asociación

# Generar reglas de asociación a partir de los conjuntos frecuentes
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3)

# Mostrar un subconjunto de las reglas generadas
print(f"Reglas de asociación generadas (primeras filas):\n{rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']].head()}")


Comentario del bloque:
Propósito: Extrae reglas de asociación usando la métrica de confianza mínima especificada.

Optimización posible: Filtrar conjuntos frecuentes antes de aplicar reglas puede reducir el cálculo.

In [None]:
# Filtrar reglas por el indicador de lift (valor mínimo de 1.0)
filtered_rules = rules[rules['lift'] >= 1.0]  # Seleccionar solo reglas con buen impacto
print(f"\nReglas filtradas (lift >= 1.0):\n{filtered_rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']]}")


Comentario del bloque:
Propósito: Filtra las reglas generadas para centrarse en las más útiles (lift >= 1 indica una relación positiva significativa).

Optimización posible: Implementar un filtrado más específico (por confianza, soporte, etc.) para reducir reglas irrelevantes.

In [None]:
from scipy.sparse import csr_matrix  # Importar matriz dispersa para optimización

# Convertir la matriz binaria a una matriz dispersa
order_matrix_sparse = csr_matrix(dfBinary.values)
print(f"Tamaño de la matriz dispersa: {order_matrix_sparse.shape}")

# Calcular soporte manualmente para comparar resultados
import numpy as np
item_support = np.array(order_matrix_sparse.sum(axis=0)).flatten() / order_matrix_sparse.shape[0]
print(f"Ítems con soporte (manual):\n{item_support[:10]}")  # Mostrar soporte de los primeros 10 ítems


Comentario del bloque:
Propósito: Usa matrices dispersas para ahorrar memoria y agilizar los cálculos.

Optimización: Aquí ya se implementa una mejora significativa al usar estructuras eficientes como csr_matrix.

In [None]:
import time  # Para medir rendimiento

# Medir tiempo al usar la implementación original (mlxtend.apriori)
start_time = time.time()
frequent_itemsets_apriori = apriori(dfBinary, min_support=0.02, use_colnames=True)
mlxtend_time = time.time() - start_time

# Medir tiempo al usar la matriz dispersa
start_time = time.time()
# Aquí se podría implementar Apriori optimizado con matriz dispersa
sparse_time = time.time() - start_time

print(f"Tiempo con mlxtend.apriori: {mlxtend_time:.2f} segundos")
print(f"Tiempo con matriz dispersa: {sparse_time:.2f} segundos")


Comentario del bloque:
Propósito: Compara el tiempo de ejecución entre la implementación estándar y una optimizada.

Optimización posible: Implementar un Apriori modificado que aproveche la matriz dispersa para cálculos más rápidos.



Sugerencias adicionales para optimizar:
Pre-filtrar datos: Reducir la cantidad de ítems y transacciones desde el inicio, eliminando ítems poco frecuentes.

Implementar Apriori manualmente: Aprovechando matrices dispersas y paralelización.

Analizar métricas: Ajustar min_support y min_threshold para balancear calidad de resultados y tiempo de cálculo.

VERSION DE CODIGO 2 (MEJORADA)

In [99]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix
from itertools import combinations
from collections import defaultdict
import time
from mlxtend.frequent_patterns import apriori


# Cargar los datos desde URLs públicas
url_products = "https://github.com/it-ces/Rules-puj/blob/main/products.csv?raw=true"
url_orders = "https://github.com/it-ces/Rules-puj/blob/main/order_products__train.csv?raw=true"

products = pd.read_csv(url_products)  # Cargar productos
orders = pd.read_csv(url_orders)  # Cargar pedidos

# Realizar un merge de las tablas basándose en product_id
dfMerged = pd.merge(orders, products, on="product_id", how="inner")

# Agrupar productos por transacción para crear listas de transacciones
transactions = dfMerged.groupby("order_id")["product_name"].apply(list).tolist()
print(f"Primeras transacciones:\n{transactions[:5]}")
# Codificar las transacciones en una matriz binaria dispersa

item_mapping = {item: idx for idx, item in enumerate(sorted(set(item for transaction in transactions for item in transaction)))}
rows, cols = [], []
for row_idx, transaction in enumerate(transactions):
    for item in transaction:
        rows.append(row_idx)
        cols.append(item_mapping[item])

# Crear la matriz dispersa
order_matrix_sparse = csr_matrix(([1] * len(rows), (rows, cols)), shape=(len(transactions), len(item_mapping)))

# Función para calcular soporte de elementos individuales
def calculate_support(item_indices, data_matrix):
    """ Calcula el soporte de un conjunto de ítems. """
    item_mask = data_matrix[:, item_indices].toarray().all(axis=1)
    support = np.sum(item_mask) / data_matrix.shape[0]
    return support

# Función para generar ítems frecuentes utilizando matrices dispersas
def apriori_manual(data_matrix, min_support):
    """ Implementación del algoritmo Apriori optimizada. """
    num_items = data_matrix.shape[1]
    frequent_itemsets = []
    current_itemsets = [[i] for i in range(num_items)]
    
    while current_itemsets:
        next_itemsets = []
        item_supports = []
        
        # Calcular soporte para cada conjunto actual
        for itemset in current_itemsets:
            support = calculate_support(itemset, data_matrix)
            if support >= min_support:
                frequent_itemsets.append((itemset, support))
                item_supports.append(itemset)
        
        # Generar nuevas combinaciones de ítems frecuentes actuales
        for i in range(len(item_supports)):
            for j in range(i + 1, len(item_supports)):
                combined_itemset = sorted(set(item_supports[i]) | set(item_supports[j]))
                if len(combined_itemset) == len(item_supports[i]) + 1:
                    next_itemsets.append(combined_itemset)
        
        current_itemsets = next_itemsets  # Actualizar conjuntos actuales
    
    return frequent_itemsets

# Ajustar los umbrales para balancear calidad y rendimiento
min_support = 0.01  # Ajusta según la calidad de reglas requerida

# Medir tiempo con mlxtend.apriori
start_time = time.time()
frequent_itemsets_apriori = apriori(pd.DataFrame(order_matrix_sparse.toarray(), columns=item_mapping.keys()), 
                                    min_support=min_support, use_colnames=True)
mlxtend_time = time.time() - start_time

# Medir tiempo con Apriori manual optimizado
start_time = time.time()
frequent_itemsets_manual = apriori_manual(order_matrix_sparse, min_support)
sparse_time = time.time() - start_time

print(f"Frecuentes calculados manualmente: {len(frequent_itemsets_manual)} conjuntos.")
print(f"Tiempo con mlxtend.apriori: {mlxtend_time:.2f} segundos")
print(f"Tiempo con matriz dispersa (manual): {sparse_time:.2f} segundos.")

# Analizar métricas de las reglas
def generate_rules(frequent_itemsets, min_confidence):
    """ Generar reglas de asociación. """
    rules = []
    for itemset, support in frequent_itemsets:
        if len(itemset) > 1:
            for i in range(len(itemset)):
                antecedent = itemset[:i] + itemset[i+1:]
                consequent = [itemset[i]]
                antecedent_support = calculate_support(antecedent, order_matrix_sparse)
                
                # Calcular confianza y lift
                if antecedent_support > 0:
                    confidence = support / antecedent_support
                    if confidence >= min_confidence:
                        rules.append({
                            'antecedent': antecedent,
                            'consequent': consequent,
                            'support': support,
                            'confidence': confidence
                        })
    return rules

min_confidence = 0.3
rules = generate_rules(frequent_itemsets_manual, min_confidence)
print(f"Reglas generadas: {len(rules)}")
for rule in rules[:5]:  # Mostrar las primeras reglas
    print(f"Regla: {rule}")


Frecuentes calculados manualmente: 120 conjuntos.
Tiempo total: 112.79 segundos.
Reglas generadas: 3
Regla: {'antecedent': [23736], 'consequent': [2641], 'support': np.float64(0.018443856747631642), 'confidence': np.float64(0.3318250377073907)}
Regla: {'antecedent': [24656], 'consequent': [2641], 'support': np.float64(0.013566142566439803), 'confidence': np.float64(0.32095203750450774)}
Regla: {'antecedent': [24656], 'consequent': [25128], 'support': np.float64(0.012727785441547455), 'confidence': np.float64(0.30111792282726285)}


Explicación detallada del código:
Matrices dispersas:

Optimizamos el uso de memoria representando transacciones en una matriz dispersa.

csr_matrix es eficiente en operaciones como combinaciones y cálculos booleanos.

Implementación manual de Apriori:

Generamos ítems frecuentes iterativamente filtrando por el soporte mínimo.

Se aprovechan las propiedades de las matrices dispersas para calcular el soporte de conjuntos grandes rápidamente.

Paralelización:

Aunque no se ha paralelizado en este código, librerías como multiprocessing o joblib pueden dividir la carga del cálculo entre múltiples núcleos de CPU.

Métricas ajustables:

min_support y min_confidence son parámetros clave para ajustar la cantidad y calidad de las reglas generadas, dependiendo de los datos y del uso final.