In [1]:
import pandas as pd
import numpy as np
import joblib
import os
from sqlalchemy import create_engine
from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder
from datetime import datetime

# --- CONFIGURACI√ìN ---
MIN_SUPPORT = 0.01  # Soporte m√≠nimo para itemsets frecuentes
MIN_LIFT = 1.0      # Lift m√≠nimo para reglas de asociaci√≥n
CARPETA_MODELOS = '../models'  # Carpeta donde guardar el modelo

# --- Detalles de conexi√≥n a tu base de datos PostgreSQL local ---
db_user = 'postgres'
db_password = 'postgres'
db_host = 'localhost'
db_port = '5433'
db_name = 'Tipvos' # Nombre de la base de datos

# Crear carpeta de modelos si no existe
os.makedirs(CARPETA_MODELOS, exist_ok=True)

# --- CONEXI√ìN A POSTGRESQL LOCAL ---
# Construir la cadena de conexi√≥n
engine_string = f"postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}"
engine = create_engine(engine_string)

print("=== ENTRENAMIENTO DE MODELO DE REGLAS DE ASOCIACI√ìN ===")
print(f"üìÖ Fecha de entrenamiento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

# --- CARGA Y PREPARACI√ìN DE DATOS ---
print("\n--- 1. Cargando Datos ---")
try:
    df_ventas = pd.read_sql("SELECT * FROM fact_ventas", engine)
    df_productos = pd.read_sql("SELECT stockcode, descripcion FROM dim_producto", engine)
    print(f"‚úÖ Datos cargados exitosamente de la base de datos local '{db_name}'.")
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")
    print("Aseg√∫rate de que la base de datos PostgreSQL local est√© accesible y las tablas existan.")
    raise # Relanza la excepci√≥n para detener la ejecuci√≥n si falla la carga

# Filtrar datos v√°lidos
df_ventas = df_ventas[(df_ventas['cantidad'] > 0) & (df_ventas['precio_unitario'] > 0)]
df_ventas['fecha'] = pd.to_datetime(df_ventas['fecha'])

print(f"‚úÖ Datos cargados: {len(df_ventas)} transacciones")
print(f"‚úÖ Productos √∫nicos: {df_ventas['stockcode'].nunique()}")
print(f"‚úÖ Facturas √∫nicas: {df_ventas['invoice'].nunique()}")

# --- 2. PREPARACI√ìN DE DATOS PARA MARKET BASKET ANALYSIS ---
print("\n--- 2. Preparando Datos para Market Basket Analysis ---")

# Agrupar por factura para crear transacciones
transactions = df_ventas.groupby('invoice')['stockcode'].apply(list).tolist()

# Filtrar transacciones con al menos 2 productos
transactions_filtered = [trans for trans in transactions if len(trans) >= 2]

print(f"‚úÖ Transacciones totales: {len(transactions)}")
print(f"‚úÖ Transacciones con 2+ productos: {len(transactions_filtered)}")

# Codificar transacciones
te = TransactionEncoder()
te_ary = te.fit_transform(transactions_filtered)
basket_sets = pd.DataFrame(te_ary, columns=te.columns_)

print(f"‚úÖ Matriz de transacciones creada: {basket_sets.shape}")

# --- 3. ENCONTRAR CONJUNTOS DE ART√çCULOS FRECUENTES (APRIORI) ---
print("\n--- 3. Encontrar Conjuntos de Art√≠culos Frecuentes (Apriori) ---")

frequent_itemsets = apriori(basket_sets, min_support=MIN_SUPPORT, use_colnames=True)

print(f"‚úÖ N√∫mero de itemsets frecuentes encontrados: {len(frequent_itemsets)}")

if len(frequent_itemsets) > 0:
    print("\nPrimeros 10 itemsets frecuentes (ordenados por soporte):")
    print(frequent_itemsets.sort_values(by='support', ascending=False).head(10))
else:
    print("‚ö†Ô∏è No se encontraron itemsets frecuentes. Considera reducir min_support.")

# --- 4. GENERACI√ìN DE REGLAS DE ASOCIACI√ìN ---
print("\n--- 4. Generaci√≥n de Reglas de Asociaci√≥n ---")

if len(frequent_itemsets) > 1:
    # Generar las reglas de asociaci√≥n
    rules = association_rules(frequent_itemsets, metric="lift", min_threshold=MIN_LIFT)

    if len(rules) > 0:
        # Ordenar las reglas
        rules = rules.sort_values(['lift', 'confidence'], ascending=[False, False])

        # Convertir frozensets a listas para mejor manejo
        rules['antecedents'] = rules['antecedents'].apply(lambda x: list(x))
        rules['consequents'] = rules['consequents'].apply(lambda x: list(x))

        print(f"‚úÖ N√∫mero de reglas de asociaci√≥n encontradas: {len(rules)}")
        print("\nTop 15 Reglas de Asociaci√≥n (ordenadas por Lift y Confianza):")
        print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']].head(15))

        # --- 5. PREPARAR MODELO PARA GUARDAR ---
        print("\n--- 5. Preparando Modelo para Guardar ---")
        
        # Crear diccionario con toda la informaci√≥n del modelo
        modelo_asociacion = {
            'fecha_entrenamiento': datetime.now(),
            'parametros': {
                'min_support': MIN_SUPPORT,
                'min_lift': MIN_LIFT
            },
            'estadisticas': {
                'total_transacciones': len(transactions),
                'transacciones_filtradas': len(transactions_filtered),
                'productos_unicos': df_ventas['stockcode'].nunique(),
                'itemsets_frecuentes': len(frequent_itemsets),
                'reglas_generadas': len(rules)
            },
            'frequent_itemsets': frequent_itemsets,
            'association_rules': rules,
            'transaction_encoder': te,
            'productos_info': df_productos  # Para obtener descripciones
        }

        # --- 6. GUARDAR MODELO ---
        print("\n--- 6. Guardando Modelo ---")
        modelo_path = os.path.join(CARPETA_MODELOS, 'market_basket_model.pkl')
        
        try:
            joblib.dump(modelo_asociacion, modelo_path)
            print(f"‚úÖ Modelo guardado exitosamente en: {modelo_path}")
            
            # Guardar tambi√©n un resumen legible
            resumen_path = os.path.join(CARPETA_MODELOS, 'market_basket_summary.txt')
            with open(resumen_path, 'w', encoding='utf-8') as f:
                f.write("=== RESUMEN DEL MODELO DE REGLAS DE ASOCIACI√ìN ===\n")
                f.write(f"Fecha de entrenamiento: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
                f.write(f"Par√°metros: min_support={MIN_SUPPORT}, min_lift={MIN_LIFT}\n")
                f.write(f"Transacciones procesadas: {len(transactions_filtered)}\n")
                f.write(f"Itemsets frecuentes: {len(frequent_itemsets)}\n")
                f.write(f"Reglas de asociaci√≥n: {len(rules)}\n\n")
                
                f.write("TOP 10 REGLAS DE ASOCIACI√ìN:\n")
                f.write("="*50 + "\n")
                for idx, rule in rules.head(10).iterrows():
                    f.write(f"\nRegla {idx + 1}:\n")
                    f.write(f"   Si compra: {rule['antecedents']}\n")
                    f.write(f"   Entonces compra: {rule['consequents']}\n")
                    f.write(f"   Confianza: {rule['confidence']:.3f}\n")
                    f.write(f"   Lift: {rule['lift']:.3f}\n")
                    f.write(f"   Soporte: {rule['support']:.3f}\n")
            
            print(f"‚úÖ Resumen guardado en: {resumen_path}")
            
        except Exception as e:
            print(f"‚ùå Error al guardar el modelo: {e}")

    else:
        print("‚ö†Ô∏è No se encontraron reglas de asociaci√≥n. Considera ajustar los par√°metros.")
        
else:
    print("‚ö†Ô∏è No hay suficientes itemsets frecuentes para generar reglas.")

# --- 7. RESUMEN FINAL ---
print(f"\n=== RESUMEN FINAL ===")
print(f"üìä Transacciones analizadas: {len(transactions_filtered)}")
print(f"üõçÔ∏è Productos √∫nicos: {df_ventas['stockcode'].nunique()}")
print(f"üìà Itemsets frecuentes: {len(frequent_itemsets) if 'frequent_itemsets' in locals() else 0}")
print(f"üîó Reglas de asociaci√≥n: {len(rules) if 'rules' in locals() and len(rules) > 0 else 0}")
print(f"üíæ Modelo guardado: {'S√ç' if 'modelo_asociacion' in locals() else 'NO'}")
print("üéâ Entrenamiento completado!")

=== ENTRENAMIENTO DE MODELO DE REGLAS DE ASOCIACI√ìN ===
üìÖ Fecha de entrenamiento: 2025-07-28 12:24:26

--- 1. Cargando Datos ---
‚úÖ Datos cargados exitosamente de la base de datos local 'Tipvos'.
‚úÖ Datos cargados: 805549 transacciones
‚úÖ Productos √∫nicos: 4631
‚úÖ Facturas √∫nicas: 36969

--- 2. Preparando Datos para Market Basket Analysis ---
‚úÖ Transacciones totales: 36969
‚úÖ Transacciones con 2+ productos: 33995
‚úÖ Matriz de transacciones creada: (33995, 4622)

--- 3. Encontrar Conjuntos de Art√≠culos Frecuentes (Apriori) ---
‚úÖ N√∫mero de itemsets frecuentes encontrados: 997

Primeros 10 itemsets frecuentes (ordenados por soporte):
      support  itemsets
612  0.142521  (85123A)
313  0.096102   (22423)
609  0.095014  (85099B)
584  0.077688   (84879)
21   0.075835   (20725)
75   0.073746   (21212)
524  0.060391   (47566)
304  0.058950   (22383)
23   0.058626   (20727)
303  0.056449   (22382)

--- 4. Generaci√≥n de Reglas de Asociaci√≥n ---
‚úÖ N√∫mero de reglas de asoci

In [5]:
print("\n--- 5. Interpretaci√≥n de las Reglas con Descripciones de Producto ---")

# Crear un diccionario para mapear stockcode a descripci√≥n
stockcode_to_desc = df_productos.drop_duplicates(subset=['stockcode']).set_index('stockcode')['descripcion'].to_dict()

# Funci√≥n para reemplazar stockcodes por descripciones
def replace_with_descriptions(item_list):
    return [stockcode_to_desc.get(item, item) for item in item_list]

# Aplicar la funci√≥n a las columnas 'antecedents' y 'consequents'
rules['antecedent_desc'] = rules['antecedents'].apply(replace_with_descriptions)
rules['consequent_desc'] = rules['consequents'].apply(replace_with_descriptions)

print("\nTop 15 Reglas de Asociaci√≥n m√°s Relevantes (con Descripciones de Producto):")
print(rules[['antecedent_desc', 'consequent_desc', 'support', 'confidence', 'lift']].head(15).to_string())

print("\n--- ¬°Interpretaci√≥n de las Reglas! ---")
print("Cada fila representa una regla: 'Si un cliente compra ANTECEDENTE, tambi√©n es probable que compre CONSECUENTE'.")
print("- **Soporte (Support):** Frecuencia con la que ambos productos aparecen juntos. Un soporte de 0.01 significa que el 1% de todas las transacciones los contienen.")
print("- **Confianza (Confidence):** Probabilidad de que alguien que compra el antecedente, tambi√©n compre el consecuente.")
print("  Ej: 0.60 significa que el 60% de las veces que se compra el antecedente, tambi√©n se compra el consecuente.")
print("- **Lift:** Fuerza de la asociaci√≥n. Un Lift > 1.0 es bueno. Cuanto mayor, m√°s fuerte es la asociaci√≥n y m√°s interesante es la regla.")


--- 5. Interpretaci√≥n de las Reglas con Descripciones de Producto ---

Top 15 Reglas de Asociaci√≥n m√°s Relevantes (con Descripciones de Producto):
                                                             antecedent_desc                                                          consequent_desc   support  confidence       lift
912   [WOODEN PICTURE FRAME WHITE FINISH, WOOD S/3 CABINET ANT WHITE FINISH]                                     [WOOD 2 DRAWER CABINET WHITE FINISH]  0.010903    0.725843  20.420099
913                                     [WOOD 2 DRAWER CABINET WHITE FINISH]   [WOODEN PICTURE FRAME WHITE FINISH, WOOD S/3 CABINET ANT WHITE FINISH]  0.010903    0.306743  20.420099
935         [WOODEN FRAME ANTIQUE WHITE , WOOD S/3 CABINET ANT WHITE FINISH]                                     [WOOD 2 DRAWER CABINET WHITE FINISH]  0.011173    0.695378  19.563041
938                                     [WOOD 2 DRAWER CABINET WHITE FINISH]         [WOODEN FRAME ANTIQUE WHITE , WO