In [2]:
# --- 0. Configuración Inicial en Google Colab ---
# Instalar librerías (ejecutar solo si no están instaladas)
#!pip install sqlalchemy psycopg2-binary pandas mlxtend

# Importar librerías necesarias
import pandas as pd
from sqlalchemy import create_engine
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

# --- 1. Conexión a la Base de Datos y Carga de Datos ---
print("--- 1. Conexión y Carga de Datos ---")
# Tu cadena de conexión
engine = create_engine("postgresql://postgres.wrwpkkyeukjuisjlbihn:postgres@aws-0-us-east-2.pooler.supabase.com:6543/postgres")

try:
    df_ventas = pd.read_sql("SELECT * FROM fact_ventas", engine)
    df_productos = pd.read_sql("SELECT * FROM dim_producto", engine)
    print("Datos cargados exitosamente de la base de datos.")
except Exception as e:
    print(f"Error al cargar datos: {e}")
    print("Asegúrate de que la base de datos esté accesible y las tablas existan.")
    raise # Esto detendrá la ejecución si la carga falla

# Convertir 'invoice' y 'stockcode' a tipo string para asegurar compatibilidad
df_ventas['invoice'] = df_ventas['invoice'].astype(str)
df_ventas['stockcode'] = df_ventas['stockcode'].astype(str)

print("\nPrimeras 5 filas de df_ventas:")
print(df_ventas.head())



### 2. Preparación de Datos: Formato de Cesta de la Compra (¡Optimizado para RAM!)

##Aquí es donde hacemos los cambios clave para reducir el consumo de memoria.

print("\n--- 2. Preparación de Datos: Formato de Cesta de la Compra (¡Optimizado para RAM!) ---")

# Filtrar solo las transacciones de venta (cantidad > 0)
df_filtered = df_ventas[df_ventas['cantidad'] > 0].copy()

# 1. Filtrar Stockcodes "No-Producto"
# Estos códigos suelen ser para gastos de envío, ajustes, descuentos, etc.
non_product_stockcodes = ['POST', 'D', 'DOT', 'M', 'CRUK', 'C2', 'S', 'A', 'B', 'P', 'ADJUST', 'AMAZONFEE', 'BANK CHARGES', 'CASH', 'DCGS', 'DISCOUNT', 'FEES', 'FW', 'GIFT', 'GOWARE', 'INVOICE', 'MANUAL', 'MISSING', 'PADS', 'PAID', 'PB', 'PC', 'READYMADE', 'REC', 'SPARE', 'TEST', 'VOUCHER', 'SM']
df_filtered = df_filtered[~df_filtered['stockcode'].isin(non_product_stockcodes)]

# 2. Identificar y filtrar los N productos más frecuentes
# ESTE ES EL PASO CRUCIAL PARA LA OPTIMIZACIÓN DE RAM.
# Calcula la frecuencia de cada stockcode
stockcode_counts = df_filtered['stockcode'].value_counts()

# Define el número máximo de productos a considerar.
# Ajusta este número según la RAM disponible y la complejidad de tu dataset.
# Un valor de 500 es un buen punto de partida para Colab.
num_top_products = 100
top_frequent_stockcodes = stockcode_counts.head(num_top_products).index.tolist()

print(f"\nAnalizando solo los {num_top_products} productos más frecuentes para ahorrar RAM.")
print(f"Número original de stockcodes únicos: {len(stockcode_counts)}")
print(f"Número de stockcodes seleccionados para el análisis: {len(top_frequent_stockcodes)}")

# Filtrar el DataFrame para incluir solo estos productos más frecuentes
df_filtered_top_products = df_filtered[df_filtered['stockcode'].isin(top_frequent_stockcodes)].copy()

# Crear el DataFrame en formato de cesta de la compra
# Usamos df_filtered_top_products para el pivoteo
basket = pd.pivot_table(data=df_filtered_top_products,
                        index='invoice',
                        columns='stockcode',
                        values='cantidad',
                        aggfunc='sum',
                        fill_value=0)

# Convertir las cantidades a 1 (producto presente) o 0 (producto ausente)
# Usamos .map para evitar el FutureWarning
def encode_units(x):
    return 1 if x >= 1 else 0

basket_sets = basket.map(encode_units)

print("\nPrimeras 5 filas del DataFrame en formato de cesta de la compra (productos más frecuentes):")
# Mostramos solo las columnas con al menos un '1' para hacer la vista más útil
print(basket_sets.head().loc[:, (basket_sets.head() > 0).any(axis=0)])
print(f"\nDimensiones finales del DataFrame de cesta de la compra: {basket_sets.shape}")

# Verificación rápida para confirmar que hay 1s
total_ones = basket_sets.sum().sum()
print(f"\nNúmero total de '1's (productos comprados) en el DataFrame de cesta: {total_ones}")
if total_ones == 0:
    print("¡Advertencia crítica! No se encontraron productos comprados. Revisa el filtrado y los datos de entrada.")

--- 1. Conexión y Carga de Datos ---
Datos cargados exitosamente de la base de datos.

Primeras 5 filas de df_ventas:
   id invoice       fecha  customer_id stockcode  cantidad  precio_unitario
0   1  489434  2009-12-01        13085     85048        12             6.95
1   2  489434  2009-12-01        13085    79323P        12             6.75
2   3  489434  2009-12-01        13085    79323W        12             6.75
3   4  489434  2009-12-01        13085     22041        48             2.10
4   5  489434  2009-12-01        13085     21232        24             1.25

--- 2. Preparación de Datos: Formato de Cesta de la Compra (¡Optimizado para RAM!) ---

Analizando solo los 100 productos más frecuentes para ahorrar RAM.
Número original de stockcodes únicos: 4623
Número de stockcodes seleccionados para el análisis: 100

Primeras 5 filas del DataFrame en formato de cesta de la compra (productos más frecuentes):
stockcode  20971  21181  21232  21731  21754  21755  22111  22112  22138  \
i

In [3]:
print("\n--- 3. Encontrar Conjuntos de Artículos Frecuentes (Apriori) ---")

# Ajusta min_support si obtienes demasiadas/pocas reglas.
# Con menos productos en basket_sets, un min_support más alto podría ser adecuado,
# o un valor similar al que usaste antes si los datos son muy dispersos.
frequent_itemsets = apriori(basket_sets, min_support=0.01, use_colnames=True)

print(f"\nNúmero de itemsets frecuentes encontrados: {len(frequent_itemsets)}")
print("\nPrimeros 10 itemsets frecuentes (ordenados por soporte):")
print(frequent_itemsets.sort_values(by='support', ascending=False).head(10))


--- 3. Encontrar Conjuntos de Artículos Frecuentes (Apriori) ---





Número de itemsets frecuentes encontrados: 418

Primeros 10 itemsets frecuentes (ordenados por soporte):
     support  itemsets
98  0.165238  (85123A)
55  0.112004   (22423)
95  0.110046  (85099B)
89  0.089522   (84879)
3   0.087058   (20725)
15  0.084661   (21212)
76  0.070146   (47566)
51  0.067648   (22383)
5   0.067412   (20727)
50  0.064779   (22382)


In [4]:
print("\n--- 4. Generación de Reglas de Asociación ---")

# Generar las reglas de asociación
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1.0)

# Ordenar las reglas
rules = rules.sort_values(['lift', 'confidence'], ascending=[False, False])

# Convertir frozensets a listas
rules['antecedents'] = rules['antecedents'].apply(lambda x: list(x))
rules['consequents'] = rules['consequents'].apply(lambda x: list(x))

print(f"\nNúmero de reglas de asociación encontradas: {len(rules)}")
print("\nTop 15 Reglas de Asociación (ordenadas por Lift y Confianza):")
print(rules.head(15))


--- 4. Generación de Reglas de Asociación ---

Número de reglas de asociación encontradas: 1100

Top 15 Reglas de Asociación (ordenadas por Lift y Confianza):
         antecedents      consequents  antecedent support  consequent support  \
912   [82482, 82486]          [82483]            0.015022            0.035546   
913          [82483]   [82482, 82486]            0.035546            0.015022   
935  [82494L, 82486]          [82483]            0.016068            0.035546   
938          [82483]  [82494L, 82486]            0.035546            0.016068   
934  [82494L, 82483]          [82486]            0.015562            0.040103   
939          [82486]  [82494L, 82483]            0.040103            0.015562   
910   [82483, 82482]          [82486]            0.015258            0.040103   
915          [82486]   [82483, 82482]            0.040103            0.015258   
382          [22726]          [22727]            0.035140            0.038617   
383          [22727]          

In [5]:
print("\n--- 5. Interpretación de las Reglas con Descripciones de Producto ---")

# Crear un diccionario para mapear stockcode a descripción
stockcode_to_desc = df_productos.drop_duplicates(subset=['stockcode']).set_index('stockcode')['descripcion'].to_dict()

# Función para reemplazar stockcodes por descripciones
def replace_with_descriptions(item_list):
    return [stockcode_to_desc.get(item, item) for item in item_list]

# Aplicar la función a las columnas 'antecedents' y 'consequents'
rules['antecedent_desc'] = rules['antecedents'].apply(replace_with_descriptions)
rules['consequent_desc'] = rules['consequents'].apply(replace_with_descriptions)

print("\nTop 15 Reglas de Asociación más Relevantes (con Descripciones de Producto):")
print(rules[['antecedent_desc', 'consequent_desc', 'support', 'confidence', 'lift']].head(15).to_string())

print("\n--- ¡Interpretación de las Reglas! ---")
print("Cada fila representa una regla: 'Si un cliente compra ANTECEDENTE, también es probable que compre CONSECUENTE'.")
print("- **Soporte (Support):** Frecuencia con la que ambos productos aparecen juntos. Un soporte de 0.01 significa que el 1% de todas las transacciones los contienen.")
print("- **Confianza (Confidence):** Probabilidad de que alguien que compra el antecedente, también compre el consecuente.")
print("  Ej: 0.60 significa que el 60% de las veces que se compra el antecedente, también se compra el consecuente.")
print("- **Lift:** Fuerza de la asociación. Un Lift > 1.0 es bueno. Cuanto mayor, más fuerte es la asociación y más interesante es la regla.")


--- 5. Interpretación de las Reglas con Descripciones de Producto ---

Top 15 Reglas de Asociación más Relevantes (con Descripciones de Producto):
                                                             antecedent_desc                                                          consequent_desc   support  confidence       lift
912   [WOODEN PICTURE FRAME WHITE FINISH, WOOD S/3 CABINET ANT WHITE FINISH]                                     [WOOD 2 DRAWER CABINET WHITE FINISH]  0.010903    0.725843  20.420099
913                                     [WOOD 2 DRAWER CABINET WHITE FINISH]   [WOODEN PICTURE FRAME WHITE FINISH, WOOD S/3 CABINET ANT WHITE FINISH]  0.010903    0.306743  20.420099
935         [WOODEN FRAME ANTIQUE WHITE , WOOD S/3 CABINET ANT WHITE FINISH]                                     [WOOD 2 DRAWER CABINET WHITE FINISH]  0.011173    0.695378  19.563041
938                                     [WOOD 2 DRAWER CABINET WHITE FINISH]         [WOODEN FRAME ANTIQUE WHITE , WOOD 