# 2. Sistema de Recomendaci√≥n (Market Basket Analysis)

### 2.1. Selecci√≥n del Dataset
Originalmente se propuso utilizar el dataset *Amazon Reviews*. Sin embargo, debido a las recientes actualizaciones de seguridad en la librer√≠a `datasets` de Hugging Face (error `trust_remote_code`), el script de carga de dicho dataset ha quedado obsoleto y bloqueado.

Para cumplir con el objetivo t√©cnico de desarrollar un **Sistema de Recomendaci√≥n basado en Reglas de Asociaci√≥n**, se migr√≥ al dataset est√°ndar de la industria: **"Online Retail" (UCI Machine Learning Repository)**.

Este dataset contiene transacciones reales de una tienda minorista, lo que permite aplicar el algoritmo **Apriori** para detectar patrones de compra cruzada (*Cross-selling*).

### 2.2. Metodolog√≠a
* **Algoritmo:** Apriori.
* **Filtro:** Se analizaron las transacciones de **Francia** para optimizar el rendimiento computacional.
* **M√©trica Clave (Lift):** Indica la fuerza de la asociaci√≥n. Un Lift > 1 implica que la compra de A estimula la compra de B.

In [3]:
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules
import warnings

warnings.filterwarnings('ignore')

print("‚¨áÔ∏è  Cargando dataset 'Online Retail' desde UCI Archive...")
# URL directa al archivo Excel
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx"
df = pd.read_excel(url, engine='openpyxl')

# --- LIMPIEZA DE DATOS ---
df['Description'] = df['Description'].str.strip()
df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)
df['InvoiceNo'] = df['InvoiceNo'].astype('str')
df = df[~df['InvoiceNo'].str.contains('C')] # Quitar devoluciones

# Filtrar por pa√≠s (Francia) para la matriz
basket = (df[df['Country'] == "France"]
          .groupby(['InvoiceNo', 'Description'])['Quantity']
          .sum().unstack().reset_index().fillna(0)
          .set_index('InvoiceNo'))

# Codificaci√≥n One-Hot
def encode_units(x):
    if x <= 0: return 0
    if x >= 1: return 1

basket_sets = basket.applymap(encode_units)
if 'POSTAGE' in basket_sets.columns:
    basket_sets.drop('POSTAGE', inplace=True, axis=1)

print(f"‚úÖ Matriz generada: {basket_sets.shape[0]} transacciones.")

# --- ALGORITMO APRIORI ---
# Soporte m√≠nimo 7%
frequent_itemsets = apriori(basket_sets, min_support=0.07, use_colnames=True)

# --- REGLAS DE ASOCIACI√ìN ---
# Lift m√≠nimo de 1 (Asociaci√≥n positiva)
reglas = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
reglas = reglas.sort_values(by='confidence', ascending=False)

# Mostrar las reglas m√°s fuertes
print("\nüèÜ Top Reglas Generadas:")
display(reglas[['antecedents', 'consequents', 'support', 'confidence', 'lift']].head())

‚¨áÔ∏è  Cargando dataset 'Online Retail' desde UCI Archive...
‚úÖ Matriz generada: 392 transacciones.

üèÜ Top Reglas Generadas:


Unnamed: 0,antecedents,consequents,support,confidence,lift
20,"(SET/6 RED SPOTTY PAPER CUPS, SET/20 RED RETRO...",(SET/6 RED SPOTTY PAPER PLATES),0.09949,0.975,7.644
22,"(SET/6 RED SPOTTY PAPER PLATES, SET/20 RED RET...",(SET/6 RED SPOTTY PAPER CUPS),0.09949,0.975,7.077778
19,(SET/6 RED SPOTTY PAPER PLATES),(SET/6 RED SPOTTY PAPER CUPS),0.122449,0.96,6.968889
18,(SET/6 RED SPOTTY PAPER CUPS),(SET/6 RED SPOTTY PAPER PLATES),0.122449,0.888889,6.968889
3,(ALARM CLOCK BAKELIKE RED),(ALARM CLOCK BAKELIKE GREEN),0.079082,0.837838,8.642959


### 2.3. Motor de Recomendaci√≥n en Acci√≥n

A continuaci√≥n, se implementa una funci√≥n que toma un producto de entrada y sugiere complementos basados en el historial de ventas.

**Escenario de prueba:** Un cliente a√±ade a su carrito **"PLASTERS IN TIN CIRCUS PARADE"** (Curitas con dise√±o de circo).

In [4]:
def recomendar_producto(item_input):
    print(f"üîé Cliente comprando: '{item_input}'")
    
    # Buscar reglas donde item_input est√© en los antecedentes
    recs = reglas[reglas['antecedents'].apply(lambda x: item_input in x)]
    
    if recs.empty:
        print("‚ö†Ô∏è No hay recomendaciones para este producto.")
        return
    
    # Ordenar por Lift
    top_recs = recs.sort_values(by='lift', ascending=False).head(3)
    
    print("üåü EL SISTEMA SUGIERE:")
    for idx, row in top_recs.iterrows():
        consecuente = list(row['consequents'])[0]
        lift = round(row['lift'], 2)
        confianza = round(row['confidence'] * 100, 1)
        print(f"   -> {consecuente} (Lift: {lift} | Confianza: {confianza}%)")

# PRUEBA
producto_prueba = 'PLASTERS IN TIN CIRCUS PARADE'
if producto_prueba in basket_sets.columns:
    recomendar_producto(producto_prueba)

üîé Cliente comprando: 'PLASTERS IN TIN CIRCUS PARADE'
üåü EL SISTEMA SUGIERE:
   -> PLASTERS IN TIN SPACEBOY (Lift: 3.85 | Confianza: 53.0%)
   -> PLASTERS IN TIN WOODLAND ANIMALS (Lift: 3.55 | Confianza: 60.6%)


### 2.4. Conclusiones

Los resultados muestran una asociaci√≥n l√≥gica y fuerte:
* Al comprar **Curitas de Circo**, el sistema recomienda **Curitas de Espacio (Spaceboy)** y **Curitas de Animales (Woodland)** con un **Lift superior a 3.5**.
* Esto tiene sentido comercial: el cliente es probablemente un padre comprando art√≠culos para ni√±os, por lo que ofrecerle variaciones del mismo tipo de producto aumenta la probabilidad de venta.
* **Estrategia:** La empresa deber√≠a colocar estos productos visualmente juntos en la tienda online o crear un "Pack de Curitas Variadas".