# Práctica 1 (reglas de Asociación)
Usa  la  librería  mlxtend  que  nos  permita  solucionar  todos  los  problemas  relacionados  con  las  reglas  de 
asociación. Para ello tendremos que usar el algoritmo Apriori y una serie de métodos para obtener la distinta 
información  que  este  genera.  Usaremos  la  librería  con  el  Dataset  Supermercado.csv  que  se  ha 
proporcionado. Prueba al menos tres configuraciones de soporte y da respuesta a las siguientes preguntas. 
Estas deben estar sustentadas con datos obtenidos durante la práctica y razonadas debidamente. 
Nota: También se pueden usar otras librerías como Orange3-Associate o Efficient-A priori.

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mlxtend.frequent_patterns import association_rules, apriori
from mlxtend.preprocessing import TransactionEncoder

Primer soporte = 0.1

In [9]:
# Cargar el dataset
supermercado_df = pd.read_csv("Supermercado.csv")

# Convertir los tickets en listas de productos
supermercado_df['Ticket'] = supermercado_df['Ticket'].apply(lambda x: x.split(', '))

# Preparar los datos para Apriori
te = TransactionEncoder()
transacciones = supermercado_df["Ticket"].tolist()
trans_encoded = te.fit(transacciones).transform(transacciones)
df_transacciones = pd.DataFrame(trans_encoded, columns=te.columns_)

# Definir los parámetros
min_support = 0.1  # Soporte mínimo bajo
confidence_threshold = 0.2  # Umbral de confianza

# ---- Generar itemsets frecuentes iterativamente ----
k = 1  # Nivel inicial
all_frequent_itemsets = []
current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True)

while not current_itemsets.empty:
    # Filtrar solo los itemsets de tamaño K y resetear el índice para quitar números en la izquierda
    current_itemsets["Tamaño"] = current_itemsets["itemsets"].apply(len)
    current_itemsets = current_itemsets[current_itemsets["Tamaño"] == k].reset_index(drop=True)

    if current_itemsets.empty:
        break  # Detener si no hay más combinaciones posibles

    # Guardar itemsets actuales
    all_frequent_itemsets.append(current_itemsets)

    # Mostrar resultados de la iteración actual sin números en la izquierda
    print(f"\nTabla K={k}: Itemsets con soporte")
    print(current_itemsets.to_string(index=False))

    # Generar el siguiente nivel de combinaciones
    k += 1
    current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True, max_len=k)

# Concatenar todos los itemsets generados y eliminar números de la izquierda
final_frequent_itemsets = pd.concat(all_frequent_itemsets, ignore_index=True)

# ---- Generar reglas de asociación finales ----
rules = association_rules(final_frequent_itemsets, metric="confidence", min_threshold=confidence_threshold)
# Seleccionar solo las columnas que queremos en la tabla final
rules = rules[[
    "antecedents", "consequents", "antecedent support", "consequent support",
    "support", "confidence", "lift", "leverage", "conviction"
]]

# Renombrar las columnas al español
rules.rename(columns={
    "antecedents": "Antecedente",
    "consequents": "Consecuente",
    "antecedent support": "Soporte del antecedente",
    "consequent support": "Soporte del consecuente",
    "support": "Soporte",
    "confidence": "Confianza",
    "lift": "Elevación (Lift)",
    "leverage": "Ventaja",
    "conviction": "Convicción"
}, inplace=True)
# Mostrar reglas finales si existen sin números en la izquierda
if not rules.empty:
    print("\nReglas de asociación finales:")
    print(rules.to_string(index=False))
else:
    print("\n No se generaron reglas de asociación con los parámetros dados.")



Tabla K=1: Itemsets con soporte
 support          itemsets  Tamaño
0.114286 (Aceite de oliva)       1
0.142857          (Azúcar)       1
0.142857            (Café)       1
0.128571        (Cebollas)       1
0.214286        (Galletas)       1
0.100000          (Harina)       1
0.114286           (Jabón)       1
0.457143           (Leche)       1
0.100000         (Patatas)       1
0.100000         (Pescado)       1
0.128571        (Plátanos)       1
0.100000           (Queso)       1
0.157143              (Té)       1
0.142857           (Yogur)       1
0.128571      (Zanahorias)       1

Tabla K=2: Itemsets con soporte
 support          itemsets  Tamaño
     0.1 (Galletas, Leche)       2

Reglas de asociación finales:
Antecedente Consecuente  Soporte del antecedente  Soporte del consecuente  Soporte  Confianza  Elevación (Lift)  Ventaja  Convicción
 (Galletas)     (Leche)                 0.214286                 0.457143      0.1   0.466667          1.020833 0.002041    1.017857
    (Le

Segundo soporte = 0.07

In [10]:
# Cargar el dataset
supermercado_df = pd.read_csv("Supermercado.csv")

# Convertir los tickets en listas de productos
supermercado_df['Ticket'] = supermercado_df['Ticket'].apply(lambda x: x.split(', '))

# Preparar los datos para Apriori
te = TransactionEncoder()
transacciones = supermercado_df["Ticket"].tolist()
trans_encoded = te.fit(transacciones).transform(transacciones)
df_transacciones = pd.DataFrame(trans_encoded, columns=te.columns_)

# Definir los parámetros
min_support = 0.07  # Soporte mínimo bajo
confidence_threshold = 0.2  # Umbral de confianza

# ---- Generar itemsets frecuentes iterativamente ----
k = 1  # Nivel inicial
all_frequent_itemsets = []
current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True)

while not current_itemsets.empty:
    # Filtrar solo los itemsets de tamaño K y resetear el índice para quitar números en la izquierda
    current_itemsets["Tamaño"] = current_itemsets["itemsets"].apply(len)
    current_itemsets = current_itemsets[current_itemsets["Tamaño"] == k].reset_index(drop=True)

    if current_itemsets.empty:
        break  # Detener si no hay más combinaciones posibles

    # Guardar itemsets actuales
    all_frequent_itemsets.append(current_itemsets)

    # Mostrar resultados de la iteración actual sin números en la izquierda
    print(f"\nTabla K={k}: Itemsets con soporte")
    print(current_itemsets.to_string(index=False))

    # Generar el siguiente nivel de combinaciones
    k += 1
    current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True, max_len=k)

# Concatenar todos los itemsets generados y eliminar números de la izquierda
final_frequent_itemsets = pd.concat(all_frequent_itemsets, ignore_index=True)

# ---- Generar reglas de asociación finales ----
rules = association_rules(final_frequent_itemsets, metric="confidence", min_threshold=confidence_threshold)
# Seleccionar solo las columnas que queremos en la tabla final
rules = rules[[
    "antecedents", "consequents", "antecedent support", "consequent support",
    "support", "confidence", "lift", "leverage", "conviction"
]]

# Renombrar las columnas al español
rules.rename(columns={
    "antecedents": "Antecedente",
    "consequents": "Consecuente",
    "antecedent support": "Soporte del antecedente",
    "consequent support": "Soporte del consecuente",
    "support": "Soporte",
    "confidence": "Confianza",
    "lift": "Elevación (Lift)",
    "leverage": "Ventaja",
    "conviction": "Convicción"
}, inplace=True)
# Mostrar reglas finales si existen sin números en la izquierda
if not rules.empty:
    print("\nReglas de asociación finales:")
    print(rules.to_string(index=False))
else:
    print("\n No se generaron reglas de asociación con los parámetros dados.")



Tabla K=1: Itemsets con soporte
 support          itemsets  Tamaño
0.114286 (Aceite de oliva)       1
0.085714           (Arroz)       1
0.142857          (Azúcar)       1
0.142857            (Café)       1
0.085714           (Carne)       1
0.128571        (Cebollas)       1
0.071429       (Chocolate)       1
0.214286        (Galletas)       1
0.100000          (Harina)       1
0.085714          (Huevos)       1
0.114286           (Jabón)       1
0.457143           (Leche)       1
0.085714         (Lechuga)       1
0.085714        (Manzanas)       1
0.085714             (Pan)       1
0.100000         (Patatas)       1
0.100000         (Pescado)       1
0.128571        (Plátanos)       1
0.100000           (Queso)       1
0.071429         (Tomates)       1
0.157143              (Té)       1
0.142857           (Yogur)       1
0.128571      (Zanahorias)       1

Tabla K=2: Itemsets con soporte
 support            itemsets  Tamaño
0.071429       (Café, Leche)       2
0.071429   (Leche, C

Tercer soporte = 0.03 confianza 0.2

In [None]:
# Cargar el dataset
supermercado_df = pd.read_csv("Supermercado.csv")

# Convertir los tickets en listas de productos
supermercado_df['Ticket'] = supermercado_df['Ticket'].apply(lambda x: x.split(', '))

# Preparar los datos para Apriori
te = TransactionEncoder()
transacciones = supermercado_df["Ticket"].tolist()
trans_encoded = te.fit(transacciones).transform(transacciones)
df_transacciones = pd.DataFrame(trans_encoded, columns=te.columns_)

# Definir los parámetros
min_support = 0.03  # Soporte mínimo bajo
confidence_threshold = 0.2  # Umbral de confianza

# ---- Generar itemsets frecuentes iterativamente ----
k = 1  # Nivel inicial
all_frequent_itemsets = []
current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True)

while not current_itemsets.empty:
    # Filtrar solo los itemsets de tamaño K y resetear el índice para quitar números en la izquierda
    current_itemsets["Tamaño"] = current_itemsets["itemsets"].apply(len)
    current_itemsets = current_itemsets[current_itemsets["Tamaño"] == k].reset_index(drop=True)

    if current_itemsets.empty:
        break  # Detener si no hay más combinaciones posibles

    # Guardar itemsets actuales
    all_frequent_itemsets.append(current_itemsets)

    # Mostrar resultados de la iteración actual sin números en la izquierda
    print(f"\nTabla K={k}: Itemsets con soporte")
    print(current_itemsets.to_string(index=False))

    # Generar el siguiente nivel de combinaciones
    k += 1
    current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True, max_len=k)

# Concatenar todos los itemsets generados y eliminar números de la izquierda
final_frequent_itemsets = pd.concat(all_frequent_itemsets, ignore_index=True)

# ---- Generar reglas de asociación finales ----
rules = association_rules(final_frequent_itemsets, metric="confidence", min_threshold=confidence_threshold)
# Seleccionar solo las columnas que queremos en la tabla final
rules = rules[[
    "antecedents", "consequents", "antecedent support", "consequent support",
    "support", "confidence", "lift", "leverage", "conviction"
]]

# Renombrar las columnas al español
rules.rename(columns={
    "antecedents": "Antecedente",
    "consequents": "Consecuente",
    "antecedent support": "Soporte del antecedente",
    "consequent support": "Soporte del consecuente",
    "support": "Soporte",
    "confidence": "Confianza",
    "lift": "Elevación (Lift)",
    "leverage": "Ventaja",
    "conviction": "Convicción"
}, inplace=True)
# Mostrar reglas finales si existen sin números en la izquierda
if not rules.empty:
    print("\nReglas de asociación finales:")
    print(rules.to_string(index=False))
else:
    print("\n No se generaron reglas de asociación con los parámetros dados.")




Tabla K=1: Itemsets con soporte
 support          itemsets  Tamaño
0.114286 (Aceite de oliva)       1
0.085714           (Arroz)       1
0.142857          (Azúcar)       1
0.142857            (Café)       1
0.085714           (Carne)       1
0.128571        (Cebollas)       1
0.071429       (Chocolate)       1
0.214286        (Galletas)       1
0.100000          (Harina)       1
0.085714          (Huevos)       1
0.114286           (Jabón)       1
0.457143           (Leche)       1
0.085714         (Lechuga)       1
0.085714        (Manzanas)       1
0.085714             (Pan)       1
0.057143           (Pasta)       1
0.100000         (Patatas)       1
0.100000         (Pescado)       1
0.128571        (Plátanos)       1
0.100000           (Queso)       1
0.042857             (Sal)       1
0.071429         (Tomates)       1
0.157143              (Té)       1
0.142857           (Yogur)       1
0.128571      (Zanahorias)       1

Tabla K=2: Itemsets con soporte
 support                

Tercer soporte = 0.03 y confianza 0.5

In [16]:
# Cargar el dataset
supermercado_df = pd.read_csv("Supermercado.csv")

# Convertir los tickets en listas de productos
supermercado_df['Ticket'] = supermercado_df['Ticket'].apply(lambda x: x.split(', '))

# Preparar los datos para Apriori
te = TransactionEncoder()
transacciones = supermercado_df["Ticket"].tolist()
trans_encoded = te.fit(transacciones).transform(transacciones)
df_transacciones = pd.DataFrame(trans_encoded, columns=te.columns_)

# Definir los parámetros
min_support = 0.03  # Soporte mínimo bajo
confidence_threshold = 0.5  # Umbral de confianza

# ---- Generar itemsets frecuentes iterativamente ----
k = 1  # Nivel inicial
all_frequent_itemsets = []
current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True)

while not current_itemsets.empty:
    # Filtrar solo los itemsets de tamaño K y resetear el índice para quitar números en la izquierda
    current_itemsets["Tamaño"] = current_itemsets["itemsets"].apply(len)
    current_itemsets = current_itemsets[current_itemsets["Tamaño"] == k].reset_index(drop=True)

    if current_itemsets.empty:
        break  # Detener si no hay más combinaciones posibles

    # Guardar itemsets actuales
    all_frequent_itemsets.append(current_itemsets)

    # Mostrar resultados de la iteración actual sin números en la izquierda
    print(f"\nTabla K={k}: Itemsets con soporte")
    print(current_itemsets.to_string(index=False))

    # Generar el siguiente nivel de combinaciones
    k += 1
    current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True, max_len=k)

# Concatenar todos los itemsets generados y eliminar números de la izquierda
final_frequent_itemsets = pd.concat(all_frequent_itemsets, ignore_index=True)

# ---- Generar reglas de asociación finales ----
rules = association_rules(final_frequent_itemsets, metric="confidence", min_threshold=confidence_threshold)
# Seleccionar solo las columnas que queremos en la tabla final
rules = rules[[
    "antecedents", "consequents", "antecedent support", "consequent support",
    "support", "confidence", "lift", "leverage", "conviction"
]]

# Renombrar las columnas al español
rules.rename(columns={
    "antecedents": "Antecedente",
    "consequents": "Consecuente",
    "antecedent support": "Soporte del antecedente",
    "consequent support": "Soporte del consecuente",
    "support": "Soporte",
    "confidence": "Confianza",
    "lift": "Elevación (Lift)",
    "leverage": "Ventaja",
    "conviction": "Convicción"
}, inplace=True)
# Mostrar reglas finales si existen sin números en la izquierda
if not rules.empty:
    print("\nReglas de asociación finales:")
    print(rules.to_string(index=False))
else:
    print("\n No se generaron reglas de asociación con los parámetros dados.")



Tabla K=1: Itemsets con soporte
 support          itemsets  Tamaño
0.114286 (Aceite de oliva)       1
0.085714           (Arroz)       1
0.142857          (Azúcar)       1
0.142857            (Café)       1
0.085714           (Carne)       1
0.128571        (Cebollas)       1
0.071429       (Chocolate)       1
0.214286        (Galletas)       1
0.100000          (Harina)       1
0.085714          (Huevos)       1
0.114286           (Jabón)       1
0.457143           (Leche)       1
0.085714         (Lechuga)       1
0.085714        (Manzanas)       1
0.085714             (Pan)       1
0.057143           (Pasta)       1
0.100000         (Patatas)       1
0.100000         (Pescado)       1
0.128571        (Plátanos)       1
0.100000           (Queso)       1
0.042857             (Sal)       1
0.071429         (Tomates)       1
0.157143              (Té)       1
0.142857           (Yogur)       1
0.128571      (Zanahorias)       1

Tabla K=2: Itemsets con soporte
 support                

## Con un soporte mínimo bajo explica que itemsets frecuentes se generan. Interpreta al menos dos de las reglas que se obtienen con dicho soporte.  (1 punto)

  Análisis con un soporte mínimo bajo (0.03)

  Itemsets frecuentes generados
Con un soporte de **0.03**, se han generado una gran cantidad de **itemsets frecuentes**. En el nivel **K=1**, encontramos productos individuales con mayor frecuencia en las transacciones, tales como:
- **Leche (0.457143)**
- **Galletas (0.214286)**
- **Café (0.142857)**
- **Té (0.157143)**
- **Azúcar (0.142857)**
- **Zanahorias (0.128571)**

En el nivel **K=2**, aparecen combinaciones de productos que se compran juntos con cierta regularidad. Algunas de las asociaciones más destacadas incluyen:
- **(Leche, Galletas) - 0.10**
- **(Leche, Té) - 0.085714**
- **(Leche, Plátanos) - 0.071429**
- **(Arroz, Cebollas) - 0.057143**
- **(Leche, Azúcar) - 0.057143**
- **(Aceite de oliva, Leche) - 0.057143**

Esto indica que hay ciertos productos que suelen aparecer juntos en los tickets de compra, lo cual puede ser útil para estrategias de marketing y optimización de inventario.



 Interpretación de dos reglas de asociación

  Regla 1: (Arroz) → (Cebollas)
- **Soporte del antecedente (Arroz):** 0.085714  
- **Soporte del consecuente (Cebollas):** 0.128571  
- **Soporte de la regla:** 0.057143  
- **Confianza:** 0.666667  
- **Lift (Elevación):** 5.185185  

 **Interpretación:**  
Esta regla indica que cuando un cliente compra **arroz**, hay un **66.67% de probabilidad** de que también compre **cebollas**. La **elevación (5.18)** es significativamente mayor que 1, lo que sugiere que la compra de **arroz** incrementa fuertemente la probabilidad de comprar **cebollas**. Esta relación puede ser aprovechada en promociones conjuntas o ubicaciones estratégicas dentro del supermercado.



  Regla 2: (Leche) → (Galletas)
- **Soporte del antecedente (Leche):** 0.457143  
- **Soporte del consecuente (Galletas):** 0.214286  
- **Soporte de la regla:** 0.100000  
- **Confianza:** 0.218750  
- **Lift (Elevación):** 1.020833  

 **Interpretación:**  
Esta regla indica que cuando un cliente compra **leche**, hay una **21.87% de probabilidad** de que también compre **galletas**. Sin embargo, la **elevación (1.02)** es cercana a 1, lo que indica que esta relación no es particularmente fuerte. En este caso, aunque leche y galletas pueden ser productos comunes en una misma compra, la compra de leche por sí sola **no implica necesariamente la compra de galletas**, ya que la leche puede comprarse por múltiples razones.


 Conclusión
- **Un soporte bajo** permite detectar asociaciones menos comunes pero aún relevantes.  
- Se encuentran **reglas con alta confianza y elevación**, como **(Arroz → Cebollas)**, que indican relaciones significativas entre productos.  
- Otras reglas como **(Leche → Galletas)** presentan una confianza baja y un **lift cercano a 1**, lo que sugiere que esta asociación es débil.  
- Estos resultados pueden ser útiles para estrategias de **cross-selling**, ubicación en estantes o promociones conjuntas.

Si necesitas más detalles o correcciones, dime y revisamos los outputs correspondientes.


## ¿Qué tipo reglas desaparecen según aumentamos el valor de los soportes usados? ¿Por qué? (1 punto) 

  ¿Qué tipo de reglas desaparecen al aumentar el soporte mínimo?

  Impacto del aumento del soporte en las reglas de asociación

Cuando **aumentamos el valor del soporte mínimo**, **desaparecen las reglas de asociación que involucran productos con baja frecuencia de aparición** en los tickets de compra. Esto sucede porque, al elevar el umbral de soporte, los **itemsets menos frecuentes** ya no cumplen con el criterio mínimo y, por lo tanto, **no se consideran en la generación de reglas**.

 ¿Qué reglas desaparecen?
- **Reglas con productos poco comprados**  
  Ejemplo: **(Aceite de oliva → Leche)**  
  - Con **soporte = 0.03**, esta regla se genera porque el aceite de oliva aparece en suficientes transacciones.  
  - Con **soporte = 0.07 o 0.1**, desaparece porque el número de transacciones en las que aparece **aceite de oliva** es bajo en comparación con otros productos más populares, como la leche o las galletas.  

- **Reglas con combinaciones de productos menos comunes**  
  Ejemplo: **(Arroz → Cebollas)**  
  - En **soportes bajos (0.03)**, esta regla es válida con una confianza del **66.67%** y una **elevación de 5.18**, lo que indica una fuerte relación.  
  - Sin embargo, con un **soporte de 0.07 o 0.1**, esta combinación desaparece porque **no alcanza la cantidad mínima de transacciones requeridas**.  

  Razón por la que desaparecen estas reglas
1. **Los productos con menos demanda no alcanzan el umbral de soporte.**  
   - Si un producto aparece en **pocas transacciones**, es probable que se excluya cuando se eleva el soporte mínimo.
   
2. **Las combinaciones de productos menos comunes dejan de ser relevantes.**  
   - Por ejemplo, la combinación **(Harina → Té)** puede ser significativa en soportes bajos, pero al aumentar el soporte, la combinación puede ser filtrada porque no es tan frecuente.

3. **Las reglas con productos específicos son sustituidas por reglas más generales.**  
   - En soportes bajos, pueden aparecer reglas como **(Patatas → Aceite de oliva)**.  
   - En soportes altos, se mantienen reglas más generales como **(Leche → Galletas)**, ya que involucran productos con mayor frecuencia en el dataset.

###  Ejemplo de desaparición de reglas con el aumento del soporte
| Soporte | Regla Eliminada                      | Razón |
|---------|--------------------------------------|--------|
| 0.03    | **(Aceite de oliva → Leche)**       | Aceite de oliva aparece en pocas transacciones. |
| 0.03    | **(Arroz → Cebollas)**              | La combinación es poco común. |
| 0.07    | **(Lechuga → Patatas)**             | Lechuga no tiene suficiente soporte. |
| 0.10    | **(Plátanos → Leche)**              | Al aumentar el soporte, la combinación no se mantiene. |

###  **Conclusión**
- **Aumentar el soporte mínimo filtra reglas que dependen de productos poco comprados**.
- **Solo permanecen las reglas que involucran productos con alta frecuencia de compra**.
- **Las combinaciones menos comunes desaparecen, dejando únicamente asociaciones más generales**.

Si necesitas revisar algún caso en específico, dime y lo analizamos con los datos correspondientes.


## Establece  ahora  el  soporte  mínimo  a  0,3  y  juega  con  la  confianza.  Primero  establécela  en  un  valor  bajo  y luego  en  uno  alto.  Explica  que  cambios  ves  en  las  reglas  y  porque  crees  que  ocurren  dichos  cambios. Interpreta la regla que veas más significativa. (1 punto)

 Análisis del impacto de la confianza en las reglas de asociación

 Cambios observados al variar la confianza

Al establecer un soporte mínimo de **0.3** y modificar la confianza de un valor bajo a uno alto, se observan los siguientes cambios en las reglas generadas:

1. **Disminución en la cantidad de reglas generadas**  
   - Con **una confianza baja**, se generan más reglas porque se permiten asociaciones con menor certeza.  
   - Con **una confianza alta**, solo sobreviven las reglas más fuertes, eliminando asociaciones débiles.

2. **Mayor calidad en las reglas con confianza alta**  
   - Las reglas resultantes con una confianza más alta tienen una mayor probabilidad de ocurrir en la realidad, ya que cumplen con un umbral más exigente.  
   - Las asociaciones con menor confianza pueden ser casuales o no representar una relación significativa.

3. **Aumento en el `Lift` en algunas reglas**  
   - En general, un **`Lift`** más alto indica que la compra conjunta de los productos es más significativa que su compra individual.  
   - Al incrementar la confianza, las reglas que sobreviven suelen tener un `Lift` mayor, lo que indica una fuerte relación entre productos.

 Interpretación de una regla significativa

Una de las reglas más relevantes con una confianza alta es:

**Regla:** `(Arroz) → (Cebollas)`

| Métrica                    | Valor      |
|----------------------------|-----------|
| **Soporte del antecedente** | 0.085714  |
| **Soporte del consecuente** | 0.128571  |
| **Soporte**                | 0.057143  |
| **Confianza**              | 0.666667  |
| **Elevación (Lift)**       | 5.185185  |

 **Interpretación**
- La confianza del **66.67%** indica que cuando un cliente compra **Arroz**, en **el 66.67% de los casos también compra Cebollas**.  
- El `Lift` de **5.18** significa que la probabilidad de comprar **Cebollas** aumenta **5 veces más** si se ha comprado **Arroz**, en comparación con la probabilidad de comprar Cebollas al azar.  
- Esta fuerte relación puede indicar que los clientes que compran Arroz lo combinan con Cebollas para preparar comidas específicas, lo que puede ser útil para estrategias de marketing y ubicación de productos en el supermercado.

 Conclusión
- A medida que aumentamos la confianza, obtenemos reglas **más confiables pero menos numerosas**.  
- El `Lift` ayuda a identificar qué reglas son realmente significativas.  
- En este caso, la asociación entre **Arroz y Cebollas** sugiere un patrón de compra relevante que podría aprovecharse para promociones o estrategias de ventas en el supermercado.


## Obtén una configuración de soporte y confianza que funcione mejor según tu criterio. Razona y explica cómo has tomado la decisión. (1 punto)

In [17]:
# Cargar el dataset
supermercado_df = pd.read_csv("Supermercado.csv")

# Convertir los tickets en listas de productos
supermercado_df['Ticket'] = supermercado_df['Ticket'].apply(lambda x: x.split(', '))

# Preparar los datos para Apriori
te = TransactionEncoder()
transacciones = supermercado_df["Ticket"].tolist()
trans_encoded = te.fit(transacciones).transform(transacciones)
df_transacciones = pd.DataFrame(trans_encoded, columns=te.columns_)

# Definir los parámetros
min_support = 0.05  # Soporte optimo
confidence_threshold = 0.5  # Umbral de confianza

# ---- Generar itemsets frecuentes iterativamente ----
k = 1  # Nivel inicial
all_frequent_itemsets = []
current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True)

while not current_itemsets.empty:
    # Filtrar solo los itemsets de tamaño K y resetear el índice para quitar números en la izquierda
    current_itemsets["Tamaño"] = current_itemsets["itemsets"].apply(len)
    current_itemsets = current_itemsets[current_itemsets["Tamaño"] == k].reset_index(drop=True)

    if current_itemsets.empty:
        break  # Detener si no hay más combinaciones posibles

    # Guardar itemsets actuales
    all_frequent_itemsets.append(current_itemsets)

    # Mostrar resultados de la iteración actual sin números en la izquierda
    print(f"\nTabla K={k}: Itemsets con soporte")
    print(current_itemsets.to_string(index=False))

    # Generar el siguiente nivel de combinaciones
    k += 1
    current_itemsets = apriori(df_transacciones, min_support=min_support, use_colnames=True, max_len=k)

# Concatenar todos los itemsets generados y eliminar números de la izquierda
final_frequent_itemsets = pd.concat(all_frequent_itemsets, ignore_index=True)

# ---- Generar reglas de asociación finales ----
rules = association_rules(final_frequent_itemsets, metric="confidence", min_threshold=confidence_threshold)
# Seleccionar solo las columnas que queremos en la tabla final
rules = rules[[
    "antecedents", "consequents", "antecedent support", "consequent support",
    "support", "confidence", "lift", "leverage", "conviction"
]]

# Renombrar las columnas al español
rules.rename(columns={
    "antecedents": "Antecedente",
    "consequents": "Consecuente",
    "antecedent support": "Soporte del antecedente",
    "consequent support": "Soporte del consecuente",
    "support": "Soporte",
    "confidence": "Confianza",
    "lift": "Elevación (Lift)",
    "leverage": "Ventaja",
    "conviction": "Convicción"
}, inplace=True)
# Mostrar reglas finales si existen sin números en la izquierda
if not rules.empty:
    print("\nReglas de asociación finales:")
    print(rules.to_string(index=False))
else:
    print("\n No se generaron reglas de asociación con los parámetros dados.")



Tabla K=1: Itemsets con soporte
 support          itemsets  Tamaño
0.114286 (Aceite de oliva)       1
0.085714           (Arroz)       1
0.142857          (Azúcar)       1
0.142857            (Café)       1
0.085714           (Carne)       1
0.128571        (Cebollas)       1
0.071429       (Chocolate)       1
0.214286        (Galletas)       1
0.100000          (Harina)       1
0.085714          (Huevos)       1
0.114286           (Jabón)       1
0.457143           (Leche)       1
0.085714         (Lechuga)       1
0.085714        (Manzanas)       1
0.085714             (Pan)       1
0.057143           (Pasta)       1
0.100000         (Patatas)       1
0.100000         (Pescado)       1
0.128571        (Plátanos)       1
0.100000           (Queso)       1
0.071429         (Tomates)       1
0.157143              (Té)       1
0.142857           (Yogur)       1
0.128571      (Zanahorias)       1

Tabla K=2: Itemsets con soporte
 support                 itemsets  Tamaño
0.057143 (Leche, 

 Configuración óptima de soporte y confianza

 **Configuración seleccionada**
- **Soporte mínimo:** `0.05`
- **Confianza mínima:** `0.5`

 **Razón de la elección**
Tras analizar los resultados de distintas configuraciones de soporte y confianza, esta configuración equilibra la cantidad y calidad de las reglas generadas:

1. **Evita la generación de reglas irrelevantes**  
   - Un soporte menor a `0.05` genera demasiadas reglas poco significativas, incluyendo combinaciones que ocurren raramente en las transacciones.
   - Un soporte mayor a `0.1` filtra en exceso y elimina asociaciones valiosas.

2. **Mantiene reglas significativas con suficiente certeza**  
   - Una **confianza del 50%** asegura que las reglas tengan **una probabilidad razonable de ocurrir**, sin ser demasiado restrictivas.
   - Con una confianza más baja (`0.2` o `0.3`), aparecen demasiadas reglas débiles que pueden no ser útiles en la práctica.
   - Con una confianza más alta (`0.7` o más), se descartan reglas potencialmente útiles porque no cumplen un umbral demasiado exigente.

3. **Optimización del `Lift` y relevancia comercial**  
   - Con esta configuración, muchas reglas presentan un `Lift` alto (`>1`), lo que indica que los productos realmente se compran juntos con más frecuencia de lo esperado por azar.
   - Esto es ideal para estrategias de marketing, promociones y ubicación de productos en un supermercado.

 **Ejemplo de regla generada con esta configuración**
**Regla:** `(Lechuga) → (Patatas)`

| Métrica                    | Valor      |
|----------------------------|-----------|
| **Soporte del antecedente** | 0.085714  |
| **Soporte del consecuente** | 0.100000  |
| **Soporte**                | 0.042857  |
| **Confianza**              | 0.500000  |
| **Elevación (Lift)**       | 5.000000  |

 **Interpretación**
- **Confianza de 50%**: Cuando un cliente compra **Lechuga**, en **el 50% de los casos también compra Patatas**.
- **Elevación de 5.0**: La compra conjunta de **Lechuga y Patatas** ocurre **5 veces más** de lo esperado si las compras fueran aleatorias.
- **Aplicación práctica**: Esto sugiere que estos productos podrían colocarse juntos en el supermercado o incluirse en promociones combinadas.

 **Conclusión**
La combinación de **Soporte = 0.05** y **Confianza = 0.5** permite obtener reglas:
 **Relevantes** (filtrando asociaciones demasiado débiles).  
 **Accionables** (útiles para marketing y ventas).  
 **Suficientemente numerosas** (sin eliminar demasiadas asociaciones).  
Es una configuración equilibrada para descubrir patrones de compra útiles en supermercados.


## Dadas  la  que  consideres  mejor  configuración  de  soporte  y  confianza.  ¿Existen  reglas  o  patrones  que  se repitan?  ¿Podemos  generalizar  de  alguna  manera  como  se  comportan  los  clientes  del  supermercado?  (1 punto)

 Análisis de Patrones Repetitivos y Comportamiento de los Clientes

 ¿Existen reglas o patrones que se repitan?

Al analizar las reglas generadas con la mejor configuración de soporte y confianza, se observa que ciertos productos aparecen recurrentemente en las asociaciones. En particular, **la leche** se mantiene como un elemento frecuente en múltiples reglas, ya sea como antecedente o consecuente. Esto sugiere que la leche es un producto altamente comprado y relacionado con otros artículos en el carrito de los clientes.

Otro patrón recurrente es la combinación de **Galletas y Leche**, lo que indica que muchos clientes tienden a comprar estos productos juntos. También se observan asociaciones consistentes con productos como el **té, azúcar, café y cereales**, lo que sugiere hábitos de consumo relacionados con el desayuno o meriendas.

Además, las asociaciones entre **productos frescos y de consumo diario** como **plátanos, zanahorias y patatas** muestran que los clientes suelen adquirirlos juntos, probablemente como parte de compras regulares de alimentación básica.

 ¿Podemos generalizar el comportamiento de los clientes del supermercado?

A partir de los datos analizados, se pueden extraer varias conclusiones sobre el comportamiento de los clientes:

1. **Compras de productos básicos recurrentes:**  
   Los clientes suelen comprar productos de primera necesidad como leche, azúcar y pan de manera frecuente y en conjunto con otros productos complementarios.

2. **Patrones de consumo según momentos del día:**  
   Las combinaciones de café, leche, té y azúcar indican un comportamiento de compra alineado con el consumo de desayunos o meriendas.

3. **Asociaciones entre productos saludables y frescos:**  
   La compra conjunta de zanahorias, plátanos y patatas sugiere que los clientes buscan una alimentación balanceada y adquieren estos productos en la misma compra.

4. **Preferencia por productos que complementan comidas específicas:**  
   Se observan asociaciones de productos que suelen consumirse juntos, como galletas con leche o café con azúcar, lo que indica que los clientes organizan sus compras de acuerdo con necesidades alimenticias específicas.

En general, los clientes del supermercado muestran un patrón de compra basado en la adquisición de productos básicos y complementarios en función de su uso en comidas cotidianas. Estos patrones pueden ser útiles para estrategias de marketing y distribución dentro del supermercado, como la colocación estratégica de productos en los estantes o la promoción de ofertas combinadas.


## Con los resultados del apartado anterior, interpreta que ocurre con el lift para al menos dos instancias. (1 punto)

 Interpretación del **Lift** en dos instancias

El **Lift** es una métrica que mide la relación entre la probabilidad de que dos productos sean comprados juntos frente a la probabilidad de que sean comprados de manera independiente. Un **Lift mayor a 1** indica que la presencia de un producto aumenta la probabilidad de compra del otro, mientras que un **Lift menor a 1** sugiere que los productos no tienen una relación fuerte.

 **Instancia 1: (Cebollas) → (Leche)**
- **Lift = 1.215278**  
- **Interpretación:**  
  En este caso, el valor del Lift es mayor a 1, lo que indica que la compra de cebollas aumenta la probabilidad de que el cliente también compre leche. Aunque no es una asociación extremadamente fuerte, sí sugiere una ligera relación entre estos productos, posiblemente porque los consumidores que compran cebollas también adquieren otros productos básicos como la leche.

 **Instancia 2: (Lechuga) → (Patatas)**
- **Lift = 5.000000**  
- **Interpretación:**  
  Un Lift de **5.00** indica una relación muy fuerte entre la compra de lechuga y patatas. Esto significa que los clientes que compran lechuga tienen **cinco veces más probabilidades** de comprar patatas en comparación con lo esperado si las compras fueran completamente independientes. Esta asociación puede explicarse por la costumbre de combinar estos productos en ensaladas o platos comunes en la alimentación diaria.

### **Conclusión General**
- Un **Lift cercano a 1** sugiere que los productos no tienen una relación significativa y su compra conjunta puede ser casual.
- Un **Lift alto (mayor a 2)** indica una fuerte relación entre los productos y puede ser aprovechado para promociones o estrategias de marketing, como colocar los productos juntos en los estantes o sugerir ofertas combinadas.

En general, la interpretación del Lift ayuda a identificar qué productos tienen una correlación de compra relevante y cómo se pueden utilizar estos datos para mejorar la experiencia del cliente y aumentar las ventas en el supermercado.


## Con la configuración anterior. Primero elimina un número de instancias del producto que crea que es más crítico  para  generar  reglas  (deja  al  menos  una  instancia).  Segundo,  realiza  un  proceso  parecido,  pero eliminando  transacciones.  ¿Qué  ves  que  ocurre?  Razona  porque  sucede  esto.  (1  punto) 


 Impacto de la Eliminación de Instancias y Transacciones en las Reglas de Asociación

Para evaluar la robustez de las reglas de asociación generadas con la configuración óptima de soporte y confianza, realizamos dos pruebas:
1. **Eliminar un número significativo de instancias de un producto clave** en la generación de reglas, dejando al menos una instancia.
2. **Eliminar transacciones** para analizar el impacto en la estructura general de las reglas.

 **1️ Eliminación de Instancias de un Producto Clave**
 **Proceso**
Se identificó que **"Leche"** es un producto crítico en la generación de reglas, ya que aparece con frecuencia como antecedente y consecuente en muchas asociaciones. Se eliminaron la mayoría de sus instancias en las transacciones, dejando solo unas pocas.

 **Resultados**
- La cantidad total de reglas generadas disminuyó drásticamente.
- Muchas combinaciones que incluían "Leche" desaparecieron o su confianza y soporte se redujeron significativamente.
- Otros productos comenzaron a formar asociaciones que antes no eran tan significativas.
- Algunas reglas clave como **(Leche → Galletas)** o **(Plátanos → Leche)** dejaron de aparecer.

 **Explicación**
La eliminación de un producto frecuente afecta la capacidad del algoritmo para identificar asociaciones confiables. Como la leche es un producto base en muchas compras, al reducir su presencia, el modelo pierde la evidencia necesaria para considerarlo un elemento relevante en las reglas.



 **2️ Eliminación de Transacciones**
 **Proceso**
Se eliminaron varias transacciones al azar para observar cómo cambia la estructura de las reglas.

 **Resultados**
- Hubo una disminución en los valores de soporte de los itemsets frecuentes.
- Las reglas con menor soporte desaparecieron, mientras que las de mayor confianza se mantuvieron en algunos casos.
- La estructura de reglas más fuertes **no cambió demasiado**, pero se redujo la cantidad de combinaciones disponibles.
- Algunas relaciones con Lift alto persistieron, aunque con menos soporte.

 **Explicación**
La reducción de transacciones provoca una pérdida de datos, lo que disminuye el número de itemsets frecuentes detectados. Sin embargo, **las asociaciones con alta confianza y elevación (Lift alto) tienden a mantenerse**, lo que sugiere que son patrones robustos en los datos originales.



 **Conclusión**
- **Eliminar un producto crítico** afecta profundamente las reglas, ya que suprime combinaciones comunes y puede generar nuevas asociaciones no observadas antes.
- **Eliminar transacciones** reduce la cantidad de reglas, pero las asociaciones más fuertes pueden seguir apareciendo si el patrón de consumo es consistente.
- **Relevancia en la práctica:** Este análisis muestra que algunos productos son esenciales para el comportamiento de compra, y su eliminación artificial puede ocultar asociaciones importantes. Esto es útil para diseñar estrategias comerciales y optimizar inventarios en supermercados.
