# Práctica 1: Reglas de Asociación

Grupo 8: Marina Garrido y María Montero

19/03/2024

El objetivo del ejercicio es usar la librería `mlxtend` que nos permita solucionar todos los problemas relacionados con las reglas de
asociación. Para ello tendremos que usar el algoritmo Apriori y una serie de métodos para obtener la distinta
información que este genera.

Antes de comenzar se descargará el Dataset `Market_Basket_Optimisation.csv` proporcionado y se instalarán e importarán las librerías a usar.

In [None]:
pip install mlxtend



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv
from mlxtend.frequent_patterns import apriori, association_rules

Al tratarse de un ejercicio de Reglas de Asociación, en concreto, un problema de optimización de la lista de la compra, trabajaremos con listas de distinto tamaño así que debemos cambiar el formato de los datos a uno que la librería entienda.

In [None]:
import csv

# Lista para almacenar los datos del CSV como una lista de listas
datos_lista = []

# Abre el archivo CSV y lee los datos
with open('Market_Basket_Optimisation.csv', newline='') as archivo_csv:
    lector_csv = csv.reader(archivo_csv)

    # Itera sobre cada fila en el archivo CSV y agrega los datos a la lista de listas
    for fila in lector_csv:
        datos_lista.append(fila)

  and should_run_async(code)


A continuación, como el algoritmo apriori trabaja con dummies, debemos transformar las listas en un Dataset solo con las variables dummies, es decir, lo transformaremos de manera que cada columna sea un producto y si en una transacción se ha comprado dicho producto aparecerá como un 1 y si no como un 0.

In [None]:
productos_unicos = set(producto for transaccion in datos_lista for producto in transaccion)

# Inicializar una lista de diccionarios para almacenar las variables dummy
variables_dummy = []

# Iterar sobre cada transacción en la lista de listas
for transaccion in datos_lista:
    # Inicializar un diccionario para representar la transacción actual
    transaccion_dummy = {}
    # Marcar como 1 las posiciones correspondientes a los productos presentes en la transacción
    for producto in productos_unicos:
        transaccion_dummy[producto] = 1 if producto in transaccion else 0
    # Agregar la transacción dummy a la lista de variables dummy
    variables_dummy.append(transaccion_dummy)

# Crear un DataFrame a partir de las variables dummy
df = pd.DataFrame(variables_dummy)
df

  and should_run_async(code)


Unnamed: 0,cookies,hand protein bar,extra dark chocolate,napkins,soda,soup,parmesan cheese,cottage cheese,oatmeal,tomato sauce,...,whole wheat rice,sparkling water,low fat yogurt,shampoo,fromage blanc,green tea,hot dogs,barbecue sauce,bacon,white wine
0,0,0,0,0,0,0,0,1,0,0,...,0,0,1,0,0,1,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7497,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
7498,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7499,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


Una vez que los datos ya están en el formato adecuado, emplearemos el algoritmo Apriori. En primer lugar usaremos un `soporte mínimo de 0.2` y una `frecuencia de 0.5`.

In [None]:
frequent_itemsets = apriori(df, min_support=0.2,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.5)

frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.238368,(mineral water)


Al establecer un soporte tan bajo debería de haber generado bastantes candidatos, sin embargo, solo ha generado 1, por lo que probaremos con otras configuraciones hasta dar con la mejor, pero antes veremos qué y cuántas reglas genera.

In [None]:
rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric


En este caso, no genera ninguna regla por lo que confirmamos que estas configuraciones no son buenas.

Probaremos con un `soporte mínimo de 0.1` y una `frecuencia de 0.3`.

In [None]:
frequent_itemsets = apriori(df, min_support=0.1,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.3)

frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.163845,(chocolate)
1,0.129583,(milk)
2,0.170911,(french fries)
3,0.17411,(spaghetti)
4,0.179709,(eggs)
5,0.238368,(mineral water)
6,0.132116,(green tea)


Esta vez se han generado 7 candidatos aunque todos de 1-itemset.

In [None]:
rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric


Nuevamente no se ha generado ninguna regla por lo que vamos a bajar más las configuraciones. Usaremos un `soporte mínimo de 0.05` y una `frecuencia de 1`

In [None]:
frequent_itemsets = apriori(df, min_support=0.05,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='confidence', min_threshold=1)

frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.080389,(cookies)
1,0.050527,(soup)
2,0.163845,(chocolate)
3,0.05106,(cooking oil)
4,0.062525,(turkey)
5,0.079323,(escalope)
6,0.129583,(milk)
7,0.068391,(tomatoes)
8,0.170911,(french fries)
9,0.087188,(burgers)


En este caso, hemos generado 28 candidatos siendo 3 de ellos de 2-itemsets así que generaremos las reglas correspondientes.

In [None]:
rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric


Sin embargo, no obtenemos ninguna regla por lo que probaremos la misma configuración pero con una `frecuencia de 0.25`.

In [None]:
frequent_itemsets = apriori(df, min_support=0.05,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='confidence', min_threshold=0.25)

rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(chocolate),(mineral water),0.163845,0.238368,0.05266,0.3214,1.348332,0.013604,1.122357,0.308965
1,(mineral water),(spaghetti),0.238368,0.17411,0.059725,0.250559,1.439085,0.018223,1.102008,0.400606
2,(spaghetti),(mineral water),0.17411,0.238368,0.059725,0.343032,1.439085,0.018223,1.159314,0.369437
3,(eggs),(mineral water),0.179709,0.238368,0.050927,0.283383,1.188845,0.00809,1.062815,0.193648


Observamos que esta vez, sí que obtenemos reglas. Si nos fijamos, de las cuatro reglas obtenidas, la 1 y la 2 podrían ser la misma, quien compra agua mineral también compra espaguetis y viceversa.

Probaremos qué pasa si cambiamos la métrica también:

In [None]:
frequent_itemsets = apriori(df, min_support=0.05,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='lift', min_threshold=1.2)

frequent_itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.080389,(cookies)
1,0.050527,(soup)
2,0.163845,(chocolate)
3,0.05106,(cooking oil)
4,0.062525,(turkey)
5,0.079323,(escalope)
6,0.129583,(milk)
7,0.068391,(tomatoes)
8,0.170911,(french fries)
9,0.087188,(burgers)


In [None]:
rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(mineral water),(chocolate),0.238368,0.163845,0.05266,0.220917,1.348332,0.013604,1.073256,0.339197
1,(chocolate),(mineral water),0.163845,0.238368,0.05266,0.3214,1.348332,0.013604,1.122357,0.308965
2,(mineral water),(spaghetti),0.238368,0.17411,0.059725,0.250559,1.439085,0.018223,1.102008,0.400606
3,(spaghetti),(mineral water),0.17411,0.238368,0.059725,0.343032,1.439085,0.018223,1.159314,0.369437


La `métrica Lift` nos permite, con la misma configuración, emplear una frecuencia más alta que con la `métrica confidence`, que necesita frecuencias más pequeñas. Vamos a ver qué pasa si empleamos la misma frecuencia:

In [None]:
frequent_itemsets = apriori(df, min_support=0.05,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='lift', min_threshold=0.25)

rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(mineral water),(chocolate),0.238368,0.163845,0.05266,0.220917,1.348332,0.013604,1.073256,0.339197
1,(chocolate),(mineral water),0.163845,0.238368,0.05266,0.3214,1.348332,0.013604,1.122357,0.308965
2,(mineral water),(spaghetti),0.238368,0.17411,0.059725,0.250559,1.439085,0.018223,1.102008,0.400606
3,(spaghetti),(mineral water),0.17411,0.238368,0.059725,0.343032,1.439085,0.018223,1.159314,0.369437
4,(mineral water),(eggs),0.238368,0.179709,0.050927,0.213647,1.188845,0.00809,1.043158,0.208562
5,(eggs),(mineral water),0.179709,0.238368,0.050927,0.283383,1.188845,0.00809,1.062815,0.193648


Con la `métrica lift` obtenemos más reglas usando las mismas configuraciones que con la métrica confidence, aunque las reglas obtenidas pueden ser redundantes: si hay espaguetis hay agua y viceversa, si hay agua hay huevos y viceversa y si hay agua hay chocolate y viceversa. Sin embargo, si nos fijamos en la confianza no abarca valores muy altos por lo que las reglas no son muy fiables en ambos casos.

Finalmente, probaremos con otra métrica a ver qué pasa:

In [None]:
frequent_itemsets = apriori(df, min_support=0.05,use_colnames=True)

rules = association_rules(frequent_itemsets, metric='conviction', min_threshold=0.25)

rules

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(mineral water),(chocolate),0.238368,0.163845,0.05266,0.220917,1.348332,0.013604,1.073256,0.339197
1,(chocolate),(mineral water),0.163845,0.238368,0.05266,0.3214,1.348332,0.013604,1.122357,0.308965
2,(mineral water),(spaghetti),0.238368,0.17411,0.059725,0.250559,1.439085,0.018223,1.102008,0.400606
3,(spaghetti),(mineral water),0.17411,0.238368,0.059725,0.343032,1.439085,0.018223,1.159314,0.369437
4,(mineral water),(eggs),0.238368,0.179709,0.050927,0.213647,1.188845,0.00809,1.043158,0.208562
5,(eggs),(mineral water),0.179709,0.238368,0.050927,0.283383,1.188845,0.00809,1.062815,0.193648


Con la `métrica conviction` obtenemos los mismos resultados que con la `métrica lift.`

Observamos también que, dependiendo de la métrica escogida, obtenemos diferentes reglas:

*   `Confidence` coge aquellas reglas con la confianza más alta, además necesita una frecuencia más baja para generar las mismas reglas que genera Lift con una frecuencia más alta.
*   `Lift` coge las reglas con el soporte más alto.



Finalmente, concluimos que observando las distintas configuraciones salen las mismas reglas:


1.   Si compro espaguetis también compro agua mineral.
2.   Si compro agua mineral también compro espaguetis.
3.   Si compro agua mineral también compro huevos.
4.   Si compro huevos también compro agua mineral.
5.   Si compro agua mineral también compro chocolate.
6.   Si compro chocolate también compro agua mineral.

Por lo que podemos decir que como agua mineral se repite en todos los casos, si compro agua mineral compraré huevos, espaguetis y chocolate.



**¿Qué diferencias hay entre usar soporte y frecuencia?**

En la práctica, podemos decir que no existen diferencias entre ambas ya que una depende de la otra. Si la frecuencia es el número de veces que aparece un conjunto, el soporte es dicho número entre el total de transacciones.

Supongamos el caso de tener un soporte igual 0.2, la frecuencia sería 0.2 por el número de transacciones. Si tuviésemos una ecuación:
sop(y) < soporte mínimo donde 'y' número de transacciones. Si multiplicamos a ambos lados por el número de transacciones, realmente no estamos aplicando ningún cambio.