# Reglas de Asociación 🛒

!pip3 install mlxtend
!pip3 install kagglehub

In [None]:
import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori, association_rules
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning, module="jupyter_client.session")

## Descargar un dataset desde Kaggle

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("shazadudwadia/supermarket")

print("Path to dataset files:", path)

Using Colab cache for faster access to the 'supermarket' dataset.
Path to dataset files: /kaggle/input/supermarket


In [None]:
foo = path + "/GroceryStoreDataSet.csv"

print(foo)

/kaggle/input/supermarket/GroceryStoreDataSet.csv


In [None]:
df = pd.read_csv(foo, names = ['products'], sep = ',')
data = list(df["products"].apply(lambda x:x.split(",") ))
data

[['MILK', 'BREAD', 'BISCUIT'],
 ['BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['JAM', 'MAGGI', 'BREAD', 'MILK'],
 ['MAGGI', 'TEA', 'BISCUIT'],
 ['BREAD', 'TEA', 'BOURNVITA'],
 ['MAGGI', 'TEA', 'CORNFLAKES'],
 ['MAGGI', 'BREAD', 'TEA', 'BISCUIT'],
 ['JAM', 'MAGGI', 'BREAD', 'TEA'],
 ['BREAD', 'MILK'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'COCK', 'BISCUIT', 'CORNFLAKES'],
 ['COFFEE', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'COCK'],
 ['BREAD', 'SUGER', 'BISCUIT'],
 ['COFFEE', 'SUGER', 'CORNFLAKES'],
 ['BREAD', 'SUGER', 'BOURNVITA'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['BREAD', 'COFFEE', 'SUGER'],
 ['TEA', 'MILK', 'COFFEE', 'CORNFLAKES']]

## Vamos a usar one hot encoding para codificar las transacciones en vectores

In [None]:
from mlxtend.preprocessing import TransactionEncoder

a = TransactionEncoder()
a_data = a.fit(data).transform(data)
df = pd.DataFrame(a_data,columns=a.columns_)
df

Unnamed: 0,BISCUIT,BOURNVITA,BREAD,COCK,COFFEE,CORNFLAKES,JAM,MAGGI,MILK,SUGER,TEA
0,True,False,True,False,False,False,False,False,True,False,False
1,True,False,True,False,False,True,False,False,True,False,False
2,False,True,True,False,False,False,False,False,False,False,True
3,False,False,True,False,False,False,True,True,True,False,False
4,True,False,False,False,False,False,False,True,False,False,True
5,False,True,True,False,False,False,False,False,False,False,True
6,False,False,False,False,False,True,False,True,False,False,True
7,True,False,True,False,False,False,False,True,False,False,True
8,False,False,True,False,False,False,True,True,False,False,True
9,False,False,True,False,False,False,False,False,True,False,False


## Aplicar el algoritmo apriori con MinSupp = 0.2 para encontrar itemsets frecuentes

In [None]:
df = apriori(df, min_support = 0.2, use_colnames = True, verbose = 1)
df

Processing 72 combinations | Sampling itemset size 2Processing 42 combinations | Sampling itemset size 3


Unnamed: 0,support,itemsets
0,0.35,(BISCUIT)
1,0.2,(BOURNVITA)
2,0.65,(BREAD)
3,0.4,(COFFEE)
4,0.3,(CORNFLAKES)
5,0.25,(MAGGI)
6,0.25,(MILK)
7,0.3,(SUGER)
8,0.35,(TEA)
9,0.2,"(BREAD, BISCUIT)"


## Fijar MinConf para buscar las reglas a partir de estos itemsets frecuentes

In [None]:
df_ar = association_rules(df, metric = "confidence", min_threshold = 0.5)
df_ar[['antecedents','consequents','support','confidence']]

Unnamed: 0,antecedents,consequents,support,confidence
0,(BISCUIT),(BREAD),0.2,0.571429
1,(MILK),(BREAD),0.2,0.8
2,(SUGER),(BREAD),0.2,0.666667
3,(TEA),(BREAD),0.2,0.571429
4,(COFFEE),(CORNFLAKES),0.2,0.5
5,(CORNFLAKES),(COFFEE),0.2,0.666667
6,(SUGER),(COFFEE),0.2,0.666667
7,(COFFEE),(SUGER),0.2,0.5
8,(MAGGI),(TEA),0.2,0.8
9,(TEA),(MAGGI),0.2,0.571429


# Actividad

Usando el algoritmo **apriori**, haga lo siguiente:

Codifique las transacciones usando one hot encodings.

*   Use una estrategia de exploración para MinSupp. Monitoree el uso de memoria. ¿En cuál rango de valores comienza a encontrar resultados interesantes?

*   Dibuje una curva MinSupp contra Número de itemsets frecuentes encontrados en los rangos `min_support = [0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 0.1]`
* Seleccione un valor de MinSupp. Luego busque reglas interesantes ajustando el umbral de confianza. Ajústelo de manera que encuentre al menos 7 reglas.
* Cuanto termine, me avisa para marcarlo como logrado.
* Pueden trabajar de a dos o tres.

In [None]:
import pandas as pd
import numpy as np
import kagglehub
import matplotlib.pyplot as plt


# Download latest version
path = kagglehub.dataset_download("mashlyn/online-retail-ii-uci")

print("Path to dataset files:", path)

foo = path + '/online_retail_II.csv'

df = pd.read_csv(foo, encoding="latin1")

# Cada fila es un ítem en una transacción. Para agrupar por transacción:
data = df.groupby("Invoice")["StockCode"].apply(list).tolist()
data = data[:40000]

Using Colab cache for faster access to the 'online-retail-ii-uci' dataset.
Path to dataset files: /kaggle/input/online-retail-ii-uci
