REGOLE DI ASSOCIAZIONE

 - https://en.wikipedia.org/wiki/Association_rule_learning


Nel data mining, le regole di associazione sono uno dei metodi per estrarre relazioni nascoste tra i dati.

Agrawal et al.[1] introdussero le regole di associazione per la scoperta di regolarità all'interno delle transazioni registrate nelle vendite dei supermercati. Per esempio, la regola { c i p o l l e , p a t a t e } ⇒ { h a m b u r g e r } {\displaystyle \{\mathrm {cipolle,patate} \}\Rightarrow \{\mathrm {hamburger} \}} {\displaystyle \{\mathrm {cipolle,patate} \}\Rightarrow \{\mathrm {hamburger} \}} individuata nell'analisi degli scontrini di un supermercato indica che il se il cliente compra insieme cipolle e patate è probabile che acquisti anche della carne per hamburger. Tale informazione può essere utilizzata come base per le decisioni riguardanti le attività di marketing, come ad esempio le offerte promozionali o il posizionamento dei prodotti negli scaffali. Le regole di associazione sono anche usate in molte altre aree, quali il Web mining, la scoperta di anomalie e la bioinformatica. 




Algoritmo Apriori

 - https://www.datacamp.com/tutorial/association-rule-mining-python

L'algoritmo Apriori è uno degli algoritmi più utilizzati per il mining di regole di associazione. Funziona identificando prima i set di elementi frequenti nel set di dati (set di elementi che compaiono in un certo numero di transazioni). Quindi utilizza questi insiemi di elementi frequenti per generare regole di associazione, che sono affermazioni della forma "se l'articolo A viene acquistato, è probabile che venga acquistato anche l'articolo B". L'algoritmo Apriori utilizza un approccio dal basso verso l'alto, partendo da singoli elementi e costruendo gradualmente fino a set di elementi più complessi. L'algoritmo prende il nome dal fatto che utilizza il concetto di "proprietà di down-closure", in cui tutti i subset di un insieme di elementi frequenti devono essere frequenti. Questo concetto è chiamato proprietà di Apriori. L'algoritmo Apriori è stato proposto da Agrawal e Srikant nel 1994.



In [None]:
# realiziamo un esempio di regole di associazione con il dataset "Groceries" e usando l'algoritmo Apriori

# importiamo le librerie necessarie
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from mlxtend.frequent_patterns import apriori, association_rules

# disabilitiamo i warning
warnings.filterwarnings('ignore')

# scarichiamo il dataset groceries.csv da kaggle
# https://www.kaggle.com/heeraldedhia/groceries-dataset
# e lo carichiamo in un dataframe
df = pd.read_csv('GroceryStoreDataSet.xls', names = ['products'], sep = ',')


In [None]:
# visualizziamo le prime 5 righe del dataframe
df.head()

In [None]:
# visualizziamo le dimensioni del dataframe
df.shape

In [None]:
# creiamo una lista di liste, dove ogni lista interna contiene i prodotti acquistati in un singolo acquisto
data = list(df["products"].apply(lambda x:x.split(",") ))
data

Algoritmo Apriori e codifica One-Hot

L'algoritmo di Apriori trasforma True/False o 1/0.
Usando TransactionEncoder, convertiamo l'elenco in un elenco booleano con codifica One-Hot.
I prodotti che i clienti hanno acquistato o non hanno acquistato durante lo shopping saranno ora rappresentati dai valori 1 e 0.

In [None]:
# trasformiamo la lista di liste con one-hot encoding
from mlxtend.preprocessing import TransactionEncoder

# creiamo un oggetto TransactionEncoder e lo usiamo per trasformare la lista di liste
te = TransactionEncoder()

# eseguiamo il fit e la trasformazione 
te_data = te.fit(data).transform(data)

# trasformiamo il risultato in un dataframe
df = pd.DataFrame(te_data, columns = te.columns_)
df = df.replace(False,0)
df = df.replace(True,1)

# visualizziamo le prime 5 righe del dataframe
df.head()


Applicazione Apriori e risultante

Il passo successivo è creare il modello Apriori. Possiamo modificare tutti i parametri nel modello Apriori nel pacchetto mlxtend.
Cercherò di utilizzare parametri di supporto minimi per questa modellazione.
Per questo, ho impostato un valore min_support con un valore di soglia del 20% e li ho stampati anche sullo schermo.

In [None]:
df = apriori(df, min_support = 0.2, use_colnames = True, verbose = 1)
df

Ho scelto il valore di confidenza minimo del 60%. In altre parole, quando viene acquistato il prodotto X, possiamo dire che l'acquisto del prodotto Y è pari o superiore al 60%.

In [None]:
df_ar = association_rules(df, metric = "confidence", min_threshold = 0.6)
df_ar

Analiziamo i risultati del modello Apriori. Il modello Apriori ci ha restituito 3 colonne. Queste colonne sono antecedents, consequents e support. La colonna antecedents mostra i prodotti che sono stati acquistati insieme. La colonna consequents mostra i prodotti che sono stati acquistati insieme. La colonna support mostra la frequenza di occorrenza di questi prodotti.

Ad esempio, se esaminiamo il nostro primo valore di indice;

    La probabilità di vedere vendite di zucchero è del 30%.
    L'assunzione di pane è considerata del 65%.
    Possiamo dire che il supporto di entrambi è misurato al 20%.
    Il 67% di chi compra lo zucchero compra anche il pane.
    Gli utenti che acquistano zucchero consumeranno probabilmente il 3% in più di pane rispetto agli utenti che non acquistano zucchero.
    La loro correlazione reciproca è vista come 1,05.

Usiamo ora il dataset Groceries per applicare l'algoritmo Apriori.

https://www.kaggle.com/code/falahrafi/groceries-asscociation-rule-apriori-algorithm