<a href="https://colab.research.google.com/github/Hamza-Chekireb/Artificial-Intelligence-Data-Science-Data-Analysis-Portfolio/blob/main/Market_Basket_Analysis_using_Apriori_Algorithm_in_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import mlxtend # Importer la bibliothèque MLxtend
import pandas as pd # Importer la bibliothèque pandas pour manipuler les données sous forme de DataFrame
from mlxtend.preprocessing import TransactionEncoder # Importer TransactionEncoder pour transformer notre ensemble de données en une matrice binaire
te = TransactionEncoder() # Instancier TransactionEncoder
dataset = [['bread', 'milk', 'cheese'], # Définition de notre ensemble de données sous forme de liste de listes
           ['bread', 'milk'],
           ['bread', 'butter'],
           ['milk', 'butter'],
           ['bread', 'milk', 'butter'],
           ['bread', 'cheese'],
           ['milk', 'cheese'],
           ['bread', 'milk', 'cheese', 'butter']]
te_ary = te.fit(dataset).transform(dataset) # Appliquer l'encodage binaire à notre ensemble de données
df = pd.DataFrame(te_ary, columns=te.columns_) # Créer un DataFrame à partir de la matrice binaire pour faciliter la manipulation
df


Unnamed: 0,bread,butter,cheese,milk
0,True,False,True,True
1,True,False,False,True
2,True,True,False,False
3,False,True,False,True
4,True,True,False,True
5,True,False,True,False
6,False,False,True,True
7,True,True,True,True


Le code ci-dessus génère une matrice binaire à partir de l'ensemble de données dataset en utilisant la classe ***TransactionEncoder*** de la bibliothèque **mlxtend**. La matrice binaire est ensuite convertie en un **DataFrame** pour faciliter la manipulation des données. Le DataFrame est stocké dans la variable df.



In [2]:
from mlxtend.frequent_patterns import apriori # Importer la fonction apriori pour appliquer l'algorithme Apriori
apriori(df, min_support=0.)

frequent_itemsets = apriori(df, min_support=0., use_colnames=True) # Appliquer l'algorithme Apriori pour extraire les ensembles d'articles fréquents avec un support minimum de 0. 
# Use_colnames est mis à true pour utiliser les noms des articles au lieu des index de colonnes pour une meilleure compréhension
frequent_itemsets


Unnamed: 0,support,itemsets
0,0.75,(bread)
1,0.5,(butter)
2,0.5,(cheese)
3,0.75,(milk)
4,0.375,"(butter, bread)"
5,0.375,"(cheese, bread)"
6,0.5,"(milk, bread)"
7,0.125,"(cheese, butter)"
8,0.375,"(butter, milk)"
9,0.375,"(cheese, milk)"


Les deux premières lignes appliquent l'algorithme **Apriori** à notre **DataFrame** pour extraire les ensembles d'articles fréquents avec un support minimum de 0. La fonction apriori renvoie un **DataFrame** contenant tous les ensembles d'articles fréquents avec leur support. Le paramètre ***use_colnames*** est réglé sur **True** pour utiliser les noms d'articles plutôt que les indices de colonnes.

In [3]:
from mlxtend.frequent_patterns import association_rules # Importer la fonction association_rules pour extraire les règles d'association
association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7) # Extraire les règles d'association avec une confiance minimale de 0,7


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(butter),(bread),0.5,0.75,0.375,0.75,1.0,0.0,1.0
1,(cheese),(bread),0.5,0.75,0.375,0.75,1.0,0.0,1.0
2,(butter),(milk),0.5,0.75,0.375,0.75,1.0,0.0,1.0
3,(cheese),(milk),0.5,0.75,0.375,0.75,1.0,0.0,1.0
4,"(cheese, butter)",(bread),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
5,"(cheese, butter)",(milk),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
6,"(cheese, butter, bread)",(milk),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
7,"(cheese, butter, milk)",(bread),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
8,"(cheese, butter)","(milk, bread)",0.125,0.5,0.125,1.0,2.0,0.0625,inf


La troisième ligne extrait les règles d'association à partir des ensembles d'articles fréquents en utilisant la fonction ***association_rules*** de **mlxtend**. La fonction prend comme entrée les ensembles d'articles fréquents et le paramètre metric est réglé sur "confidence", ce qui signifie que les règles d'association avec une confiance supérieure à 0,7 seront extraites.



In [4]:
from mlxtend.frequent_patterns import association_rules # Importer la fonction association_rules pour extraire les règles d'association
association_rules(frequent_itemsets, metric="lift",min_threshold=1.25)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,"(cheese, butter)",(bread),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
1,(bread),"(cheese, butter)",0.75,0.125,0.125,0.166667,1.333333,0.03125,1.05
2,"(cheese, butter)",(milk),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
3,(milk),"(cheese, butter)",0.75,0.125,0.125,0.166667,1.333333,0.03125,1.05
4,"(cheese, butter, bread)",(milk),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
5,"(cheese, butter, milk)",(bread),0.125,0.75,0.125,1.0,1.333333,0.03125,inf
6,"(cheese, butter)","(milk, bread)",0.125,0.5,0.125,1.0,2.0,0.0625,inf
7,"(milk, bread)","(cheese, butter)",0.5,0.125,0.125,0.25,2.0,0.0625,1.166667
8,(bread),"(cheese, butter, milk)",0.75,0.125,0.125,0.166667,1.333333,0.03125,1.05
9,(milk),"(cheese, butter, bread)",0.75,0.125,0.125,0.166667,1.333333,0.03125,1.05


Enfin, la dernière ligne extrait les règles d'association en utilisant la métrique "lift". Cette métrique calcule la probabilité de trouver deux articles ensemble plutôt qu'un seul article. Le paramètre min_threshold est défini à 1,25, ce qui signifie que seules les règles d'association avec un lift supérieur à 1,25 seront extraites. En modifiant les paramètres min_support et min_threshold, nous pouvons ajuster la sensibilité de notre analyse et extraire différentes règles d'association. Les résultats peuvent être utilisés pour mieux comprendre les comportements d'achat des clients, pour améliorer l'organisation des produits en magasin ou pour proposer des offres groupées aux clients.
