# Definition du dataset Toy_dataset

In [1]:
toy_dataset = [
    ['Skirt', 'Sneakers', 'Scarf', 'Pants', 'Hat'],
    ['Sunglasses', 'Skirt', 'Sneakers', 'Pants', 'Hat'],
    ['Dress', 'Sandals', 'Scarf', 'Pants', 'Heels'],
    ['Dress', 'Necklace', 'Earrings', 'Scarf', 'Hat', 'Heels', 'Hat'],
    ['Earrings', 'Skirt', 'Skirt', 'Scarf', 'Shirt', 'Pants']
]


# Encodage des transactions

In [2]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

# Toy dataset
toy_dataset = [['Skirt', 'Sneakers', 'Scarf', 'Pants', 'Hat'],
               ['Sunglasses', 'Skirt', 'Sneakers', 'Pants', 'Hat'],
               ['Dress', 'Sandals', 'Scarf', 'Pants', 'Heels'],
               ['Dress', 'Necklace', 'Earrings', 'Scarf', 'Hat', 'Heels', 'Hat'],
               ['Earrings', 'Skirt', 'Skirt', 'Scarf', 'Shirt', 'Pants']]

# Transformer en one-hot encoding
te = TransactionEncoder()
te_ary = te.fit(toy_dataset).transform(toy_dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

# Appliquer apriori avec un support minimum (ex: 0.6)
frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True)

print("Itemsets fr√©quents:")
print(frequent_itemsets)

# G√©n√©rer les r√®gles avec confiance >= 0.7
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

print("\nR√®gles d'association:")
print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']])


Itemsets fr√©quents:
   support        itemsets
0      0.6           (Hat)
1      0.8         (Pants)
2      0.8         (Scarf)
3      0.6         (Skirt)
4      0.6  (Scarf, Pants)
5      0.6  (Pants, Skirt)

R√®gles d'association:
  antecedents consequents  support  confidence    lift
0     (Scarf)     (Pants)      0.6        0.75  0.9375
1     (Pants)     (Scarf)      0.6        0.75  0.9375
2     (Pants)     (Skirt)      0.6        0.75  1.2500
3     (Skirt)     (Pants)      0.6        1.00  1.2500


(Scarf) ‚áí (Pants)	0.60	0.75	0.94 , 75% des transactions contenant une √©charpe contiennent aussi un pantalon.
 ! Mais le lift < 1 signifie que cette association est plus faible que le hasard, donc l‚Äôachat des deux ensemble n‚Äôest pas particuli√®rement significatif.
Pants) ‚áí (Scarf)	0.60	0.75	0.94 75% des transactions contenant un pantalon contiennent aussi une √©charpe.
 ! Lift < 1 √©galement, donc m√™me analyse : association faible malgr√© la confiance.
(Pants) ‚áí (Skirt)	0.60	0.75	1.25 , 75% des acheteurs de pantalon ach√®tent aussi une jupe.
 ! Le lift > 1 montre une association positive, les deux produits sont achet√© ensemble plus souvent que par hasard.
(Skirt) ‚áí (Pants)	0.60	1.00	1.25 , 100% des acheteurs de jupe ach√®tent aussi un pantalon.
 Confiance maximale (1.0) + lift > 1 : c‚Äôest une tr√®s forte r√®gle d‚Äôassociation. Cela peut justifier une offre group√©e ou un bundle.

# Exploration de l'ensemble des donn√©es du checkpoint 

In [12]:
#  √âtape 1 : Importations
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

#  √âtape 2 : Chargement et transformation des donn√©es
df = pd.read_csv("Market_Basket_Optimisation.csv", header=None)

# Cr√©ation de la liste des transactions
transactions = []
for i in range(df.shape[0]):
    transactions.append([str(item).strip() for item in df.iloc[i] if pd.notna(item)])

# √âtape 3 : Encodage avec TransactionEncoder
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df_encoded = pd.DataFrame(te_ary, columns=te.columns_)

# √âtape 4 : Algorithme Apriori
frequent_itemsets = apriori(df_encoded, min_support=0.01, use_colnames=True)

#  √âtape 5 : G√©n√©ration des r√®gles d'association
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

#  √âtape 6 : Filtrage et nettoyage pour affichage clair
rules_filtered = rules[
    (rules['lift'] > 2) & 
    (rules['confidence'] > 0.4) & 
    (rules['support'] > 0.01)
].sort_values(by='lift', ascending=False)

# Conversion frozenset ‚Üí texte simple
rules_filtered['antecedents'] = rules_filtered['antecedents'].apply(lambda x: ', '.join(list(x)))
rules_filtered['consequents'] = rules_filtered['consequents'].apply(lambda x: ', '.join(list(x)))

# Arrondir les m√©triques
rules_filtered[['support', 'confidence', 'lift']] = rules_filtered[['support', 'confidence', 'lift']].round(3)

#  √âtape 7 : Affichage final des r√®gles
rules_display = rules_filtered[['antecedents', 'consequents', 'support', 'confidence', 'lift']]
print(" R√®gles d'association les plus fortes :\n")
print(rules_display.head(10))


üìä R√®gles d'association les plus fortes :

                    antecedents    consequents  support  confidence   lift
384  ground beef, mineral water      spaghetti    0.017       0.417  2.395
342           eggs, ground beef  mineral water    0.010       0.507  2.126
376           milk, ground beef  mineral water    0.011       0.503  2.110


1. ground beef + mineral water ‚Üí spaghetti
Support : 1.7% des paniers.

Confidence : 41.7% des clients qui ach√®tent du b≈ìuf hach√© et de l‚Äôeau min√©rale ach√®tent aussi des spaghettis.

Lift : 2.395 ‚Üí Ils ach√®tent spaghetti 2,4 fois plus souvent que par hasard.

 Interpr√©tation :

Ces trois produits semblent li√©s √† la pr√©paration d‚Äôun repas complet (plat de p√¢te + viande + boisson). Cela sugg√®re qu‚Äôils sont souvent achet√©s ensemble.

 Proposition :

Mettre en avant un "Pack repas familial" : 1kg de spaghetti + 500g de b≈ìuf + 2 bouteilles d‚Äôeau √† prix r√©duit.

2. eggs + ground beef ‚Üí mineral water
Support : 1.0% des paniers.

Confidence : 50.7%

Lift : 2.126

 Interpr√©tation :

Les clients qui prennent des ≈ìufs et du b≈ìuf hach√© prennent tr√®s souvent aussi de l‚Äôeau min√©rale. On peut supposer qu‚Äôils pr√©parent un repas ou font leurs courses principales.

 Proposition :

Cr√©er un rayon ‚Äúrepas √©quilibr√©‚Äù combinant prot√©ines animales + eau min√©rale. √âventuellement proposer des offres fid√©lit√© cibl√©es.

3. milk + ground beef ‚Üí mineral water
Support : 1.1%

Confidence : 50.3%

Lift : 2.110

 Interpr√©tation :

Ici encore, l‚Äôeau min√©rale revient d√®s qu‚Äôil y a des produits frais ou de base. Cela peut traduire un comportement d‚Äôachat ‚Äúfamilial‚Äù ou ‚Äúhebdomadaire‚Äù.

 Proposition :

Cr√©er un pack ‚Äúpanier frais‚Äù : lait + viande + eau. Ces produits peuvent √™tre regroup√©s en t√™te de gondole.

