# Analyse de r√®gles d'association dans un magasin agroalimentaire
---

## Table des mati√®res

1. [Contexte et objectifs](#1-contexte-et-objectifs)
2. [Formulation du probl√®me](#2-formulation-du-probl√®me)
3. [Chargement et exploration des donn√©es](#3-chargement-et-exploration-des-donn√©es)
4. [Application de l'algorithme Apriori](#4-application-de-lalgorithme-apriori)
5. [Application de l'algorithme FP-Growth](#5-application-de-lalgorithme-fp-growth)
6. [Comparaison des algorithmes](#6-comparaison-des-algorithmes)
7. [Interpr√©tation et recommandations](#7-interpr√©tation-et-recommandations)
8. [Conclusion](#8-conclusion)

## **1. Contexte et objectifs**

### Contexte

Un magasin agroalimentaire souhaite optimiser l'attribution de promotions sur ses produits alimentaires. L'objectif est de mieux comprendre les habitudes d'achat des clients, en identifiant les produits qui sont fr√©quemment achet√©s ensemble.

### Objectifs p√©dagogiques

- D√©couvrir et manipuler les techniques de fouille de r√®gles d'association
- Comprendre les notions de **support**, **confiance** et **lift**
- Comparer deux algorithmes populaires : **Apriori** et **FP-Growth**
- Interpr√©ter les r√®gles obtenues et formuler des recommandations marketing

## **2. Formulation du probl√®me**

### D√©finition du probl√®me

Le probl√®me :

> **"Trouver des ensembles de produits fr√©quemment achet√©s ensemble, et identifier les r√®gles qui permettent de pr√©dire l'achat d'un produit √† partir de la pr√©sence d'autres produits dans le panier."**

### Repr√©sentation des donn√©es

Les tickets de caisse du magasin sont repr√©sent√©s sous forme de **transactions**, o√π chaque transaction correspond √† un panier d'achat contenant un ensemble de produits.

**Exemple de transaction :**
```
Transaction 1: {pain, fromage, vin}
Transaction 2: {lait, c√©r√©ales, jus}
```

### R√®gles d'association

Une r√®gle d'association a la forme : **A --> B**

- **A** (ant√©c√©dent) : produit(s) d√©j√† dans le panier
- **B** (cons√©quent) : produit(s) dont l'achat est pr√©dit

**Exemple :** `{pain, fromage} --> {vin}`

Cette r√®gle signifie : "Si un client ach√®te du pain et du fromage, il est probable qu'il ach√®te aussi du vin."

### M√©triques d'√©valuation

1. **Support** : Fr√©quence d'apparition des √©l√©ments ensemble
   - High support = combinaison fr√©quente
   - `Support(A --> B) = P(A ‚à™ B) = nombre de transactions contenant A et B / nombre total de transactions`
   - Ex.: Si 20 transactions sur 100 contiennent `{pain, beurre}`, le support est de 20% = 0,2.
   
2. **Confiance** : Probabilit√© que B apparaisse sachant que A est pr√©sent
   - Dans quelle mesure cette r√®gle est-elle fiable ? ¬´ Lorsque le produit A est achet√©, √† quelle fr√©quence le produit B est-il √©galement achet√© ? ¬ª
   - `Confiance(A --> B) = P(B|A) = Support(A ‚à™ B) / Support(A)`
   - Ex.: Si 80 % des personnes qui ach√®tent du pain ach√®tent aussi du beurre, le taux de confiance est de 0,8.

3. **Lift** : Force de l'association entre A et B
   - Cette association est-elle significative ou simplement al√©atoire ?
   - `Lift(A --> B) = Confiance(A --> B) / Support(B)`
   - Lift > 1 : corr√©lation positive (association int√©ressante)
   - Lift = 1 : pas de corr√©lation
   - Lift < 1 : corr√©lation n√©gative

## **3. Chargement et exploration des donn√©es**

### Import des biblioth√®ques

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import plotly.express as px
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Configure matplotlib for French display
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10
sns.set_style("whitegrid")

In [2]:
# Import my functions
import association_rules as ar

### Chargement des donn√©es

In [3]:
# Load and prepare data
filepath = 'transactions_promos.csv'
df_encoded, transactions = ar.load_and_prepare_data(filepath)

print("‚úì Donn√©es charg√©es et pr√©par√©es avec succ√®s")

‚úì Donn√©es charg√©es et pr√©par√©es avec succ√®s


### Exploration des donn√©es

In [4]:
# Display basic information about the dataset
ar.display_data_info(df_encoded, transactions)

INFORMATIONS SUR LES DONN√âES
Nombre total de transactions : 40
Nombre total de produits uniques : 44

Premi√®res transactions :
  Transaction 1: bread, butter, milk, eggs
  Transaction 2: bread, butter, jam
  Transaction 3: bread, milk, cereal
  Transaction 4: milk, cereal, banana
  Transaction 5: bread, cheese, tomato




### Fr√©quence des produits individuels

In [5]:
# Get item frequencies
item_freq = ar.get_item_frequencies(df_encoded)

print("=" * 60)
print("FR√âQUENCE DES PRODUITS INDIVIDUELS")
print("=" * 60)
print(item_freq.head(15).to_string(index=False))
print("=" * 60)

FR√âQUENCE DES PRODUITS INDIVIDUELS
     Produit  Fr√©quence  Support
       bread          9    0.225
        milk          9    0.225
      butter          6    0.150
    biscuits          5    0.125
       pasta          5    0.125
      cheese          5    0.125
      banana          4    0.100
        rice          4    0.100
      coffee          4    0.100
        eggs          4    0.100
         tea          4    0.100
       sugar          4    0.100
tomato_sauce          4    0.100
      tomato          4    0.100
      yogurt          3    0.075


### Visualisation des produits les plus fr√©quents

In [6]:
# Visualize top products
def frequent_products(top_products: pd.DataFrame):
    """
    Plot frequent products.
    
    Args:
        top_products: Dataframe with the frequency of each individual product
    """
    fig = px.bar(
        top_products, 
        x='Support', 
        y='Produit',
        orientation='h',
        title='Top 15 Produits les Plus Fr√©quents',
        text='Support'
    )

    fig.update_traces(
        marker_color='lightsteelblue',
        texttemplate='%{text:.2%}',
    )

    fig.update_layout(
        height=600,
        title_font_size=18,
        title_x=0.5,  ## to the middle
        xaxis_title='Support',
        yaxis_title='Produit',
        yaxis={'categoryorder':'total ascending'},
        template='plotly_white',
    )

    fig.show()

top_products = item_freq.head(15)
frequent_products(top_products)

#### **Observations:** 

**Produits dominants :**
- Le lait et le pain ont un support exceptionnellement √©lev√© (22,5%) compar√© √† tous les autres produits de la liste, apparaissant dans environ 1 transaction sur 4 (9 transactions sur 40)
- Ce sont des produits essentiels du quotidien

**Produits moins fr√©quents :**
- Le beurre avec 15% de support
- Le fromage, les p√¢tes et les biscuits avec 12,50% de support - apparaissant dans environ 1 transaction sur 8 (5 transactions sur 40)

**Insights :**
- Le top 15 des produits ne contient aucun article hautement sp√©cialis√© ou de niche
- La plupart des produits sont des ingr√©dients pour des repas de base :
  - **P√¢tisserie :** farine, beurre, sucre, oeufs, lait
  - **Repas froids :** pain, beurre, fromage, tomate, oeufs
  - **Moment go√ªter :** caf√©, th√©, biscuits, yaourt, sucre, banane, lait
  - **Bases culinaires :** lait, beurre, fromage, p√¢tes, sauce tomate, oeufs, riz

#### Implications / Hypoth√®ses sur les r√®gles d'association

- Le seuil de support devra √™tre fix√© en dessous de 20%, car seulement 2 produits ont des scores de support individuels d√©passant 20%. Par cons√©quent, il est peu probable que les combinaisons de produits atteignent un support sup√©rieur aux produits individuels.
- Les r√®gles impliquant le lait et le pain auront probablement des scores de support √©lev√©s.
- Il sera int√©ressant d'explorer les associations au sein des groupements d'ingr√©dients mentionn√©s ci-dessus (repas froids, moment go√ªter, bases culinaires/p√¢tisserie).

## **4. Application de l'algorithme Apriori**

### Principe de l'algorithme Apriori

L'algorithme **Apriori** utilise une approche it√©rative pour d√©couvrir les ensembles fr√©quents :
1. Trouver tous les 1-itemsets fr√©quents (produits individuels)
2. G√©n√©rer les candidats 2-itemsets √† partir des 1-itemsets
3. Calculer le support des candidats et filtrer
4. R√©p√©ter pour les 3-itemsets, 4-itemsets, etc.

**Propri√©t√© cl√© :** Si un itemset est infrequent, tous ses sur-ensembles sont aussi infrequents.

### D√©finition des seuils

La meilleure pratique pour d√©terminer les seuils de support et de confiance consiste √† consulter des experts du domaine et √† appliquer des valeurs qui ont du sens dans le contexte m√©tier sp√©cifique. Cependant, en l'absence d'expertise sectorielle, j'adopte une approche syst√©matique pour identifier les seuils optimaux : la **recherche par grille (grid search)**.

#### Objectifs de l'optimisation

Je cherche √† trouver un √©quilibre entre trois objectifs:

1. **Suffisamment de r√®gles** : Un nombre minimal de r√®gles (‚â• 10) est n√©cessaire pour obtenir des insights exploitables et identifier des patterns vari√©s dans les donn√©es.

2. **Pas trop de r√®gles** : Un nombre excessif de r√®gles (> 50) rend l'analyse difficile, et cr√©e de la redondance.

3. **R√®gles de haute qualit√©** : Les r√®gles doivent repr√©senter des associations r√©elles et significatives, pas simplement des coincidences statistiques.

#### Indicateurs de qualit√©

Comme mentionn√© pr√©c√©demment dans la formulation du probl√®me, le **lift** est l'indicateur cl√© pour √©valuer la qualit√© d'une r√®gle d'association :

- **Lift = 1** : Les produits apparaissent ensemble par pur hasard (absence d'association)
- **Lift > 1** : Corr√©lation positive - les produits sont achet√©s ensemble plus fr√©quemment que si les achats √©taient ind√©pendants
- **Lift >> 1** : Association forte

**Interpr√©tation pratique :** Un lift de 1.5 signifie que les clients ach√®tent ces produits ensemble 50% plus souvent que ce que le hasard pr√©dirait. Un lift de 2.0 indique qu'ils les ach√®tent ensemble deux fois plus souvent.

En plus du lift, j'analyse :
- Le **nombre total de r√®gles g√©n√©r√©es** pour √©valuer si mes seuils sont appropri√©s
- Le **lift moyen** de l'ensemble des r√®gles comme indicateur de qualit√© globale

#### Le compromis (trade-off)

Il existe un compromis dans le choix des seuils :

- **Support √©lev√© + Confiance √©lev√©e** --> Peu de r√®gles, mais tr√®s robustes et fiables
- **Support faible + Confiance faible** --> Beaucoup de r√®gles, mais risque d'inclure des associations faibles ou non pertinentes

L'objectif est de trouver l'√©quilibre : des seuils qui g√©n√®rent un nombre g√©rable de r√®gles tout en maximisant leur pertinence m√©tier (lift √©lev√©).

#### M√©thodologie de recherche

Je teste diff√©rentes combinaisons de seuils dans les plages suivantes :
- **Support** : de 5% √† 23% (adaptation √† la taille du dataset)
- **Confiance** : de 50% √† 80%

Pour chaque combinaison, j'√©value :
1. Le nombre de r√®gles g√©n√©r√©es
2. Le lift moyen de ces r√®gles
3. La pr√©sence de r√®gles avec un lift significativement sup√©rieur √† 1

Les seuils retenus seront ceux qui offrent le meilleur √©quilibre entre quantit√© et qualit√© de r√®gles.

In [7]:
# Test different threshold combinations
# support_values = np.round(np.linspace(0.05, 0.23, 19), 2).tolist()
support_values = np.round(np.linspace(0.05, 0.11, 7), 2).tolist()  ## step 0.01
confidence_values = np.round(np.linspace(0.50, 0.80, 7), 2).tolist()  ## step: 0.05

### Ex√©cution d'Apriori

In [8]:
results = []

for sup in support_values:
    for conf in confidence_values:
        itemsets, rules, time = ar.run_apriori(df_encoded, min_support=sup, min_confidence=conf, display=False)
        results.append({
            'support': sup,
            'confidence': conf,
            'num_itemsets': len(itemsets),
            'num_rules': len(rules),
            'avg_lift': rules['lift'].mean() if len(rules) > 0 else 0
        })

In [9]:
# Display results
results_df = pd.DataFrame(results)
print(results_df)

# Find the right parameters - good number of rules with high lift
results_df[results_df['num_rules'].between(5, 50)].sort_values('avg_lift', ascending=False)

    support  confidence  num_itemsets  num_rules  avg_lift
0      0.05        0.50            48         34  5.331155
1      0.05        0.55            48         18  6.008230
2      0.05        0.60            48         18  6.008230
3      0.05        0.65            48         17  6.204793
4      0.05        0.70            48          8  6.333333
5      0.05        0.75            48          7  6.761905
6      0.05        0.80            48          7  6.761905
7      0.06        0.50            25          6  4.901235
8      0.06        0.55            25          6  4.901235
9      0.06        0.60            25          6  4.901235
10     0.06        0.65            25          5  5.348148
11     0.06        0.70            25          4  5.944444
12     0.06        0.75            25          4  5.944444
13     0.06        0.80            25          3  6.814815
14     0.07        0.50            25          6  4.901235
15     0.07        0.55            25          6  4.9012

Unnamed: 0,support,confidence,num_itemsets,num_rules,avg_lift
6,0.05,0.8,48,7,6.761905
5,0.05,0.75,48,7,6.761905
4,0.05,0.7,48,8,6.333333
3,0.05,0.65,48,17,6.204793
1,0.05,0.55,48,18,6.00823
2,0.05,0.6,48,18,6.00823
10,0.06,0.65,25,5,5.348148
17,0.07,0.65,25,5,5.348148
0,0.05,0.5,48,34,5.331155
8,0.06,0.55,25,6,4.901235




Sur la base des r√©sultats de la recherche par grille, j'ai conclu que **support 0,05 (5%)** avec **confiance 0,65** offre le meilleur √©quilibre :

- L'algorithme ne peut trouver aucune r√®gle lorsque le support est √©gal ou sup√©rieur √† 0,11 (11%), ce qui signifie qu'il n'existe aucune combinaison de produits apparaissant plus de 4 fois ensemble dans le dataset. Ce seuil est bien trop restrictif pour un dataset aussi petit.

- √âtant donn√© la taille du dataset (40 transactions), un seuil de support de 5% signifie que les combinaisons de produits doivent appara√Ætre dans au moins 2 transactions, ce qui est raisonnable.

- 17 r√®gles sont g√©n√©r√©es avec une confiance de 65%, ce qui est suffisant pour l'analyse tout en maintenant une fiabilit√© √©lev√©e. Des seuils de confiance plus bas (0,60) produisent 18 r√®gles, mais le gain marginal est minimal, et une confiance plus √©lev√©e garantit des associations plus fiables.

- Le lift moyen est d'environ 6,2, ce qui indique des associations tr√®s fortes.

In [10]:
MIN_SUPPORT = 0.05     # 5% - at least 2 transactions out of 40
MIN_CONFIDENCE = 0.65  # 65% - will have 17 rules

In [11]:
# Run Apriori algorithm
apriori_itemsets, apriori_rules, apriori_time = ar.run_apriori(
    df_encoded, 
    min_support=MIN_SUPPORT, 
    min_confidence=MIN_CONFIDENCE
)

EX√âCUTION DE L'ALGORITHME APRIORI
Support minimal : 5.0%
Confiance minimale : 65.0%

Traitement en cours...
‚úì Termin√© en 0.0053 secondes
‚úì 48 ensembles fr√©quents trouv√©s
‚úì 17 r√®gles d'association g√©n√©r√©es



### Ensembles fr√©quents trouv√©s

In [12]:
# Display frequent itemsets
ar.display_frequent_itemsets(apriori_itemsets, top_n=15)


TOP 15 ENSEMBLES FR√âQUENTS (par support)
 1. {bread}                    | Support: 0.225 | Taille: 1
 2. {milk}                     | Support: 0.225 | Taille: 1
 3. {butter}                   | Support: 0.150 | Taille: 1
 4. {cheese}                   | Support: 0.125 | Taille: 1
 5. {pasta}                    | Support: 0.125 | Taille: 1
 6. {biscuits}                 | Support: 0.125 | Taille: 1
 7. {coffee}                   | Support: 0.100 | Taille: 1
 8. {banana}                   | Support: 0.100 | Taille: 1
 9. {eggs}                     | Support: 0.100 | Taille: 1
10. {pasta, tomato_sauce}      | Support: 0.100 | Taille: 2
11. {bread, butter}            | Support: 0.100 | Taille: 2
12. {tomato_sauce}             | Support: 0.100 | Taille: 1
13. {tea}                      | Support: 0.100 | Taille: 1
14. {tomato}                   | Support: 0.100 | Taille: 1
15. {sugar}                    | Support: 0.100 | Taille: 1



In [13]:
ar.display_frequent_list_itemsets(apriori_itemsets, top_n=15)

TOP 15 COMBINAISONS DE PRODUITS (taille > 1)
Nombre total d'itemsets: 48
Nombre d'itemsets de produits combin√©s: 24

 1. {bread, butter}            | Support: 0.100 | Taille: 2
 2. {pasta, tomato_sauce}      | Support: 0.100 | Taille: 2
 3. {bread, cheese}            | Support: 0.075 | Taille: 2
 4. {banana, milk}             | Support: 0.075 | Taille: 2
 5. {cereal, milk}             | Support: 0.075 | Taille: 2
 6. {biscuits, coffee}         | Support: 0.050 | Taille: 2
 7. {biscuits, tea}            | Support: 0.050 | Taille: 2
 8. {banana, cereal}           | Support: 0.050 | Taille: 2
 9. {bread, jam}               | Support: 0.050 | Taille: 2
10. {bread, eggs}              | Support: 0.050 | Taille: 2
11. {butter, eggs}             | Support: 0.050 | Taille: 2
12. {bread, milk}              | Support: 0.050 | Taille: 2
13. {butter, jam}              | Support: 0.050 | Taille: 2
14. {cheese, pasta}            | Support: 0.050 | Taille: 2
15. {cheese, tomato}           | Support: 

### R√®gles d'association g√©n√©r√©es

In [14]:
# Display association rules sorted by lift
ar.display_rules(apriori_rules, top_n=15, sort_by='lift')

Unnamed: 0,R√®gle,Support,Confiance,Lift
1,{flour} --> {eggs},0.05,1.0,10.0
2,"{cereal} --> {banana, milk}",0.05,0.666667,8.888889
3,"{banana, milk} --> {cereal}",0.05,0.666667,8.888889
4,{pasta} --> {tomato_sauce},0.1,0.8,8.0
5,"{bread, tomato} --> {cheese}",0.05,1.0,8.0
6,{tomato_sauce} --> {pasta},0.1,1.0,8.0
7,{cereal} --> {banana},0.05,0.666667,6.666667
8,{honey} --> {tea},0.05,0.666667,6.666667
9,"{bread, cheese} --> {tomato}",0.05,0.666667,6.666667
10,"{cereal, milk} --> {banana}",0.05,0.666667,6.666667


### Analyse de la qualit√© des r√®gles Apriori

In [15]:
# Analyse rule quality
apriori_quality = ar.analyse_rule_quality(apriori_rules)
ar.display_quality_analysis(apriori_quality)

ANALYSE DE LA QUALIT√â DES R√àGLES
Nombre total de r√®gles : 17

Corr√©lation positive (lift > 1) : 17 r√®gles
Corr√©lation n√©gative (lift < 1) : 0 r√®gles
Pas de corr√©lation (lift = 1)   : 0 r√®gles

Moyennes :
  Lift moyen       : 6.205
  Confiance moyenne: 0.797
  Support moyen    : 0.062



### Interpr√©tation des principales r√®gles Apriori

L'algorithme a g√©n√©r√© 17 r√®gles avec les seuils suivants :
- Support minimal : 5%
- Confiance minimale : 65%


#### R√®gles avec Lift > 8

**{flour} --> {eggs}** (support = 5%, confiance = 100%, lift = 10,0)
- Indique que tous les clients qui ach√®tent de la farine ach√®tent √©galement des oeufs
- Un lift de 10 signifie que cette paire appara√Æt 10 fois plus souvent que si les achats √©taient ind√©pendants
- Comme pr√©vu, ces produits sont des incontournables de la p√¢tisserie, il est donc coh√©rent qu'ils soient achet√©s ensemble

**{cereal} <--> {banana, milk}** (support = 5%, confiance = 67%, lift = 8,9)
- Lorsqu'un client ach√®te des c√©r√©ales, il y a 67% de chances qu'il ach√®te aussi des bananes et du lait, OU
- Lorsqu'un client ach√®te des bananes et du lait, il y a 67% de chances qu'il ach√®te aussi des c√©r√©ales
- Cela d√©montre une forte association bidirectionnelle entre les deux ensembles
- Bien que les c√©r√©ales ne figurent pas parmi les produits individuels les plus fr√©quents, ce trio repr√©sente un panier petit-d√©jeuner complet

**{pasta} <--> {tomato_sauce}** (support = 10%, confiance = 80-100%, lift = 8,0)
- Forte association bidirectionnelle entre les p√¢tes et la sauce tomate
- Tous les clients qui ach√®tent de la sauce tomate ach√®tent √©galement des p√¢tes (la confiance de {tomato_sauce} --> {pasta} est de 100%)

**{bread, tomato} --> {cheese}** (support = 5%, confiance = 100%, lift = 8,0)
- Lorsqu'un client ach√®te du pain et des tomates, il ach√®te toujours du fromage √©galement
- Sugg√®re fortement que ces articles sont consomm√©s ensemble comme un repas froid


#### Observations g√©n√©rales

1. **Th√®mes r√©currents** : Comme anticip√©, les r√®gles se regroupent autour d'occasions de repas sp√©cifiques - p√¢tisserie, petit-d√©jeuner/repas froids, cuisine, moment go√ªter, etc.

2. **Confiance √©lev√©e** : La majorit√© des r√®gles ont une confiance sup√©rieure √† 66%, ce qui les rend fiables pour g√©n√©rer des recommandations

3. **Associations logiques** : Un plan de repas coh√©rent peut √™tre d√©duit des r√®gles

4. **Bidirectionnalit√©** : Indique des associations particuli√®rement fortes entre les produits

**Conclusion** : Ces r√®gles sont fiables et constituent une base solide pour des recommandations marketing √©clair√©es.

## **5. Application de l'algorithme FP-Growth**

### Principe de l'algorithme FP-Growth

L'algorithme **FP-Growth** (Frequent Pattern Growth) utilise une structure de donn√©es compacte appel√©e **FP-Tree** :

1. Construction du FP-Tree √† partir des transactions
2. Extraction r√©cursive des patterns fr√©quents
3. Pas de g√©n√©ration de candidats (contrairement √† Apriori)

### Ex√©cution de FP-Growth

In [16]:
# Run FP-Growth algorithm with same parameters
fpgrowth_itemsets, fpgrowth_rules, fpgrowth_time = ar.run_fpgrowth(
    df_encoded, 
    min_support=MIN_SUPPORT, 
    min_confidence=MIN_CONFIDENCE
)

EX√âCUTION DE L'ALGORITHME FP-GROWTH
Support minimal : 5.0%
Confiance minimale : 65.0%

Traitement en cours...
‚úì Termin√© en 0.0086 secondes
‚úì 48 ensembles fr√©quents trouv√©s
‚úì 17 r√®gles d'association g√©n√©r√©es



### Ensembles fr√©quents trouv√©s

In [17]:
# Display frequent itemsets
ar.display_frequent_itemsets(fpgrowth_itemsets, top_n=15)


TOP 15 ENSEMBLES FR√âQUENTS (par support)
 1. {bread}                    | Support: 0.225 | Taille: 1
 2. {milk}                     | Support: 0.225 | Taille: 1
 3. {butter}                   | Support: 0.150 | Taille: 1
 4. {cheese}                   | Support: 0.125 | Taille: 1
 5. {biscuits}                 | Support: 0.125 | Taille: 1
 6. {pasta}                    | Support: 0.125 | Taille: 1
 7. {eggs}                     | Support: 0.100 | Taille: 1
 8. {banana}                   | Support: 0.100 | Taille: 1
 9. {coffee}                   | Support: 0.100 | Taille: 1
10. {rice}                     | Support: 0.100 | Taille: 1
11. {tomato_sauce}             | Support: 0.100 | Taille: 1
12. {tomato}                   | Support: 0.100 | Taille: 1
13. {sugar}                    | Support: 0.100 | Taille: 1
14. {pasta, tomato_sauce}      | Support: 0.100 | Taille: 2
15. {bread, butter}            | Support: 0.100 | Taille: 2



In [18]:
ar.display_frequent_list_itemsets(apriori_itemsets, top_n=15)

TOP 15 COMBINAISONS DE PRODUITS (taille > 1)
Nombre total d'itemsets: 48
Nombre d'itemsets de produits combin√©s: 24

 1. {bread, butter}            | Support: 0.100 | Taille: 2
 2. {pasta, tomato_sauce}      | Support: 0.100 | Taille: 2
 3. {bread, cheese}            | Support: 0.075 | Taille: 2
 4. {banana, milk}             | Support: 0.075 | Taille: 2
 5. {cereal, milk}             | Support: 0.075 | Taille: 2
 6. {biscuits, coffee}         | Support: 0.050 | Taille: 2
 7. {biscuits, tea}            | Support: 0.050 | Taille: 2
 8. {banana, cereal}           | Support: 0.050 | Taille: 2
 9. {bread, jam}               | Support: 0.050 | Taille: 2
10. {bread, eggs}              | Support: 0.050 | Taille: 2
11. {butter, eggs}             | Support: 0.050 | Taille: 2
12. {bread, milk}              | Support: 0.050 | Taille: 2
13. {butter, jam}              | Support: 0.050 | Taille: 2
14. {cheese, pasta}            | Support: 0.050 | Taille: 2
15. {cheese, tomato}           | Support: 

### R√®gles d'association g√©n√©r√©es

In [19]:
# Display association rules sorted by lift
ar.display_rules(fpgrowth_rules, top_n=15, sort_by='lift')

Unnamed: 0,R√®gle,Support,Confiance,Lift
1,{flour} --> {eggs},0.05,1.0,10.0
2,"{banana, milk} --> {cereal}",0.05,0.666667,8.888889
3,"{cereal} --> {banana, milk}",0.05,0.666667,8.888889
4,{pasta} --> {tomato_sauce},0.1,0.8,8.0
5,{tomato_sauce} --> {pasta},0.1,1.0,8.0
6,"{bread, tomato} --> {cheese}",0.05,1.0,8.0
7,"{bread, cheese} --> {tomato}",0.05,0.666667,6.666667
8,{cereal} --> {banana},0.05,0.666667,6.666667
9,"{cereal, milk} --> {banana}",0.05,0.666667,6.666667
10,{honey} --> {tea},0.05,0.666667,6.666667


### Analyse de la qualit√© des r√®gles FP-Growth

In [20]:
# Analyse rule quality
fpgrowth_quality = ar.analyse_rule_quality(fpgrowth_rules)
ar.display_quality_analysis(fpgrowth_quality)

ANALYSE DE LA QUALIT√â DES R√àGLES
Nombre total de r√®gles : 17

Corr√©lation positive (lift > 1) : 17 r√®gles
Corr√©lation n√©gative (lift < 1) : 0 r√®gles
Pas de corr√©lation (lift = 1)   : 0 r√®gles

Moyennes :
  Lift moyen       : 6.205
  Confiance moyenne: 0.797
  Support moyen    : 0.062



## **6. Comparaison des algorithmes**

### Tableau comparatif

In [21]:
# Compare algorithms
comparison = ar.compare_algorithms(
    (apriori_itemsets, apriori_rules, apriori_time),
    (fpgrowth_itemsets, fpgrowth_rules, fpgrowth_time)
)

ar.display_comparison(comparison)

COMPARAISON DES ALGORITHMES
             M√©trique Apriori FP-Growth
  Ensembles fr√©quents      48        48
      R√®gles g√©n√©r√©es      17        17
Temps d'ex√©cution (s)  0.0053    0.0086
     Vitesse relative   1.00x     0.62x



### Analyse comparative

#### Similarit√©s

Les deux algorithmes produisent des r√©sultats identiques :
- 48 ensembles fr√©quents
- 17 r√®gles qui sont identiques
- Qualit√© identique : lift moyen de 6,205, confiance moyenne de 79,7%, support moyen de 6,2%

**Conclusion** : Les deux algorithmes impl√©mentent la m√™me logique de d√©couverte de patterns fr√©quents ; par cons√©quent, avec des seuils identiques, ils produisent n√©cessairement les m√™mes r√©sultats.

#### Diff√©rences

Les algorithmes diff√®rent au niveau des performances :
- La vitesse de FP-Growth varie consid√©rablement. Sur 10 ex√©cutions, j'ai observ√© qu'il √©tait plus rapide qu'Apriori une seule fois.
- En moyenne, Apriori est 30-50% plus rapide que FP-Growth

Il s'agit d'un comportement inattendu, car FP-Growth est g√©n√©ralement consid√©r√© comme plus efficace parce qu'il ne g√©n√®re pas de candidats. Cependant, compte tenu de la taille du dataset, ce r√©sultat n'est pas surprenant : **FP-Growth performe mieux sur les grands datasets.**

Avec seulement 40 transactions, le co√ªt de construction du FP-Tree d√©passe les avantages de ne pas g√©n√©rer de candidats. L'approche plus simple d'Apriori est plus efficace pour des datasets tr√®s petits.

### Avantages de FP-Growth

- **Pas de g√©n√©ration de candidats** : Extrait les patterns fr√©quents directement de la structure arborescente
- **Structure compacte** : Le FP-Tree repr√©sente les transactions de mani√®re condens√©e, √©vitant les lectures multiples de la base de donn√©es
- **Scalabilit√©** : Fonctionne extr√™mement bien sur les grands datasets (>1000 transactions), car il construit l'arbre de d√©cision une fois puis le parcourt simplement

## **7. Interpr√©tation et recommandations**
### G√©n√©ration des recommandations marketing bas√©es sur les 5 principales r√®gles

In [22]:
# Generate marketing recommendations
recommendations = ar.generate_recommendations(apriori_rules, min_lift=1.2, top_n=5)
ar.display_recommendations(recommendations)

RECOMMANDATIONS MARKETING
üìå Recommandation 1:
   R√®gle : {flour} --> {eggs}
   Lift : 10.000 | Confiance : 1.000 | Support : 0.050
   üí° Proposer une promotion group√©e : {flour} + {eggs}

üìå Recommandation 2:
   R√®gle : {cereal} --> {banana, milk}
   Lift : 8.889 | Confiance : 0.667 | Support : 0.050
   üí° Proposer une promotion group√©e : {cereal} + {banana, milk}

üìå Recommandation 3:
   R√®gle : {banana, milk} --> {cereal}
   Lift : 8.889 | Confiance : 0.667 | Support : 0.050
   üí° Proposer une promotion group√©e : {banana, milk} + {cereal}

üìå Recommandation 4:
   R√®gle : {pasta} --> {tomato_sauce}
   Lift : 8.000 | Confiance : 0.800 | Support : 0.100
   üí° Proposer une promotion group√©e : {pasta} + {tomato_sauce}

üìå Recommandation 5:
   R√®gle : {bread, tomato} --> {cheese}
   Lift : 8.000 | Confiance : 1.000 | Support : 0.050
   üí° Proposer une promotion group√©e : {bread, tomato} + {cheese}





### Strat√©gies marketing propos√©es

Sur la base des r√®gles d√©couvertes, je propose les strat√©gies suivantes :

#### 1. Promotions group√©es

Je propose d'offrir des promotions sur les groupes suivants, lorsqu'ils sont achet√©s ensemble :

- **Pack "P√¢tisserie maison"** : Farine + oeufs (bas√© sur la r√®gle {flour} --> {eggs}, lift = 10,0)
- **Pack "D√Æner italien"** : P√¢tes + sauce tomate (bas√© sur la r√®gle {tomato_sauce} --> {pasta}, lift = 8,0)
- **Pack "Petit-d√©jeuner"** : C√©r√©ales + lait (bas√© sur la r√®gle {cereal} --> {milk}, lift = 4,44)

#### 2. Placement en rayon

- Placer les p√¢tes sur la m√™me ligne que la sauce tomate (forte association bidirectionnelle)
- Placer les c√©r√©ales √† proximit√© du lait, cr√©ant une zone petit-d√©jeuner
- Cr√©er une zone go√ªter, avec le th√© et le miel √† proximit√©

#### 3. Recommandations personnalis√©es

- Lorsqu'un client place un article dans son panier, sugg√©rer des articles avec lesquels il a une corr√©lation selon les r√®gles, par exemple :
    - achat de farine --> sugg√©rer des oeufs
    - achat de sauce tomate --> sugg√©rer diff√©rents types de p√¢tes
    - achat de c√©r√©ales --> sugg√©rer du lait et des bananes
    - achat de pain --> sugg√©rer du fromage et des tomates
- Inclure les paires mentionn√©es ci-dessus dans les programmes de fid√©lit√© en fonction de leurs habitudes d'achat

#### 4. R√®gles int√©ressantes

- Il y a 75% de chances qu'un client ach√®te du lait lorsqu'il ach√®te des bananes (r√®gle : {banana} --> {milk}, lift = 3,33). Ceci n'est pas vraiment surprenant mais plut√¥t remarquable, car ce n'est pas une paire √©vidente.

**Conclusion** : La majorit√© des r√®gles sont coh√©rentes, ce qui valide la qualit√© du dataset et confirme que les clients ont un plan de repas en t√™te lorsqu'ils font leurs courses. La paire banane + lait repr√©sente la minorit√© qui pourrait √™tre int√©ress√©e par des repas plus sp√©cifiques, tels que des smoothies (et non de simples spaghettis bolognaise ou da la tartine √† la confiture).