## <p style="background-color:#757D70;color:#D5CABD;font-size:110%;text-align:center;border-radius:20px 60px;  border: 10px solid #cfcfcf;  padding-top: 10px;  padding-left: 10px;  padding-right: 10px; padding-bottom: 10px;  border-radius: 80px 20px;line-height: 1.2em; margin-bottom: 10px;"> **Partie** :Règles d'association APRIORI   </p>

---
- Groupe 2
- Professeur : [**Sayoba GANSANE**]()
- Ecole : [**Université Alioune Diop de Bambey (UADB)**]()
- Projet: [**Data Mining Approche Informatique**]()
- Niveau :  [**Master 2 : Statistique et Informatique Decisionnel (SID)**]()



---

### Règles d’association avec l’algorithme APRIORI

**Objectif :**  
Mettre en évidence les associations fréquentes entre les produits achetés par les clients
afin d’identifier des opportunités de ventes croisées (cross-selling).

L’algorithme APRIORI permet d’extraire des règles d’association basées sur :
- le support,
- la confiance,
- le lift.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import skimpy

from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder


### Chargement des données

Les données utilisées ont été préalablement nettoyées lors de l’analyse descriptive.
Elles contiennent uniquement des transactions valides.


In [15]:
data = pd.read_csv("donnees_ecommerce_netoyer.csv", encoding="latin-1")

In [3]:
df= data.copy()
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Total_Prix,Month
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3,2010-12
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,2010-12
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0,2010-12
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,2010-12
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34,2010-12


In [4]:
skimpy.skim(df)

### Sélection des variables

Pour l’analyse des règles d’association, seules les informations suivantes sont nécessaires :
- identifiant de la transaction,
- description du produit.


In [5]:
df_apriori = df[["InvoiceNo", "Description"]]
df_apriori.head()


Unnamed: 0,InvoiceNo,Description
0,536365,WHITE HANGING HEART T-LIGHT HOLDER
1,536365,WHITE METAL LANTERN
2,536365,CREAM CUPID HEARTS COAT HANGER
3,536365,KNITTED UNION FLAG HOT WATER BOTTLE
4,536365,RED WOOLLY HOTTIE WHITE HEART.


### Construction des paniers d’achat

Chaque transaction est transformée en une liste de produits achetés.
Cette structure est indispensable pour appliquer l’algorithme APRIORI.


In [6]:
transactions = (
    df_apriori.groupby("InvoiceNo")["Description"]
    .apply(list)
    .tolist()
)

transactions[:5]


[['WHITE HANGING HEART T-LIGHT HOLDER',
  'WHITE METAL LANTERN',
  'CREAM CUPID HEARTS COAT HANGER',
  'KNITTED UNION FLAG HOT WATER BOTTLE',
  'RED WOOLLY HOTTIE WHITE HEART.',
  'SET 7 BABUSHKA NESTING BOXES',
  'GLASS STAR FROSTED T-LIGHT HOLDER'],
 ['HAND WARMER UNION JACK', 'HAND WARMER RED POLKA DOT'],
 ['ASSORTED COLOUR BIRD ORNAMENT',
  "POPPY'S PLAYHOUSE BEDROOM ",
  "POPPY'S PLAYHOUSE KITCHEN",
  'FELTCRAFT PRINCESS CHARLOTTE DOLL',
  'IVORY KNITTED MUG COSY ',
  'BOX OF 6 ASSORTED COLOUR TEASPOONS',
  'BOX OF VINTAGE JIGSAW BLOCKS ',
  'BOX OF VINTAGE ALPHABET BLOCKS',
  'HOME BUILDING BLOCK WORD',
  'LOVE BUILDING BLOCK WORD',
  'RECIPE BOX WITH METAL HEART',
  'DOORMAT NEW ENGLAND'],
 ['JAM MAKING SET WITH JARS',
  'RED COAT RACK PARIS FASHION',
  'YELLOW COAT RACK PARIS FASHION',
  'BLUE COAT RACK PARIS FASHION'],
 ['BATH BUILDING BLOCK WORD']]

### Encodage des transactions

Les paniers d’achat sont transformés en une matrice binaire (one-hot encoding),
où chaque colonne représente un produit et chaque ligne une transaction.


In [7]:
from mlxtend.preprocessing import TransactionEncoder

# On part de ton DataFrame 'data'
transactions = data.values.tolist()


In [8]:
# Nettoyer les transactions : supprimer les NaN et convertir en str
transactions = [
    [str(item) for item in transaction if pd.notna(item)]
    for transaction in transactions
]

In [9]:
print(df.columns)

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country', 'Total_Prix', 'Month'],
      dtype='object')


In [10]:
item_freq = df['Description'].value_counts(normalize=True)

items_frequents = item_freq[item_freq >= 0.01].index

df_filtre = df[df['Description'].isin(items_frequents)]

transactions = (
    df_filtre
    .groupby('InvoiceNo')['Description']
    .apply(list)
)


In [11]:
transactions.head()


Series([], Name: Description, dtype: object)

In [12]:
df.columns

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country', 'Total_Prix', 'Month'],
      dtype='object')