In [2]:
%pip install pandas numpy matplotlib seaborn openpyxl

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.2.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

In [4]:
# 1. Charger les données dans un DataFrame Pandas et afficher un aperçu général
df = pd.read_excel('ecommerce_transactions.xlsx')
print("Aperçu des données :")
print(df.head())
print("\nInformations générales :")
print(df.info())

Aperçu des données :
                         Transaction ID       Date  \
0  b90c55bf-2a79-431c-bc11-c1b8e764f780 2024-03-27   
1  d364d102-0604-4061-b0d2-aeb7d4495504 2024-05-31   
2  cfbcc1ff-8eb9-4349-bfee-c845793aec38 2025-01-02   
3  5fa27823-888d-42c4-b669-89339e2834fe 2024-08-01   
4  ea5fe267-5877-4d3a-a8b5-a07a9659a673 2024-08-06   

                              Client ID         Pays     Catégorie  Marque  \
0  2b9afa4c-e1ab-4d05-810c-e2342c26bffa       Gambia        Livres  accept   
1  91acae16-626a-4082-8879-fbe94b170368   Madagascar        Maison   quite   
2  009f5919-2d4f-4119-8a52-a624fe383028        Samoa     Vêtements   stock   
3  2fb01dc7-37de-4c69-95ce-e3a4ee1e34b6  El Salvador  Électronique  garden   
4  2e53eaca-a1d5-4eee-9819-3913d296bf01       Cyprus        Maison    song   

   Quantité  Prix unitaire (€) Méthode de paiement  Note client  \
0         2              41.20              PayPal          4.0   
1         3             354.36              PayPal 

In [None]:
# 2. Afficher les dimensions et types de colonnes

print("\nDimensions du DataFrame :", df.shape)
print("\nTypes des colonnes :")
print(df.dtypes)

['Transaction ID', 'Date', 'Client ID', 'Pays', 'Catégorie', 'Marque', 'Quantité', 'Prix unitaire (€)', 'Méthode de paiement', 'Note client', 'Montant total (€)']

Dimensions du DataFrame : (10000, 11)

Types des colonnes :
Transaction ID                 object
Date                   datetime64[ns]
Client ID                      object
Pays                           object
Catégorie                      object
Marque                         object
Quantité                        int64
Prix unitaire (€)             float64
Méthode de paiement            object
Note client                   float64
Montant total (€)             float64
dtype: object


In [None]:
# 3. Identifier les valeurs manquantes
print("\nValeurs manquantes par colonne :")
print(df.isnull().sum())

In [None]:
# 4. Supprimer les doublons
initial_rows = df.shape[0]
df = df.drop_duplicates()


In [7]:
# 5. Créer une colonne 'Année-Mois'
df['Date'] = pd.to_datetime(df['Date'])
df['Année-Mois'] = df['Date'].dt.to_period('M')

In [None]:
# 6. Les 5 pays générant le plus de chiffre d'affaires
top_countries = df.groupby('Pays')['Montant total (€)'].sum().nlargest(5)
print("Top 5 pays par chiffre d'affaires :")
print(top_countries)

In [None]:
# 7. Chiffre d'affaires par catégorie
ca_par_categorie = df.groupby('Catégorie')['Montant total (€)'].sum()
print("Chiffre d'affaires par catégorie :")
print(ca_par_categorie)


Chiffre d'affaires par catégorie :
Catégorie
Beauté          1088611.50
Jouets          1077596.12
Livres          1095512.08
Maison          1129628.11
Sport           1085520.34
Vêtements       1039763.06
Électronique    1089970.04
Name: Montant total (€), dtype: float64


In [None]:
# 8. Marques les plus vendues par catégorie (en quantité)
print("Marques les plus vendues par catégorie :")
for categorie in df['Catégorie'].unique():
    top_brand = df[df['Catégorie'] == categorie].groupby('Marque')['Quantité'].sum().nlargest(1)
    print(f"{categorie}: {top_brand.index[0]} ({top_brand.values[0]} unités)")


Marques les plus vendues par catégorie :
Livres: former (22 unités)
Maison: would (21 unités)
Vêtements: future (18 unités)
Électronique: group (25 unités)
Jouets: author (21 unités)
Sport: order (26 unités)
Beauté: station (27 unités)


In [None]:
# 9. Méthodes de paiement les plus utilisées par pays
print("Méthodes de paiement les plus utilisées par pays :")
top_payment_by_country = df.groupby(['Pays', 'Méthode de paiement']).size().groupby('Pays').idxmax()
print(top_payment_by_country)


Méthodes de paiement les plus utilisées par pays :
Pays
Afghanistan                     (Afghanistan, PayPal)
Albania                             (Albania, PayPal)
Algeria                     (Algeria, Carte bancaire)
American Samoa       (American Samoa, Carte bancaire)
Andorra                           (Andorra, Virement)
                                   ...               
Wallis and Futuna       (Wallis and Futuna, Virement)
Western Sahara               (Western Sahara, PayPal)
Yemen                          (Yemen, Cryptomonnaie)
Zambia                               (Zambia, PayPal)
Zimbabwe                         (Zimbabwe, Virement)
Length: 243, dtype: object


In [12]:
# 10. Dépense moyenne par client et top 10 clients
depense_moyenne = df.groupby('Client ID')['Montant total (€)'].mean()
top_clients = df.groupby('Client ID')['Montant total (€)'].sum().nlargest(10)
print("\nDépense moyenne par client :", depense_moyenne.mean())
print("\nTop 10 clients par chiffre d'affaires :")
print(top_clients)


Dépense moyenne par client : 760.660125

Top 10 clients par chiffre d'affaires :
Client ID
54dd8f81-9694-4b08-9ec3-b9b1ce7c71dd    2499.30
57ac7dde-87ab-4bc6-b1c9-8ef1f50043f2    2499.15
ac37e848-e0b4-4b99-bd1d-545d3ae6e2a4    2498.85
2d0f2807-6e64-47d6-89ca-c453497be584    2498.75
6125eb8b-7eec-4a21-852a-5251693005a5    2498.50
3e70243c-dc08-456c-a73f-81d1c6e2a508    2497.30
f442ea40-3616-496c-abce-d55afda46d7d    2495.95
cf00aa12-decc-41fa-baa5-4f28c45a95a5    2494.70
56aeeaa9-bbaa-400e-b685-20292ed23167    2492.65
6408b7f1-59a8-4d7c-811d-6fa2b800ff5c    2492.20
Name: Montant total (€), dtype: float64


In [13]:
# 11. Note moyenne par catégorie de marque et par pays
note_moyenne_categorie = df.groupby('Catégorie')['Note client'].mean()
note_moyenne_pays = df.groupby('Pays')['Note client'].mean()
print("\nNote moyenne par catégorie :")
print(note_moyenne_categorie)
print("\nNote moyenne par pays :")
print(note_moyenne_pays)


Note moyenne par catégorie :
Catégorie
Beauté          3.219279
Jouets          3.201481
Livres          3.229378
Maison          3.218635
Sport           3.172465
Vêtements       3.210256
Électronique    3.218006
Name: Note client, dtype: float64

Note moyenne par pays :
Pays
Afghanistan          3.170732
Albania              3.081633
Algeria              3.645161
American Samoa       3.326087
Andorra              3.214286
                       ...   
Wallis and Futuna    3.363636
Western Sahara       3.621622
Yemen                3.200000
Zambia               3.463415
Zimbabwe             3.422222
Name: Note client, Length: 243, dtype: float64


In [14]:
# 12. Commandes avec note manquante
commandes_sans_note = df[df['Note client'].isnull()]
print("\nCommandes sans note :", len(commandes_sans_note))
if not commandes_sans_note.empty:
    print("\nRépartition par catégorie :")
    print(commandes_sans_note['Catégorie'].value_counts())
    print("\nRépartition par pays :")
    print(commandes_sans_note['Pays'].value_counts().head(10))


Commandes sans note : 486

Répartition par catégorie :
Catégorie
Beauté          76
Électronique    74
Sport           74
Maison          73
Livres          70
Vêtements       64
Jouets          55
Name: count, dtype: int64

Répartition par pays :
Pays
Norfolk Island           7
Taiwan                   6
Rwanda                   6
French Guiana            6
Eritrea                  6
Cuba                     6
Sao Tome and Principe    5
Brazil                   5
Mali                     5
Yemen                    5
Name: count, dtype: int64


In [15]:
# 13. Statistiques des montants avec NumPy
montants = df['Montant total (€)'].values
print("\nStatistiques des montants :")
print("Moyenne :", np.mean(montants))
print("Médiane :", np.median(montants))
print("Écart-type :", np.std(montants))
print("Percentiles (25%, 50%, 75%) :", np.percentile(montants, [25, 50, 75]))


Statistiques des montants :
Moyenne : 760.660125
Médiane : 605.4749999999999
Écart-type : 595.9200987235239
Percentiles (25%, 50%, 75%) : [ 280.995  605.475 1142.76 ]


In [16]:
# 14. Colonne 'Client fidèle'
commandes_par_client = df['Client ID'].value_counts()
df['Client fidèle'] = df['Client ID'].map(lambda x: commandes_par_client[x] > 5)
print("\nNombre de clients fidèles :", df['Client fidèle'].sum())


Nombre de clients fidèles : 0


In [17]:
# 15. Graphique du chiffre d'affaires mensuel
ca_mensuel = df.groupby('Année-Mois')['Montant total (€)'].sum()
ca_mensuel.plot(kind='bar', figsize=(12, 6))
plt.title('Chiffre d\'affaires mensuel')
plt.ylabel('Montant total (€)')
plt.xlabel('Mois')
plt.tight_layout()
plt.savefig('ca_mensuel.png')
plt.close()

In [18]:
# 16. Pie chart des ventes par catégorie
ca_par_categorie.plot(kind='pie', autopct='%1.1f%%', figsize=(8, 8))
plt.title('Répartition des ventes par catégorie')
plt.ylabel('')
plt.tight_layout()
plt.savefig('ventes_par_categorie.png')
plt.close()

In [19]:
# 17. Boxplot des montants par méthode de paiement
plt.figure(figsize=(10, 6))
sns.boxplot(x='Méthode de paiement', y='Montant total (€)', data=df)
plt.title('Distribution des montants par méthode de paiement')
plt.tight_layout()
plt.savefig('montants_par_paiement.png')
plt.close()

In [20]:
# 18. Heatmap des notes moyennes (exemple simplifié)
# Note: Avec beaucoup de pays, on peut sélectionner les principaux
top_10_pays = df['Pays'].value_counts().nlargest(10).index
df_top_pays = df[df['Pays'].isin(top_10_pays)]
pivot_table = pd.pivot_table(df_top_pays, values='Note client', 
                           index='Pays', columns='Catégorie', aggfunc='mean')
plt.figure(figsize=(12, 8))
sns.heatmap(pivot_table, annot=True, cmap='YlGnBu')
plt.title('Notes moyennes par pays et catégorie (top 10 pays)')
plt.tight_layout()
plt.savefig('notes_heatmap.png')
plt.close()

In [21]:
# 19. Scatter plot quantité vs montant total
plt.figure(figsize=(10, 6))
plt.scatter(df['Quantité'], df['Montant total (€)'], alpha=0.5)
plt.title('Relation entre quantité et montant total')
plt.xlabel('Quantité')
plt.ylabel('Montant total (€)')
plt.tight_layout()
plt.savefig('quantite_vs_montant.png')
plt.close()

In [22]:
# 20. Sauvegarder le DataFrame nettoyé
# Traitement des valeurs manquantes
df['Note client'] = df.groupby('Catégorie')['Note client'].transform(lambda x: x.fillna(x.median()))
df = df.dropna(subset=['Pays', 'Catégorie', 'Méthode de paiement'])

df.to_excel('ecommerce_transactions_clean.xlsx', index=False)
print("\nNettoyage terminé et données sauvegardées dans 'ecommerce_transactions_clean.xlsx'")


Nettoyage terminé et données sauvegardées dans 'ecommerce_transactions_clean.xlsx'
