In [1]:
import pandas as pd

# Changement de l'affichage des float pour eviter e+..
pd.options.display.float_format = '{:.5f}'.format

df = pd.read_csv("./KaDo.csv")
df.head()

Unnamed: 0,TICKET_ID,MOIS_VENTE,PRIX_NET,FAMILLE,UNIVERS,MAILLE,LIBELLE,CLI_ID
0,35592159,10,1.67,HYGIENE,HYG_DOUCHE JARDINMONDE,HYG_JDM,GD JDM4 PAMPLEMOUSSE FL 200ML,1490281
1,35592159,10,1.66,HYGIENE,HYG_DOUCHE JARDINMONDE,HYG_JDM,GD JDM4 PAMPLEMOUSSE FL 200ML,1490281
2,35592159,10,7.45,SOINS DU VISAGE,VIS_CJOUR Jeunes Specifique,VIS_JEUNE_ET_LEVRE,CR JR PARF BIO.SPE AC.SENT.50ML,1490281
3,35592159,10,5.95,SOINS DU VISAGE,VIS_DEMAQ AAAR,VIS_AAAR_DEMAQLOTION,EAU MICELLAIRE 3 THES FL200ML,1490281
4,35592159,10,1.67,HYGIENE,HYG_DOUCHE JARDINMONDE,HYG_JDM,GD JDM4 TIARE FL 200ML,1490281


In [2]:
# Dimension nombre de ligne/commandes et nombre de colonne
df.shape

(7245522, 8)

In [3]:
# Vérification des types pour voir si il n'y a pas de conversion à faire
df.dtypes

TICKET_ID       int64
MOIS_VENTE      int64
PRIX_NET      float64
FAMILLE        object
UNIVERS        object
MAILLE         object
LIBELLE        object
CLI_ID          int64
dtype: object

In [4]:
# Nombre de client
nombre_clients = len(df["CLI_ID"].unique())
print(f"Nombre de client: {nombre_clients}")

Nombre de client: 853514


In [16]:
# Statistique général sur le prix
prix_max = df["PRIX_NET"].max()
prix_min = df["PRIX_NET"].min()
prix_moyen = df["PRIX_NET"].mean()
benef = df["PRIX_NET"].sum()

print(f"Prix max: {prix_max}€, min: {prix_min}€, moyen: {prix_moyen}€")
print(f"Bénéfice total: {benef}€")

Prix max: 1575.0€, min: 0.01€, moyen: 5.970083615783657€
Bénéfice total: 43256372.18000003€


In [6]:
# Statistique général sur les commandes
nombre_commande_max = df["CLI_ID"].value_counts().max()
nombre_commande_min = df["CLI_ID"].value_counts().min()
nombre_commande_moyen = df["CLI_ID"].value_counts().mean()

print(f"Par client, nombre max de commande: {nombre_commande_max}, min: {nombre_commande_min}, moyenne: {nombre_commande_moyen}")

Par client, nombre max de commande: 834, min: 1, moyenne: 8.489048802948751


In [7]:
# Commande la plus chère
df.loc[df["PRIX_NET"] == df["PRIX_NET"].max()]

Unnamed: 0,TICKET_ID,MOIS_VENTE,PRIX_NET,FAMILLE,UNIVERS,MAILLE,LIBELLE,CLI_ID
5085421,33107984,1,1575.0,PARFUMAGE,PARF_PARF ET EAU DE PARF,PARF_PARFUM,EDP EVIDENCE VAPO 100ML,990122959


In [8]:
# Somme total dépensé par chaque client
df.groupby(['CLI_ID'])["PRIX_NET"].sum()

CLI_ID
1490281      18.40000
13290776     55.50000
20163348      7.45000
20200041      6.70000
20561854      7.05000
20727324     13.25000
20791601     23.80000
21046542    166.20000
21239163     12.65000
21351166      7.40000
21497331     33.35000
21504227      1.95000
21514622     17.90000
69813934    117.70000
71891681     44.25000
85057203     23.50000
85841284    162.25000
90822328     92.05000
93806295      6.00000
100023116     9.60000
100064590   108.30000
126716008    26.50000
131204016    37.85000
169985247   186.59000
191914645     7.50000
195207210   110.15000
206111880     6.15000
242424645     5.00000
243624087    31.15000
275493987   204.25000
               ...   
997048464   177.65000
997048472     5.00000
997048480   216.75000
997048498    89.80000
997048505     5.00000
997048513    31.85000
997048539    41.75000
997048547    43.95000
997048555    17.60000
997048563     8.90000
997048571    20.40000
997048589     3.50000
997048597   307.50000
997048604    15.95000
997

In [9]:
# Meilleur client
df.groupby("CLI_ID").agg({"PRIX_NET": "sum"}).sort_values(by='PRIX_NET', ascending=False).head(1)

Unnamed: 0_level_0,PRIX_NET
CLI_ID,Unnamed: 1_level_1
967051620,13536.95


In [10]:
# Du mois le plus rentable au mois le moins rentable
df.groupby("MOIS_VENTE").agg({"PRIX_NET": "sum"}).sort_values(by='PRIX_NET', ascending=False)

Unnamed: 0_level_0,PRIX_NET
MOIS_VENTE,Unnamed: 1_level_1
12,5387936.22004
7,4209609.93002
6,4118695.03002
1,3922441.38002
5,3769628.89001
11,3485610.32001
9,3258067.86001
3,3200551.14001
4,3109273.54
10,2997736.24


In [11]:
# Nombre de commande par mois
df.groupby("MOIS_VENTE").agg({"TICKET_ID": pd.Series.nunique}).sort_values(by='TICKET_ID', ascending=False)

Unnamed: 0_level_0,TICKET_ID
MOIS_VENTE,Unnamed: 1_level_1
12,319675
7,277379
6,258119
1,257093
9,230222
11,212741
5,212461
8,204879
3,198069
10,197871


In [12]:
# De la famille la plus rentable à la moins rentable
df.groupby("FAMILLE").agg({"PRIX_NET": "sum"}).sort_values(by='PRIX_NET', ascending=False)

Unnamed: 0_level_0,PRIX_NET
FAMILLE,Unnamed: 1_level_1
MAQUILLAGE,11222925.50996
SOINS DU VISAGE,10495566.72998
PARFUMAGE,8464166.30003
HYGIENE,5817376.74007
SOINS DU CORPS,4832397.53004
CAPILLAIRES,1256999.47999
SOLAIRES,1166788.94
MULTI FAMILLES,136.0
SANTE NATURELLE,14.95


In [13]:
# Nombre de commande par famille
df.groupby("FAMILLE").agg({"TICKET_ID": pd.Series.nunique}).sort_values(by='TICKET_ID', ascending=False)

Unnamed: 0_level_0,TICKET_ID
FAMILLE,Unnamed: 1_level_1
MAQUILLAGE,1023978
SOINS DU VISAGE,982436
HYGIENE,963844
SOINS DU CORPS,654464
PARFUMAGE,512803
CAPILLAIRES,210136
SOLAIRES,119067
MULTI FAMILLES,29
SANTE NATURELLE,1


In [14]:
# Test pour voir si les données sont bien calculées
df.loc[df["FAMILLE"] == "SANTE NATURELLE"]

Unnamed: 0,TICKET_ID,MOIS_VENTE,PRIX_NET,FAMILLE,UNIVERS,MAILLE,LIBELLE,CLI_ID
6458712,33072287,1,14.95,SANTE NATURELLE,DIETETIQUE,DIETETIQUE,SOIN COSM ORALE 3X10 CAPS RC2,993646584
