# Analyse détaillées du CA pour Julien

## 2. Analyse de performance des ventes en ligne <a name = "H20"></a>

## 2.1 Indicateurs de performances autour du CA générée (2021-2022)

In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
import scipy.stats as stats

In [2]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [6]:
parser = lambda date : datetime.strptime(date, '%Y-%m-%d')
customer_df = pd.read_csv('Data/customer_df_clean', sep=";")
product_df = pd.read_csv('Data/product_df_clean', sep=";")
transaction_df = pd.read_csv('Data/transaction_product_df_clean', sep=";",parse_dates=[1], date_parser=parser)

FileNotFoundError: [Errno 2] No such file or directory: 'Data/customer_df_clean.csv'

In [None]:
transaction_df.info()

In [None]:
def func(pct, df):
    ca_total = df.sum()
    absolute = int(np.round(pct/100. * ca_total))
    return "{:.1f}%\n({:d} €)".format(pct, absolute)

In [None]:
# Formater la colonne date en string avec le format 2022-03-31
data = pd.merge(transaction_df, customer_df.set_index('client_id'), on=['client_id'], how='inner')
data['month'] = data['date'].apply(lambda date: date.strftime("%Y-%m-%B"))

In [None]:
data

In [None]:
monthly_ca = data.groupby(by=['month'], as_index=False).agg({'price':'sum'}).rename(columns={'price' : 'monthly_ca'})
monthly_ca.sort_values(['month'], ascending=True, inplace=True)

In [None]:
import plotly.express as px
fig = go.Figure()

fig = px.line(monthly_ca, x=monthly_ca.month, y=monthly_ca.monthly_ca, 
              color=px.Constant("Valeur du CA"), 
              text=round(monthly_ca.monthly_ca,2)
)
fig.update_traces(textposition='top center')
fig.add_bar(x=monthly_ca.month, y=monthly_ca.monthly_ca, name="CA mensuel")

fig.update_xaxes(title_text="2021-2022")
fig.update_yaxes(title_text="CA (k€)")

fig.show()

In [None]:
# Indicateur statistiques autour du CA
min_ca_month = monthly_ca.loc[monthly_ca['monthly_ca'] == monthly_ca['monthly_ca'].min(), 'month'].values[0]
max_ca_month = monthly_ca.loc[monthly_ca['monthly_ca'] == monthly_ca['monthly_ca'].max(), 'month'].values[0]
min_ca_month_euro = round(monthly_ca.monthly_ca.min(),2)
max_ca_month_euro = round(monthly_ca.monthly_ca.max(),2)

avg_ca_annuel = round(monthly_ca.monthly_ca.mean(), 2)
std_ca = round(monthly_ca.monthly_ca.std(),2)
sum_ca = round(monthly_ca.monthly_ca.sum(),2)

# Tendance du chiffre d'affaire sur 2021-2022
ca_initial = monthly_ca['monthly_ca'].iloc[0]
ca_final = monthly_ca['monthly_ca'].iloc[-1]
trend = round((((ca_final - ca_initial) - 1) / ca_initial) * 100, 2)

print(""" \t######### Bilan du chiffre d'affaire annuel sur l'activité mars 2021 - mars 2022 #########\n

--> Le mois le plus rentable : \033[1m{0}\033[0m ({1}€)\n
--> Le mois le moins rentable : \033[1m{2}\033[0m ({3}€) \n 
--> La moyenne du CA annuel : \033[1m{4}\033[0m€ \n 
--> La variation moyenne du CA sur l'année 2021-2022 : \033[1m{5}\033[0m€ \n
--> Le chiffre d'affaire cumulé sur l'année 2021-2022 : \033[1m{6}\033[0m€ \n
--> L'évolution du chiffre d'affaire sur l'année 2021-2022 : \033[1m{7}%\033[0m""".format(max_ca_month,
                                                                 max_ca_month_euro,
                                                                 min_ca_month,
                                                                 min_ca_month_euro,
                                                                 avg_ca_annuel,
                                                                 std_ca,
                                                                                     sum_ca,
                                                                                    trend) 
)

## 2.2 CA par catégorie de produit

In [None]:
# Chiffre d'affaire et nombre de vente par catégorie
x_values = transaction_df.categ.value_counts(normalize = True)
y_values = x_values.index
ca_categ = transaction_df.groupby(by=['categ']).sum()

fig, axes = plt.subplots(1,2,figsize=(10,8))
axes[0].pie(x=x_values, labels = y_values, autopct = "%1.1f%%")
axes[0].legend(loc='best', labels=['Categ0', 'Categ1', 'Categ2'])
axes[0].set_title('Poportion des ventes par catégorie')
axes[1].pie(x=ca_categ['price'], labels=ca_categ.index, autopct = lambda pct : func(pct,ca_categ))
axes[1].set_title('CA généré par catégorie de produits')
plt.show()

Ce graphique illustre la disproportion du CA généré par le nombre de vente. Par exemple, 5,3% des ventes sont issues de la catégorie 2 et pourtant génère 23% du chiffre d'affaire ! 

In [None]:
data.dtypes

In [None]:
# Requête 
data = transaction_df.groupby(['date','categ']).agg({'price' : 'sum'}).reset_index().rename(columns={'price' : 'ca'})

# Evolution du CA par catégorie de produit
fig = go.Figure()


# Categ 0
fig.add_trace(go.Scatter(
    x=data[data['categ'] == 0].date,
    y=data[data['categ'] == 0].ca,
    mode = "lines", name = 'categ 0'
))

# Categ 1

fig.add_trace(go.Scatter(
    x=data[data['categ'] == 1].date,
    y=data[data['categ'] == 1].ca,
    mode="lines", name="categ 1"
))

# Categ 2

fig.add_trace(go.Scatter(
    x=data[data['categ'] == 2].date,
    y=data[data['categ'] == 2].ca,
    mode="lines",
    name="categ 2"
))

fig.update_layout(title_text="CA généré par catégorie de livre")
fig.update_yaxes(tickprefix="€", showgrid=False)
fig.update_xaxes(showgrid=True)
fig.update_xaxes(title_text='Time')
fig.update_yaxes(title_text='CA (€)')
fig.show()

In [None]:
# Générer un rapport statistiques pour chaque catégorie de produit

**Anomalie (résolue):** Le graphique nous montre bien que l'ensemble des données relatives aux catégories de produits sur le mois d'Octobre 2021 ont été supprimées. Les analyses de performances du CA et des catégories de produits peuvent être interprétées à leur juste valeur.

## 2.3 Les Profils et comportements clients

In [None]:
# Obtenir l'âge de nos client à l'aide de leur année de naissance dans notre fichier client
annee = datetime.now().year
customer_df['age'] = customer_df['birth'].apply(lambda birth: annee - birth)
customer_df.drop(columns=['birth'], inplace=True)

In [None]:
customer_df.dtypes

In [None]:
# Regarder la répartition de chaucn des groupes d'âges de nos clients
# Segmentation clients en fonction de l'âges
customer_df['age_categorie'] = pd.cut(customer_df['age'],bins=[1,19,25,45,60,120], labels=['Adolescents', 'Jeunes adultes', 'Adultes', 'Senior','Senior+'])

In [None]:
# Requête Data pour PieChart

data_categ = customer_df.groupby(['age_categorie'], as_index=False).agg({"client_id" : "count"})

# Set up des coordonnéees pour pie chart 
labels = data_categ.age_categorie
values = data_categ.client_id

# Requête data pour BarChart


# Fig 1 : Répartition des clients selon leur tranche d'âge
fig = go.Figure()
fig.add_trace(go.Pie(labels=labels, values=values, hole=.3,hoverinfo="label+percent+value"))
fig.update_layout(title_text='Répartition Client')
fig.show()

**Catégorie de clients :**


1. Adolescents -> Individu agé de moins de 18 ans


2. Jeunes Adultes -> Individu agé de 19 à 25 ans


3. Adultes -> Individu âgé de 26 à 45 ans


4. Senior -> Individu âgé de 46 à 60 ans


5. Senior + -> Individu âgé de plus de 60 ans

**Total des clients repertoriés en 2022 :** 8621 clients actifs en 2022

In [None]:
# Le chiffre d'affaire détaillé par catégorie sachant la tranche d'âge du client 
# Jointure entre les transactions et les infos client 
data = pd.merge(transaction_df, customer_df.set_index('client_id'), on=['client_id'], how='inner')

# Chiffre d'affaire généré en fonction de la tranche d'âge et de la catégorie de livre
data_grouby = data.groupby(by=['age_categorie','categ'], as_index=False).agg({'price' : 'sum'})

x_bar = data_grouby[data_grouby['age_categorie'] == 'Adolescents']['categ']




# Fig 2 : Répartition des ventes par catégorie sachant leur tranche d'âge
fig = go.Figure()

for categ in data_grouby.age_categorie.unique():
    
    y_bar= data_grouby[data_grouby['age_categorie'] == categ]['price']
    fig.add_trace(go.Bar(x=['Livre 0', 'Livre 1', 'Livre 2'], y=y_bar, name = categ ))


fig.update_layout(barmode="stack", title_text="Répartition des ventes par catégorie de livre")
fig.update_xaxes(title_text="Catégorie de livre")
fig.update_yaxes(title_text="CA (M€)")

Les livres de catégorie 1 génèrent le plus de CA alors que ceux de la catégorie 2 performent à moitié moins.
Les livres de la catégorie 2 attirent surtout **une clientèle jeune** (entre 18 et 40 ans). Ces profils client représentent une minorité du trafic des utilisateurs sur le site.

In [None]:
data_grouby = data.groupby(['age_categorie','categ']).agg({'price' : 'sum'}).reset_index()

In [None]:
# Histogramme représentatif du CA croisé avec la tranche d'âge et la catégorie du livre
g = sns.catplot(
    data=data_grouby, kind="bar",
    x="age_categorie", y="price", hue="categ", palette="dark", alpha=.6, ci=None,height=5, aspect=2
)
g.despine(left=True)
g.set_axis_labels("Catégorie client", "Chiffre d'affaire (M€)")
g.legend.set_title("Catégorie")

Ce graphique permet de dégager des comportements clients évidents :

-Les adolescents et les jeunes adultes achètent des livres de catégorie 2 (BD, science fiction, manga)


-Les profils plus âgés ont tendance à acheter des livres de catégorie 0 (Roman, politique, culturel)


-Aucun profil client particulier pour la catégorie 1

## 2.3 Ventes par l'âge et la catégorie de livre

In [None]:
sns.set_theme(style="darkgrid")
sns.displot(
    data, x="age", col="categ",
    binwidth=3, height=4, facet_kws=dict(margin_titles=True),
)

**Interprétation du graphique :**

* catégorie 0 : Public adulte entre 30 et 55 ans -> 
* catégorie 1 : Tout public (Répartition homogène selon l'âge)
* catégorie 2 : Public jeune 

## 2.4 Ventes générées par catégorie sachant la tranche d'âge et le sexe du client

In [None]:
# Proportion Homme - Femme de nos clients

# Requête Data pour PieChart

prop_sex = customer_df[['sex','client_id']].groupby(by=['sex']).count()

# Set up des coordonnéees pour pie chart 
labels = ['Femme','Homme']
values = prop_sex.client_id

# Requête data pour BarChart


# Fig 1 : Répartition des clients selon leur tranche d'âge
fig = go.Figure()
fig.add_trace(go.Pie(labels=labels, values=values, hole=.3,hoverinfo="label+percent+value"))
fig.update_layout(title_text='Répartition Client')
fig.show()

In [None]:
h = sns.displot(
    data, x="age", col="categ", row='sex',
    binwidth=3, height=4, facet_kws=dict(margin_titles=True),
)
h.set_titles("Répartition des clients en fonction de l'âge et du sexe")

# relatif (mettre à l'echelle la population en fonction du sexe)

Il n'y a pas de différence notable entre le comportement d'achat d'un homme ou d'une femme quelquesoit l'âge pour les catégories 2.

**Valeur irrégulière :** Les adultes masculins entre 40-50 ans affichent un nombre de vente 2 fois plus élevé que le reste de l'échantillon. Ce pattern se répète pour les catégories 0 et 1 de livre


In [None]:
# Requête pour récupérer les clients entre 45 et 50
categ = 1 # Catégorie de livre à analyser

cond = customer_df[(customer_df['age'] >= 18) & (customer_df['age'] <= 100)]['sex'].isin(["m","f"])
m_client_id = customer_df.loc[cond[cond].index]['client_id'] # On récupère l'id des clients qui respectent la condition
client_id_transaction = pd.merge(transaction_df[transaction_df['client_id'].isin(m_client_id)], 
                                                customer_df.set_index('client_id'),
                                                on='client_id', 
                                                how='inner')

In [None]:
# Filtrer les transactions sur la catégorie 
categ_0_filter = client_id_transaction['categ'] == categ

In [None]:
# Toutes les ventes générées par les clients de sexe masculin entre 45 et 50 ans
vente_client_id = client_id_transaction[categ_0_filter].groupby(by=['client_id','sex'], as_index=False).agg({'id_prod':'count'}).rename(columns={'id_prod':'nb_achat'}).reset_index()

In [None]:
fig = go.Figure()
fig = px.scatter(vente_client_id, x=vente_client_id.client_id, y="nb_achat", 
              color="sex"
)
fig.update_xaxes(title_text="client_id", showgrid=False)
fig.show()

In [None]:
# Profil Client atypique
vente_client_id.loc[594]

In [None]:
# Recherche du nombre d'achat pour le client atypique
transaction_df[transaction_df['client_id'] == "c_1000"].groupby(by=['categ']).agg({"id_prod" : "count",
                                                                                  "price" : "sum"}).rename(columns={"id_prod":"nb_achat",
                                                                                                           "price" : "montant_panier"})

Le client numéro **c_1609** est responsable de l'explosion du nombre de vente pour des clients du même âge et de même sexe.
On peut qualifier ce client de **professionnel** qui passe des commandes volumineuses pour fournir des établissements scolaire, des entreprises... .

L'analyse des ventes en connaissant le sexe et l'âge du client nous a permis d'identifier deux profils clients : **particulier** et **professionnel**

Le site e-commerce de la librairie doit proposer, au moment de l'achat, un espace pour les particuliers et un espace pour les professionnels

## 2.5 Historique des transactions pour les clients professionnels

In [None]:
# Récupération des profils client professionnels
z_threshold = 2


achat_value = transaction_df.groupby(by=['client_id']).agg({'id_prod' : 'count'}).rename(columns={'id_prod':'nb_achat'})

cond = stats.zscore(achat_value) > z_threshold
achat_value.loc[cond,:]

In [None]:
nb_client = len(customer_df)
moy_achat_client = round(achat_value.mean(),2)[0]
std_achat_client = round(achat_value.std(),2)[0]
moy_achat_j = round(transaction_df.groupby(by=['date']).agg({"price" : "sum"})['price'].mean() / nb_client,2)

print("""\t############### Information sur le nombre d'achat des clients en 2021 ###############\n
Le nombre d'achat moyen sur 1 an pour l'ensemble de nos clients : \033[1m{}\033[0m\n
La dispersion moyenne du nombre d'achat de nos clients : \033[1m{}\033[0m\n
Le panier moyen par jour d'un client : \033[1m{}\033[0m€\n""".format(moy_achat_client,std_achat_client,moy_achat_j))

In [None]:
for categ in range(0,3):
    fig = go.Figure()
    for client_id in achat_value.loc[cond,:].index:
    
    
        data = transaction_df[transaction_df['client_id'] == client_id].groupby(by=['date','categ']).agg({"id_prod" : "count"}).reset_index()
        fig.add_trace(go.Scatter(
        x=data[data['categ'] == categ].date,
        y=data[data['categ'] == categ].id_prod,
        mode = "lines", name = "client n° "+ client_id
        ))
        fig.update_layout(title_text="Historique d'achat des clients professionnels pour la catégorie : {}".format(categ))
    
    fig.show()

## 2.6 Les tops et les flops 

**Equilibrage de notre échantillon client :** Dans cette analyse, nous décidons d'enlever les clients professionnels. Le nombre élevé d'achat sur certain produit peuvent compromettre les résultats sur le comportemement d'achat observés sur l'ensemble de nos clients.

In [None]:
# Equilibrage du jeu de données
id_client_pro = achat_value.loc[cond,:].index

# On travaille sur une copie pour garder les informations de nos clients pro
transaction_df_copy = transaction_df.copy()
transaction_df_copy.set_index('client_id', inplace=True)
transaction_df_copy.drop(labels=id_client_pro, inplace=True)
transaction_df_copy.reset_index(inplace=True)

In [None]:
nb_client = len(transaction_df_copy.groupby(by=['client_id']).count())
moy_achat_client = round(transaction_df_copy.groupby(by=['client_id']).agg({"id_prod":"count"}).mean()[0],2)
moy_disp_achat_client = round(transaction_df_copy.groupby(by=['client_id']).agg({"id_prod":"count"}).std()[0],2)
panier_moy_jour = round(transaction_df_copy.groupby(by=['date']).agg({"price" : "sum"}).mean()[0] / nb_client ,2) 

print("""\t############### Information sur le nombre d'achat des clients en 2021 (professionnels exclus) ###############\n
Le nombre d'achat moyen sur 1 an pour l'ensemble de nos clients : \033[1m{}\033[0m\n
La dispersion moyenne du nombre d'achat de nos clients : \033[1m{}\033[0m\n
Le panier moyen par jour d'un client : \033[1m{}\033[0m€\n
""".format(moy_achat_client,moy_disp_achat_client,panier_moy_jour))

In [None]:
product_sell = transaction_df_copy.groupby(by=['id_prod']).agg({"client_id" : "count",
                                                               "price" : "sum"}).rename(columns={"client_id" : "nb_vente",
                                                                                                "price" : "ca"}) 
# Références des tops produits pour le ca
best_product_ca = product_sell.sort_values(['ca','nb_vente'], ascending=False).reset_index().loc[:10,:]

# Références des meilleures ventes
best_seller_product = product_sell.sort_values(by=['nb_vente'], ascending=False).reset_index().loc[:10,:]

# Références des produits les moins rentables
worth_product_ca = product_sell.sort_values(['ca'], ascending=True).reset_index().loc[:10,:]

# Références des produits les moins vendus
worth_product_sell = product_sell.sort_values(['nb_vente'], ascending=True).reset_index().loc[:10,:]

In [None]:
print("""\t############### Références des tops produits  ###############\n
\033[1mProduits référencés selon le CA généré\033[0m \n
{}\n
\033[1mMeilleures ventes\033[0m \n
{}\n
\t############### Références des flops produits  ###############\n
\n
\033[1mLes références des produits flops en CA\033[0m \n
{}\n
\033[1mLes références des produits les moins vendus\033[0m \n
{}
""".format(best_product_ca,best_seller_product,worth_product_ca,worth_product_sell))

## 2.6 Courbe de Lorenz

In [None]:
# Modéliser le chiffre d'affaire généré par les ventes
data_vente = transaction_df.groupby(by=['id_prod'], as_index=False).agg({"client_id":"count",
                                           "price" : "sum"})

# On récupère pour chaque produit le nombre d'achat cumulé de chaque client
nb_vente = data_vente[['client_id','price']].sort_values(by=['price'], ascending=True)

In [None]:
data_vente.rename(columns={'client_id' : 'freq achat',
                          'price' : "ca"}, inplace=True)

In [None]:
data_vente.sort_values(by=['ca'], ascending=True, inplace=True)

In [None]:
data_vente['cumul CA (%)'] = (data_vente['ca'] / data_vente['ca'].sum()).cumsum()

In [None]:
data_vente

In [None]:
data_vente['cumul produit (%)'] = np.linspace(0,1,len(data_vente['ca']))

In [None]:
data_vente["hue"] = "Lorenz"

In [None]:
data_vente

In [None]:
data_vente = data_vente.append(pd.DataFrame({'cumul produit (%)' : [0,1],
                         'cumul CA (%)' : [0,1],
                         'hue': ['Linear','Linear']}), ignore_index=True)

In [None]:
data_vente

In [None]:
# Modéliser le chiffre d'affaire généré par les achats clients
nb_achat_client = transaction_df.groupby(by=['client_id'], as_index=False).agg({"id_prod":"count",
                                           "price" : "sum"}).rename(columns={"id_prod" : 'freq achat',
                                                                            "price" : "ca"})



# Création des axes x, y pour la courbe de Lorenz
nb_achat_client.sort_values(by=['ca'], ascending=True, inplace=True)
nb_achat_client['freq_cumulee_ca'] = (nb_achat_client['ca'] / nb_achat_client['ca'].sum()).cumsum()
nb_achat_client['x_axis'] = np.linspace(0,1,len(nb_achat_client['freq_cumulee_ca']))

#Création d'une colonne type de courbe "hue"
nb_achat_client["hue"]="Lorenz"

# On ajoute l'origine de la droite linéaire (bissectrice) x(0,0) x(1,1)

nb_achat_client = nb_achat_client.append(pd.DataFrame({'x_axis' : [0,1],
                        'freq_cumulee_ca' : [0,1],
                      'hue': ['Linear','Linear']}), ignore_index=True)

In [None]:
nb_achat_client

In [None]:
#index : np.array n*1 
def gini_coeff(df, columns):
    
    # L'index commence à 1
    index = (df.index + 1)
    # n: la taille de l'échantillon
    n = df.shape[0]

    #array : Tableau 1d trié par ordre croissant pour le calcul du coefficient de gini
    array = np.array(df[columns])
    gini_coeff = ((np.sum((2 * index - n  - 1) * array)) / (n * np.sum(array)))
    return round(gini_coeff,2)

In [None]:
fig, axe = plt.subplots(1,2, figsize=(15,8))
sns.lineplot(data=data_vente, x='cumul produit (%)', y='cumul CA (%)', hue='hue', ax=axe[0])
sns.lineplot(data=nb_achat_client, x='x_axis', y='freq_cumulee_ca', hue='hue', ax=axe[1])
sns.lineplot(x=[0.8],y=[0.5], ax=axe[1])
axe[1].vlines(0.5,0.0,0.2,linestyles='--', color='#000000')
axe[1].hlines(0.2,0.0,0.5,linestyles='--', color='red')
axe[1].fill_between(nb_achat_client['x_axis'],nb_achat_client['x_axis'],nb_achat_client['freq_cumulee_ca'], alpha=0.0001, hatch='|')
gini1 = gini_coeff(data_vente, 'cumul CA (%)')
gini2 = gini_coeff(nb_achat_client, 'freq_cumulee_ca')
axe[0].set_title('Courbe de Lorenz (GINI : {})'.format(gini1))
axe[1].set_title('Courbe de Lorenz (GINI : {})'.format(gini2))
fig.show()

In [None]:
nb_achat_client['x_axis']

In [None]:
nb_vente

## 2.7 Moyenne mobile

In [None]:
data_vente