#  Librairie Lapage : Analyse des ventes de notre site internet 
***
Devant le succès grandissant de nos différentes librairies physiques, nous avons décidé de lancer un site de vente en ligne. Nous nous proposons de faire un bilan de ces 2 années de présence sur internet. Pour cela nous allons d'abord faire un travail préliminaire à travers une exploration des données dont nous disposons afin de les préparer à être exploiter. Par la suite nous nous attarderons sur une analyse très complète de notre chiffre d'affaires sous plusieurs prismes. Pour finir nous irons plus loin dans notre analyse en étudiant les éventuelles corrélations présentes entre les variables de notre jeu de données. 




####  <font color='deepskyblue'> A) Observation des données </a> </font>
- <font color='skyblue'> 1) Observation du fichier "products" </font>
- <font color='skyblue'> 2) Observation du fichier "transactions" </font>
- <font color='skyblue'> 3) Observation du fichier "customers" </font>
#### <font color='deepskyblue'>B) Préparation des données</a></font>
- <font color='skyblue'> 1) Traitement des données de test </font>
- <font color='skyblue'> 2) Traitement des dates </font>
- <font color='skyblue'> 3) Traitement des types </font>
- <font color='skyblue'> 4) Première jointure </font>
- <font color='skyblue'> 5) Seconde jointure </font>
- <font color='skyblue'> 6) Conclusion </font>
#### <font color='deepskyblue'>C) Analyse univariée</a></font>
#### Nos produits</a>
- <font color='skyblue'> 1) Distribution des prix </font>
- <font color='skyblue'> 2) Prix par catégorie</font>
- <font color='skyblue'> 3) Produits par catégorie </font>
#### Nos clients</a>
- <font color='skyblue'> 1) Distribution par sexe </font>
- <font color='skyblue'> 2) Distribution par âge </font>
- <font color='skyblue'> 3) Création de tranches d'âge </font>
#### <font color='deepskyblue'>D) Analyse du chiffre d'affaires</a></font>
#### Notre chiffre d'affaires global</a>
- <font color='skyblue'> 1) Chiffre d'affaires </font>
- <font color='skyblue'> 2) Evolution du chiffre d'affaires </font>
#### Notre chiffre d'affaires par produit</a>
- <font color='skyblue'> 1) Inégalités des ventes entre les produits </font>
- <font color='skyblue'> 2) Inégalités de chiffre d'affaires entre les produits </font>
- <font color='skyblue'> 3) Nos ventes par catégorie de produit </font>
- <font color='skyblue'> 4) Notre chiffre d'affaires par catégorie de produit </font>
#### Notre chiffre d'affaires par client</a>
- <font color='skyblue'> 1) Classement de nos clients par chiffre d'affaires </font>
- <font color='skyblue'> 2) Inégalité de chiffre d'affaires par client </font>
#### Zoom sur nos clients professionnels</a>
- <font color='skyblue'> 1) Poids de nos clients professionnels sur le chiffre d'affaires</font>
- <font color='skyblue'> 2) Analyse des achats de nos clients professionnels</font>
- <font color='skyblue'> 3) Evolution dans le temps des achats de nos clients professionnels</font>
#### Zoom sur nos clients particuliers</a>
- <font color='skyblue'> 1) Notre chiffre d'affaires selon le sexe </font>
- <font color='skyblue'> 2) Notre chiffre d'affaires selon l'âge </font>
- <font color='skyblue'> 4) Les habitudes de consommation de nos clients </font>
#### <font color='deepskyblue'>E) Analyse multivariée </a></font>
- <font color='skyblue'> 1) Corrélation entre le sexe des clients et la gamme de produits achetée </font>
- <font color='skyblue'> 2) Corrélation entre la tranche d'âge des clients et la gamme de produits achetée</font>
- <font color='skyblue'> 3) Corrélation entre l'âge des clients et la gamme de produits achetée</font>
- <font color='skyblue'> 4) Corrélation entre l'âge des clients et le panier moyen </font>
- <font color='skyblue'> 5) Corrélation entre l'âge des clients et la fréquence d'achat </font>
- <font color='skyblue'> 6) Corrélation entre l'âge des clients et le montant total des achats </font>
- <font color='skyblue'> 7) Corrélation entre le chiffre d'affaires et le sexe </font>

#### <font color='deepskyblue'>F) Conclusion synthétique </a></font>
***


# <a name="C4"> A) Observation des données </a>
***

   

### Importation des librairies et des données


Les librairies que nous utiliserons sont les suivantes :
   - Numpy pour les tableaux et les opérations  
   - Pandas pour la manipulation des données
   - Matplotlib pour tracer des representations graphiques
   - Seaborn pour améliorer les graphiques

Les fichiers de données à notre disposition sont les suivants :
   - **customers.csv** 
   - **products.csv** 
   - **transactions.csv** 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt
import sklearn as sk
from sklearn import ensemble
import scipy.stats as stats

customers =pd.read_csv('customers.csv')
products=pd.read_csv('products.csv')
transactions=pd.read_csv('transactions.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'customers.csv'


### Fonctions utiles


Avant de préparer nos données, nous devons obtenir une description exacte de ces dernières :
   - le nombre de lignes et de colonnes de chaque jeu de données
   - un dénombrage des valeurs totales et uniques
   - le type de chaque colonne
   - un dénombrage des valeurs nulles
   - un dénombrage des valeurs aberrantes

Pour cela, nous créons une fonction qui retourne un tableau comprenant toutes les informations dont nous avons besoin :

In [None]:
def info_donnee(df: pd.DataFrame):
    desc = df.columns.to_frame(name="colonne").set_index('colonne')
    desc['nombre de valeurs non nulles'] = df.notnull().sum() 
    desc['nombre de valeurs uniques'] = df.nunique() 
    desc['type de donnée'] = df.dtypes 
    desc['nombre de valeurs nulles']=df.isna().sum()
    desc['pourcentage de valeurs nulles']=round((df.isna().sum()/df.shape[0]*100),2)
    return desc

### <font color='skyblue'> 1) Observation du fichier "products" </font>


Le fichier "products" inclut les données sur les produits comméercialisés sur notre site inernet. Il est composé d'une référence produit, d'un prix, ainsi que d'une catégorie de produit. 

In [None]:
# Nous utilisons d'abord la fonction définie plus haut pour faire une observation quantitative de nos données
info_donnee(products)

In [None]:
# Nous faisons ensuite une observation qualitative de nos données
products.describe()

In [None]:
# Nous recherchons d'autres valeurs négatives
products.sort_values('price').head()

Nous Constatons que la variable "id_prod" contient 3287 valeurs uniques pour 3287 lignes, il s'agit d'une clé primaire pertinente. Les prix sont classés en 3 catégories, le prix le plus élevé est 300.
En observant les prix nous avons repéré une valeur négative impossible pour un prix. Il s'agit de la seule valeur négative du jeu de donnée. Cette valeur se rapporte au produit "T_0" qui appartient à la catégorie "0". Nous allons poursuivre nos observations autour de ce produit.

### <font color='skyblue'> 2) Observation du fichier "transactions" </font>


Le fichier "transactions" inclut les données de toutes les transactions réalisée sur notre site internet. Il servira de lien entre nos fichiers. Il est composé de lignes contenant une date de transaction, ainsi que l'identifiant du client, du produit et celui de la session.

In [None]:
# Nous utilisons d'abord la fonction définie plus haut pour faire une observation quantitative de nos données
info_donnee(transactions)

In [None]:
# Nous visualisons les transaction correspondant au produit "T_0" que nous avons repéré comme étant aberrant
test = transactions.loc[transactions['id_prod'] == 'T_0']
test

In [None]:
# Nous faisons ensuite une observation qualitative de nos données
test.describe()


En enquétant sur le produit "T_0", nous observons 200 lignes correspondant visiblement à des lignes de test. Il s'agit certainement de tests de transaction ayant été réalisés lors de la mise en route du site. Ces lignes correspondent toutes à la même session de transaction "s_0", et aux mêmes clients "ct_0" et "ct_1" qui sont supposemment fictifs.
Nous allons poursuivre nos observations autour de ces clients.

### <font color='skyblue'> 3) Observation du fichier "customers" </font>


Le fichier "customers" inclut les données sur les clients de notre site inernet. Il est composé d'un identifiant client, du sexe de ce dernier, ainsi que de sa date de naissance. 

In [None]:
# Nous utilisons d'abord la fonction définie plus haut pour faire une observation quantitative de nos données
info_donnee(customers)

In [None]:
# Nous faisons ensuite une observation qualitative de nos données
customers.describe()

Nous Constatons que la variable "client_id" contient 8623 valeurs uniques pour 8623 lignes, il s'agit d'une clé primaire pertinente.
Les clients dans ce fichier sont nés entre 1929 et 2004, et il y a bien 2 genres dans la colonne "sex". Il n'y a pas de valeurs aberrantes de prime abord. 


# <a name="C4"> B) Préparation des données</a>
***




Nous allons réaliser les différentes opérations suivantes pour préparer notre jeu de données à la jointure :
- Traiter les données de test observées plus haut
- Corriger le format des date et ajout de l'âge
- Réaliser la jointure des fichier en s'assurant de la correspondance des clé

### <font color='skyblue'> 1) Traitement des données de test </font>



Nous partons du principe que les lignes correspondant aux tests peuvent être retirées pour notre analyse, nous procedons comme suit :


- Pour le fichier "customers", nous allons extraire les clients fictifs créés pour les tests "ct_0" et "ct_1".  
- Pour le fichier "products", nous allons extraire le produit "T_0" qui affiche un prix négatif.
- Pour le fichier "transactions", nous allons extraire les 200 lignes de tests, elles se référent toutes à la session "s_0".


In [None]:
# Suppression des clients test ct_1 et ct_0 
customers.drop(customers[(customers["client_id"] == "ct_0")].index, inplace=True)
customers.drop(customers[(customers["client_id"] == "ct_1")].index, inplace=True)

# Suppression de la ligne contenant le prix négatif
products.drop(products[(products["id_prod"] == "T_0")].index, inplace=True)

# Suppression des 200 transactions de test
transactions.drop(transactions[(transactions["session_id"] == "s_0")].index, inplace=True)

### <font color='skyblue'> 2) Traitement des dates </font>


Nous allons ajouter une colonnes qui facilitera nos analyses comme suit : 

- Pour le fichier "customers", nous allons créer une colonne âge qui sera plus parlante qu'une année de naissance

In [None]:
# Nous déclarons la date courante afin d'en extraire l'année courante
datecourante = dt.datetime.now()
date = datecourante.date()
year = int(date.strftime("%Y"))

# Nous créons une colonne "age" contenant l'âge des clients 
customers["age"] = year - customers["birth"]

### <font color='skyblue'> 3) Traitement des types </font>


Nous allons uniformiser le type de nos dataframes avant la jointure.


- Pour le fichier "products", nous allons modifier le tpe de la colonne "categ" en object
- Pour le fichier "transactions", nous allons simplement modifier le type de la colonne date, chose impossible avant car des "string" polluaient les lignes de cette colonne

In [None]:
# Conversion de "categ" en object
products['categ'] = products['categ'].astype(object)

# Nous convertissons les dates du fichier transactions
transactions['date']= pd.to_datetime(transactions['date'])

### <font color='skyblue'> 4) Première jointure </font>


Nous allons procéder à la jointure de nos différents fichiers comme suit :
- Nous réaliserons d'abord une jointure entre le fichier "transactions" et le fichier "products". La clé primaire utilisée est "id_prod" qui a 3287 valeurs uniques dans le fichier "products" et 3266 valeurs uniques dans le fichier "transactions".
- Nous observerons d'abord les lignes qui n'ont pas de correspondance dans le fichier "products", il s'agira probablement d'erreur.
- Nous observerons ensuite les lignes qui n'ont pas de correspondance dans le fichier "transactions", il s'agira simplement de produits invendus.

In [None]:
# Nous faisons la jointure entre transaction et customers
join_trans_prod = pd.merge(transactions, products, on=["id_prod"], how='outer', indicator=True)

# Nous observons les lignes sans correspondances du côté products
transac_sans_product = join_trans_prod[join_trans_prod['_merge']=='left_only']
transac_sans_product

Nous constatons que des lignes de transaction apparaissent et n'ont pas de correspondance dans le fichier "products", il s'agit pour toutes les lignes du produit "0_2245". Il est impossible d'avoir une transaction sans produit vendu, de ce fait il s'agit certainement d'une erreur, ou d'un ajout de produit dans le site sans ajout dans le catalogue de références produits (ce qui peut arriver lorsque on ajoute une référence rapidement pour un événement spécial ou une promotion). Pour avoir une analyse au plus proche de la réalité, nous allons conserver ces lignes et simuler un prix et une catégorie afin de ne pas avoir de remontée d'erreurs. Nous allons procéder comme suit :
- Nous calculerons la médiane de nos prix, elle est moins sensible aux valeurs aberrantes que la moyenne
- Nous attribuerons au produit "0_2245" un prix médian
- Nous attribuerons la catégorie "0", elle apparait en 1er caractère dans le "id_prod"

In [None]:
# Nous calculons la médiane
mediane = join_trans_prod.loc[(join_trans_prod["categ"]==0),"price"].median()

# Nous attribuons la valeur médiane au prix
join_trans_prod["price"] = np.where(join_trans_prod["id_prod"] == "0_2245", mediane, join_trans_prod["price"])

# Nous attribuons la valeur 0 à la catégorie
join_trans_prod["categ"] = np.where(join_trans_prod["id_prod"] == "0_2245", 0, join_trans_prod["categ"])

In [None]:
# Nous observons les lignes sans correspondances du côté transactions
product_sans_transac = join_trans_prod[join_trans_prod['_merge']=='right_only']
product_sans_transac

Nous observons une liste de produits qui n'ont pas été vendu jusqu'à maintenant. Cette liste de produits sans transactions sera retirée pour notre analyse. Nous la gardons sous le coude pour une analyse éventuelle des prix des produits. Nous procéderons comme suit :
- Nous retirons les lignes sans transactions via l'occurence "right_only" 
- Nous retirons aussi les colonnes merge de notre dataframe avant de passer à la suite

In [None]:
# Nous retirons les lignes qui correspondent aux produits sans transaction
join_trans_prod.drop(join_trans_prod[(join_trans_prod["_merge"] == "right_only")].index, inplace=True)

# Nous supprimons la colonne merge de notre fichier principal
join_trans_prod = join_trans_prod.drop(['_merge'], axis=1)

### <font color='skyblue'> 5) Seconde jointure </font>


Notre première jointure a été réalisée avec succés, nous allons implémenter le fichier "customers" à la dataframe que nous avons créé. Nous allons procéder à la jointure de nos différents fichiers comme suit :
- Nous réaliserons une jointure entre le fichier obtenu et le fichier "customers". Nous utiliserons la clé primaire "client_id" qui a 8621 valeurs uniques dans le fichier "customers" et 8600 valeurs uniques dans le fichier "transactions".
- Nous observerons d'abord les lignes qui n'ont pas de correspondance dans le fichier "customers"
- Nous observerons ensuite les lignes qui n'ont pas de correspondance dans le fichier "join_trans_prod"

In [None]:
# Nous réalisons la jointure complète
join_full_data = pd.merge(join_trans_prod, customers, on='client_id', how='outer', indicator=True)

# Nous observons les transactions qui n'ont pas de client
transac_sans_customers = join_full_data[join_full_data['_merge']=='left_only']
transac_sans_customers 

In [None]:
# Nous observons les clients qui n'ont pas de transactions
customers_sans_transac = join_full_data[join_full_data['_merge']=='right_only']
customers_sans_transac

L'affichage des transactions sans clients ne donne rien, toutes nos lignes ont trouver une correspondance du côté des transactions.
L'affichage des clé qui n'ont pas obtenu de correspondance dans le fichier de transactions met en lumière 21 lignes. Ces lignes correspondent à des clients qui se sont inscrits sur le site mais n'ont réalisé aucune transaction. Il peut s'agir de paniers abandonnés par exemple. Nous allons les traiter comme suit :
- Nous allons supprimer les lignes de clients qui n'ont pas de transaction pour cette analyse via la colonne merge = right_only

In [None]:
# Nous supprimons les clients sans transaction
join_full_data.drop(join_full_data[(join_full_data["_merge"] == "right_only")].index, inplace=True)

# Nous supprimons la colonne merge de notre fichier principal
join_full_data = join_full_data.drop(['_merge'], axis=1)

### <font color='skyblue'> 6) Conclusion </font>


Notre dataframe est prêt à être exploité, il a été réalisé via la jointure entre nos 3 fichiers, les lignes de test ont été supprimées, les produits sans prix ont été corrigés, les produits invendus et les clients sans transactions on été extraits, les types ont été uniformisés et une colonne âge a été ajoutée. Nous décidons de nommer notre dataframe comme suit : "full_data"

In [None]:
full_data = join_full_data

# <a name="C4"> C) Analyse univariée</a>
***


## <a name="C4"> Nos produits</a>

### <font color='skyblue'> 1) Distribution des prix </font>


In [None]:
# Nous visualisons les infos et la distribution des prix
print(full_data['price'].describe())

plt.figure(figsize=(10,6))
sns.histplot(data=full_data['price'], color='firebrick')
plt.xticks(rotation=45)
plt.title('Distribution des prix de nos produits vendus en ligne')
plt.savefig('distribution_prix.png', dpi=300, bbox_inches='tight')
plt.show()

Le prix des produits sont compris entre 0€62 et  300€ tandis que les 3/4 des produits affichent un prix inférieur à 19€. Le nombre important de valeurs considérées comme aberrantes indique une distribution de prix très inégale.

### <font color='skyblue'> 2) Prix par catégorie</font>

In [None]:
# Nous affichons le prix moyen par catégorie
prix_categ = products.groupby(["categ"])["price"].mean()
print(prix_categ)

# Nous visualisons la distibution des prix par catégorie
plt.figure(figsize=(10,6))
sns.set()
ax = sns.boxplot(x=full_data.price, y=full_data.categ, orient='h', palette=["lightcoral", "chocolate", "firebrick"] )
ax.set(xlabel='Prix en euros', ylabel='Catégorie', title='Distribution des prix par catégorie')
plt.savefig('distribution_prix_categ.png', dpi=300, bbox_inches='tight')
plt.show()

Des gammes de produits se détachent clairement, la catégorie 0 étant la moins onéreuse, la catégorie 1 le millieu de gamme, et la catégorie 2 la haut de gamme avec des prix bien supérieurs dont la moyenne de prix s'élève à 108€.

### <font color='skyblue'> 3) Produits par catégorie </font>

In [None]:
# Nous affichons la proportion de produits par catégorie
print(products.groupby(["categ"])["id_prod"].count())

plt.figure(figsize=(10,6))
plt.title("Proportion de produits dans chaque catégorie")
labels = ['Catégorie 0','Catégorie 1','Catégorie 2']
colors = ['lightcoral', 'chocolate', 'firebrick']
plt.pie(products.groupby(["categ"])["id_prod"].count(), labels=labels,colors=colors, autopct='%.1f%%', wedgeprops=dict(width=0.2), startangle=55)
plt.savefig('proportion_produit_categ.png', dpi=300, bbox_inches='tight')
plt.show()

## <a name="C4"> Nos clients</a>

### <font color='skyblue'> 1) Distribution par sexe </font>

In [None]:
# Nous affichons la proportion d'hommes et de femmes
plt.figure(figsize=(10,6))
plt.title('Répartition par sexe de nos clients')
labels = ['Femmes','Hommes']
colors = ['chocolate', 'firebrick']
plt.pie(full_data.sex.value_counts(), labels=labels,colors=colors ,autopct='%.1f%%', wedgeprops=dict(width=0.2), startangle=40)
plt.savefig('repartition_sexe.png', dpi=300, bbox_inches='tight')
plt.show()

### <font color='skyblue'> 2) Distribution par âge </font>

In [None]:
# Nous visualisons une distribution de l'âge des clients
plt.figure(figsize=(10,6))
sns.histplot(data=full_data['age'], color='firebrick',bins=90,kde=True)
plt.xticks(rotation=45)
plt.ylabel("nombre de clients")
plt.xlabel("âge")
plt.title("Ditribution des clients selon leur âge")
plt.savefig('distribution_age.png', dpi=300, bbox_inches='tight')
plt.show()

### <font color='skyblue'> 3) Création de tranches d'âge </font>

In [None]:
# Nous créons des tranches d'âge pour la suite de l'étude
full_data["tranche_age"] = pd.cut(x= full_data["age"], bins=[18,30,40,50,99], include_lowest=False, ordered=True)

# Nous visualisons la distribution par tranche d'age 
plt.figure(figsize=(10,6))
plt.title('Répartition des clients par classe d\'âge')
labels = ["matures(40-50ans)","adultes(30-40ans)","jeunes(18-30ans)","seniors(+50ans)"]
colors = ['chocolate','tan','lightcoral', 'firebrick',]
plt.pie(full_data.tranche_age.value_counts(), labels=labels, colors=colors ,autopct='%.1f%%', wedgeprops=dict(width=0.2), startangle=-120)
plt.savefig('repartition_age.png', dpi=300, bbox_inches='tight')
plt.show()


Nous créons des tranches d'âge équilibrées afin qu'un nombre d'individu trop important au sein de la même classe ne fausse pas les résultats de l'analyse.

# <a name="C4"> D) Analyse du chiffre d'affaires</a>
***

## <a name="C4"> Notre chiffre d'affaires global</a>

### <font color='skyblue'> 1) Chiffre d'affaires </font>


In [None]:
# Nous calculons le chiffre d'affaires total
ca_total = full_data['price'].sum()
print("Le chiffre d'affaires total est de", ca_total, "€")

# Puis l'évolution du chiffre d'affaires
ca_evolution = full_data.groupby(full_data["date"].dt.year)["price"].sum()
print("Evolution du chiffre d'affaires par année:\n", ca_evolution)

# Et l'évolution du nombre de ventes
ventes_evolution = full_data.groupby(full_data["date"].dt.year)["session_id"].count()
print("Evolution du nombre de full_data par année:\n", ventes_evolution)

Nos données s'étalent de mars 2021 à fevrier 2023, nous n'avons donc qu'une année complète.
Notre chiffre d'affaires total s'élève à 11 855 936 € dont plus de la moitié pour la seule année 2022.
Nous pouvons apercevoir une tendance haussière, entre 2021 et 2022 et 2023 malgré les données incomplètes. 

### <font color='skyblue'> 2) Evolution du chiffre d'affaires </font>


In [None]:
# Nous classons les dates par ordre chronologique
full_data = full_data.sort_values(["date"],ascending=True)

# Nous calculons l'évolution du chiffre d'affaires mensuel
ca_evolution_mensuelle = full_data.groupby([full_data["date"].dt.year,full_data["date"].dt.month])["price"].sum()

# Puis l'évolution du nombre de ventes mensuelles
ventes_evolution_mensuelle = full_data.groupby([full_data["date"].dt.year,full_data["date"].dt.month])["price"].count()

# Nous representons graphiquement
plt.figure(figsize=(10,6))
ca_evolution_mensuelle.plot(color='firebrick')
plt.xticks(rotation=45)
plt.xlabel("Date")
plt.ylabel("Chiffre d'affaires en euros")
plt.title("Evolution mensuelle du chiffre d'affaires")
plt.savefig('evolution_ca.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Nous créons une colonnes pour faciliter la suite de l'analyse
full_data["year"] = full_data["date"].dt.year
full_data["month"] = full_data["date"].dt.month
full_data["day"] = full_data["date"].dt.day

# Puis extréons les données du mois d'octobre
octobre = full_data.loc[(full_data["year"] == 2021) & (full_data["month"] == 10), ["day", "price","categ"]]
octobre = octobre.groupby(["day","categ"]).agg({"price":["sum","count"]}).reset_index()
octobre.columns = ["day", "categ", "ca", "volume"]
octobre = pd.pivot_table(octobre, columns=["categ"], index=["day"]).reset_index()
octobre.columns = ["day", 'ca_0', 'ca_1', 'ca_2', 'vol_0', 'vol_1', 'vol_2']

# Representons graphiquement
for x, categ in enumerate([0,1,2]):
    plt.figure(figsize=(30,2))
    plt.subplot(1,2,1)
    plt.bar(octobre["day"], octobre[f'vol_{categ}'], color='firebrick', width=0.5, linewidth = 1)
    plt.xlabel("Date")
    plt.ylabel(f'Catégorie {categ}')
    plt.title("Nombre de vente par jour par catégorie")
    plt.savefig('vente_octobre.png', dpi=300, bbox_inches='tight')
    plt.show()


In [None]:
# Nous décomposons en moyenne mobile
moyenne_mobile = ca_evolution_mensuelle.rolling(3).mean()
print(moyenne_mobile)

# Représentons graphiquement
plt.figure(figsize=(10,6))
moyenne_mobile.plot(color='firebrick')
plt.xticks(rotation=45)
plt.xlabel("Période")
plt.ylabel("Chiffre d'affaires")
plt.title("Moyenne mobile mensuelle")
plt.savefig('moyenne_mobile.png', dpi=300, bbox_inches='tight')
plt.show()

Nous constatons une baisse drastique et anormale du Chiffre d'Affaires en octobre 2021, en creusant, nous nous rendons compte que cette baisse est dûe à une absence de données de ventes sur une partie du mois d'octobre. 
En effet, entre le 02 et le 28 octobre 2021, toutes les ventes de la catégorie 1 sont à 0. Les données des catégories 0 et 2 se comportent visiblement normalement. 
Cette absence de données peut être le fait d'un dysfonctionnement sur le site internet, mais aussi le retrait des ventes de toute une catégorie pendant une période donnée.
Nous choisissons de ne pas supprimer toutes les données du mois d'octobre, en effet 2/3 de nos données sont toujours présentes. Nous avons reperé cette aberration, il s'agira par la suite d'en tenir compte dans notre analyse.
La moyenne mobile permet de lisser une série de valeurs exprimées en fonction du temps afin d'en extraire une tendance. En ignorant le creux de la courbe dû à notre erreur exprimée plus tôt, nous constatons une nette hausse du Chiffre d'affaires sur la période fin d'année 2021 / début d'année 2023 les ventes étant certainement boostées par les fêtes de fin d'année puis par les soldes d'hiver. Cette tendance ne se décrit pas à nouveau sur la fin d'année 2022.


## <a name="C4"> Notre chiffre d'affaires par produit</a>

### <font color='skyblue'> 1) Inégalités des ventes entre les produits </font>

In [None]:
# Nous déterminons le nombre de vente par produit
ventes_produits = full_data.groupby(["id_prod"])["session_id"].count()
ventes_produits.sort_values(0, ascending=False)

ventes_produits.describe()

Le produit le plus vendu l'a été 2252 fois, le moins vendu seulement 1 fois. Nos produits sont vendus en moyenne 208 fois, tandis que la moitié des produits sont vendus moins de 57 fois.

In [None]:
# Nous représentons une courbe de Lorenz des ventes par produit
lorenz_ventes_produits = np.cumsum(np.sort(ventes_produits)) / ventes_produits.sum()

plt.figure(figsize=(10,6))
plt.plot(np.linspace(0,1,len(lorenz_ventes_produits)), lorenz_ventes_produits, drawstyle='steps-post', color='lightcoral', label='Lorenz')
plt.fill_between(np.linspace(0,1,len(lorenz_ventes_produits)) ,lorenz_ventes_produits , color='linen')
plt.plot([0, 1], [0, 1], 'r-', lw=2, label='Distribution égalitaire', color='firebrick')
plt.vlines(x=0.90, ymin=0, ymax=.5, color='steelblue', linewidth=1, label='Médial')
plt.hlines(xmin=.90, xmax=0, y=.5, color='steelblue', linewidth=1)
plt.title('Courbe de Lorenz du nombre de ventes par produit')
plt.xlabel("Cumul des ventes")
plt.ylabel("Cumul des produits")
plt.xticks(rotation=45)
plt.legend(loc="best")
plt.savefig('lorenz_vente_produits.png', dpi=300, bbox_inches='tight')
plt.show()

# Nous calculons l'indice de Gini
aire_ventes_produits = lorenz_ventes_produits[:-1].sum() / len(lorenz_ventes_produits)
s_ventes_produits = 0.5 - aire_ventes_produits
gini_ventes_produits = 2* s_ventes_produits
print("indice de Gini:",round(gini_ventes_produits,3))

Nous visualisons une courbe très éloignée de la diagonale, ce qui indique de fortes inégalités entre les ventes de nos produits. L'indice de Gini, qui se trouve en mesurant l'aire entre la diagonale et la courbe de Lorenz se chiffre à 0.694 ce qui confirme l'importance de ces inégalités. Nous constatons aussi que 50% du nombre de ventes est réalisée par seulement 10% des références produits.

### <font color='skyblue'> 2) Inégalités de chiffre d'affaires entre les produits </font>

In [None]:
# Nous déterminons le nombre de vente par produit
ca_produit = full_data.groupby(["id_prod"])["price"].sum()
ca_produit.sort_values(0, ascending=False)

ca_produit.describe()

Le produit ayant généré le plus de CA en a généré 94893€, le produit ayant généré le moins de CA en a généré 0€99. Nos produits générent en moyenne 3630€ de CA, 75% de nos produits se trouvent sous cette barre.

In [None]:
# Nous représentons une courbe de Lorenz des ventes par produit
lorenz_ca_produit = np.cumsum(np.sort(ca_produit)) / ca_produit.sum()

plt.figure(figsize=(10,6))
plt.plot(np.linspace(0,1,len(lorenz_ca_produit)), lorenz_ca_produit, drawstyle='steps-post', color='lightcoral', label='Lorenz')
plt.fill_between(np.linspace(0,1,len(lorenz_ca_produit)) ,lorenz_ca_produit , color='linen')
plt.plot([0, 1], [0, 1], 'r-', lw=2, label='Distribution égalitaire', color='firebrick')
plt.vlines(x=0.93, ymin=0, ymax=.5, color='steelblue', linewidth=1, label='Médial')
plt.hlines(xmin=.93, xmax=0, y=.5, color='steelblue', linewidth=1)
plt.title('Courbe de Lorenz du chiffre d\'affaires par produit')
plt.xlabel("Cumul des chiffres d\'affaires")
plt.ylabel("Cumul des produits")
plt.xticks(rotation=45)
plt.legend(loc="best")
plt.savefig('lorenz_ca_produits.png', dpi=300, bbox_inches='tight')
plt.show()

# Nous calculons l'indice de Gini
aire_ca_produit = lorenz_ca_produit[:-1].sum() / len(lorenz_ca_produit)
s_ca_produit = 0.5 - aire_ca_produit
gini_ca_produit = 2* s_ca_produit
print("indice de Gini:",round(gini_ca_produit,3))

Le chiffre d'affaire par produit est une variable extremement inégalitaire, en effet nous constatons que 93% du chiffre d'affaires est réalisé par seulement la moitié de nos articles. L'indice de Gini confirme cette tendance à 0.743.

### <font color='skyblue'> 3) Nos ventes par catégorie de produit </font>


In [None]:
# Nous comptons le nombre de ventes par catégories
vol_categ = full_data.groupby(["categ"])["id_prod"].count()
print(vol_categ)

La catégorie 0 contient le plus de références, et réalise naturellement le plus de ventes, tandis que la catégorie 2 en réalise 10 fois moins.

### <font color='skyblue'> 4) Notre chiffre d'affaires par catégorie de produit </font>

In [None]:
# Nous classons les données par catégories
ventes_categ0 = full_data.loc[full_data['categ'] == 0]
ventes_categ1 = full_data.loc[full_data['categ'] == 1]
ventes_categ2 = full_data.loc[full_data['categ'] == 2]

# Puis calculons le CA par catégorie 
ca_categ0 = ventes_categ0['price'].sum()
ca_categ1 = ventes_categ1['price'].sum()
ca_categ2 = ventes_categ2['price'].sum()
print('CA catégorie 0 =', ca_categ0, '€')
print('CA catégorie 1 =', ca_categ1, '€')
print('CA catégorie 2 =', ca_categ2, '€')

# Representons graphiquement
plt.figure(figsize=(10,6))
plt.title('Chiffre d\'affaires par catégorie de produit')
slices = [ca_categ0, ca_categ1, ca_categ2]
labels = ['Catégorie 0', 'Catégorie 1', 'Catégorie 2']
colors = ['lightcoral', 'chocolate','firebrick',]
plt.pie(slices, autopct='%.1f%%', labels=labels, colors=colors, wedgeprops=dict(width=0.2), startangle=-45)
plt.savefig('ca_par_categorie.png', dpi=300, bbox_inches='tight')
plt.show()


Les catégories 0 et 1 générent quasiment la même proportion de chiffre d'affaire tandis que la catégorie 2 se retrouve plus en retrait.

## <a name="C4"> Notre chiffre d'affaires par client</a>

### <font color='skyblue'> 1) Classement de nos clients par chiffre d'affaires </font>


In [None]:
# Nous créons une colonne affichant le chiffre d'affaires total par client
full_data = full_data.merge(
    full_data.pivot_table(
    index='client_id', values='price', 
    aggfunc='sum').reset_index().rename(
    columns={'price': 'ca_client'}),
    on='client_id', how='left')

# Nous affichons le classement des plus gros clients
ca_par_client = full_data.groupby(["client_id"])["price"].sum().sort_values(ascending=False)
ca_par_client

Nous listons 4 clients qui se démarquent par le montant du chiffre d'affaires réalisé, il s'agit certainement de clients professionnels, ces clients seront traités à part dans notre analyse pour ne pas la fausser. Visualisons cette inégalité avant de passer à l'analyse de chacun des types de clients.

### <font color='skyblue'> 2) Inégalité de chiffre d'affaires par client </font>


In [None]:
# Nous représentons une courbe de Lorenz des ventes par produit
lorenz_ca_client = np.cumsum(np.sort(ca_par_client)) / ca_par_client.sum()

plt.figure(figsize=(10,6))
plt.plot(np.linspace(0,1,len(lorenz_ca_client)), lorenz_ca_client, drawstyle='steps-post', color='lightcoral', label='Lorenz')
plt.fill_between(np.linspace(0,1,len(lorenz_ca_client)) ,lorenz_ca_client , color='linen')
plt.plot([0, 1], [0, 1], 'r-', lw=2, label='Distribution égalitaire', color='firebrick')
plt.vlines(x=0.79, ymin=0, ymax=.5, color='steelblue', linewidth=1, label='Médial')
plt.hlines(xmin=.79, xmax=0, y=.5, color='steelblue', linewidth=1)
plt.title('Courbe de Lorenz du chiffre d\'affaires par client')
plt.xlabel("Cumul des clients")
plt.ylabel("Cumul des chiffres d'affaires")
plt.xticks(rotation=45)
plt.legend(loc="best")
plt.savefig('lorenz_ca_client.png', dpi=300, bbox_inches='tight')
plt.show()

# Nous calculons l'indice de Gini
aire_ca_client = lorenz_ca_client[:-1].sum() / len(lorenz_ca_client)
s_ca_client = 0.5 - aire_ca_client
gini_ca_client = 2* s_ca_client
print("indice de Gini:",round(gini_ca_client,3))

La visualisation sur la courbe de Lorenz indique une tendance plutôt inégalitaire en partie dûe aux données des clients professionnels qui augmentent significativement l'aire entre la courbe et la diagonale. En effet, on constate clairement un méplat lorsque la courbe se rapproche de 1. La médial nous informe que 50% du chiffre d'affaires est réalisé par seulemen20% des clients. Aussi, l'indice de Gini s'élève à 0.44, ce qui corobore la tendance d'inégalité.

## <a name="C4"> Zoom sur nos clients professionnels</a>

### <font color='skyblue'> 1) Poids de nos clients professionnels sur le chiffre d'affaires</font>


In [None]:
# Nous créons une colonne qui indique le type de client et y ajoutons nos clients pros
full_data['type_client'] = 'part'
full_data.loc[full_data['client_id'] == "c_1609", 'type_client'] = 'pro'
full_data.loc[full_data['client_id'] == "c_4958", 'type_client'] = 'pro'
full_data.loc[full_data['client_id'] == "c_6714", 'type_client'] = 'pro'
full_data.loc[full_data['client_id'] == "c_3454", 'type_client'] = 'pro'

# Puis créons 2 dataframes distincts
data_pro = full_data[full_data['type_client']=='pro']
data_part = full_data[full_data['type_client']=='part']

In [None]:
# Nous calculons la proportion du CA pro
pourcent_ca_pro = round (  data_pro['price'].sum() 
                        / full_data['price'].sum() * 100, 2)

print("Le chiffre d'affaires des client pro s'élève à",pourcent_ca_pro,"% du chiffre d'affaires total.")

### <font color='skyblue'> 2) Analyse des achats de nos clients professionnels</font>


In [None]:
# Nous distribuons les ventes par catégorie
plt.figure(figsize=(10,6))
labels = ['Catégorie 0', 'Catégorie 1', 'Catégorie 2']
colors = ['lightcoral', 'chocolate','firebrick',]
sns.countplot(data=data_pro, x='client_id', palette=["lightcoral", "chocolate", "firebrick"], hue='categ')
plt.xticks(rotation=45)
plt.ylabel("Nombre de ventes")
plt.xlabel("Clients professionnels")
plt.title('Ventes aux clients professionnels par catégorie')
plt.savefig('ventes_pro_categ.png', dpi=300, bbox_inches='tight')
plt.show()

Le client c_1609 achète énormement de produits de catégorie 0, il n'achète pas du tout de produit de catégorie 2 comme le client c_3454. Le client c_4958 est le seul client pro à ne pas acheter de produits de catégorie 0 au profit de la catégorie 2.

In [None]:
# Nous affichons la distribution des prix d'achats de nos pros
plt.figure()
plt.show()

plt.figure(figsize=(10,6))
sns.boxplot(data=data_pro, y='price', x='client_id', palette=["lightcoral", "chocolate", "firebrick",'tan'], showfliers=False)
plt.xticks(rotation=45)
plt.ylabel("Nombre de ventes")
plt.xlabel("Clients professionnels")
plt.title('Distribution des prix d\'achat des clients pro')
plt.savefig('distribution_prix_pro.png', dpi=300, bbox_inches='tight')
plt.show()

La distribution des prix d'achat indique des inégalités de consommation chez nos clients pros. Le client c_4958 achète uniquement des produits hauts de gamme comparé aux 3 autres.

### <font color='skyblue'> 3) Evolution dans le temps des achats de nos clients professionnels</font>


In [None]:
for i in data_pro['client_id'].unique():
    print('Client', i)
    plt.figure(figsize=(10,6))
    sns.histplot(data=data_pro[data_pro['client_id']==i], x='date', hue='categ', palette=["lightcoral", "chocolate", "firebrick"], binwidth=10)
    plt.xticks(rotation=45)
    plt.ylabel("Nombre de ventes")
    plt.xlabel("Date")
    plt.title('Ventes aux clients professionnels par catégorie')
    plt.savefig('evolution_vente_pro.png', dpi=300, bbox_inches='tight')
    plt.show()

Nous discernons des habitudes de consommation, en effet, en fin d'année calendaire, plus de produits de catégorie 2 et 1 sont vendus. Puis autour de la rentrée scolaire plus de produits de la catégorie 0 sont vendus.

Le poids de nos clients pros atteint 7.43% de notre chiffre d'affaires total, c'est une part relativement importante de nos chiffres. Nos 4 clients proffessionnels se comportent différemment les uns des autres. La catégorie, le prix d'achat, mais aussi la saisonalité est  différente pour chaque client. Nous pouvons deviner que chacun de ces revendeurs est spécialisé dans un type de produit, c_1609 est certainement spécialisé dans la littérature scolaire, tandis que c_4958 est certaiement spécialisé dans les beaux ouvrages comme en témoigne la saisonnalité de fin d'année et le prix d'achat des produits bien plus élevé.

## <a name="C4"> Zoom sur nos clients particuliers</a>

### <font color='skyblue'> 1) Notre chiffre d'affaires selon le sexe </font>

In [None]:
# Nous calculons la somme des CA par sexe afin de l'afficher dans un diagramme
ca_sexe_clients = data_part.groupby(["sex"])["price"].sum()
print(ca_sexe_clients)

plt.figure(figsize=(10,6))
fig2, ax2 = plt.subplots()
colors = ['chocolate', 'firebrick']
ax2.pie(ca_sexe_clients,labels=["Femmes","Hommes"],autopct="%1.1f%%",colors=colors, wedgeprops=dict(width=0.2), startangle=40)
plt.title("Proportion du chiffre d'affaires selon le sexe des clients")
plt.savefig('repartition_ca_sexe.png', dpi=300, bbox_inches='tight')
plt.show()

### <font color='skyblue'> 2) Notre chiffre d'affaires selon l'âge </font>

In [None]:
# Nous calculons la somme des CA par tranche d'âge afin de l'afficher dans un diagramme
ca_age_clients = full_data.groupby(["tranche_age"])["price"].sum()
print(ca_age_clients)

plt.figure(figsize=(10,6))
fig2, ax2 = plt.subplots()
colors = ['lightcoral','tan','chocolate','firebrick']
ax2.pie(ca_age_clients, labels=["Jeunes (18-30ans)","Adultes (30-40ans)","Matures (40-50ans)","Seniors (+50ans)"], autopct="%1.1f%%",colors=colors, wedgeprops=dict(width=0.2), startangle=0)
plt.title("Proportion du chiffre d'affaires selon l'âge des clients")
plt.savefig('proportion_ca_tranche.png', dpi=300, bbox_inches='tight')
plt.show()

Les seniors ne représentent que 10.9% de notre population mais réalisent 27% du chiffre d'affaires total devant tous les autres groupes.

### <font color='skyblue'> 4) Les habitudes de consommation de nos clients </font>

In [None]:
# Nous visualisons l'évolution du nombre de vente
plt.figure(figsize=(10,6))
sns.histplot(data=data_part, x='date', hue='categ', multiple='stack', palette=["lightcoral", "chocolate", "firebrick"], binwidth=10)
plt.xticks(rotation=45)
plt.ylabel("Nombre de ventes")
plt.xlabel("Date")
plt.title('Evolution du nombre de ventes par catégorie')
plt.savefig('evolution_vente_categorie.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Puis le même graphique éclaté par catégorie
for i in sorted(data_part['categ'].unique()):
    print('Catégorie', i)
    plt.figure(figsize=(10,6))
    sns.histplot(data=data_part[data_part['categ']==i], x='date', color= "firebrick", binwidth=10)
    plt.xticks(rotation=45)
    plt.ylabel("Nombre de ventes")
    plt.xlabel("Date")
    plt.title('Evolution du nombre de ventes')
    plt.savefig('evolution_vente_categ.png', dpi=300, bbox_inches='tight')
    plt.show()


Nous discernons une saisonnalité assez claire dans les ventes, en effet, à l'approche de la rentrée scolaire en septembre, les ventes de la catégorie 0 connaissent un pique de croissance. Ensuite on distingue une augmentation du nombre de ventes des produits de la catégorie 1 en novembre et décembre ce qui coincide avec les fêtes de fin d'année. Enfin les produits de catégorie 2 ont tendance à se vendre plus en juillet / aout mais aussi en fevrier / mars, ce qui pourrait correspondre au début des semestre universitaires éventuellement.

# <a name="C4"> E) Analyse multivariée </a>
***

### <font color='skyblue'> 1) Corrélation entre le sexe des clients et la gamme de produits achetée </font>


In [None]:
# Nous comptons la fréquence de ventes par sexe et par catégorie pour avoir un ordre d'idée

plt.figure(figsize=(10,6))
sns.displot(data=data_part, x='sex', hue='categ',palette=["lightcoral", "chocolate", "firebrick"], binwidth=10)
plt.ylabel("Nombre de ventes")
plt.xlabel("Femmes                   Hommes")
plt.title('Fréquence des ventes par sexe par catégorie')
plt.savefig('frequence_vente_sexe.png', dpi=300, bbox_inches='tight')
plt.show()

#### Test de Chi-2

Les données entre les sexes ont des tendances proches, le sexe des clients influe t-il sur leurs habitudes de consommation ? Ayant 2 variables qualitatives, nous allons réaliser un test de Chi2 en proposant 2 théories possibles. Nous déterminons un seuil que l'on nommera alpha et qu'on fixera à 5. Si alpha < 5 alors nous validerons H0. Si alpha > 5 alors nous validerons H1. Le test de normalité ne fait pas partie des conditions du khi-deux, vu qu'on ne mesure pas la normalité que sur des variables quantitatives.
- La théorie H0 indiquerait que la catégorie de produits acheté ne dépend pas du sexe des clients, 
- et la théorie H1 qui indiquerait que la catégorie de produit acheté dépend du sexe des clients. 

In [None]:
# Nous produisons une table pivot entre sexe et catégorie
data_sex_categ = pd.pivot_table(data_part,index=['sex'],columns=['categ'],aggfunc='size')
print(data_sex_categ)

# Affichons une heatmap
plt.figure(figsize=(10,6))
sns.heatmap(data_sex_categ,annot=True, fmt='g',square=True,cmap='Reds')
plt.ylabel("Sexe")
plt.xlabel("Catégorie")
plt.title('Correlation entre sexe et catégorie')
plt.savefig('heatmap_sexe_categorie.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Nous réalisons le Chi2
chi2_stat, p_val, dof, ex = stats.chi2_contingency(data_sex_categ)

print("Chi square value is ",chi2_stat)
print("P value is",p_val)
print("Degrees of Freedom:",dof)

if p_val > .05:
    print('H0: Les 2 variables sont indépendantes')
else:
    print('H1: Il y a une dépendance entre les 2 variables')

Le test de normalité ne fait pas partie des conditions du chi 2, on ne mesure pas la normalité sur des variables quantitatives. P-value étant < 0.05, on rejette l’hypothèse H0 en prenant un risque extrêmement faible de  nous tromper. Le sexe influe donc sur la gamme achetée par nos clients.

### <font color='skyblue'> 2) Corrélation entre la tranche d'âge des clients et les gammes de produits achetée</font>


In [None]:
# Nous visualisons le nombre de ventes par age et par catégorie

plt.figure(figsize=(10,6))
sns.displot(data=data_part, x='age', hue='categ', kind='kde', palette=["lightcoral","chocolate","firebrick"])
plt.xticks(rotation=45)
plt.xlabel("âge des clients")
plt.ylabel("Nombre de ventes")
plt.title('Nombre de ventes par âge et par catégorie')
plt.savefig('ventes_categ_age.png', dpi=300, bbox_inches='tight')
plt.show()

#### Test de Chi-2

La catégorie 0 est principalement consommée par les publics adultes et matures, tandis que la catégorie 2 est consommée exclusivement par les jeunes. voyons si nous pouvons le théoriser via un test chi-2.
Si alpha < 5 alors nous validerons H0. Si alpha > 5 alors nous validerons H1. 
- La théorie H0 indiquerait que la catégorie de produits acheté ne dépend pas de l'âge des clients, 
- et la théorie H1 qui indiquerait que la catégorie de produit acheté dépend de l'âge des clients. 

In [None]:
# Nous produisons une table pivot entre âge et catégorie
data_age_categ = pd.pivot_table(data_part,index=['tranche_age'],columns=['categ'],aggfunc='size')
print(data_age_categ)

# Affichons une heatmap
plt.figure(figsize=(10,6))
sns.heatmap(data_age_categ,annot=True, fmt='g',square=True,cmap='Reds')
plt.ylabel("âge")
plt.xlabel("Catégorie")
plt.title('Correlation entre tranches d\'âge et catégorie')
plt.savefig('heatmap_age_categorie.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Nous réalisons le Chi2
chi2_stat2, p_val2, dof2, ex2 = stats.chi2_contingency(data_age_categ)

print("Chi square value is ",chi2_stat2)
print("P value is",p_val2)
print("Degrees of Freedom:",dof2)

if p_val2 > .05:
    print('H0: Les 2 variables sont indépendantes')
else:
    print('H1: Il y a une dépendance entre les 2 variables')

Via le test de chi2 : p-value < 0.05 alors nous rejettons H0, il y a bien une dépendance entre la classe d'âge et la catégorie des produits achetés. 

### <font color='skyblue'> 3) Corrélation entre l'âge et la gamme</font>

In [None]:
# Nous produisons une table pivot entre âge et catégorie
data_age_categ_2 = pd.pivot_table(data_part,index=['age'],columns=['categ'],aggfunc='size')
print(data_age_categ_2)

#### Test Anova et Kruskal Wallis

In [None]:
stats.f_oneway(data_part["age"],data_part["categ"])

In [None]:
stats.kruskal(data_part["age"],data_part["categ"])

Les 2 tests confirment une dépendance forte entre age et catégorie

### <font color='skyblue'> 4) Corrélation entre l'âge et le panier moyen</font>

In [None]:
# Nous visualisons les prix des produits consommés par les différentes tranches d'âge
moyenne_par_age = data_part.groupby(["tranche_age"])["price"].mean()
print(moyenne_par_age)

plt.figure(figsize=(10,6))
sns.boxplot(data=data_part.sort_values(by='tranche_age'), y='tranche_age', x='price', showfliers=False,  palette=["lightcoral", "chocolate", "firebrick",'tan'])
plt.title('Distribution des prix des produits par tranche d\'âge')
plt.xlabel('prix')
plt.ylabel('tranche age')
plt.savefig('distri_tranche_prix.png', dpi=300, bbox_inches='tight')
plt.show()

panier_moyen=data_part[['age', 'price']].groupby(['age'], as_index=False).agg({'price':['count', 'sum']})
panier_moyen.columns=['age', 'nb_achats', 'ca']
panier_moyen['panier_moyen']=(panier_moyen['ca'])/(panier_moyen['nb_achats'])
panier_moyen.head()

#### Test Shapiro et Pearson

Le panier moyen est bien plus élevé chez les plus jeunes avec 40.30€ d'achats par panier. Nous allons réaliser un test de normalité afin de nous assurer que la distribution de prix est normale, puis un test Anova pour mesurer la corrélation entre les variables.

In [None]:
# Nous réalisons le test saphiro de normalité
shapiro_age = stats.shapiro(panier_moyen["age"])
shapiro_age

In [None]:
# Nous réalisons le test saphiro de normalité
shapiro_prix = stats.shapiro(panier_moyen["panier_moyen"])
shapiro_prix

pvalue > 0,5 nous confirmons la non normalité de notre distribution de prix, nous pouvons lancer le test Pearson.

In [None]:
# Nous réalisons le test de corrélation linéaire de Spearman
pearson_moy = stats.pearsonr(panier_moyen["panier_moyen"], panier_moyen["age"])[0]
pearson_moy

In [None]:
# Nous réalisons le test de corrélation linéaire de spearman
spearman_moy = stats.spearmanr(panier_moyen.age, panier_moyen.panier_moyen)[0]
spearman_moy

Nous confirmons donc qu'une dépendance existe entre l'age et le panier moyen réalisé par nos clients.

### <font color='skyblue'> 5) Corrélation entre l'âge des clients et la fréquence d'achat </font>


In [None]:
# Nous comptons le nombre d'achat mensuel à partir des sessions clients par mois
frequence_achat = data_part.groupby('age').count().reset_index()
frequence_achat = frequence_achat[['age', 'session_id']]
frequence_achat['frequence'] = frequence_achat['session_id'] / sum(frequence_achat['session_id'])
frequence_achat

In [None]:
# Nous visualisons ensuite cette fréquence d'achat
plt.figure(figsize=(10,6))
plt.plot(frequence_achat[frequence_achat.frequence < .05].age, frequence_achat[frequence_achat.frequence < .05].frequence, 'o', color='firebrick')
plt.xlabel('âge des clients')
plt.ylabel('Fréquence des achats')
plt.title('Fréquence des achats en fonction de l\'age des clients')
plt.savefig('frequence_vente_age.png', dpi=300, bbox_inches='tight')
plt.show()

#### Test Saphiro et Spearman

La fréquence d'achat est plus importante chez pour les individus entre 30 et 40 ans. Nous allons réaliser un test de normalité afin de nous assurer que la distribution de fréquence est normale, puis un test Spearman pour mesurer la corrélation entre les variables.

In [None]:
# Nous réalisons le test saphiro de normalité
shapiro_freq = stats.shapiro(frequence_achat["frequence"])
shapiro_freq

Nous confirmons la non-normalité de notre distribution de fréquences, nous pouvons lancer le test Spearman.

In [None]:
# Nous réalisons le test de corrélation linéaire de Spearman
pearson_freq = stats.spearmanr(frequence_achat.age, frequence_achat.frequence)[0]
pearson_freq

Il existe une corrélation forte entre l'âge des clients et la fréquence d'achat, le test de Spearman à -0.67 confirme que plus un client est jeune, plus sa fréquence d'acahat est élevée.

### <font color='skyblue'> 6) Corrélation entre l'âge des clients et le montant total des achats </font>


In [None]:
#Agrégation pour sommer les ventes 'price' (produits achetés) en fonction de l'âge des clients
ca_par_age = data_part.groupby('age').sum().reset_index()
ca_par_age = ca_par_age[['age', 'price']]
ca_par_age['price'] = ca_par_age['price']
ca_par_age.head() 

In [None]:
# Nous affichons la distribution du CA selon l'age
plt.figure(figsize=(10,6))
plt.bar(ca_par_age.age, ca_par_age.price, color='firebrick')
plt.xlabel('Age')
plt.ylabel('Chiffre d\'affaires')
plt.title("Distribution du chiffre d'affaires selon l'âge")
plt.savefig('distribution_ca_age.png', dpi=300, bbox_inches='tight')
plt.show()

#### Test Shapiro et Spearman

Nous remarquons une valeur aberrante pour les individus d'âge 19ans, elle peut s'expliquer par une offre ou un évenement spécial proposée aux clients de cet âge qui a attiré de nombreux clients, mais elle peut aussi s'expliquer par l'agglomération de tous les clients de 0 à 18 ans. Nous allons réaliser un test de normalité afin de nous assurer que la distribution de chiffre d'affaires est normale, puis un test Spearman pour mesurer la correlation entre les variables.

In [None]:
# Nous réalisons le test saphiro de normalité
shapiro_ca = stats.shapiro(ca_par_age["price"])
shapiro_ca

pvalue < 0,5 nous confirmons la non-normalité de notre distribution de CA, nous pouvons lancer le test Spearman.

In [None]:
# Nous réalisons le test de corrélation linéaire de spearman
pearson_ca = stats.spearmanr(ca_par_age.age, ca_par_age.price)[0]
pearson_ca

Il existe une corrélation très forte entre l'âge des clients et la le chiffre d'affaires total engendré par client, le test de Pearson à -0.87 confirme que plus un client est jeune, plus le total d'achats est élevée.

### <font color='skyblue'> 7) Corrélation entre le chiffre d'affaires et le sexe </font>


In [None]:
#Agrégation pour sommer les ventes 'price' (produits achetés) en fonction de l'âge des clients
#Création d'une variable 'age_price'
ca_par_sexe = data_part.groupby('sex').sum().reset_index()
ca_par_sexe = ca_par_sexe[['sex', 'price']]
ca_par_sexe['price'] = ca_par_sexe['price']
print(ca_par_sexe.head())

plt.figure(figsize=(10,6))
fig2, ax2 = plt.subplots()
colors = ['chocolate', 'firebrick']
ax2.pie(ca_sexe_clients,labels=["Femmes","Hommes"],autopct="%1.1f%%",colors=colors, wedgeprops=dict(width=0.2), startangle=40)
plt.title("Proportion du chiffre d'affaires selon le sexe des clients")
plt.savefig('repartition_ca_sexe.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# transormation de f et m en 0 et 1
data_sexe = data_part
data_sexe = data_sexe.replace(["f","m"], ["0","1"])
data_sexe['sex'] = data_sexe['sex'].astype(int)

#### Test Anova et Kruskal Wallis

In [None]:
stats.f_oneway(data_sexe["sex"],data_sexe["price"])

In [None]:
stats.kruskal(data_sexe["sex"],data_sexe["price"])

# <a name="C4"> F) Conclusion synthétique </a>
***

Une première approche unidimensionnelle de nos données nous a permis d'abord de fournir une analyse descriptive claire de nos produits ainsi que de nos clients, puis nous a permis de faire une analyse complète de notre chiffre d'affaires sous plusieurs prismes. Nous avons pu mettre en lumière des inégalité importantes dans la réalisation de notre chiffre d'affaires, que ce soient des inégalités entre les produits ou entre les clients. 
La deuxième approche multivariée nous a permis de mettre en opposition nos variables démographiques telles que l'âge ou le sexe de nos clients à nos variables business, afin de mettre en exergue des corrélations éventuelles. Nous avons ainsi mis en lumière des corrélations plus ou moins importantes entre le sexe et l'âge de nos clients avec leurs rapports à nos gammes de produits. Enfin pour terminer notre analyse, nous avons aussi mis en évidence la corrélation entre l'âge de nos clients et leurs habitudes de consommation, ces dernières données seront particulièrement pertinentes afin de mettre en place des stratégies ciblées pour compbler nos lacunes ou à l'inverse exacerber nos points forts.