In [None]:
import pandas as pd
import numpy as np
import math
import matplotlib.pyplot as plt
import statistics
import seaborn as sns
import sklearn as sk
from sklearn import ensemble
from datetime import datetime
import scipy.stats as stats

In [None]:
# Mission 1 -
# faire du nettoyage
# voir pour faire des choix sur le traitement 
# des valeurs manquantes ou aberrantes

In [None]:
clients = pd.read_csv("clients.csv")
clients

In [None]:
clients.info()
# this df seems clear with no null values (8623/8623)
# like the others df, by the way

In [None]:
# check duplicates (here, nothing ...)
clients = clients.drop_duplicates()
len(clients)

In [None]:
clients.isnull().sum().sort_values(ascending = False)/len(clients)

In [None]:
produits = pd.read_csv("produits.csv")
produits

In [None]:
produits.info()

In [None]:
produits = produits.drop_duplicates()
len(produits)

In [None]:
produits.isnull().sum().sort_values(ascending = False)/len(produits)

In [None]:
produits['price'].values

In [None]:
produits[['price']].boxplot()

In [None]:
produits['price'].min()

In [None]:
produits['price'].max()
# il peut s'agir d'un livre très cher
# mais ce n'est pas l'extrême le plus aberrant ici

In [None]:
neg = produits[produits['price'].between(-1, 0)]
neg
# delete the values because a price can't be negative

In [None]:
new_produits = produits.drop([produits.index[731]])
new_produits

In [None]:
ventes = pd.read_csv("ventes.csv")
ventes

In [None]:
ventes.info()

In [None]:
ventes = ventes.drop_duplicates()
len(ventes)
# here, there are some duplicates

In [None]:
ventes.isnull().sum().sort_values(ascending = False)/len(ventes)

In [None]:
new_data = ventes.merge(clients, how='left', on="client_id").merge(new_produits, how='left', on='id_prod')
new_data

In [None]:
new_data.info()
# price et categ ont le même nbre de valeurs manquantes
# des clients n'ont pas de prix associés, donc pas intéressants dans total vente

In [None]:
new_data = new_data.drop_duplicates()
len(new_data)

In [None]:
# Pas de doublons ou de valeurs manquantes après le merge
# Mais maintenant on peut associer des ventes avec des clients
# et des ventes à des produits grâce au merge

In [None]:
# afficher les clients sans prix ou categ de produits
new_data[(new_data['price'].isnull()) & (new_data['categ'].isnull())]

In [None]:
# afficher les données 'test' et qui n'apportent pas d'info au final ...
test = new_data[
    (new_data['date'].str.contains('test_')) &
    (new_data['id_prod']=='T_0') &  
    (new_data['session_id']=='s_0')]
test

In [None]:
new_data = new_data.drop(test.index).reset_index()
new_data

In [None]:
# Mission 2 -
# analyse des données et trouver du sens pour comprendre les ventes
# indicateurs de tendance centrale et de dispersion
# analyse de concentration par courbe de Lorenz/indicateur de Gini
# représentation graphique (histogramme, boxplot, séries temporelles)
# analyses bivariées

In [None]:
# moyenne des prix
moy = sum(new_data['price'])/len(new_data['price'])
moy

In [None]:
# médiane des prix
me = statistics.median(new_data['price'])
me

In [None]:
# calcul variance
var = sum((xi - moy) ** 2 for xi in new_data['price'] / len(new_data['price']))
var

In [None]:
# calcul écart-type
var_res = var ** (0.5)
var_res

In [None]:
# Boxplot sur les prix par rapport aux ventes réalisées
new_data[['price']].boxplot()

In [None]:
# Histogramme de la répartition des prix des différents livres
histogram = new_data['price'].plot.hist()
plt.show()

In [None]:
# Histogramme de la répartition des clients par âge
histogr = new_data['birth'].plot.hist()

plt.show()

In [None]:
plt.figure(figsize=(8, 5))
heatmap = sns.heatmap(new_data.corr(), mask=np.triu(np.ones_like(new_data.corr(), dtype=np.bool)), vmin=-1, vmax=1, annot=True, cmap='BrBG')
heatmap.set_title('Triangle de corrélations', fontdict={'fontsize':16}, pad=24)
plt.xticks(rotation=45)
plt.show()

In [None]:
plt.figure(figsize=(8,3))
sns.boxplot(data=new_data, y='categ', x='price', orient='h', showfliers=False, showmeans=True, palette=["#64ffda", "#536dfe", "#ff6e40"], meanprops={"marker":"s","markerfacecolor":"white"})
plt.title('Distribution des prix par catégorie')
plt.show()

In [None]:
print('Catégorie 0 :',
    '\n- Prix moyen :', round(new_data[new_data['categ']==0]['price'].mean(), 2), 
    '\n- Prix médian :', new_data[new_data['categ']==0]['price'].median(), 
    '\n- Mode :', new_data[new_data['categ']==0]['price'].mode().values[0])

In [None]:
print('Catégorie 1 :',
    '\n- Prix moyen :', round(new_data[new_data['categ']==1]['price'].mean(), 2), 
    '\n- Prix médian :', new_data[new_data['categ']==1]['price'].median(), 
    '\n- Mode :', new_data[new_data['categ']==1]['price'].mode().values[0])

In [None]:
print('Catégorie 2 :',
    '\n- Prix moyen :', round(new_data[new_data['categ']==2]['price'].mean(), 2), 
    '\n- Prix médian :', new_data[new_data['categ']==2]['price'].median(), 
    '\n- Mode :', new_data[new_data['categ']==2]['price'].mode().values[0])

In [None]:
# Courbe de Lorenz
depenses = new_data[new_data['price'] < 0]
dep = -depenses['price'].values
n = len(dep)
lorenz = np.cumsum(np.sort(dep)) / dep.sum()
lorenz = np.append([0],lorenz)
xaxis = np.linspace(0-1/n,1+1/n,n+1) 
plt.plot(xaxis,lorenz,drawstyle='steps-post')
plt.show()

In [None]:
# conversion de la variable date en datetime
new_data['date'] = pd.to_datetime(new_data['date'], format='%Y-%m-%d')
new_data['date'].values

In [None]:
# Dates de transaction la plus ancienne et la plus récente
print('Transactions du', str(new_data['date'].min())[:10], 'au', str(new_data['date'].max())[:10])

In [None]:
# Séries temporelles - volume des ventes par date et catégorie
plt.figure(figsize=(12,8))
sns.histplot(data=new_data, x='date', hue='categ')
plt.xticks(rotation=45)
plt.title('Volume des ventes par date et catégorie')
plt.show()

In [None]:
# Mission 3 -
# corrélation entre le sexe et catégories produits achetés ?
# corrélation âge client et montant total des achats ?
# fréquence d'achat ?
# taille du panier moyen ?
# catégories de produits achetés ?

In [None]:
men_o = new_data.loc[(new_data["sex"]=="m") & (new_data["categ"]==0.0)]
men_o

In [None]:
men_o = men_o.groupby(by = ['categ']).size().reset_index(name = 'sex')
men_o

In [None]:
men_one = new_data.loc[(new_data["sex"]=="m") & (new_data["categ"]==1.0)]
men_one

In [None]:
men_one = men_one.groupby(by = ['categ']).size().reset_index(name = 'sex')
men_one

In [None]:
men_two = new_data.loc[(new_data["sex"]=="m") & (new_data["categ"]==2.0)]
men_two

In [None]:
men_two = men_two.groupby(by = ['categ']).size().reset_index(name = 'sex')
men_two

In [None]:
men = men_two.append(men_one)
men

In [None]:
men = men.append(men_o)
men

In [None]:
effectif = men.value_counts()
plt.pie(effectif,labels=effectif.index)
plt.show()

In [None]:
fem_o = new_data.loc[(new_data["sex"]=="f") & (new_data["categ"]==0.0)]
fem_o

In [None]:
fem_o = fem_o.groupby(by = ['categ']).size().reset_index(name = 'sex')
fem_o

In [None]:
fem_one = new_data.loc[(new_data["sex"]=="f") & (new_data["categ"]==1.0)]
fem_one

In [None]:
fem_one = fem_one.groupby(by = ['categ']).size().reset_index(name = 'sex')
fem_one

In [None]:
fem_two = new_data.loc[(new_data["sex"]=="f") & (new_data["categ"]==2.0)]
fem_two

In [None]:
fem_two = fem_two.groupby(by = ['categ']).size().reset_index(name = 'sex')
fem_two

In [None]:
fem = fem_two.append(fem_one)
fem

In [None]:
fem = fem.append(fem_o)
fem