# üìö Analyse des ventes

Apr√®s un an de ventes en ligne, la soci√©t√© *Rester Livres* dispose de suffisamment de donn√©es pour dresser une typologie pr√©cise de ses clients et produits. Nous allons v√©rifier s'il existe un lien entre le sexe des clients et les cat√©gories de produits achet√©s, l'√¢ge et le montant total des achats, la fr√©quence d'achat ou encore la taille du panier moyen.

Hormis les librairies Pandas et Seaborn, nous utiliserons scikit-learn pour confirmer les corr√©lations √† l'aide de tests statistiques.

## Sommaire

- 1. [Exploration](#1.-Exploration)
    - 1.1. [Clients](#1.1.-Clients)
    - 1.2. [Produits](#1.2.-Produits)
    - 1.3. [Transactions](#1.3.-Transactions)
    - 1.4. [Jointures](#1.4.-Jointures)
- 2. [Nettoyage](#2.-Nettoyage)
    - 2.1. [Lignes tests](#2.1.-Lignes-tests)
    - 2.2. [Dates manquantes](#2.2.-Dates-manquantes)
    - 2.3. [Valeurs manquantes](#2.3.-Valeurs-manquantes)
    - 2.4. [Variables suppl√©mentaires](#2.4.-Variables-suppl√©mentaires)
- 3. [Analyse](#3.-Analyse)
    - 3.1. [In√©galit√©s entre clients](#3.1.-In√©galit√©s-entre-clients)
    - 3.2. [Clients professionnels](#3.2.-Clients-professionnels)
    - 3.3. [Clients particuliers](#3.3.-Clients-particuliers)
        - 3.3.1. [Par sexe](#3.3.1.-Par-sexe)
        - 3.3.2. [Par √¢ge](#3.3.2.-Par-√¢ge)
    - 3.4. [Produits](#3.4.-Produits)
        - 3.4.1. [P√©riodicit√©](#3.4.1.-P√©riodicit√©)
        - 3.4.2. [Cat√©gories et prix](#3.4.2.-Cat√©gories-et-prix)
- 4. [Tests](#4.-Tests)
    - 4.1. [Cat√©gorie et √¢ge (ANOVA)](#4.1.-Cat√©gorie-et-√¢ge-(ANOVA))
    - 4.2. [Cat√©gorie et sexe (Chi 2)](#4.2.-Cat√©gorie-et-sexe-(Chi-2))
    - 4.3. [Prix et montant total des achats (Pearson)](#4.3.-Prix-et-montant-total-des-achats-(Pearson))
- 5. [R√©f√©rences](#5.-R√©f√©rences)

In [None]:
# Librairies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk
from sklearn import ensemble
from datetime import datetime
import scipy.stats as stats

In [None]:
sns.set( # Styles Seaborn
    style='whitegrid',
    context='notebook',
    palette='Paired',
    rc={'figure.figsize':(8,4)})

In [None]:
# Affichage des nombres : s√©parateur des milliers, et r√©duction du nombre de d√©cimales
pd.options.display.float_format = '{:,.2f}'.format

# 1. Exploration

On dispose de 3 jeux de donn√©es : **clients**, **produits** et **transactions**.

In [None]:
url = 'https://raw.githubusercontent.com/gllmfrnr/oc/master/p4/sources/'
clients = pd.read_csv(url + 'customers.csv')
produits = pd.read_csv(url + 'products.csv')
transactions = pd.read_csv(url + 'transactions.csv')

## 1.1. Clients

Recense l'identifiant, le sexe et l'ann√©e de naissance de 8622 individus.

In [None]:
clients

On v√©rifie que la table ne contient aucun doublon avant de pouvoir d√©terminer la cl√© primaire, √† savoir *'client_id'* : les 8622 clients sont tous distincts.

In [None]:
def doublons(df): # Nombre de doublons dans la dataframe
    print(len(df) - len(df.drop_duplicates()), 'doublons')

doublons(clients)

In [None]:
def cle_primaire(df_cle): # V√©rification de la cl√© primaire
  table_length = len(df_cle) - len(df_cle.drop_duplicates())
  if table_length == 0:
    print('Cl√© primaire (0 doublon)')
  else:
    print('Pas une cl√© primaire (', table_length, 'doublons )')
    
cle_primaire(clients['client_id'])

Les variables ne contiennent aucune valeur manquante ou aberrante.

In [None]:
clients.info() # Valeurs manquantes et types des variables

Dans la seule variable quantitative, *'birth'* , les ann√©es de naissance s'√©talent de 1929 √† 2004. 

In [None]:
clients.describe(include='all') # Indicateurs statistiques

La variable *'sex'* n'affiche elle que 2 modalit√©s : *f* (f√©minin) et *m* (masculin).

In [None]:
print('Modalit√©s de \'sex\' :', list(clients['sex'].unique()))

## 1.2. Produits

La table **produits** d√©taille l'identifiant, le prix et la cat√©gorie de 3287 livres. 

In [None]:
produits

L√† encore aucun doublon ni valeur manquante. *'Id_prod'* est la cl√© primaire : les produits sont uniques.

In [None]:
doublons(produits) # Nombre de doublons dans la dataframe

In [None]:
cle_primaire(produits['id_prod']) # V√©rification de la cl√© primaire

In [None]:
produits.info() # Valeurs manquantes et types des variables

La variable *'price'* compte des prix de -1 √† 300. Le produit *T_0* est le seul √† afficher un prix n√©gatif de *-1*. Il faudra nettoyer cette valeur aberrante apr√®s avoir joint les 3 tables.  

In [None]:
produits.describe(include='all') # Indicateurs statistiques

In [None]:
produits.sort_values(by='price') # Produit affichant un prix n√©gatif

La variable *'categ'* compte 3 modalit√©s : 0, 1 et 2. 

In [None]:
print('Modalit√©s de \'categ\' :', list(produits['categ'].unique()))

## 1.3. Transactions

Le jeu des transactions d√©taille la date et les identifiants de la session, du client et du produit vendu.

In [None]:
transactions

Cette fois-ci, la table compte 126 doublons : on les supprime.

In [None]:
doublons(transactions) # Nombre de doublons
transactions.drop_duplicates(inplace=True) # Suppression des doublons
print(len(transactions), 'lignes apr√®s suppression des doublons') # V√©rification du nombre de lignes

La cl√© primaire est compos√©e de la date et de l'identifiant client : deux transactions peuvent survenir au m√™me moment.

In [None]:
cle_primaire(transactions[['client_id', 'date']]) # V√©rification de la cl√© primaire

Nous aurons remarqu√© que *'client_id* et *'id_prod'* sont des cl√©s √©trang√®res vers **clients** et **produits**. Dans chaque cl√© que r√©f√©rence la table **transactions**, il y a moins de valeurs uniques que dans les 2 autres tables : 21 clients enregistr√©s n'ont pas pass√© commande, et 22 produits n'ont pas √©t√© vendus. Il existe toutefois un produit pr√©sent uniquement dans **transactions** : *0_2245* (103 occurences).

In [None]:
# Comparaison d'une cl√© unique entre 2 dataframes
def compare_keys(variable, df1, df1_name, df2, df2_name):
    df1_keys = pd.DataFrame(df1[variable].unique()) # Projection de df1 sur la variable
    df2_keys = pd.DataFrame(df2[variable].unique()) # Projection de df2 sur la variable
       
    keys_1 = df1_keys.merge( # Cl√©s de df2 non pr√©sentes dans df1
        df2_keys, how='outer', indicator=True).loc[lambda x : x['_merge']=='right_only']  
    print('Cl√©s de', df2_name, 'non pr√©sentes dans', df1_name + ' : ', len(keys_1))   
    
    keys_2 = df2_keys.merge(  # Cl√©s de df1 non pr√©sentes dans df2
    df1_keys, how='outer', indicator=True).loc[lambda x : x['_merge']=='right_only']
    print('Cl√©s de', df1_name, 'non pr√©sentes dans', df2_name + ' : ', len(keys_2))
    
compare_keys('client_id', clients, 'clients', transactions, 'transactions') # Comparaison de 'client_id' entre transactions et clients
print('- ' * 24)
compare_keys('id_prod', produits, 'produits', transactions, 'transactions') # Comparaison de la cl√© 'id_prod' entre transactions et produits

In [None]:
# Cl√© de 'id_prod' uniquement pr√©sente dans transactions
transactions.drop(transactions[transactions['id_prod'].isin(produits['id_prod'])].index) 

La commande describe() nous permet une nouvelle fois de v√©rifier le nombre de valeurs uniques par variable. 

Il y a moins d'identifiants de session uniques que de dates : une m√™me session peut donc contenir plusieurs dates de transactions. Chaque client peut √† son tour totaliser plusieurs sessions. 

In [None]:
transactions.describe(include='all') # Indicateurs statistiques

La table ne contient aucune valeur manquante, mais comme aper√ßu dans les indicateurs, la variable *'date'* affiche 74 valeurs aberrantes ayant pour pr√©fixe *test_*. Ces 74 individus concernent le produit au prix n√©gatif (*T_0*), ainsi que des identifiants de session et de clients uniques l√† aussi. 

In [None]:
transactions_test = transactions.sort_values(by='date', ascending=False).head(75).reset_index() # Les 75 premiers individus tri√©s par date
transactions_test

In [None]:
transactions_test = transactions_test.loc[:73] # Les 74 lignes de test

print( # Affichage des cl√©s uniques des lignes de test 
    len(transactions_test), 'lignes tests :',
    '\n- \'id_prod\' unique :', transactions_test['id_prod'].unique(),
    '\n- \'session_id\' unique :', transactions_test['session_id'].unique(),
    '\n- \'client_id\' uniques :', transactions_test['client_id'].unique())

La variable *'date'* est dans le format *object* √† cause de cette valeur, alors qu'elle devrait √™tre en *datetime*.

In [None]:
transactions.info() # Valeurs manquantes et types des variables

## 1.4. Jointures

On effectue la jointure de **transactions** successivement sur **clients** et **produits**, en ne conservant que les cl√©s de **transactions** (les clients inactifs et les produits invendus sont √©cart√©s).

La cl√© primaire reste celle de **transactions** : *'date'* + *'client_id'*.

In [None]:
df = transactions.merge(clients, how='left', on='client_id').merge(produits, how='left', on='id_prod') # Jointures
df

In [None]:
cle_primaire(df[['client_id', 'date']]) # V√©rification de la cl√© primaire

Les variables *'price'* et *'categ'* affichent un m√™me nombre de valeurs manquantes, qui concernent encore une fois le produit *0_2245* (uniquement pr√©sent dans **transactions** √† l'origine). On cherchera plus loin √† remplacer ces valeurs avec la m√©thode la mieux adapt√©e.

In [None]:
df.info() # Valeurs manquantes

In [None]:
df[(df['price'].isnull()) & (df['categ'].isnull())] # Individus sans prix ni cat√©gorie

# 2. Nettoyage

## 2.1. Lignes tests

Avant de pouvoir convertir la variable *'date'* en datetime, il faut supprimer les lignes de test, vu qu'elles partagent notamment le pr√©fixe *test_* en date.

In [None]:
lignes_test = df[ # √âchantillon des lignes de test
    (df['date'].str.contains('test_')) &
    (df['price']<=0) &
    (df['id_prod']=='T_0') &  
    (df['session_id']=='s_0')]
lignes_test

En supprimant ces 74 lignes de tests, on d√©barasse la table de ses valeurs aberrantes (*-1*), du pr√©fixe *test_* dans les dates, ainsi que des faux clients et sessions.

In [None]:
len_df_before = len(df) # Nombre de lignes dans df avant suppression des lignes tests
df = df.drop(lignes_test.index).reset_index() # Suppression des lignes tests
print(len_df_before - len(df), 'lignes tests supprim√©es') # Nombre de lignes dans data apr√®s nettoyage

La cl√© primaire devient *'date'* : il y a maintenant autant de transactions que de dates.

In [None]:
cle_primaire(df['date']) # V√©rification de la cl√© primaire

## 2.2. Dates manquantes

On peut maintenant convertir la variable *'date'* en datetime. 

In [None]:
df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d') # Conversion de 'date' en datetime
df.info()

Les transactions s'√©talent sur un an, du 1er mars 2021 au 28 f√©vrier 2022.

In [None]:
print('Transactions du', str(df['date'].min())[:10], 'au', str(df['date'].max())[:10]) # Dates de transaction la plus ancienne et la plus r√©cente

L'histogramme des dates par cat√©gorie de produits montre qu'il manque des donn√©es au mois d'octobre dans la cat√©gorie 1.

In [None]:
# Volume des ventes par date et cat√©gorie
plt.figure(figsize=(12,8))
sns.histplot(data=df, x='date', hue='categ', palette=["#ff9e80", "#ff6e40", "#ff3d00"])
plt.xticks(rotation=45)
plt.show()

Pour √©quilibrer l'analyse on supprime toutes les donn√©es du mois d'octobre, soit 6% du dataset.

In [None]:
len_df_before = len(df) # Nombre de lignes avant la suppression du mois d'octobre

# Transactions du mois octobre, toutes cat√©gories
octobre = df[(df['date']>='2021-10-01') & (df['date']<='2021-10-31')]

df.drop(octobre.index, inplace=True) # Suppression des donn√©es du mois d'octobre

# Pourcentage du dataset √©cart√©
print('Mois d\'octobre = ', round(((len_df_before - len(df)) / len_df_before * 100), 1), '% du dataset √©cart√©')

In [None]:
# Volume des ventes par date et cat√©gorie (sans le mois d\'octobre
plt.figure(figsize=(12,8))
sns.histplot(data=df, x='date', hue='categ', palette=["#ff9e80", "#ff6e40", "#ff3d00"])
plt.xticks(rotation=45)
plt.show()

## 2.3. Valeurs manquantes

Reste √† choisir une m√©thode pour traiter les valeurs manquantes du produit *0_2245*, √† savoir son prix et sa cat√©gorie.

Pour g√©rer les valeurs manquantes, 3 m√©thodes sont envisageables :
- supprimer les lignes concern√©es
- d√©terminer une valeur fixe
- mod√©liser cette valeur

In [None]:
produit_2245 = df[df['id_prod']=='0_2245'] # √âchantillon du produit 0_2245
produit_2245

Ici l'√©chantillon ne repr√©sente que 0.03% du dataset : on pourrait le supprimer sans fausser l'analyse.

In [None]:
# Pourcentage des ventes du produit 0_2245
print('Produit 0_2245 :', round((len(produit_2245) / len(df) * 100), 2), '% du dataset')

On peut √©galement d√©terminer une valeur fixe pour les 2 variables. Pour la cat√©gorie, on peut se fier aux pr√©fixes des identifiants de produits : *0_*, *1_* et *2_*. Ces pr√©fixes correspondent invariablement √† la cat√©gorie du produit concern√©. On choisit donc *0* comme cat√©gorie du produit *0_2245*.

In [None]:
df_test = df.dropna() # √âchantillon de l'ensemble des commandes, sans le produit 0_2245

# Conversion en string des 2 premiers caract√®res de la valeur de 'id_prod'
df_test['id_prod'] = df_test['id_prod'].str[:2]

print('Pr√©fixes de \'id_prod\' :') # Pour chaque cat√©gorie, le pr√©fixe unique de 'id_prod'
for i in df_test['categ'].unique():
    print('- cat√©gorie', i, ':',
        df_test[df.dropna()['categ']==i]['id_prod'].unique())

In [None]:
# Remplacement des valeurs manquantes de la variable 'categ' par 0
df['categ'].replace(np.nan, 0, inplace=True)
produit_2245 = df[df['id_prod']=='0_2245']
produit_2245.sample(3)

Comme le d√©montrera l'analyse, les 3 cat√©gories correspondent √† des tranches de prix ordonn√©es. Les indices de corr√©lation confirment que cette variable des cat√©gories est la plus √† m√™me d'expliquer le prix. Dans une moindre mesure, l'√¢ge semble √©galement avoir un impact sur le prix.

In [None]:
# Triangle de corr√©lations
plt.figure(figsize=(8, 5))
heatmap = sns.heatmap(df.corr(), mask=np.triu(np.ones_like(df.corr(), dtype=np.bool)), vmin=-1, vmax=1, annot=True, cmap='BrBG')
heatmap.set_title('Triangle de corr√©lations', fontdict={'fontsize':16}, pad=24)
plt.xticks(rotation=45)
plt.show()


On pourrait donc d√©terminer le prix en se basant sur les indicateurs de prix dans la cat√©gorie 0. La moiti√© des produits y ont un prix sup√©rieur √† 9.99 : on peut choisir ce prix m√©dian comme valeur de remplacement. On aurait √©galement pu retenir le prix le plus fr√©quent (le mode) de la cat√©gorie 0 : *4.99*.

In [None]:
# Distribution et moyenne des prix par cat√©gorie
plt.figure(figsize=(8,3))
sns.boxplot(data=df, y='categ', x='price', orient='h', showfliers=False, showmeans=True, palette=["#64ffda", "#536dfe", "#ff6e40"], meanprops={"marker":"s","markerfacecolor":"white"})
plt.show()

In [None]:
print('Cat√©gorie 0 :',
    '\n- Prix moyen :', round(df[df['categ']==0]['price'].mean(), 2), # Prix moyen
    '\n- Prix m√©dian :', df[df['categ']==0]['price'].median(), # Prix m√©dian
    '\n- Mode :', df[df['categ']==0]['price'].mode().values[0]) # Prix le plus fr√©quent

Pour trancher entre ces 2 prix (la m√©diane et le mode), on peut alors s'appuyer sur une r√©gression lin√©aire pour mod√©liser le prix probable du produit *0_2245*. On retient comme variables explicatives les colin√©arit√©s relev√©es plus t√¥t.

Les pr√©dictions indiquent des prix moyen et m√©dian proches de 9.99. Le mode s'en approche √©galement, on retient donc 9.99 comme valeur de remplacement.

In [None]:
train = df[df['id_prod']!='0_2245'] # √âchantillon d'entrainement 
y = train['price'].to_numpy() # Variable cible
features = ['birth', 'categ'] # Variables explicatives
X = pd.get_dummies(train[features]).to_numpy() # √âchantillon d'entrainement (variables encod√©es)
X_test = pd.get_dummies(produit_2245[features]).to_numpy() # √âchantillon test
model = sk.linear_model.LinearRegression() # Mod√®le
model.fit(X, y) # Fit les variables explicatives et la target sur le mod√®le
predictions = pd.Series(model.predict(X_test)) # Pr√©diction sur l'√©chantillon test

plt.figure(figsize=(8, 2))
sns.violinplot(data=predictions, orient='h', showfliers=False, showmeans=True)
sns.boxplot(data=predictions, orient='h', showfliers=False, showmeans=True)
plt.title('Distribution et moyenne des pr√©dictions de prix du produit 0_2245')
plt.show()

In [None]:
print('Pr√©dictions sur la cat√©gorie:',
    '\n- Prix moyen :', round(predictions.mean(), 2),
    '\n- Prix m√©dian :', round(predictions.median(), 2),
    '\n- Mode :', round(predictions.mode(), 2)[0])

In [None]:
df['price'].replace(np.nan, 9.99, inplace=True)

Une for√™t d'arbres d√©cisionnels aurait aussi pu nous confirmer la cat√©gorie. On prend comme explicatives les 2 seules variables √† disposition dans l'√©chantillon du produit (le sexe et l'√¢ge). La majorit√© des pr√©dictions classent le produit dans la cat√©gorie 0.

In [None]:
train = df[df['id_prod']!='0_2245']
features = ['sex', 'birth']
y = train['categ']
X = pd.get_dummies(train[features])
X_test = pd.get_dummies(produit_2245[features])
model = sk.ensemble.RandomForestClassifier()
model.fit(X, y)
predictions = model.predict(X_test)

sns.countplot(predictions)
plt.title('Pr√©dictions de cat√©gorie des individus du produit 0_2245')
plt.show()

## 2.4. Variables suppl√©mentaires

Pour enrichir l'analyse, on cr√©e quelques variables additionnelles, comme : 

- le mois de la transaction
- le nombre de produits achet√©s par client chaque mois (la fr√©quence d'achats)
- le nombre de ventes total par client sur l'ann√©e enti√®re
- le panier moyen, 
- la taille du panier moyen pour chaque client
- le chiffre d'affaires total par client sur l'ann√©e

In [None]:
# Mois de la transaction
df['mois'] = pd.DatetimeIndex(df['date']).month # Mois, de 1 √† 12
df.sample()

df['date_fixe'] = df['date'].dt.date # Variable temporaire de date fixe (jour)

df = df.merge(
    df.groupby('client_id').count()['date'].reset_index().rename(columns={'date': 'total_ventes'}),
    how='left', on='client_id')
df.sample(3)

df['ventes_mensuelles'] = round(df['total_ventes'] / 11)
df.sample()

df = df.merge(
    df.pivot_table(
        index=['client_id', 'date_fixe'], 
        values='price', 
        aggfunc='count').reset_index().pivot_table(
        index='client_id').reset_index().rename(
        columns={'price': 'taille_panier_moyen'}), 
    on='client_id', how='left')

df = df.merge(
    df.pivot_table(
        index=['client_id', 'date_fixe'], 
        values='price').reset_index().pivot_table(
        index='client_id').reset_index().rename(
        columns={'price': 'panier_moyen'}), 
    on='client_id', how='left').drop('date_fixe', axis=1)


df = df.merge(
    df.pivot_table(
    index='client_id', values='price', 
    aggfunc='sum').reset_index().rename(
    columns={'price': 'total_achats'}),
    on='client_id', how='left')
df.sample(3)

On peut √©galement diviser la population en tranches d'√¢ges, par tranches de 10 ans.

In [None]:
year = datetime.now().year # Ann√©e courante
df['age'] = year - df['birth'] # √Çge du client
df.sample()

# Tranches d'√¢ge
df['classe_age'] = '18-30'
df['classe_age'].loc[df[df['age']>=30].index] = '30-40'
df['classe_age'].loc[df[df['age']>=40].index] = '40-50'
df['classe_age'].loc[df[df['age']>=50].index] = '50-60'
df['classe_age'].loc[df[df['age']>=60].index] = '60-70'
df['classe_age'].loc[df[df['age']>=70].index] = '70-80'
df['classe_age'].loc[df[df['age']>=80].index] = '80 et +'
df.sample()

# 3. Analyse

## 3.1. In√©galit√©s entre clients

En triant les clients par chiffre d'affaires annuel, 4 clients se d√©tachent. Leur nombre d'achats est anormalement plus √©lev√© que celui des autres clients : on a s√ªrement affaire √† des clients professionels.

In [None]:
ca_annuel = df.pivot_table(
    index='client_id', values=[
        'total_achats','ventes_mensuelles','taille_panier_moyen','total_ventes','panier_moyen']
    ).sort_values(by='total_achats', ascending=False).reset_index()

ca_annuel.head(10) # Les 10 clients aux plus gros chiffres d'affaires annuels

Le poids de ces 4 individus risquant d'impacter l'analyse sur des variables comme le sexe ou l'√¢ge, on distinguera les clients professionnels des particuliers.  

In [None]:
# Cr√©ation d'une variable 'Type' de client (2 modalit√©s : particulier ou professionnel)
df['client_type'] = 'B2C'
df['client_type'].loc[df[df['client_id'].isin(ca_annuel.head(4)['client_id'])].index] = 'B2B'

# Cr√©ation de 2 datafra
b2b = df[df['client_type']=='B2B']
b2c = df[df['client_type']=='B2C']

df.sample(3)

Le B2B repr√©sente 7.5% du chiffre d'affaires, et 6.9% des transactions.

In [None]:
print('Clients professionnels :',
    round(b2b['price'].sum() / df['price'].sum() * 100, 2), '% du chiffre d\'affaires annuel')

In [None]:
# Proportion des transactions entre professionnels et particuliers
plt.figure(figsize=(5,5))
df['client_type'].value_counts(normalize=True).plot(
    kind='pie',
    legend=True,
    autopct='%1.1f%%')
plt.show()

L'indice de Gini mesure ici l'in√©galit√© des chiffres d'affaires de tous les clients : 

- un coefficient de 0 indiquerait une √©galit√© parfaite
- si l'indice √©tait de 1, un seul client d√©tiendrait la totalit√© du chiffre d'affaires

La courbe de Lorenz montre encore une fois le chiffre d'affaires que les 4 clients (repr√©sent√©s par des croix) repr√©sentent √† eux-seuls. 

In [None]:
# Courbe de Lorenz
def lorenz(variable):
    X = variable.values
    X = np.sort(X)
    
    # Indice de Gini
    def gini(array):
        array
        sorted_array = array.copy()
        sorted_array.sort()
        n = array.size
        coef_ = 2. / n
        const_ = (n + 1.) / n
        weighted_sum = sum([(i+1)*yi for i, yi in enumerate(sorted_array)])
        return coef_*weighted_sum/(sorted_array.sum()) - const_
    print('Incide de Gini :', gini(X))
    
    # Courbe de Lorenz
    X_lorenz = X.cumsum() / X.sum()
    X_lorenz = np.insert(X_lorenz, 0, 0)
    # X_lorenz[0], X_lorenz[-1]
    y = np.arange(X_lorenz.size)/(X_lorenz.size-1)
    lorenz = pd.DataFrame()
    lorenz['X'] = pd.Series(X_lorenz)
    lorenz['Y'] = pd.Series(y)
    sns.scatterplot(data=lorenz, x='Y', y='X', marker='x')

    # Diagonale
    a = np.arange(0,1,.01)
    x = a
    y = a
    
    # Graphique
    sns.lineplot(x,y)
    plt.xlim([0,1])
    plt.ylim([0,1])
    
# In√©galit√© des chiffres d'affaires annuels de tous les clients
lorenz(ca_annuel['total_achats'])

L'indice de Gini est naturellement plus faible si on exclut les 4 professionnels.

In [None]:
# In√©galit√© des chiffres d'affaires annuels des clients particuliers
lorenz(b2c.pivot_table(index='client_id')['total_achats'])

## 3.2. Clients professionnels

Les variables *'sex'* et *'age'* n'ont aucun int√©r√™t ici. Nous remarquons que le client *c_4958* a un panier moyen sup√©rieur aux 3 autres professionnels, alors que sa fr√©quence d'achat est la plus faible.

In [None]:
b2b.pivot_table(index='client_id').reset_index() # Profil des 4 clients B2B

Le volume des transactions par cat√©gorie montre des habitudes diff√©rentes chez chacun de ces clients. 

Le client *c_1609* ne consomme pas du tout la cat√©gorie 2, tandis que le client *c_4858* est le seul √† consommer principalement cette cat√©gorie. Vu que ce client d√©tient de loin le plus gros panier moyen, la cat√©gorie pourrait influer sur le prix du livre. 

In [None]:
sns.countplot(data=b2b, x='client_id', hue='categ')
plt.title('Volume des achats des clients professionnels, par cat√©gorie')
plt.show()

La distribution des prix d'achats confirme cette intuition : le client *c_4958* ach√®te des livres bien plus chers les 3 autres clients.

In [None]:
plt.figure(figsize=(8,5))
sns.boxplot(data=b2b, y='price', x='client_id', showfliers=False)
plt.title('R√©partition des prix d\'achat par client B2B et cat√©gorie')
plt.show()

La p√©riodicit√© des achats pr√©sente des points communs en fonction des cat√©gories l√† encore :

- la cat√©gorie 0 est surtout achet√©e en septembre
- la cat√©gorie 1 en d√©cembre
- la cat√©gorie 2 au mois de f√©vrier

In [None]:
for i in b2b['client_id'].unique():
    print('Client', i)
    plt.figure(figsize=(8,5))
    sns.histplot(data=b2b[b2b['client_id']==i], x='date', hue='categ', binwidth=7)
    plt.show()

## 3.3. Clients particuliers

### 3.3.1. Par sexe

La pyramide des √¢ges ne montre aucune diff√©rence entre les hommes et les femmes.

In [None]:
fig, axes = plt.subplots(1, 2)
fig.suptitle('Pyramide des √¢ges par sexe')

sns.histplot(ax=axes[0], y=b2c[b2c['sex']=='m']['age'], bins=12)
axes[0].invert_xaxis()
axes[0].set_title('Hommes')

sns.histplot(ax=axes[1], y=b2c[b2c['sex']=='f']['age'], bins=12)
axes[1].set_yticklabels([])
axes[1].set_ylabel('')
axes[1].set_title('Femmes')

plt.subplots_adjust(wspace=0, hspace=0)
plt.show()

La p√©riodicit√© des ventes est la m√™me pour les 2 sexes.

In [None]:
plt.figure(figsize=(8,5))
sns.histplot(data=b2c, x='date', hue='sex', binwidth=7)
plt.title('Volume des ventes par sexe et date d\'achat')
plt.show()

Les effectifs de ventes pour chaque sexe sont √©quilibr√©s. Les cat√©gories y apparaissent dans les m√™mes proportions.

In [None]:
sns.displot(data=b2c, x='sex', hue='categ')
plt.title('Effectifs des ventes B2C par sexe et cat√©gorie')
plt.show()

La distribution des prix est l√† aussi la m√™me : toutes les corr√©lations ont √©t√© √©tudi√©es, le sexe ne nous renseigne pas sur les habitudes des clients.

In [None]:
plt.figure(figsize=(8,3))
sns.violinplot(data=b2c, x='price', y='sex', showfliers=False, showmeans=True)
plt.xlim([0,35])
plt.show()

Une matrice des corr√©lations aurait pu nous montrer cette absence de relation entre le sexe et toutes les autres variables. On doit d'abord encoder la variable *'sex'*. Les taux de corr√©lation approchent tous de 0, indiquant une absence de corr√©lation.

In [None]:
b2c = pd.concat([b2c,
    pd.get_dummies(b2c['sex'], drop_first=True).rename(columns={'m': 'sex_code'})],
    axis=1)
b2c.sample(3)

In [None]:
plt.figure(figsize=(16, 6))
heatmap = sns.heatmap(
    b2c.corr(), 
    mask=np.triu(np.ones_like(b2c.corr(), dtype=np.bool)), 
    vmin=-1, vmax=1, annot=True, cmap='BrBG')
heatmap.set_title('Triangle correlation heatmap', fontdict={'fontsize':16}, pad=16)
plt.show()

### 3.3.2. Par √¢ge

Les 30-50 ans repr√©sentent plus de la moiti√© des ventes.

In [None]:
sns.boxplot(data=b2c, x='age', showfliers=False)
sns.violinplot(data=b2c, x='age', showfliers=False)
plt.title('Distribution des √¢ges')
plt.show()

Les 3 cat√©gories sont consomm√©es par toutes les classes d'√¢ge. Mais les acheteurs de la cat√©gorie 0 sont principalement ces 30-50 ans, tandis que la cat√©gorie 2 est consomm√©e quasi exclusivement par les moins de 30 ans.

In [None]:
plt.figure(figsize=(8,5))
sns.displot(data=b2c, x='age', hue='categ', kind='kde', fill=True)
plt.show()

Comme c'√©tait le cas avec un des clients professionnels, les moins de 30 ans affichent des prix d'achat bien plus hauts que les autres clients.

Les prix sont aussi l√©g√®rement inf√©rieurs chez les 30-50 ans (population consommant la cat√©gorie 0). 

In [None]:
plt.figure(figsize=(8, 4))
sns.boxplot(data=df.sort_values(by='classe_age'), y='classe_age', x='price', showfliers=False)
plt.show()

Le chiffre d'affaires annuel des clients particuliers est logiquement corr√©l√© √† la classe d'√¢ge, car comme vu plus t√¥t :

- la cat√©gorie 0 est de loin la cat√©gorie la plus consomm√©e (par les 30-50 ans)
- la cat√©gorie 2 est presque exclusivement achet√©e par les moins de 30 ans, en plus de concentrer les livres les plus chers

Les 30-50 ans concentrent ainsi les plus gros chiffres d'affaires, suivis par les moins de 30 ans.

In [None]:
sns.boxplot(data=b2c.sort_values(by='classe_age'), 
            y='classe_age', x='total_achats', 
            showfliers=False, showmeans=True)
plt.show()

In [None]:
plt.figure(figsize=(8, 4))
sns.scatterplot(data=b2c.sample(150), x='age', y='total_achats', hue='classe_age', s=100)
plt.title('Distribution des prix par tranche d\'√¢ge')
plt.show()

La fr√©quence d'achats (le nombre de livres par mois) classe d'autant mieux les 3 groupes d'individus d√©finis plus t√¥t :

- les moins de 30 ans ach√®tent le m√™me nombre de livrees (jamais plus de 3 livres par mois)
- les 30-50 ans se d√©marquent : un quart de ces clients ach√®te plus de 8 livres par mois.
- les plus de 50 ans ont des habitudes plus vari√©es, mais ach√®tent rarement plus de 5 livres

In [None]:
plt.figure(figsize=(16,4))
sns.boxplot(
    data=b2c.pivot_table(index=['client_id']),
    y='ventes_mensuelles', x='age', showfliers=False)
plt.xticks(rotation=90)
plt.title('Distribution des fr√©quences d\'achat, par √¢ge')
plt.show()

La taille du panier moyen suit la m√™me logique : 

- les moins de 30 ans comptent en moyenne moins de 2 livres par panier
- les 30-50 ans ach√®tent 2 √† 3 livres par commande
- les habitudes sont al√©atoires chez les plus de 50 ans

In [None]:
plt.figure(figsize=(16,4))
sns.boxplot(
    data=b2c.pivot_table(index=['client_id']),
    y='taille_panier_moyen', x='age', showfliers=False, showmeans=True)
plt.xticks(rotation=90)
plt.title('Distribution de la taille du panier moyen, par √¢ge')
plt.show()

[](http://)

## 3.4. Produits

### 3.4.1. P√©riodicit√©

Comme chez les clients professionnels, la p√©riodicit√© des ventes semble plut√¥t corr√©l√©e √† la cat√©gorie des livres :
    
- la cat√©gorie 0 √† la rentr√©e scolaire de septembre
- la cat√©gorie 1 pendant les f√™tes de fin d'ann√©e
- la cat√©gorie 2 pendant l'√©t√© et au mois de f√©vrier (d√©but du second semestre universitaire)

In [None]:
plt.figure(figsize=(8,5))
sns.histplot(data=b2c, x='date', hue='categ', multiple='stack', binwidth=7)
plt.xticks(rotation=45)
plt.show()

In [None]:
for i in sorted(df['categ'].unique()):
    print('Cat√©gorie', i)
    sns.histplot(data=df[df['categ']==i], x='date')
    plt.show()

### 3.4.2. Cat√©gories et prix

La cat√©gorie 0 repr√©sente 60% des ventes, la cat√©gorie 2 seulement 5%. Malgr√© tout, les prix des cat√©gories 2 et 1 entra√Ænent une in√©galit√© des chiffres d'affaires annuels par produit. 

In [None]:
df['categ'].value_counts(normalize=True).plot(
    kind='pie',
    legend=True,
    autopct='%1.1f%%'
)
plt.title('Volume des ventes par cat√©gorie')
plt.show()

Les livres aux plus hauts chiffre d'affaires appartiennent tous aux cat√©gories 1 et 2.

In [None]:
# Les 20 livres aux plus gros chiffres d'affaires annuels
df.pivot_table(index=['id_prod', 'categ'], aggfunc={'price': np.sum}).sort_values(by='price', ascending=False).reset_index().head(10)

L'indice de Gini est plus √©lev√© encore que celui des chiffres d'affaires des clients.

In [None]:
# In√©galit√©s des chiffres d'affaires annuels par produit
lorenz(df.pivot_table(index='id_prod', aggfunc='sum')['price'])

Les proportions du chiffre d'affaires sont beaucoup plus √©quilibr√©es : la cat√©gorie 0 ne repr√©sente finalement qu'un tiers du chiffre d'affaires.

In [None]:
data=df.pivot_table(index='categ', aggfunc={'price': np.sum}).plot(
    kind='pie', y='price',
    legend=True,
    autopct='%1.1f%%'
)
plt.title('Chiffre d\'affaires par cat√©gorie')
plt.show()

Les indicateurs prix sont distinctement ordonn√©s entre cat√©gories.  

In [None]:
plt.figure(figsize=(8,3))
sns.boxplot(
    data=df, y='categ', x='price', 
    showmeans=True, showfliers=False, orient='h')
plt.title('Distribution des prix par cat√©gorie')
plt.show()

In [None]:
# Indicateurs de position des prix dans chaque cat√©gorie
for i in sorted(df['categ'].unique()):
    print('Cat√©gorie', i)
    print(pd.Series(df[df['categ']==i]['price'].describe()), '\n')

# 4. Tests

## 4.1. Cat√©gorie et √¢ge (ANOVA)

Entre une cat√©gorielle et une quantitative, L'analyse de la variance.

Avant de faire une ANOVA, on affiche la moyenne des √¢ge dans chaque cat√©gorie. La cat√©gorie 2 se d√©tache, mais les cat√©gories 0 et 1 ont des moyennes assez proches : le test va permettre de v√©rifier si leur distance est significative.

In [None]:
sns.boxplot(data=df, x='age', y='categ', orient='h', showfliers=False, showmeans=True)
plt.show()

In [None]:
# Moyenne des prix par cat√©gorie
df.groupby('categ').mean()['age']

In [None]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.formula.api import ols

# Test d'ANOVA
sample_df = df.sample(5000)
model = smf.ols('age ~ categ', data=sample_df).fit()
anova_table = sm.stats.anova_lm(model, typ=2)
p = anova_table['PR(>F)'][0]
print('ANOVA\np-value :', p, '\nstat :', anova_table['F'][0])
if p > 0.05:
    print('H0: the means of the samples are equal.')
else:
    print('H1: one or more of the means of the samples are unequal.'
         '\n\nConditions :'
         '\n1. Normalit√© des r√©sidus\n2. Homosc√©dasticit√©')

Mais la distribution des r√©sidus n'est pas normale.

In [None]:
from statsmodels.graphics.gofplots import qqplot

# Test de Shapiro sur les r√©sidus
print('Normalit√© des r√©sidus (Shapiro)')
print('\nstats :', stats.shapiro(model.resid)[0],
    '\np-value :', stats.shapiro(model.resid)[1])
if p>.05:
    print('H0 accept√©e : distribution normale')
else:
    print('H0 rejet√©e : distribution probablement pas normale')
qqplot(model.resid, line='s')
plt.show()

Apr√®s un boxcox les r√©sidus sont consid√©r√©s comme normaux : la premi√®re condition de l'ANOVA est remplie.

In [None]:
from scipy.special import boxcox1p

# Test de Shapiro sur les r√©sidus apr√®s boxcox
residus = boxcox1p(model.resid, 1)
p = stats.shapiro(residus)[1]
print('Normalit√© des r√©sidus apr√®s boxcox :'
    '\nstats :', stats.shapiro(residus)[0],
    '\np-value :', p)
if p>.05:
    print('H0 accept√©e : distribution normale')
else:
    print('H0 rejet√©e : distribution probablement pas normale')
qqplot(residus, line='s')
plt.show()

Reste √† tester l'homosc√©dasticit√© des r√©sidus, pour s'assurer que les variances sont √©gales. Le test de Levene n'est pas concluant. Dans ce cas o√π la condition d'homosc√©dasticit√© n'est pas remplie, on peut utiliser Welch ANOVA : ce test valide la corr√©lation entre prix et cat√©gorie.

In [None]:
# Test de Levene sur les 3 cat√©gories
samples = 4000
a = df[df['categ']==0]['age'].sample(samples).values
b = df[df['categ']==1]['age'].sample(samples).values
c = df[df['categ']==2]['age'].sample(samples).values
stat, p = stats.levene(a, b, c)
print('Condition 2 : homosc√©dasticit√© (Levene)',
    '\nstats :', stat,
    '\np-value :', p)
if p > 0.05:
    print('H0: les variances sont √©gales')
else:
    print('H1: les variances ne sont pas √©gales (essayer Welch ANOVA)')
print('\nConditions :'
      '\n- The samples from the populations under consideration are independent',
      '\n- The populations under consideration are approximately normally distributed')   

In [None]:
# Test de Welch entre cat√©gorielle et quantitative
stat, p = stats.ttest_ind(sample_df['age'], sample_df['categ'])
print('Test de Welch (si absence d\'homosc√©dasticit√©)\n')
print('p-value :', p, '\nstat :', stat)
if p > 0.05:
    print('H0: les moyennes des √©chantillons sont √©gales')
else:
    print('H1: une ou plus des moyennes des √©chantillons sont in√©gales')

## 4.2. Cat√©gorie et sexe (Chi 2)

In [None]:
sns.displot(data=b2c, x='sex', hue='categ')
plt.title('Effectifs des ventes B2C par sexe et cat√©gorie')
plt.show()

In [None]:
pip install researchpy

In [None]:
# Table de contingence
crosstab = pd.crosstab(b2c['categ'], b2c['sex'], margins=False)
print('Table de contingence :')
print(crosstab)

import researchpy as rp

# Table de contingence normalis√©e
table, results = rp.crosstab(b2c['categ'], b2c['sex'], prop='col', test='chi-square')
print('\n' + '-' * 55, '\n\nTable de contingence normalis√©e :')
print(table)

In [None]:
sns.heatmap(crosstab)
plt.show()

In [None]:
# Test de Chi 2
sample_df = b2c.sample(1500)
table = pd.crosstab(sample_df['categ'], sample_df['sex'], margins=False)
stat, p, dof, expected = stats.chi2_contingency(table)
print('Test de Chi 2 (2 cat√©gorielles)')
print('Stat = %.3f\np-value = %.35f' % (stat, p))
if p > .05:
    print('H0: the two samples are independent')
else:
    print('H1: there is a dependency between the samples.')
print('\nConditions :\n'
      '- Observations used in the calculation of the contingency table are independent.',
      '\n- 25 or more examples in each cell of the contingency table.')

## 4.3. Prix et montant total des achats (Pearson)

In [None]:
sns.scatterplot(data=b2c, x='price', y='total_achats', hue='categ')
plt.show()

In [None]:
df.sample()

In [None]:
# Test de Pearson
def test_pearson(samples, data, variable1, variable2):
    df = data.sample(samples)
    stat, p = stats.pearsonr(df[variable1], df[variable2])
    print('Test de Pearson (2 quantitatives)')
    print('Stat = %.3f\np-value = %.35f' % (stat, p))
    if p > .05:
        print('H0: D√©pendances entre les √©chantillons')
    else:
        print('H1: Pas de d√©pendance entre les √©chantillons')
    print('\nConditions :\n'
          '- Observations in each sample are independent and identically distributed (iid)',
          '\n- Observations in each sample are normally distributed',
          '\n- Observations in each sample have the same variance')
    sns.regplot(data=df, x=variable1, y=variable2)
    plt.show()
    
test_pearson(1000, b2c, 'price', 'total_achats')

# 5. R√©f√©rences

Statistiques :
- [StatQuest - Statistics Fundamentals](https://www.youtube.com/playlist?list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9)

Mod√©lisation : 
- [Getting Started With Titanic](https://www.kaggle.com/alexisbcook/getting-started-with-titanic) (Kaggle)
- [Stackoverflow](https://stackoverflow.com/questions/41925157/logisticregression-unknown-label-type-continuous-using-sklearn-in-python)

Courbe de Lorenz :
- [Plot Lorenz Curve in Python](https://zhiyzuo.github.io/Plot-Lorenz/)
- [Clearly Explained: Gini coefficient and Lorenz curve](https://towardsdatascience.com/clearly-explained-gini-coefficient-and-lorenz-curve-fe6f5dcdc07)  

Tests :
- [17 Statistical Hypothesis Tests in Python (Cheat Sheet)](https://machinelearningmastery.com/statistical-hypothesis-tests-in-python-cheat-sheet/)
- [Independent and identically distributed random variables](https://en.wikipedia.org/wiki/Independent_and_identically_distributed_random_variables)
- [Q-Q Plots Explained](https://medium.com/preai/q-q-plots-explained-75f5bc6d68be)


ANOVA :
- [ANOVA explained without math: Why analyze variances to compare means?](https://medium.com/@peterflom/anova-why-analyze-variances-to-compare-means-e3d4bbd3c05)
- [ANOVA using Python](https://reneshbedre.github.io/blog/anova.html)
- [F-tests and ANOVAs ‚Äî Examples with the Iris dataset](https://medium.com/@rrfd/f-tests-and-anovas-examples-with-the-iris-dataset-fe7caa3e21d0)
- [Welch‚Äôs t-test](https://pythonfordatascienceorg.wordpress.com/welch-t-test-python-pandas/)