#### <STRONG>Lapage - Partie 1

## Table des matières<br>
        
* [Chargement des bases et nettoyage des données](#Chargement_des_bases_et_nettoyage_des_données)<br><br>

* [Analyse du chiffre d'affaires](#Analyse_du_chiffre_d_affaires)
    * [Description du chiffre d'affaires](#Description_du_chiffre_d_affaires)  
    * [Evolution du chiffre d'affaires](#Evolution_du_ca)
    * [Description des ventes](#Description_des_ventes)  
    * [Evolution des ventes](#Evolution_des_ventes)
    * [Focus octobre 2021](#Focus_octobre_2021) 
    * [Recherche de saisonnalité](#Recherche_de_saisonnalite)<br><br>
     
* [Analyse par produit](#Analyse_par_produit)
    * [Répartition par catégorie](#Répartition_par_catégorie)
    * [Top 10 des livres les mieux vendus](#Top_10_des_livres_les_mieux_vendus)
    * [Top 10 des livres les moins vendus](#Top_10_des_livres_les_moins_vendus)<br><br>
    
* [Analyse du profil des clients](#Analyse_du_profil_des_clients)
    * [Répartition par genre](#Répartition_par_genre)
    * [Répartition par tranche d'âge](#Répartition_par_tranche_d_age)<br><br>
    
* [Analyse du comportement des clients](#Analyse_du_comportement_des_clients)
    * [Répartition du CA par client](#Répartition_du_CA_par_client)
    * [Corrélation entre genre et catégories](#Corrélation_entre_genre)
    * [Corrélation entre âge et achat](#Corrélation_entre_âge_et_achat)
        * [Âge et montant des achats](#Âge_et_montant_des_achats)
        * [Âge et fréquence d'achats](#Age_et_fréquence_d_achats)
        * [Âge et panier moyen](#Âge_et_panier_moyen)
            * [Âge et panier moyen](#Âge_et_panier_moyen)
            * [Tranche d'âge et panier moyen](#Tranche_age_et_panier_moyen)
        * [Âge et catégories de produits achetés](#Âge_et_catégories_de_produits_achetés)

------------
<li style="font-size: 20px;"><strong>Chargement des bases <span style="color: rgb(184, 49, 47);">et nettoyage des données</span></strong></li>
</div></span></p><a class="anchor" id="Chargement_des_bases_et_nettoyage_des_données"></a>

------------

#### <strong>Mise en place de l'environnement

In [None]:
# import des librairies
import numpy as np
import pandas as pd
import datetime
import plotly.express as px
import plotly.graph_objects as go

In [None]:
# import des .csv
customers = pd.read_csv('customers.csv',parse_dates=['birth'])
products = pd.read_csv('products.csv')
transactions = pd.read_csv('transactions.csv',parse_dates=['date'])

#### <strong>Nettoyage et traitement du fichier "customers"

<div class="alert alert-block alert-info">
<b>Note :</b> Analyse de la structure du fichier et des informations contenues
</div>

In [None]:
# Affichage informations DatFrame "customers_1"
customers.dtypes

In [None]:
# Affichage du nombre de colonnes
print('Nombre de colonnes:',customers.shape[1])

# Affichage du nombre de lignes
print('Nombre de lignes:',customers.shape[0],'\n')

# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',customers.duplicated().sum())

# Nombre de valeurs manquantes
print('Nombre de valeurs manquantes:',(customers.isnull().sum().sum()),'\n')

# Nombre de valeurs manquantes de l'ID ['client_id']
print('Valeurs total manquantes (client_id):',(customers[['client_id']].isnull().sum().sum()))

<div class="alert alert-block alert-info">
<b>Note :</b> Analyse des effectifs et des répétitions de l'ID du fichier
</div>

In [None]:
## ANALYSE DE LA COLONNE ['client_id'] ##

# Calcul du nombre de repetition
customers_analyse_id = customers['client_id'].value_counts()

# Modalités de l'index
modalites = customers_analyse_id.index

# Création du tableau à partir des modalités
tab = pd.DataFrame(modalites, columns = ['client_id']) 
tab['n'] = customers_analyse_id.values

# Len(web) renvoie la taille de l'échantillon
tab['f'] = tab['n'] / len(customers_analyse_id)

# Tri des valeurs de la variable X (croissant)
tab = tab.sort_values('client_id') 

# Cumsum calcule la somme cumulée
tab['F'] = tab['f'].cumsum()

# Affichage tableau
tab.head()

<div class="alert alert-block alert-warning">
<b>Conclusion :</b><br>    
Aucune anomalie<br>
</div>

#### <strong>Nettoyage et traitement du fichier "products"

<div class="alert alert-block alert-info">
<b>Note :</b> Analyse de la structure du fichier et des informations contenues
</div>

In [None]:
# Affichage informations DatFrame "products_1"
products.dtypes

In [None]:
# Convertion de la colonne 'categ' en 'object'
products['categ'] = products['categ'].astype(str)

In [None]:
# Affichage du nombre de colonnes
print('Nombre de colonnes:',products.shape[1])

# Affichage du nombre de lignes
print('Nombre de lignes:',products.shape[0],'\n')

# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',products.duplicated().sum())

# Nombre de valeurs manquantes
print('Nombre total de valeurs manquantes:',(products.isnull().sum().sum()),'\n')

# Nombre de valeurs manquantes de l'ID ['client_id']
print('Valeurs manquantes (id_prod):',(products[['id_prod']].isnull().sum().sum()))

<div class="alert alert-block alert-info">
<b>Note :</b> Analyse des effectifs et des répétitions de l'ID du fichier
</div>

In [None]:
## ANALYSE DE LA COLONNE ['id_prod'] ##

# Calcul du nombre de repetition
products_analyse_id = products['id_prod'].value_counts()

# Modalités de l'index
modalites = products_analyse_id.index

# Création du tableau à partir des modalités
tab1 = pd.DataFrame(modalites, columns = ['id_prod']) 
tab1['n'] = products_analyse_id.values

# Len(web) renvoie la taille de l'échantillon
tab1['f'] = tab1['n'] / len(products_analyse_id)

# Tri des valeurs de la variable X (croissant)
tab1 = tab1.sort_values('id_prod') 

# Cumsum calcule la somme cumulée
tab1['F'] = tab1['f'].cumsum()

# Affichage tableau
tab1.head()

<div class="alert alert-block alert-warning">
<b>Conclusion :</b><br>    
Aucune anomalie<br>
</div>

#### <strong>Nettoyage et traitement du fichier "transactions"

<div class="alert alert-block alert-info">
<b>Note :</b> Analyse de la structure du fichier et des informations contenues
</div>

In [None]:
# Affichage informations DatFrame "products_1"
transactions.dtypes

In [None]:
# Affichage du nombre de colonnes
print('Nombre de colonnes:',transactions.shape[1])

# Affichage du nombre de lignes
print('Nombre de lignes:',transactions.shape[0],'\n')

# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',transactions.duplicated().sum())

# Nombre de valeurs manquantes
print('Nombre total de valeurs manquantes:',(transactions.isnull().sum().sum()),'\n')

# Nombre de valeurs manquantes de l'ID ['client_id']
print('Valeurs manquantes (id_prod):',(transactions[['id_prod']].isnull().sum().sum()))

<div class="alert alert-block alert-info">
<b>Note :</b> Nettoyage des dates
</div>

In [None]:
# Détection des lignes de test
test_transactions = transactions[transactions['date'].str.startswith('test')]
test_transactions

In [None]:
# suppression des lignes de test
transactions.drop(transactions[transactions['date'].str.startswith('test') ].index, inplace=True)

# Convertion de la colonne 'date'
transactions['date'] = pd.to_datetime(transactions['date'],errors='coerce')

<div class="alert alert-block alert-info">
<b>Note :</b> Nettoyage des doublons
</div>

In [None]:
# Suppression des lignes complètement dupliquées
transactions = transactions.drop_duplicates()

# Affichage DataFrame
transactions.head()

<div class="alert alert-block alert-info">
<b>Note :</b> Vérification du nettoyage
</div>

In [None]:
# Affichage informations DatFrame "products_1"
transactions.dtypes

In [None]:
# Affichage du nombre de colonnes
print('Nombre de colonnes:',transactions.shape[1])

# Affichage du nombre de lignes
print('Nombre de lignes:',transactions.shape[0],'\n')

# Identification du nombre de lignes en doublon
print('Nombre de lignes dupliquées:',transactions.duplicated().sum())

# Nombre de valeurs manquantes
print('Nombre total de valeurs manquantes:',(transactions.isnull().sum().sum()),'\n')

# Nombre de valeurs manquantes de l'ID ['id_prod']
print('Valeurs manquantes (id_prod):',(transactions[['id_prod']].isnull().sum().sum()))

# Nombre de valeurs manquantes de l'ID ['client_id']
print('Valeurs manquantes (client_id):',(transactions[['client_id']].isnull().sum().sum()))

<div class="alert alert-block alert-warning">
<b>Conclusion :</b><br>    
Suppression des lignes de tests<br>
Traitement de la colonne date<br>
Supression de 126 lignes dupliquées<br>
</div>

#### <strong>Rapprochement des fichiers par jointure

##### <strong>Rapprochement des fichiers "transactions" et "products"

In [None]:
# Jointure entre les fichiers "transactions_1" et "products_1" par l'attribut 'product_id'
trans_prod= transactions.merge(products, how='outer',
                               on='id_prod',
                               indicator='_merge1')

# Résultat indicator
trans_prod['_merge1'].value_counts()

<div class="alert alert-block alert-warning">
<b>Remarques :</b><br>
221 transactions ne sont associées à aucun produits, ce qui pourrait correspondre à des tests.<br>
22 produits ne font l'objet d'aucune transaction. A vérifier s'il s'agit de références non nettoyées dans la base de donnée ou d'un oubli de référcement sur le site.<br>
Compte tenu du faible taux d'erreur, nous conserverons seulement les correspondances exactes dans ce projet.</div>

In [None]:
# Sélection des correspondances exactes
trans_prod = trans_prod[trans_prod['_merge1'] == 'both']

# Supression de la colonne '_merge1'
trans_prod = trans_prod.drop(columns=['_merge1'])

In [None]:
## AFFICHAGE ET TRI ##

# Affichage du nombre d'ID du fichier
print('Nombre ID "product_id" :', trans_prod['id_prod'].value_counts().sum())

# Affichage du nombre de colonnes
print('Nombre de colonnes:',trans_prod.shape[1])

# Affichage du nombre de lignes
print('Nombre de lignes:',trans_prod.shape[0],'\n')

# Identification du nombres de lignes en doublons du DataFrame
print('Nombre de lignes dupliquées:',trans_prod.duplicated().sum())

# Nombre total de valeurs manquantes du DataFrame
print('Nombre de valeurs manquantes:',(trans_prod.isnull().sum().sum()))

##### <strong>Rapprochement des fichiers "trans_prod" et "customers"

In [None]:
#Jointure entre les fichiers "transactions_products_merge" et "customers_1" par l'attribut 'id_web'
lapage_bdd = trans_prod.merge(customers, how='outer',
                              on='client_id', 
                              indicator='_merge2')

# Résultat indicator
lapage_bdd['_merge2'].value_counts()

<div class="alert alert-block alert-warning">
<b>Remarques :</b><br>
23 clients n'ont jamais fait aucune transactions sur le site web. Qui sont ces clients ?<br>
Pour l'analyse du projet, nous ne conserverons que les corespondances exactes mais surtout les clients ayant réellement fait un achat en ligne.

In [None]:
# Sélection des correspondances exactes
lapage_bdd = lapage_bdd[lapage_bdd['_merge2'] == 'both']

# Supression de la colonne '_merge1'
lapage_bdd = lapage_bdd.drop(columns=['_merge2'])

In [None]:
## AFFICHAGE ET TRI ##

# Affichage du nombre d'ID de chaque fichier
print('Nombre ID "id_prod" :', lapage_bdd['id_prod'].value_counts().sum())
print('Nombre ID "client_id" :', lapage_bdd['client_id'].value_counts().sum(),'\n')

# Affichage du nombre de colonnes
print('Nombre de colonnes:',lapage_bdd.shape[1])

# Affichage du nombre de lignes
print('Nombre de lignes:',lapage_bdd.shape[0],'\n')

# Identification du nombres de lignes en doublons du DataFrame
print('Nombre de lignes dupliquées:',lapage_bdd.duplicated().sum())

# Nombre total de valeurs manquantes du DataFrame
print('Valeurs manquantes:',(lapage_bdd.isnull().sum().sum()))

Ajout de colonnes 'age' et 'age_range'

In [None]:
# Définition de l'âge des clients à partir de la date actuelle
def age(born):
    today = datetime.date.today()
    return today.year - born.year - ((today.month, today.day) < (born.month, born.day))

In [None]:
# Création de la colonne 'age'
lapage_bdd['age'] = lapage_bdd['birth'].apply(lambda x: age(x))

# Suppression des doublons de clients
lapage_bdd = lapage_bdd.drop_duplicates()

# Définition des tranches d'âge
bin_labels=labels=['0-20 ans', '21-30 ans', '31-40 ans', '41-50 ans', '51-60 ans',
                   '61-70 ans', '71-80 ans', '81-90 ans', '91-100 ans']

# Création colonne 'Age-Range'
lapage_bdd['age_range'], bin_values= pd.cut(
    x= lapage_bdd['age'], 
    bins= [0, 20, 30 ,40, 50, 60, 70, 80, 90, 100],
    labels= bin_labels, retbins=True)

# Affichage DataFrame
lapage_bdd.head()

In [None]:
# Affichage informations DataFrame
lapage_bdd.dtypes

In [None]:
# Téléchargement fichier 'df_merge'
lapage_bdd.to_csv("lapage_bdd.csv",index=False)

------------
<li style="font-size: 20px;"><strong>Analyse du <span style="color: rgb(184, 49, 47);">chiffre d'affaires</span></strong></li>
</div></span></p><a class="anchor" id="Analyse_du_chiffre_d_affaires"></a>

------------

<li style="font-size: 16px;"><strong>2.1 - Description du chiffre d'affaires </strong></li>
</div></span></p><a class="anchor" id="Description_du_chiffre_d_affaires"></a>

##### <strong>Chiffre d'affaires total

In [None]:
# Calcul du chiffre d'affaires
ca_total = (lapage_bdd['price']).sum().round(2)

# Affichage résultat
print("Le chiffre d’affaires total réalisé en ligne est de", ca_total, "€")

<li style="font-size: 16px;"><strong>2.2 - Evolution du chiffre d'affaires </strong></li>
</div></span></p><a class="anchor" id="Evolution_du_chiffre_d_affaires_depuis_l_ouverture_du_site"></a>

##### <strong>Chiffre d'affaires mensuel

In [None]:
# Création du DataFrame
ca_mensuel = lapage_bdd.groupby(pd.Grouper(key='date', axis=0, freq='M')).sum().reset_index()

# sélection des colonnes à afficher
ca_mensuel = ca_mensuel[['date','price']]

# Affichage DataFrame
ca_mensuel.head()

In [None]:
# Meilleur mois
top_month = ca_mensuel.sort_values(by='price', ascending=False).head(1)

# Affichage DataFrame
top_month

In [None]:
# Plus mauvais mois  mois
flop_month = ca_mensuel.sort_values(by='price', ascending=True).head(1)

# Affichage DataFrame
flop_month

In [None]:
# Marqueurs
colors = ['rgb(103,177,218)'] * 24
colors[7] = 'rgb(134,234,233)'
colors[11] = 'cyan'

# Création du tracé
fig = go.Figure(data=[go.Bar(
    x=ca_mensuel['date'], y=ca_mensuel['price'], 
    text=ca_mensuel['price'], marker_color=colors)])

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Chiffre d\'affaires mensuel</b>'),
    yaxis=dict(title='Chiffre d\'affaires mensuel en €'))

fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_xaxes(gridcolor='rgba(0,0,0,0)', linecolor='lightgrey')
fig.update_yaxes(gridcolor='lightgrey', linecolor='lightgrey')

# Affichage graphique
fig.show()

##### <strong>Evolution mensuelle du CA vs moyenne mobile

In [None]:
# Moyenne mobile
ca_mensuel['rolling_mean'] = ca_mensuel.price.rolling(window = 3).mean()

# Création du tracé
fig = go.Figure()
fig.add_trace(go.Scatter(x=ca_mensuel['date'], 
                         y=ca_mensuel['price'],
                         name='Chiffre d\'affaires', line=dict(color='royalblue')))
fig.add_trace(go.Scatter(x=ca_mensuel['date'],
                         y=ca_mensuel['rolling_mean'], 
                         name='Moyenne mobile', line=dict(color='cyan')))

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)',
    font_color="black", width=850, height=400, showlegend=True, 
    title=dict(text='<b>Evolution mensuelle du chiffre d\'affaires</b>'),
    yaxis=dict(title='Chiffre d\'affaires en (€)'),
    legend=dict(orientation='h', y=1.1, xanchor="right", x=1))

fig.update_xaxes(gridcolor='rgba(0,0,0,0)', linecolor='lightgrey')
fig.update_yaxes(gridcolor='lightgrey', linecolor='lightgrey')

# Affichage graphique
fig.show()

<li style="font-size: 16px;"><strong>2.3 - Description des ventes </strong></li>
</div></span></p><a class="anchor" id="Description_des_ventes"></a>

##### <strong>Nombre de ventes depuis l'ouverture du site

In [None]:
# Calcul du nombre de ventes totales
ventes_totales = (lapage_bdd['id_prod']).count()

# Affichage résultat
print("Le nombre de ventes total réalisé en ligne est de:", ventes_totales)

<li style="font-size: 18px;"><strong>2.4 - Evolution des ventes </strong></li>
</div></span></p><a class="anchor" id="Evolution_des_ventes"></a>

##### <strong>Evolution du nombre de ventes

In [None]:
# Création du DataFrame
ventes_mensuel = lapage_bdd.groupby(pd.Grouper(key='date', axis=0, freq='M')).count()

# Mise à jour de l'index
ventes_mensuel = ventes_mensuel.reset_index()

# Sélection des colonnes du DataFrame
ventes_mensuel = ventes_mensuel[['date','categ']]

# Affichage DataFrame
ventes_mensuel.head()

In [None]:
# Meilleur mois
top_ventes = ventes_mensuel.sort_values(by='categ', ascending=False).head(1)

# Affichage DataFrame
top_ventes

In [None]:
# Meilleur mois
flop_ventes = ventes_mensuel.sort_values(by='categ', ascending=True).head(1)

# Affichage DataFrame
flop_ventes

In [None]:
# Marqueurs
colors = ['rgb(103,177,218)'] * 24
colors[7] = 'rgb(134,234,233)'
colors[6] = 'cyan'

# Création du tracé
fig = go.Figure(data=[go.Bar(
    x=ventes_mensuel['date'], y=ventes_mensuel['categ'], 
    text=ventes_mensuel['categ'], marker_color=colors)])

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Nombre de ventes mensuel</b>'),
    yaxis=dict(title='Nombre de ventes'),
    margin=dict(l=0, r=50, b=50, t=30,pad=4))

fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_xaxes(gridcolor='rgba(0,0,0,0)', linecolor='lightgrey')
fig.update_yaxes(gridcolor='lightgrey', linecolor='lightgrey')

# Affichage graphique
fig.show()

In [None]:
# Moyenne mobile
ventes_mensuel['rolling_mean'] = ventes_mensuel.categ.rolling(window = 3).mean()

# Création du tracé
fig = go.Figure()
fig.add_trace(go.Scatter(x=ventes_mensuel['date'], 
                         y=ventes_mensuel['categ'],
                         name='Ventes', line=dict(color='royalblue')))
fig.add_trace(go.Scatter(x=ventes_mensuel['date'],
                         y=ventes_mensuel['rolling_mean'], 
                         name='Moyenne mobile', line=dict(color='cyan')))

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)',
    font_color="black", width=850, height=400, showlegend=True, 
    title=dict(text='<b>Evolution mensuelle des ventes</b>'),
    yaxis=dict(title='Chiffre d\'affaires en (€)'),
    legend=dict(orientation='h', y=1.1, xanchor="right", x=1))

fig.update_xaxes(gridcolor='rgba(0,0,0,0)', linecolor='lightgrey')
fig.update_yaxes(gridcolor='lightgrey', linecolor='lightgrey')

# Affichage graphique
fig.show()

<li style="font-size: 18px;"><strong>2.5 - Focus octobre 2021</strong></li>
</div></span></p><a class="anchor" id="Focus_octobre_2021"></a>

##### <strong>Analyse du chiffre d'affaires journalier

In [None]:
# Création du DataFrame
ca_octobre = lapage_bdd[(lapage_bdd['date'] >= '2021-10-01') & 
                        (lapage_bdd['date'] <= '2021-10-31')]

ca_octobre = ca_octobre.groupby(pd.Grouper(key='date', axis=0, freq='d')).sum().reset_index()

# sélection des colonnes à afficher
ca_octobre = ca_octobre[['date','price']]

# Affichage DataFrame
ca_octobre.head()

In [None]:
# Meilleur jour
top_oct = ca_octobre.sort_values(by='price', ascending=False).head(1)

# sélection des colonnes à afficher
top_oct = top_oct[['date','price']]

# Affichage DataFrame
top_oct

In [None]:
# Meilleur jour
flop_oct = ca_octobre.sort_values(by='price', ascending=True).head(1)

# sélection des colonnes à afficher
flop_oct = flop_oct[['date','price']]

# Affichage DataFrame
flop_oct

In [None]:
# Création du tracé
fig = go.Figure()
fig.add_trace(go.Scatter(x=ca_octobre['date'], 
                         y=ca_octobre['price'],
                         name='Ventes', line=dict(color='cyan')))

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Chiffre d\'affaires journalier</b>'),
    yaxis=dict(title='Chiffre d\'affaires en (€)'))


fig.update_xaxes(gridcolor='rgba(0,0,0,0)', linecolor='lightgrey')
fig.update_yaxes(gridcolor='lightgrey', linecolor='lightgrey')

# Affichage graphique
fig.show()

##### <strong>Analyse des ventes par catégorie

In [None]:
# Création DataFrame
categ_octobre = lapage_bdd[(lapage_bdd['date'] >= '2021-10-01') & 
                           (lapage_bdd['date'] <= '2021-10-31')]

# Groupement par catégorie
categ_octobre = categ_octobre.groupby(by='categ').sum().reset_index()

# Groupement par catégorie
categ_octobre = categ_octobre[['categ','price']]

# Affichage DataFrame
categ_octobre.head()

In [None]:
# Création du tracé
fig = px.pie(categ_octobre, values='price', 
             names='categ',color='categ', 
             color_discrete_map={'0':'lightcyan',
                                 '1':'cyan',
                                 '2':'royalblue'})

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Répartition des ventes par catégorie</b>'))

# Affichage graphique
fig.show()

------------
<li style="font-size: 20px;"><strong>Analyse par <span style="color: rgb(184, 49, 47);"> produit</span></strong></li>
</div></span></p><a class="anchor" id="Analyse_par_produit"></a>

------------

<li style="font-size: 16px;"><strong>3.1 - Répartition par catégorie </strong></li>
</div></span></p><a class="anchor" id="Répartition_par_catégorie"></a>

##### <strong>Répartition produits par catégorie

In [None]:
# Calcul des occurences de 'catégories'
categ_count = lapage_bdd.groupby(by=["categ"]).size().reset_index(name="counts")

# Affichage table
categ_count

In [None]:
# Création du tracé
fig = px.pie(categ_count, values='counts', 
             names='categ',color='categ', 
             color_discrete_map={'0':'lightcyan',
                                 '1':'cyan',
                                 '2':'royalblue'})

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Répartition produits par catégorie</b>'))

# Affichage graphique
fig.show()

##### <strong>Répartition CA par catégorie

In [None]:
# Calcul des occurences de 'catégories'
categ_sum = lapage_bdd.groupby(by=["categ"]).sum().reset_index()

# sélection des colonnes à afficher
categ_sum = categ_sum[['categ','price']]

# Suppression anotation scientifique
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Affichage table
categ_sum

In [None]:
# Création du tracé
fig = px.pie(categ_sum, values='price', 
             names='categ',color='categ',
             color_discrete_map={'0':'lightcyan',
                                 '1':'cyan',
                                 '2':'royalblue'})

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Répartition CA par catégorie</b>'))

# Affichage graphique
fig.show()

<li style="font-size: 16px;"><strong>3.2 - Top 10 des livres les mieux vendus </strong></li>
</div></span></p><a class="anchor" id="Top_10_des_livres_les_mieux_vendus"></a>

In [None]:
# Création du DataFrame
top_10 = lapage_bdd.groupby(['id_prod','price',
                         'categ']).id_prod.agg('count').to_frame('count').reset_index()

# Classement des ventes par ordre croissant
top_10 = top_10.sort_values(by=['count','categ','price'],
                            ascending=False).head(10)

# Affichage DataFrame
top_10

<li style="font-size: 16px;"><strong>3.3 - Top 10 des livres les moins vendus </strong></li>
</div></span></p><a class="anchor" id="Top_10_des_livres_les_moins_vendus"></a>

In [None]:
# Création du DataFrame
flop_10 = lapage_bdd.groupby(['id_prod', 'categ',
                           'price']).id_prod.agg('count').to_frame('count').reset_index()

# Classement des ventes par ordre croissant
flop_10 = flop_10.sort_values(by=['count', 'categ', 'price'],
                              ascending=True).head(10)

# Affichage DataFrame
flop_10

------------
<li style="font-size: 20px;"><strong>Analyse du profil <span style="color: rgb(184, 49, 47);">des clients</span></strong></li>
</div></span></p><a class="anchor" id="Analyse_du_profil_des_clients"></a>

------------

<li style="font-size: 16px;"><strong>4.1 - Répartition des clients par genre </strong></li>
</div></span></p><a class="anchor" id="Répartition_des clients_par_genre"></a>

In [None]:
# Création DataFrame
repart_genre = lapage_bdd.groupby(by=["sex"]).size().reset_index(name="counts")

# Affichage DataFrame
repart_genre

In [None]:
# Création du tracé
fig = px.pie(repart_genre,
             names='sex',color='sex',
             color_discrete_map={'f':'lightcyan',
                                 'm':'cyan'})

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Répartition clients par genre</b>'))

# Affichage graphique
fig.show()

<li style="font-size: 16px;"><strong>4.2 - Répartition des clients par tranche d'âge </strong></li>
</div></span></p><a class="anchor" id="Répartition_par_tranche_d_age"></a>

In [None]:
# Affichage DataFrame
repart_age = lapage_bdd.groupby(by=["age_range"]).size().reset_index(name="counts")

# Affichage DataFrame
repart_age.sort_values(by='counts', ascending=False)

In [None]:
# Marqueurs
colors = ['rgb(103,177,218)'] * 8
colors[3] = 'rgb(134,234,233)'

# Création du tracé
fig = go.Figure(data=[go.Bar(
    x=repart_age['age_range'], y=repart_age['counts'], 
    text=repart_age['counts'], marker_color=colors)])

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Répartition clients par tranche d\'âge</b>'),
    yaxis=dict(title='Nombre de clients'),
    margin=dict(l=0, r=50, b=50, t=30,pad=4))

fig.update_traces(texttemplate='%{text}', textposition='outside')
fig.update_xaxes(gridcolor='rgba(0,0,0,0)', linecolor='lightgrey')
fig.update_yaxes(gridcolor='lightgrey', linecolor='lightgrey')

# Affichage graphique
fig.show()

In [None]:
# Création du tracé
fig = px.pie(lapage_bdd,
             names='age_range', color='age_range',
             color_discrete_map={'0-20 ans':'lightcyan',
                                 '21-30 ans':'cyan',
                                 '31-40 ans':'royalblue',
                                 '41-50 ans':'darkblue',
                                 '51-60 ans':'rgb(134,234,233)',
                                 '61-70 ans':'rgb(62,218,216)',
                                 '71-80 ans':'rgb(55,201,239)',
                                 '81-90 ans':'rgb(19,83,138)',
                                 '91-100 ans':'rgb(1,160,96)'})

# Paramètres du graphique
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)', plot_bgcolor='rgba(0,0,0,0)', 
    font_color="black", width=850, height=400,
    title=dict(text='<b>Répartition clients par tranche d\'âge</b>'))

# Affichage graphique
fig.show()

#### <STRONG>Lapage - Fin partie 1