# Analyse client

Dans cet exercice guidé, vous allez travailler en tant que Data Analyst pour une société qui souhaite mieux comprendre les comportements d'achat des clients.

Vous disposez d'un dataset du site d'ecommerce qui contient 13 features (colonnes) :

- order_id : ID de la commande
- order_status : Statut de la commande
- order_purchase_timestamp : Timestamp de l'achat
- order_delivered_customer_date : Timestamp de la livraison au client
- payment_type : Methode de paiement
- payment_installments : Nombre de paiement
- payment_value : La valeur du paiement total
- review_score : Le score donné par le client, qui va de 1 à 5
- customer_unique_id : ID du client qui a passé commande
- customer_zip_code_prefix : Code postal du client
- customer_city : Ville du client
- customer_state : Etat du client
- product_category_name_english : Nom de la catégorie de produit en Anglais

Avec ces données, l'idée etant :
 - De se les approprier
 - De les explorer
 - De les traiter et créer des indicateurs pertinents
 - De les visualiser


# Analyse exploratoire

Chargez le jeu de données et explorons-le

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('db_customers.csv')
df

Unnamed: 0,order_id,order_status,order_purchase_timestamp,order_delivered_customer_date,payment_type,payment_installments,payment_value,review_score,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,product_category_name_english
0,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02 10:56:33,2017-10-10 21:25:13,credit_card,1.0,18.12,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
1,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02 10:56:33,2017-10-10 21:25:13,voucher,1.0,2.00,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
2,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02 10:56:33,2017-10-10 21:25:13,voucher,1.0,18.59,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
3,53cdb2fc8bc7dce0b6741e2150273451,delivered,2018-07-24 20:41:37,2018-08-07 15:27:45,boleto,1.0,141.46,4,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,perfumery
4,47770eb9100c2d0c44946d9cf07ec65d,delivered,2018-08-08 08:38:49,2018-08-17 18:06:29,credit_card,3.0,179.12,5,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,auto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
105378,9c5dedf39a927c1b2549525ed64a053c,delivered,2017-03-09 09:54:05,2017-03-17 15:08:01,credit_card,3.0,85.08,5,6359f309b166b0196dbf7ad2ac62bb5a,12209,sao jose dos campos,SP,health_beauty
105379,63943bddc261676b46f01ca7ac2f7bd8,delivered,2018-02-06 12:58:58,2018-02-28 17:37:56,credit_card,3.0,195.00,4,da62f9e57a76d978d02ab5362c509660,11722,praia grande,SP,baby
105380,83c1379a015df1e13d02aae0204711ab,delivered,2017-08-27 14:46:43,2017-09-21 11:24:17,credit_card,5.0,271.01,5,737520a9aad80b3fbbdad19b66b37b30,45920,nova vicosa,BA,home_appliances_2
105381,11c177c8e97725db2631073c19f07b62,delivered,2018-01-08 21:28:27,2018-01-25 23:32:54,credit_card,4.0,441.16,2,5097a5312c8b157bb7be58ae360ef43c,28685,japuiba,RJ,computers_accessories


❓ Quelles features peuvent être converties en datetime ? 
Convertissez-les en suivant l'exemple ci-dessous

In [7]:
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp']).dt.date

In [8]:
df['order_delivered_customer_date'] = pd.to_datetime(df['order_delivered_customer_date']).dt.date

In [9]:
df

Unnamed: 0,order_id,order_status,order_purchase_timestamp,order_delivered_customer_date,payment_type,payment_installments,payment_value,review_score,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,product_category_name_english
0,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,credit_card,1.0,18.12,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
1,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,voucher,1.0,2.00,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
2,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,voucher,1.0,18.59,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
3,53cdb2fc8bc7dce0b6741e2150273451,delivered,2018-07-24,2018-08-07,boleto,1.0,141.46,4,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,perfumery
4,47770eb9100c2d0c44946d9cf07ec65d,delivered,2018-08-08,2018-08-17,credit_card,3.0,179.12,5,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,auto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
105378,9c5dedf39a927c1b2549525ed64a053c,delivered,2017-03-09,2017-03-17,credit_card,3.0,85.08,5,6359f309b166b0196dbf7ad2ac62bb5a,12209,sao jose dos campos,SP,health_beauty
105379,63943bddc261676b46f01ca7ac2f7bd8,delivered,2018-02-06,2018-02-28,credit_card,3.0,195.00,4,da62f9e57a76d978d02ab5362c509660,11722,praia grande,SP,baby
105380,83c1379a015df1e13d02aae0204711ab,delivered,2017-08-27,2017-09-21,credit_card,5.0,271.01,5,737520a9aad80b3fbbdad19b66b37b30,45920,nova vicosa,BA,home_appliances_2
105381,11c177c8e97725db2631073c19f07b62,delivered,2018-01-08,2018-01-25,credit_card,4.0,441.16,2,5097a5312c8b157bb7be58ae360ef43c,28685,japuiba,RJ,computers_accessories


❓ Quelles features peuvent être converties en catégorie ? 
Convertissez-les

In [10]:
#les features qui peuvent être convertis en catégorie sont les suivants : customer_city,customer_state,product_category_name_english,customer_unique_id
#payment_type,order_status,order_id,

❓ Regardez les valeurs manquantes? Que remarquez-vous ?

In [16]:
import numpy as np
df.isna().sum()

order_id                            0
order_status                        0
order_purchase_timestamp            0
order_delivered_customer_date    3159
payment_type                        1
payment_installments                1
payment_value                       1
review_score                        0
customer_unique_id                  0
customer_zip_code_prefix            0
customer_city                       0
customer_state                      0
product_category_name_english    2410
dtype: int64

In [18]:
# je remarque que les colonnes suivantes ont les valeurs manquantes : order_delivered_customer_date , product_category_name_english , payment_type, payment_value, payment_installments

❓ Pouvez-vous trouver une explication pour les valeurs manquantes dans la colonne `order_delivered_customer_date` ? 
(indice : regardez les livraisons non livrées)

In [22]:
df['order_status'].unique()


array(['delivered', 'invoiced', 'shipped', 'processing', 'unavailable',
       'canceled', 'created', 'approved'], dtype=object)

In [23]:
# je remarque que au niveau de la colones order_delivered_customer_date il y'a 3159 valeurs manquantes parce que le status de la colones order status est a indisponible

❓ Quelle est la proportion pour chacune des valeurs de la colonne `order_status` ? (indice : aidez-vous de value_counts() )

In [25]:
df['order_status'].value_counts()

order_status
delivered      102225
shipped          1180
canceled          669
unavailable       651
invoiced          330
processing        321
created             5
approved            2
Name: count, dtype: int64

❓ Quelle(s) valeur(s) de la colonne `order_status` devrai(en)t être supprimée(s) du jeu de données? Faites-le.

In [26]:
df_filtered = df[df['order_status'] == 'delivered']

In [27]:
df_filtered['order_status'].value_counts()

order_status
delivered    102225
Name: count, dtype: int64

In [28]:
df_filtered

Unnamed: 0,order_id,order_status,order_purchase_timestamp,order_delivered_customer_date,payment_type,payment_installments,payment_value,review_score,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,product_category_name_english
0,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,credit_card,1.0,18.12,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
1,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,voucher,1.0,2.00,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
2,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,voucher,1.0,18.59,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
3,53cdb2fc8bc7dce0b6741e2150273451,delivered,2018-07-24,2018-08-07,boleto,1.0,141.46,4,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,perfumery
4,47770eb9100c2d0c44946d9cf07ec65d,delivered,2018-08-08,2018-08-17,credit_card,3.0,179.12,5,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,auto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
105378,9c5dedf39a927c1b2549525ed64a053c,delivered,2017-03-09,2017-03-17,credit_card,3.0,85.08,5,6359f309b166b0196dbf7ad2ac62bb5a,12209,sao jose dos campos,SP,health_beauty
105379,63943bddc261676b46f01ca7ac2f7bd8,delivered,2018-02-06,2018-02-28,credit_card,3.0,195.00,4,da62f9e57a76d978d02ab5362c509660,11722,praia grande,SP,baby
105380,83c1379a015df1e13d02aae0204711ab,delivered,2017-08-27,2017-09-21,credit_card,5.0,271.01,5,737520a9aad80b3fbbdad19b66b37b30,45920,nova vicosa,BA,home_appliances_2
105381,11c177c8e97725db2631073c19f07b62,delivered,2018-01-08,2018-01-25,credit_card,4.0,441.16,2,5097a5312c8b157bb7be58ae360ef43c,28685,japuiba,RJ,computers_accessories


In [29]:
df_filtered.isna().sum()

order_id                            0
order_status                        0
order_purchase_timestamp            0
order_delivered_customer_date       8
payment_type                        1
payment_installments                1
payment_value                       1
review_score                        0
customer_unique_id                  0
customer_zip_code_prefix            0
customer_city                       0
customer_state                      0
product_category_name_english    1511
dtype: int64

In [30]:
df_filtered

Unnamed: 0,order_id,order_status,order_purchase_timestamp,order_delivered_customer_date,payment_type,payment_installments,payment_value,review_score,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,product_category_name_english
0,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,credit_card,1.0,18.12,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
1,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,voucher,1.0,2.00,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
2,e481f51cbdc54678b7cc49136f2d6af7,delivered,2017-10-02,2017-10-10,voucher,1.0,18.59,4,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,housewares
3,53cdb2fc8bc7dce0b6741e2150273451,delivered,2018-07-24,2018-08-07,boleto,1.0,141.46,4,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,perfumery
4,47770eb9100c2d0c44946d9cf07ec65d,delivered,2018-08-08,2018-08-17,credit_card,3.0,179.12,5,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,auto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
105378,9c5dedf39a927c1b2549525ed64a053c,delivered,2017-03-09,2017-03-17,credit_card,3.0,85.08,5,6359f309b166b0196dbf7ad2ac62bb5a,12209,sao jose dos campos,SP,health_beauty
105379,63943bddc261676b46f01ca7ac2f7bd8,delivered,2018-02-06,2018-02-28,credit_card,3.0,195.00,4,da62f9e57a76d978d02ab5362c509660,11722,praia grande,SP,baby
105380,83c1379a015df1e13d02aae0204711ab,delivered,2017-08-27,2017-09-21,credit_card,5.0,271.01,5,737520a9aad80b3fbbdad19b66b37b30,45920,nova vicosa,BA,home_appliances_2
105381,11c177c8e97725db2631073c19f07b62,delivered,2018-01-08,2018-01-25,credit_card,4.0,441.16,2,5097a5312c8b157bb7be58ae360ef43c,28685,japuiba,RJ,computers_accessories


❓ Quelles colonnes conserveriez-vous dans ce jeu de données?

# Visualisation de données

Import des bibliothèques seaborn et matplotlib.  
Documentation [Matplotlib](https://matplotlib.org/stable/gallery/index.html)  
Documentation [Seaborn](https://seaborn.pydata.org/examples/index.html)

❓ Visualisez le nombre de commande par type de paiement. Quel graphique vous semble le plus adapté pour représenter cela?

❓ Quel est le montant moyen dépensé par catégorie de produit? Représentez cette information avec 2 graphiques différents.

❓ Quelle est la répartition, via un diagramme en secteur, des reviews clients?

❓ Combien de client a-t-on par State?

# Comprendre la segmentation RFM 

❓ Quelles sont les 3 métriques utilisées pour la segmentation RFM ?

❓ Pouvez-vous synthétiser ce que mesure chacune de ces métriques?

❓ Quelles données ou type de données avez-vous besoin pour construire chacune de ces métriques?

# Manipulation de données

Nous allons inspecter nos données afin de mieux les comprendre.  
Filtrez sur l'id client : 7c396fd4830fd04220f754e42b4e5bff et observez le nombre de commandes, les produits commandés, le montant total dépensé, ...

❓ Quelle fonction Python utiliseriez-vous pour grouper les données?

❓ Notre finalité est de travailler sur la segmentation client. Regardez quelle est la finalité de la segmentation client. Sur quelle feature (colonne) grouperiez-vous les données? 

Nous allons donc créer un tableau qui aura la forme suivante :

| id_client | Indicateur 1 | Indicateur 2 |  
|:---------:|--------------|--------------|  
| 1         |              |              |  
| 2         |              |              |  
| 3         |              |              |  
| ...       |              |              |  

❓ A votre avis, comment allez-vous calculer le F ? 

❓ A votre avis, comment allez-vous calculer le M?

Effectuez le groupement des données en tenant compte des questions précédentes. 

❓ Quel type de données être le R? Est-ce le bon format? (Indice : investiguer la différence entre `datetime` et `timedelta`) 

Groupez les données (indices : vous pouvez grouper les données une par une puis jointer les dataser, ou mieux, utilisez la méthode .agg et obtenir une méthode de groupement plus robuste).

Il y a donc une étape supplémentaire à produire : calculer notre R.

❓ Quelle est la date de dernier achat du jeu de données?

❓Quel est la date de l'achat le plus récent?

❓Comment calculeriez-vous la récence? 

Créez une colonne qui permet de calculer la différence entre `the most recent purchased + 1 day` et `order_purchase_timestamp`.

Maintenant que le nouveau dataset a été créé, explorons le nouveau jeu de données.

❓Quelle colonne est le R? Le F? Le M?

Enregistrer votre nouveau dataset dans un fichier csv sur votre poste de travail.

# Analyse du jeu de données finalisé

Maintenant que nous avons groupé notre dataset, puis bien typé les différentes features, analyser ce jeu de données afin de produire des informations sur cette cohorte pour mieux la cerner au global.  
Pour cela, vous pouvez réaliser les calculs, graphiques ou manipulation que vous souhaitez.