# Nombre de commandes traitées

In [1]:
""" Import de Pandas """

import pandas as pd

In [2]:
""" Import du dataset central, relatif aux commandes traitées """

df_orders = pd.read_csv('/content/drive/MyDrive/OLIST_EDA/olist_orders_dataset.csv')
df_orders.head(3)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00


In [3]:
""" Colonnes, nombre de valeurs, nombre de valeurs manquantes et type des valeurs du dataset """

df_orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


In [4]:
""" Conversion en format datetime des données relatives à des dates """

for col in df_orders.columns[-5:]:
    df_orders[col] = pd.to_datetime(df_orders[col])

df_orders.head(3)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04


In [5]:
""" Statistiques descriptives des différentes colonnes du dataset """

df_orders.describe(include='all', datetime_is_numeric=True)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
count,99441,99441,99441,99441,99281,97658,96476,99441
unique,99441,99441,8,,,,,
top,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,,,,,
freq,1,1,96478,,,,,
mean,,,,2017-12-31 08:43:12.776581120,2017-12-31 18:35:24.098800128,2018-01-04 21:49:48.138278656,2018-01-14 12:09:19.035542272,2018-01-24 03:08:37.730111232
min,,,,2016-09-04 21:15:19,2016-09-15 12:16:38,2016-10-08 10:34:01,2016-10-11 13:46:32,2016-09-30 00:00:00
25%,,,,2017-09-12 14:46:19,2017-09-12 23:24:16,2017-09-15 22:28:50.249999872,2017-09-25 22:07:22.249999872,2017-10-03 00:00:00
50%,,,,2018-01-18 23:04:36,2018-01-19 11:36:13,2018-01-24 16:10:58,2018-02-02 19:28:10.500000,2018-02-15 00:00:00
75%,,,,2018-05-04 15:42:16,2018-05-04 20:35:10,2018-05-08 13:37:45,2018-05-15 22:48:52.249999872,2018-05-25 00:00:00
max,,,,2018-10-17 17:30:18,2018-09-03 17:40:06,2018-09-11 19:48:28,2018-10-17 13:22:46,2018-11-12 00:00:00


Le dataset présente 99 441 commandes uniques, passées entre le 4 septembre 2016 et le 17 octobre 2018.

In [6]:
""" Import des librairies de visualisations Plotly Express et Plolty Graph Objects """

import plotly.express as px
import plotly.graph_objects as go

In [7]:
""" Visualisation du nombre de commandes enregistrées et livrées par mois """

grouped_pchd_orders = df_orders.groupby(pd.Grouper(key='order_purchase_timestamp', freq='M')).size().reset_index(name='monthly_count')
grouped_dlvd_orders = df_orders.groupby(pd.Grouper(key='order_delivered_customer_date', freq='M')).size().reset_index(name='monthly_count')

trace1 = go.Scatter(
    x = grouped_dlvd_orders['order_delivered_customer_date'],
    y = grouped_dlvd_orders['monthly_count'],
    mode = 'lines+markers',
    name = 'Commandes livrées'
)

trace2 = go.Scatter(
    x = grouped_pchd_orders['order_purchase_timestamp'],
    y = grouped_pchd_orders['monthly_count'],
    mode = 'lines+markers',
    name = 'Commandes enregistrées',
    line = dict(dash='dash')
)

data = [trace1, trace2]
layout = go.Layout(title = 'Evolution mensuelle du nombre de commandes enregistrées et livrées')
fig = go.Figure(data=data, layout=layout)
fig.show()

Ce graphique présente un nombre de commandes traitées croissant au fil de la période considérée, jusqu'à atteindre un pic de 8314 commandes livrées en août 2018. Toutefois, deux phases se distinguent : une première courant jusqu'en novembre 2017 durant laquelle le nombre de commandes traitées progresse de manière plutôt régulière et stable ; une seconde, où après une progression très forte en décembre 2017 (+54% en un mois), le nombre de commandes croît globalement, mais de manière beaucoup plus erratique et instable.
Enfin, la chute drastique du nombre de commandes traitées affichée pour septembre et octobre 2018 est, toute prudence gardée, probablement à mettre au compte de la limite du champ des données et/ou de leur méthode d'enregistrement.
La source du dataset n'apporte malheureusement pas plus de précisions à ce sujet.

# Chiffre d'affaire

## CA global

In [8]:
""" Import du dataset relatif au détail des commandes traitées """

df_items = pd.read_csv('/content/drive/MyDrive/OLIST_EDA/olist_order_items_dataset.csv')
df_items.head(3)

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87


In [9]:
""" Colonnes, nombre de valeurs, nombre de valeurs manquantes et type des valeurs du dataset """

df_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


In [10]:
""" Groupement du dataset par commande et par produit afin de calculer la valeur de chaque commande """


ItemsBis = df_items.groupby(['order_id', 'product_id']).agg({
    'order_item_id': 'count',
    'shipping_limit_date': 'last',
    'seller_id': 'last',
    'price': 'max',
    'freight_value': 'max'})

df_ItemsBis = pd.DataFrame(ItemsBis.reset_index())
df_ItemsBis.head(3)

Unnamed: 0,order_id,product_id,order_item_id,shipping_limit_date,seller_id,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,4244733e06e7ecb4970a6e2683c13e61,1,2017-09-19 09:45:35,48436dade18ac8b2bce089ec2a041202,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,e5f2d52b802189ee658865ca93d83a8f,1,2017-05-03 11:05:13,dd7ddc04e1b6c2c614352b383efe2d36,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,c777355d18b72b67abbeef9df44fd0fd,1,2018-01-18 14:48:30,5b51032eddd242adc84c38acab88f23d,199.0,17.87


In [11]:
""" Ajout au dataset d'une colonne représentant la valeur par commande et par produit, selon la méthode indiquée dans la source des données """

df_ItemsBis['value_perProduct_perOrder'] = df_ItemsBis['order_item_id']*(df_ItemsBis['price'] + df_ItemsBis['freight_value'])

In [12]:
""" Groupement du dataset par commande """

ItemsBis_OrdersGrouped = df_ItemsBis.groupby('order_id')['value_perProduct_perOrder'].sum()

In [13]:
""" Valeur totale des commandes """

ItemsBis_OrdersGrouped.sum()

15843553.24

Le chiffre d'affaire global généré sur la période est de 15 843 553 réals brésilien.

## CA par commande

In [14]:
""" Groupement par commande unique, afin d'analyser le chiffre d'affaire généré par commande (une ligne représentant un produit commandé
et pas nécessairement une commande complète dans ce dataset) """

ItemsBis_OrdersGrouped.describe().round(2)

count    98666.00
mean       160.58
std        220.47
min          9.59
25%         61.98
50%        105.29
75%        176.87
max      13664.08
Name: value_perProduct_perOrder, dtype: float64

Les statistiques descriptives montrent que la valeur des commandes est comprise entre 9.59 R\$ et 13664,08 R\$. Toutefois, on observe également que la médiane est de 105 R\$ et que 75% des commandes sont inférieures 177 R\$. Il apparaît dès lors qu'il existe certaines valeurs exceptionnellement élevées et que celles-ci tendent à tirer la moyenne vers le haut. La valeur maximale équivalent à 130x la médiane.

In [15]:
""" Histogramme présentant le nombre de commandes selon leur valeur, échelle des ordonnées logarithmique afin de visualiser les valeurs extrêmes """

fig = px.histogram(ItemsBis_OrdersGrouped, log_y=True, nbins=200, title="Distribution de la valeur par commande")

fig.update_layout(showlegend=False)

fig.update_xaxes(title_text='Valeur en reals brésiliens')
fig.update_yaxes(title_text='Nombre de commandes')

fig.show()

Cet histogramme de distribution de la valeur par commande vient confirmer l'idée  que la très grande majorité des commandes représente une valeur inférieur à 300 R$ (90% des commandes) et que quelques commandes, à la valeur exceptionnellement élevée, tendent à tirer la moyenne vers le haut. L'histogramme utilise à cet effet une échelle logarithmique en axe des ordonnées afin de pouvoir visualiser ces commmandes extrêmes.

## CA par vendeur

In [16]:
""" Groupement des commandes par vendeurs """

ItemsBis_SellersGrouped = df_ItemsBis.groupby('order_id').agg({'value_perProduct_perOrder': 'sum', 'seller_id': 'last'})
ItemsBis_SellersGrouped.rename(columns={'value_perProduct_perOrder': 'value_perOrder'}, inplace=True)
ItemsBis_SellersGrouped = ItemsBis_SellersGrouped.groupby('seller_id')['value_perOrder'].sum()
ItemsBis_SellersGrouped.head(3)

seller_id
0015a82c2db000af6aaaf3ae2ecb0532     2748.06
001cca7ae9ae17fb1caed9dfb1094831    33759.64
001e6ad469a905060d959994f1b41e4f      267.94
Name: value_perOrder, dtype: float64

In [17]:
""" Nombre de valeurs uniques dans la colonne 'seller_id' du dataframe """

ItemsBis_SellersGrouped.index.nunique()

3081

Les commandes ont été traitées par 3081 vendeurs différents sur le marketplace.

In [18]:
""" Top 5 des vendeurs en termes de CA généré """

ItemsBis_SellersGrouped.nlargest(5)

seller_id
4869f7a5dfa277a7dca6462dcf3b52b2    248593.59
7c67e1448b00f6e969d365cea6b010ab    239282.56
4a3ca9315b744ce9f8e9374361493884    239025.09
53243585a1d6dc2643021fd1853d8905    235856.68
fa1c13f2614d7b5c4749cbc52fecda94    205117.46
Name: value_perOrder, dtype: float64

In [19]:
""" Boîte à moustache représentant la distribution des vendeurs en fonction du chiffre d'affaire généré
sur une échelle logarithmique afin de visualiser les valeurs extrêmes """

fig = px.box(y=ItemsBis_SellersGrouped, log_y=True, title="Distribution du chiffre d'affaire généré par vendeur")

fig.update_xaxes(title_text='')
fig.update_yaxes(title_text='CA par vendeur (R$)')

fig.show()

In [20]:
""" Vendeurs dépassant les 200k R$ de chiffre d'affaire généré sur la période """

ItemsBis_SellersGrouped[ItemsBis_SellersGrouped > 200000.00]

seller_id
4869f7a5dfa277a7dca6462dcf3b52b2    248593.59
4a3ca9315b744ce9f8e9374361493884    239025.09
53243585a1d6dc2643021fd1853d8905    235856.68
7c67e1448b00f6e969d365cea6b010ab    239282.56
fa1c13f2614d7b5c4749cbc52fecda94    205117.46
Name: value_perOrder, dtype: float64

La distribution des vendeurs, en termes de chiffre d'affaire réalisé sur la période, montre que la médiane se situe à environ 1000 R\$. 75% d'entre eux ont généré 4031 R\$ ou moins. Aussi, quelques vendeurs affichent des valeurs exceptionnellement élevées par rapport à l'immense la majorité. Cinq d'entre eux dépassent les 200k R\$ et représentent à eux seuls plus de 7% du chiffre d'affaire total produit.

## Evolution dans le temps

In [21]:
""" Jointure du dataset contenant les détails des commandes sur le dataset contenant les commandes """

df_OrdersItems = pd.merge(df_orders, df_ItemsBis, on='order_id', how='left', indicator=True)
df_OrdersItems

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,product_id,order_item_id,shipping_limit_date,seller_id,price,freight_value,value_perProduct_perOrder,_merge
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,87285b34884572647811a353c7ac498a,1.0,2017-10-06 11:07:15,3504c0cb71d7fa48d967e0e4c94d59d9,29.99,8.72,38.71,both
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,595fac2a385ac33a80bd5114aec74eb8,1.0,2018-07-30 03:24:27,289cdb325fb7e7f891c38608bf9e0962,118.70,22.76,141.46,both
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,aa4383b373c6aca5d8797843e5594415,1.0,2018-08-13 08:55:23,4869f7a5dfa277a7dca6462dcf3b52b2,159.90,19.22,179.12,both
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,d0b61bfb1de832b15ba9d266ca96e5b0,1.0,2017-11-23 19:45:59,66922902710d126a0e7d26b0e3805106,45.00,27.20,72.20,both
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,65266b2da20d04dbe00c5c2d3bb7859e,1.0,2018-02-19 20:31:37,2c9e548be18521d1c43cde1c582c6de8,19.90,8.72,28.62,both
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
103195,9c5dedf39a927c1b2549525ed64a053c,39bd1228ee8140590ac3aca26f2dfe00,delivered,2017-03-09 09:54:05,2017-03-09 09:54:05,2017-03-10 11:18:03,2017-03-17 15:08:01,2017-03-28,ac35486adb7b02598c182c2ff2e05254,1.0,2017-03-15 09:54:05,e24fc9fcd865784fb25705606fe3dfe7,72.00,13.08,85.08,both
103196,63943bddc261676b46f01ca7ac2f7bd8,1fca14ff2861355f6e5f14306ff977a7,delivered,2018-02-06 12:58:58,2018-02-06 13:10:37,2018-02-07 23:22:42,2018-02-28 17:37:56,2018-03-02,f1d4ce8c6dd66c47bbaa8c6781c2a923,1.0,2018-02-12 13:10:37,1f9ab4708f3056ede07124aad39a2554,174.90,20.10,195.00,both
103197,83c1379a015df1e13d02aae0204711ab,1aa71eb042121263aafbe80c1b562c9c,delivered,2017-08-27 14:46:43,2017-08-27 15:04:16,2017-08-28 20:52:26,2017-09-21 11:24:17,2017-09-27,b80910977a37536adeddd63663f916ad,1.0,2017-09-05 15:04:16,d50d79cb34e38265a8649c383dcffd48,205.99,65.02,271.01,both
103198,11c177c8e97725db2631073c19f07b62,b331b74b18dc79bcdf6532d51e1637c1,delivered,2018-01-08 21:28:27,2018-01-08 21:36:21,2018-01-12 15:35:03,2018-01-25 23:32:54,2018-02-15,d1c427060a0f73f6b889a5c7c61f2ac4,2.0,2018-01-12 21:36:21,a1043bafd471dff536d0c462352beb48,179.99,40.59,441.16,both


In [22]:
""" Nombre de lignes suivant leur présence ou non dans les datasets """

df_OrdersItems['_merge'].value_counts()

both          102425
left_only        775
right_only         0
Name: _merge, dtype: int64

### Recherche d'explication à l'absence de 775 commandes dans le dataset contenant le détail de chacune

In [23]:
""" Grâce à l'attribut 'indicator' spécificié dans la fonction merge on observe que 775 commandes uniques du dataset de commandes
ne sont pas présentes dans celui des détails de commandes """

OrdersNotInItems = df_OrdersItems.loc[df_OrdersItems['_merge'] != 'both']
OrdersNotInItems

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,product_id,order_item_id,shipping_limit_date,seller_id,price,freight_value,value_perProduct_perOrder,_merge
275,8e24261a7e58791d10cb1bf9da94df5c,64a254d30eed42cd0e6c36dddb88adf0,unavailable,2017-11-16 15:09:28,2017-11-16 15:26:57,NaT,NaT,2017-12-05,,,,,,,,left_only
605,c272bcd21c287498b4883c7512019702,9582c5bbecc65eb568e2c1d839b5cba1,unavailable,2018-01-31 11:31:37,2018-01-31 14:23:50,NaT,NaT,2018-02-16,,,,,,,,left_only
715,37553832a3a89c9b2db59701c357ca67,7607cd563696c27ede287e515812d528,unavailable,2017-08-14 17:38:02,2017-08-17 00:15:18,NaT,NaT,2017-09-05,,,,,,,,left_only
771,d57e15fb07fd180f06ab3926b39edcd2,470b93b3f1cde85550fc74cd3a476c78,unavailable,2018-01-08 19:39:03,2018-01-09 07:26:08,NaT,NaT,2018-02-06,,,,,,,,left_only
1184,00b1cb0320190ca0daa2c88b35206009,3532ba38a3fd242259a514ac2b6ae6b6,canceled,2018-08-28 15:26:39,NaT,NaT,NaT,2018-09-12,,,,,,,,left_only
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
103007,aaab15da689073f8f9aa978a390a69d1,df20748206e4b865b2f14a5eabbfcf34,unavailable,2018-01-16 14:27:59,2018-01-17 03:37:34,NaT,NaT,2018-02-06,,,,,,,,left_only
103038,3a3cddda5a7c27851bd96c3313412840,0b0d6095c5555fe083844281f6b093bb,canceled,2018-08-31 16:13:44,NaT,NaT,NaT,2018-10-01,,,,,,,,left_only
103104,a89abace0dcc01eeb267a9660b5ac126,2f0524a7b1b3845a1a57fcf3910c4333,canceled,2018-09-06 18:45:47,NaT,NaT,NaT,2018-09-27,,,,,,,,left_only
103105,a69ba794cc7deb415c3e15a0a3877e69,726f0894b5becdf952ea537d5266e543,unavailable,2017-08-23 16:28:04,2017-08-28 15:44:47,NaT,NaT,2017-09-15,,,,,,,,left_only


In [24]:
""" Colonnes, nombre de valeurs, nombre de valeurs non nulles et type des valeurs du dataset créé """

OrdersNotInItems.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 775 entries, 275 to 103173
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       775 non-null    object        
 1   customer_id                    775 non-null    object        
 2   order_status                   775 non-null    object        
 3   order_purchase_timestamp       775 non-null    datetime64[ns]
 4   order_approved_at              629 non-null    datetime64[ns]
 5   order_delivered_carrier_date   1 non-null      datetime64[ns]
 6   order_delivered_customer_date  0 non-null      datetime64[ns]
 7   order_estimated_delivery_date  775 non-null    datetime64[ns]
 8   product_id                     0 non-null      object        
 9   order_item_id                  0 non-null      float64       
 10  shipping_limit_date            0 non-null      object        
 11  seller_id     

In [25]:
""" Nombre de lignes n'ayant pas de date de livraison client renseignée """

df_OrdersItems.loc[df_OrdersItems['_merge'] == 'both']['order_delivered_customer_date'].isna().sum()

2230

Une hypothèse à l'absence de ces 775 lignes eût été qu'il n'y ait pas de date de livraison client renseignée. Cependant, on observe que 2230 lignes bien présentes dans les deux datasets n'en disposent pas non plus. L'explication n'est donc pas celle-ci.

In [26]:
""" Histogrammes du nombre de commandes enregistrées au fil de la période, selon leur présence ou non dans les deux datasets """

trace1 = go.Histogram(
    x = df_OrdersItems['order_purchase_timestamp'],
    nbinsx = 100,
    name="Ensemble des commandes")

trace2 = go.Histogram(
    x = OrdersNotInItems['order_purchase_timestamp'],
    nbinsx = 100,
    name="Commandes non présentes dans le dataset du détail de chaque commande")

data = [trace1, trace2]
layout = go.Layout(
    title = 'Evolution du nombre de commandes enregistrées, selon leur présence ou non dans le dataset "détail des commandes"',
    yaxis=dict(
        type='log',
        title='Nombre de commandes (échelle logarithmique)',
        autorange=True
    ),
    legend=dict(
        yanchor="top",
        y=0.99,
        xanchor="left",
        x=0.01
    ))

fig = go.Figure(data=data, layout=layout)
fig.show()

Output hidden; open in https://colab.research.google.com to view.

Au regard des dates d'enregistrement des commandes affichées ci-dessus, il est possible d'affirmer que le fait de l'absence de certaines dans le dataset "détail des commandes" ne peut relever uniquement d'une condition de date. S'il est vrai que les neuf dernières commandes n'apparaissent pas dans le dataset de détail, des commandes non communes aux deux datasets ont également été enregistrées tout au long de la période.

In [27]:
""" Distribution des statuts de commandes pour celles présentes dans les deux datasets """

df_OrdersItems.loc[df_OrdersItems['_merge'] == 'both'].groupby('order_id')['order_status'].max().value_counts()

delivered      96478
shipped         1106
canceled         461
invoiced         312
processing       301
unavailable        6
approved           2
Name: order_status, dtype: int64

In [28]:
""" Distribution des statuts de commandes pour celles absentes du dataset détaillant les commandes """

OrdersNotInItems['order_status'].value_counts()

unavailable    603
canceled       164
created          5
invoiced         2
shipped          1
Name: order_status, dtype: int64

Il apparaît qu'aucune commande notée 'delivered', 'processing' et 'approved' ne soit pas commune deux datasets. A l'inverse, tous les autres statuts de commandes sont représentés à la fois dans les commandes communes aux deux datasets et dans les commandes manquantes dans le dataset de détail. L'hypothèse que les commandes non communes aux deux datasets le soit en raison de leur statut n'est donc pas valable non plus.

Cependant le fait que toutes les commandes livrées ('delivered') soient communes aux deux datasets permet de passer outre l'éceuil des commandes manquantes dans le second dataset, en limitant l'analyse uniquement à celles-ci. Ce qui fait aussi sens d'un point de vue analytique si l'on considère que seules les commandes livrées sont officiellement terminées et complètement traitées.

###Analyse des commandes livrées uniquement

In [29]:
""" Sélection uniquement des commandes terminées ("delivered") afin de pallier
l'absence de 775 commandes dans le dataset du détail des commandes """

df_ordersBis = df_orders.loc[df_orders['order_status']=='delivered']

df_OrdersItemsBis = pd.merge(df_ordersBis, df_ItemsBis, on='order_id', how='left', indicator=True)
df_OrdersItemsBis

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,product_id,order_item_id,shipping_limit_date,seller_id,price,freight_value,value_perProduct_perOrder,_merge
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,87285b34884572647811a353c7ac498a,1,2017-10-06 11:07:15,3504c0cb71d7fa48d967e0e4c94d59d9,29.99,8.72,38.71,both
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,595fac2a385ac33a80bd5114aec74eb8,1,2018-07-30 03:24:27,289cdb325fb7e7f891c38608bf9e0962,118.70,22.76,141.46,both
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,aa4383b373c6aca5d8797843e5594415,1,2018-08-13 08:55:23,4869f7a5dfa277a7dca6462dcf3b52b2,159.90,19.22,179.12,both
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,d0b61bfb1de832b15ba9d266ca96e5b0,1,2017-11-23 19:45:59,66922902710d126a0e7d26b0e3805106,45.00,27.20,72.20,both
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,65266b2da20d04dbe00c5c2d3bb7859e,1,2018-02-19 20:31:37,2c9e548be18521d1c43cde1c582c6de8,19.90,8.72,28.62,both
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
100191,9c5dedf39a927c1b2549525ed64a053c,39bd1228ee8140590ac3aca26f2dfe00,delivered,2017-03-09 09:54:05,2017-03-09 09:54:05,2017-03-10 11:18:03,2017-03-17 15:08:01,2017-03-28,ac35486adb7b02598c182c2ff2e05254,1,2017-03-15 09:54:05,e24fc9fcd865784fb25705606fe3dfe7,72.00,13.08,85.08,both
100192,63943bddc261676b46f01ca7ac2f7bd8,1fca14ff2861355f6e5f14306ff977a7,delivered,2018-02-06 12:58:58,2018-02-06 13:10:37,2018-02-07 23:22:42,2018-02-28 17:37:56,2018-03-02,f1d4ce8c6dd66c47bbaa8c6781c2a923,1,2018-02-12 13:10:37,1f9ab4708f3056ede07124aad39a2554,174.90,20.10,195.00,both
100193,83c1379a015df1e13d02aae0204711ab,1aa71eb042121263aafbe80c1b562c9c,delivered,2017-08-27 14:46:43,2017-08-27 15:04:16,2017-08-28 20:52:26,2017-09-21 11:24:17,2017-09-27,b80910977a37536adeddd63663f916ad,1,2017-09-05 15:04:16,d50d79cb34e38265a8649c383dcffd48,205.99,65.02,271.01,both
100194,11c177c8e97725db2631073c19f07b62,b331b74b18dc79bcdf6532d51e1637c1,delivered,2018-01-08 21:28:27,2018-01-08 21:36:21,2018-01-12 15:35:03,2018-01-25 23:32:54,2018-02-15,d1c427060a0f73f6b889a5c7c61f2ac4,2,2018-01-12 21:36:21,a1043bafd471dff536d0c462352beb48,179.99,40.59,441.16,both


In [30]:
""" Vérification que chaque commande livrée ('delivered') dispose de son détail et soit commune aux
deux datasets (commandes + détails des commandes) """

df_OrdersItemsBis['_merge'].value_counts()

both          100196
left_only          0
right_only         0
Name: _merge, dtype: int64

In [31]:
""" Groupement par commande afin d'avoir le CA par commande et non par produit, ainsi que la date de la commande """

df_OrdersItems_OrderGrouped = df_OrdersItemsBis.groupby('order_id').agg({'value_perProduct_perOrder': 'sum', 'order_delivered_customer_date': 'first'}).sort_values(by='order_delivered_customer_date')
df_OrdersItems_OrderGrouped.rename(columns={'value_perProduct_perOrder':'value_perOrder'}, inplace=True)
df_OrdersItems_OrderGrouped

Unnamed: 0_level_0,value_perOrder,order_delivered_customer_date
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1
36989eb07a0de2d3d3129eea35553875,101.44,2016-10-11 13:46:32
7033745709b7cf1bac7d2533663592de,111.51,2016-10-11 14:46:49
d1eb8e4e276a4eea13a5c462c0765e60,40.79,2016-10-13 03:10:34
92b44b87f1f7670b8911c5f0e642435e,161.65,2016-10-13 07:45:48
ac2b7c522d811acba0aa270ed3e112e4,315.24,2016-10-13 15:44:27
...,...,...
2d858f451373b04fb5c984a1cc2defaf,194.00,NaT
2ebdfc4f15f23b91474edf87475f108e,158.07,NaT
ab7c89dc1bf4a1ead9d6ec1ec8968a84,120.12,NaT
e69f75a717d64fc5ecdfae42b2e8e086,158.07,NaT


In [32]:
""" Groupement des commandes par trimestre afin de visualiser l'évolution du chiffre d'affaire et son cumul sur la période """

df_OrdersItems_OrderGroupedBis = df_OrdersItems_OrderGrouped.groupby(pd.Grouper(key='order_delivered_customer_date', freq='Q'))['value_perOrder'].sum().reset_index()
df_OrdersItems_OrderGroupedBis['quarter_year'] = df_OrdersItems_OrderGroupedBis['order_delivered_customer_date'].apply(lambda x: 'S' + str((x.quarter)) + '-' + str(x.year)[2:])
df_OrdersItems_OrderGroupedBis

Unnamed: 0,order_delivered_customer_date,value_perOrder,quarter_year
0,2016-12-31,46653.74,S4-16
1,2017-03-31,653982.87,S1-17
2,2017-06-30,1410367.99,S2-17
3,2017-09-30,1828459.8,S3-17
4,2017-12-31,2616728.69,S4-17
5,2018-03-31,2911679.81,S1-18
6,2018-06-30,3642164.35,S2-18
7,2018-09-30,2308009.63,S3-18
8,2018-12-31,347.95,S4-18


In [33]:
""" Graphique synthétique de l'évolution du chiffre d'affaire par trimestre et de son cumul """

fig = go.Figure(go.Waterfall(
    x = df_OrdersItems_OrderGroupedBis['quarter_year'],
    y = df_OrdersItems_OrderGroupedBis['value_perOrder']
    ))

fig.update_layout(
    title_text="Progression trimestrielle et cumul du chiffre d'affaire sur la période (R$)",
    title_x=0.5,
    title_y=0.92,
    title_xanchor="center",
    title_yanchor="top",
    annotations=[
        dict(
            xref='paper',
            yref='paper',
            x=0.0,
            y=1.03,
            xanchor='left',
            yanchor='bottom',
            text='Survolez les barres pour voir le détail de la progression par trimestre',
            font=dict(size=13, color='rgb(150,150,150)'),
            showarrow=False
            )])

fig.update_xaxes(range=['Jan 2017', 'Oct 2018'])

fig.show()

In [34]:
""" Nombre de commandes livrées après le 31 août 2018 """

(df_OrdersItems_OrderGrouped.loc[df_OrdersItems_OrderGrouped['order_delivered_customer_date'] > "2018-08-31"]).shape[0]

86

Ce graphique illustre l'évolution du CA cumulé trimestre après trimestre au cours de la période. Il permet de constater que le CA généré s'envole à partir du premier trimestre de 2017 (+ 607k R\$ par rapport au trimestre précédent). Il croît ensuite sans cesse et de plus en plus vite jusqu'à S2-18 (654k R\$ généré en S1-17, plus de 3.6M R\$ en S2-18). Il continue de croître au troisième trimestre de 2018, mais moins vite, avant de stagner pour le quatrième trimestre. Stagnation non significative car seulement 86 commandes livrées ont été enregistrées après août 2018.

## CA par client

In [35]:
""" Groupement des commandes par client, afin de visualiser la distribution du chiffre d'affaire généré par client """

df_customers = pd.read_csv('/content/drive/MyDrive/OLIST_EDA/olist_customers_dataset.csv')
df_OrdersItemsTer = df_OrdersItemsBis.merge(df_customers[['customer_unique_id', 'customer_id']], on='customer_id', how='left')
df_OrdersItems_CustomerGrouped = df_OrdersItemsTer.groupby('customer_unique_id')['value_perProduct_perOrder'].sum().sort_values()

fig = px.box(df_OrdersItems_CustomerGrouped, y='value_perProduct_perOrder', log_y=True, title="Distribution du chiffre d'affaire généré par client")
fig.update_yaxes(title_text='Valeur totale des produits commandés (R$)')
fig.show()

In [36]:
""" Nombre de clients par seuil de chiffre d'affaire généré """

print("Nombre de clients dépassant les 3k R$ de chiffre d'affaire généré :", (df_OrdersItems_CustomerGrouped > 3000).sum())
print("Nombre de clients dépassant les 5k R$ de chiffre d'affaire généré :", (df_OrdersItems_CustomerGrouped > 5000).sum())
print("Nombre de clients dépassant les 10k R$ de chiffre d'affaire généré :", (df_OrdersItems_CustomerGrouped > 10000).sum())

Nombre de clients dépassant les 3k R$ de chiffre d'affaire généré : 50
Nombre de clients dépassant les 5k R$ de chiffre d'affaire généré : 7
Nombre de clients dépassant les 10k R$ de chiffre d'affaire généré : 1


La distribution  du chiffre d'affaire généré par client informe que la médiane se situe à 108 R\$ et que 50% des clients produisent un chiffre d'affaire compris entre 63 R\$ et 183 R\$. Toutefois, même si 75% des clients représentent un chiffre d'affaire inférieur en valeur à 183 R\$, certains affichent des valeurs d'un tout autre ordre de grandeur, 50 dépassent les 3k R\$, 7 les 5k R\$, et un dépasse les 10k R\$ soit plus de 127 fois la médiane.

In [37]:
""" Graphique illustrant la distribution du nombre de commandes et du nombre de produits commandés par client """

trace1 = go.Histogram(
    x = df_OrdersItemsTer.groupby('customer_unique_id')['order_id'].count(),
    name="Nombre de commandes par client")

trace2 = go.Histogram(
    x = df_OrdersItemsTer.groupby('customer_unique_id')['order_item_id'].sum(),
    name="Nombre de produits commandés par clients")

data = [trace1, trace2]
layout = go.Layout(
    title = "Distribution du nombre de commandes par client et du nombre de produits commandés par client",
    yaxis=dict(
        type='log',
        autorange=True),
    legend=dict(
        x=0.5,
        y=1,
        xanchor='center',
        yanchor='top'),
    xaxis=dict(
        dtick=5)
    )

fig = go.Figure(data=data, layout=layout)
fig.show()

In [38]:
""" Pourcentages de clients ayant enregistrées un seule commande et pourcentage de clients ayant commandés un seul produit """

print("Pourcentage de clients n'ayant passés qu'une seule commande :", df_OrdersItemsTer.groupby('customer_unique_id')['order_id'].count().value_counts(normalize=True).nlargest(1)[1].round(2)),
print("Pourcentage de clients n'ayant commandés qu'un seul produit :", df_OrdersItemsTer.groupby('customer_unique_id')['order_item_id'].sum().value_counts(normalize=True).nlargest(1)[1].round(2))

Pourcentage de clients n'ayant passés qu'une seule commande : 0.94
Pourcentage de clients n'ayant commandés qu'un seul produit : 0.88


In [39]:
""" Nombre de clients uniques """

df_OrdersItemsTer['customer_unique_id'].nunique()

93358

La distribution du nombre de commandes par client et du nombre de produits commandés par client informe que la très grande majorité des 93358 clients uniques n'a commandé qu'une seule fois (94%) et/ou n'a commandé qu'un seul produit (88%). Là encore, il existe des valeurs extrêmes pour des maximums de 15 commandes et 24 produits commandés.

#Avis clients

##Analyse globale des notes d'évaluation

In [40]:
""" Import du dataset contenant les notes et commentaires attribués par les clients aux commandes """

df_reviews = pd.read_csv('/content/drive/MyDrive/OLIST_EDA/olist_order_reviews_dataset.csv')
df_reviews.head(3)

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24


In [41]:
""" Colonnes, nombre de valeurs, nombre de valeurs non nulles, et types de valeurs du dataset """

df_reviews.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


In [42]:
""" Statistiques descriptives du dataset relatif aux évaluations """

df_reviews.describe()

Unnamed: 0,review_score
count,99224.0
mean,4.086421
std,1.347579
min,1.0
25%,4.0
50%,5.0
75%,5.0
max,5.0


In [43]:
""" Histogramme présentant la répartition en pourcentage des notes attribuées aux commandes par les clients """

fig = px.histogram(df_reviews, x='review_score', histnorm='percent')
fig.show()

L'analyse des notes d'évaluation données aux commandes par les clients montre que 58% des évaluations sont égales à la note maximale de 5 sur 5. De plus, on peut considérer que 77% des évalutions sont satisfaisantes, si l'on ajoute aux 58% des notes maximales les 19% de 4 sur 5. A noter toutefois, 12% des évaluations données sont égales au minimun, 1 sur 5, c'est plus que le cumul des notes 2 et 3 accordées.

In [44]:
""" Jointure du dataset relatif aux commandes et du dataset relatif aux évaluations données aux commandes """

df_OrdersReviews = pd.merge(df_orders, df_reviews, on='order_id', how='left')
df_OrdersReviews.head(3)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,a54f0611adc9ed256b57ede6b6eb5114,4.0,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,8d5266042046a06655c8db133d120ba5,4.0,Muito boa a loja,Muito bom o produto.,2018-08-08 00:00:00,2018-08-08 18:37:50
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,e73b67b67587f7644d5bd1a52deb1b01,5.0,,,2018-08-18 00:00:00,2018-08-22 19:07:58


In [45]:
""" Observation du nombre de lignes avant et après jointure """

print('Nombre de commandes différentes :', df_orders.shape[0])
print("Nombre d'évaluation différentes :", df_reviews.shape[0])
print("Nombre de commandes et d'évaluations différentes :", df_OrdersReviews.shape[0])

Nombre de commandes différentes : 99441
Nombre d'évaluation différentes : 99224
Nombre de commandes et d'évaluations différentes : 99992


In [46]:
""" Distribution du nombre d'évaluations par commande """

df_OrdersReviews.groupby('order_id')['review_id'].count().value_counts()

1    98126
0      768
2      543
3        4
Name: review_id, dtype: int64

Il apparaît qu'il y a plus de lignes dans le dataset obtenu par jointure de celui relatif aux commandes et de celui relatif aux évaluations, que dans le dataset seul relatif aux commandes. En effet, pour 543 commandes le client a donné 2 évaluations et pour 4 commandes le client a donné 3 évaluations différentes. ((98126+768)\*1)+(543\*2)+(4\*3)=99992

In [47]:
""" Visualisation de l'évolution dans le temps de la note moyenne accordée aux commandes par les clients """

df_OrdersReviews_DateGrouped = df_OrdersReviews.groupby(pd.Grouper(key='order_delivered_customer_date', freq='M'))['review_score'].mean().reset_index()

fig = go.Figure()

fig.add_trace(go.Bar(x=df_OrdersReviews_DateGrouped['order_delivered_customer_date'],
                         y=df_OrdersReviews_DateGrouped['review_score']))

fig.update_layout(
    title_text="Evolution mensuelle de la note d'évaluation moyenne accordée aux commandes par les clients",
    xaxis_title="Mois de livraison client",
    yaxis_title="Note moyenne d'évaluation")

fig.update_xaxes(
    tickvals=df_OrdersReviews_DateGrouped['order_delivered_customer_date'],
    ticktext=df_OrdersReviews_DateGrouped['order_delivered_customer_date'].dt.strftime('%b %Y')
)

fig.show()

Ce graphique montre une évaluation moyenne stable au fil du temps, autour de 4,2 sur 5. A noter malgré tout un creux en novembre-décembre 2017, où la note moyenne s'établit autour de 3,6, mais aussi et surtout une chute brutale en septembre 2018 où la note moyenne n'atteint qu'à peine 2 sur 5, avant de remonter à son niveau initial le mois suivant.

##Analyse des commandes très faiblement notées de septembre 2018

###Analyse quantitative

In [48]:
""" Sélection des commandes livrées en septembre 2018 """

mask = (df_OrdersReviews['order_delivered_customer_date'] >= '2018-09-01') & (df_OrdersReviews['order_delivered_customer_date'] <= '2018-09-30')
df_NotesSep18 = df_OrdersReviews.loc[mask]
df_NotesSep18.head(3)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
715,234c056c50619f48da64f731c48242b4,44e460a655f7154ccd9faa4dbbbaf68a,delivered,2018-08-14 14:49:15,2018-08-15 03:15:15,2018-08-31 15:25:00,2018-09-01 18:14:42,2018-08-23,89143c34c9f9ca9f37aa7a0bfd871893,1.0,Atraso na entrega,O produto está com a entrega em atraso.\r\nAté...,2018-08-26 00:00:00,2018-08-26 17:08:49
4887,f23681a0fffdb8051c674707c7e912ef,7930549f156eea2b01b0fc2fdd323063,delivered,2018-07-15 02:11:15,2018-07-15 02:25:08,2018-07-16 13:53:00,2018-09-21 23:46:29,2018-08-06,d3a1986ac804d3065b15dd9b6da5ba5e,2.0,,,2018-08-08 00:00:00,2018-08-08 15:55:49
6626,2591f6277be80b0c25627c745ec900c4,614e4a9149f6119fc5e8780ddfeaedfd,delivered,2018-08-04 16:55:24,2018-08-04 17:10:08,2018-08-08 12:22:00,2018-09-03 15:24:34,2018-08-14,d21fd2784d582c5c499949b8bc6c1741,1.0,Paguei e não recebi,Essa loja nunca mais,2018-08-16 00:00:00,2018-08-17 10:58:28


In [49]:
""" Distribution des notes d'évaluation des commandes livrées en septembre 2018 """

df_NotesSep18['review_score'].value_counts()

1.0    32
2.0     7
3.0     6
4.0     5
5.0     5
Name: review_score, dtype: int64

32 commandes sur 55, soit 58%, ont obtenues une note d'évaluation de 1 sur 5 en septembre 2018, sachant que seules 11% des commandes ont entrainées la même note d'évaluation sur l'ensemble de la période étudiée. Il semble dès lors intéressant d'étudier ces 32 commandes pour tenter d'expliquer pourquoi elles ont obtenues la note d'évaluation minimale et donc pourquoi la note moyenne d'évaluation des commandes a chuté si brutalement.

In [50]:
""" Stastitiques desriptives des commandes livrées en septembre 2018 ayant obtenues 1 comme note d'évaluation """

df_notes1 = df_NotesSep18.loc[df_NotesSep18['review_score']==1]
df_notes1.describe(include='all', datetime_is_numeric=True)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
count,32,32,32,32,32,32,32,32,32,32.0,21,22,32,32
unique,32,32,1,,,,,,32,,20,22,13,32
top,234c056c50619f48da64f731c48242b4,44e460a655f7154ccd9faa4dbbbaf68a,delivered,,,,,,89143c34c9f9ca9f37aa7a0bfd871893,,Não recebi o produto,O produto está com a entrega em atraso.\r\nAté...,2018-08-31 00:00:00,2018-08-26 17:08:49
freq,1,1,32,,,,,,1,,2,1,5,1
mean,,,,2018-08-02 23:02:58.781250048,2018-08-03 06:55:25.812499968,2018-08-10 02:40:50.624999936,2018-09-09 05:34:05.406249984,2018-08-20 15:00:00,,1.0,,,,
min,,,,2018-06-21 17:27:55,2018-06-21 18:21:15,2018-07-02 15:18:00,2018-09-01 00:34:24,2018-07-24 00:00:00,,1.0,,,,
25%,,,,2018-07-28 04:29:35.249999872,2018-07-29 05:11:43,2018-07-30 13:07:15,2018-09-03 17:24:47.249999872,2018-08-17 00:00:00,,1.0,,,,
50%,,,,2018-08-04 20:17:25.500000,2018-08-05 05:20:43.500000,2018-08-13 13:39:30,2018-09-05 17:31:53,2018-08-22 00:00:00,,1.0,,,,
75%,,,,2018-08-11 01:07:56.500000,2018-08-11 07:24:07.249999872,2018-08-20 07:59:00,2018-09-14 02:19:40,2018-08-27 06:00:00,,1.0,,,,
max,,,,2018-08-24 18:26:00,2018-08-24 18:43:57,2018-09-03 12:56:00,2018-09-27 02:24:33,2018-08-29 00:00:00,,1.0,,,,


Les statistiques descriptives de ces commandes informent qu'elles ont toutes été livrées, qu'elles ont toutes été livrées à un client différent et qu'elles ont été enregistrées à des dates différentes comprises entre le 21 juin et le 24 août 2018. A ce stade, le statut de livraison, le client à l'origine de la commande et le jour où l'heure d'enregistrement de la commande peuvent donc être écartés comme point commun à ces commandes.

In [51]:
""" Jointure de la colonne 'seller_id' du dataset relatif aux vendeurs pour analyser si les 32 commandes peuvent être reliées à un vendeur particulier """

df_notes1Bis = df_notes1.merge(df_ItemsBis[['order_id', 'seller_id', 'product_id']], on='order_id', how='left')

In [52]:
""" Observation du nombre de lignes obtenues après jointure """

df_notes1Bis.shape[0]

33

In [53]:
""" Observation de la ligne dupliquée dans le dataset nouvellement créé """

df_notes1Bis.loc[df_notes1Bis['order_id'].duplicated(keep=False)]

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp,seller_id,product_id
31,587e32dd528769d669d539531d32aeb5,0af8a25fb0b6f833724bb5818275807b,delivered,2018-08-10 11:46:09,2018-08-11 02:50:25,2018-08-14 10:09:00,2018-09-03 09:32:31,2018-08-28,6d73860dfc4a6279a8f4e0fdc8bf3445,1.0,Não compre,Vc paga um frete caro e não entregam na sua casa.,2018-08-31 00:00:00,2018-09-03 13:08:10,1025f0e2d44d7041d6cf58b6550e0bfa,09b0d15a8cc9a84e7af7e0225f67dc45
32,587e32dd528769d669d539531d32aeb5,0af8a25fb0b6f833724bb5818275807b,delivered,2018-08-10 11:46:09,2018-08-11 02:50:25,2018-08-14 10:09:00,2018-09-03 09:32:31,2018-08-28,6d73860dfc4a6279a8f4e0fdc8bf3445,1.0,Não compre,Vc paga um frete caro e não entregam na sua casa.,2018-08-31 00:00:00,2018-09-03 13:08:10,1025f0e2d44d7041d6cf58b6550e0bfa,810e2944bca9850b934e1570ba372e7d


Après jointue de la colonne "seller_id" du dataset relatif aux vendeurs, il n'y a plus 32 mais 33 lignes. Cela est dû au fait que l'une des commandes comprend 2 produits distincts, ce qui génère 2 lignes distinctes dans le dataset 'df_items'. De fait, ci-dessus les deux lignes sont strictement identiques sauf pour "product_id".

In [54]:
""" Nombre de vendeurs uniques ayant livrés les 32 commandes """

df_notes1Bis.groupby('order_id')['seller_id'].first().nunique()

27

Les 32 commandes ayant obtenues la note d'évaluation de 1 en septembre 2018 ont été livrées par 27 vendeurs différents. Il semble dès lors cohérent d'écarter l'hypothèse d'un ou quelques vendeurs en commun à ces commandes pour tenter d'expliquer la chute brutale des notes d'évaluation.

###Analyse des messages d'évaluation

In [55]:
""" Sélection des seules commandes, parmi les 32, comportant un message d'évaluation laissé par le client en plus de la note """

mask = df_notes1['review_comment_message'].notna()
df_notes1Comments = df_notes1.loc[mask]

In [56]:
""" Nombre de messages d'évaluation disponibles et aperçu """

print("Nombre de messages d'évaluation sur les 32 commandes :", len(df_notes1Comments['review_comment_message']), "\n")
print("Messages d'évaluation :\n", df_notes1Comments['review_comment_message'])

Nombre de messages d'évaluation sur les 32 commandes : 22 

Messages d'évaluation :
 715      O produto está com a entrega em atraso.\r\nAté...
6626                                  Essa loja nunca mais
7661     Estava esperando o produto para festa de anive...
21221               Ainda aguardando a entrega do produto 
21808    Porque toda vez que tento rastrear meu produto...
22065    Difícil comunicação com o vendedor após a comp...
23631    a falta de respeito e considderação para com o...
29524    Sempre comprei nas lannister, só que pela quar...
34547                     o produto ainda não foi entregue
38022    2 dias fora do prazo já mandei email pra empre...
44031    Pensei que seria entregue antes do prazo mas n...
46549    sem preocupação com o cliente, não há transpar...
52095    Paguei por um frete onde os prazos não foram s...
52219    Comprei mas nao veio entrega ainda queria dabe...
59151    A data da entrega era dia 23/08, já estamos no...
68586                    Empre

In [57]:
""" Suppression des caractères spéciaux, des doubles et plus espaces et mise en minuscule des messages """

df_notes1Comments['clean_message'] = df_notes1Comments['review_comment_message'].replace(r"[^a-zA-Z0-9\s]", " ")
df_notes1Comments['clean_message'] = df_notes1Comments['clean_message'].apply(lambda x: ''.join(elt for elt in x if elt.isalnum() or elt==" "))
df_notes1Comments['clean_message'] = df_notes1Comments['clean_message'].replace(r"\s+", " ")
df_notes1Comments['clean_message'] = df_notes1Comments['clean_message'].apply(lambda x: x.lower())
df_notes1Comments['clean_message'][:5]



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/

715      o produto está com a entrega em atrasoaté o mo...
6626                                  essa loja nunca mais
7661     estava esperando o produto para festa de anive...
21221               ainda aguardando a entrega do produto 
21808    porque toda vez que tento rastrear meu produto...
Name: clean_message, dtype: object

In [58]:
""" Import, instanciation et calibrage d'un vectoriseur TF-IDF """

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(ngram_range=(3, 3))
X = vectorizer.fit_transform(df_notes1Comments['clean_message'])

La technique TF-IDF, qui signifie Term Frequency-Inverse Document Frequency, est une méthode statistique utilisée en traitement du langage naturel pour mesurer l’importance d’un mot, ou d'une suite de mots, dans un document ou un corpus de documents en tenant compte de sa fréquence le document et de sa rareté dans l’ensemble du corpus. L'emploi de cette technique sur les messages d'évaluation vise à extraire les mots ou suites de mots, ici les suites de trois mots, les plus représentatifs de l'ensemble des messages.

In [59]:
""" Calcul des scores TF-IDF moyens pour chacun des ensembles de mots, affichage des suites de mots avec les scores TF-IDF moyens les plus élevés """

feature_names = vectorizer.get_feature_names_out()
tfidf_scores = X.mean(axis=0).A1
scored_words = pd.Series(tfidf_scores, index=feature_names)
top_words = scored_words.nlargest(5)
print(top_words)

não recebi produto    0.045344
eu não recebi         0.035518
produto ainda não     0.034096
não foi entregue      0.033482
essa loja nunca       0.032141
dtype: float64


In [60]:
""" Installation de la librairie de traduction "googletrans" """

!pip install googletrans==4.0.0-rc1 -q

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.1/55.1 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m20.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m133.4/133.4 kB[0m [31m17.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.8/58.8 kB[0m [31m7.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.6/42.6 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.6/53.6 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m65.0/65.0 kB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for googletrans (setup.py) ... [?25l[?25hdone


In [61]:
""" Import et instanciation du module 'Translator' de la librairie  'googletrans' et traduction des suites de mots avec les scores TF-IDF moyens les plus élevés en français """

from googletrans import Translator

translator = Translator()

top_words_list = top_words.index.tolist()

translated_words = []
for word in top_words_list:
    try:
        translation = translator.translate(word, src='pt', dest='fr')
        translated_words.append(translation.text)
    except Exception as e:
        print(f"Erreur lors de la traduction du mot '{word}': {e}")
        translated_words.append(word)

translated_words = pd.Series(translated_words)
top_words_translated = pd.DataFrame({'Translated_Words':translated_words, 'TF-IDF_MeanScore':top_words.values})

print(top_words_translated)

              Translated_Words  TF-IDF_MeanScore
0  Je n'ai pas reçu le produit          0.045344
1             je n'ai pas reçu          0.035518
2        le produit pas encore          0.034096
3            n'a pas été livré          0.033482
4            ce magasin jamais          0.032141


L'application de la technique TF-IDF permet d'obtenir les trigrammes qui caractèrisent statistiquement le mieux chacun des messages. La moyenne de chaque trigramme sur l'ensemble des messages permet ensuite d'extraire ceux qui caractérisent le mieux l'ensemble des messages. Sur les 5 suites avec le meilleur score TF-IDF obtenu, les 4 premières font état d'un problème de livraison.


Ces résultats exigent d'être vérifiés avant d'en tirer quelconque conclusion mais ils apportent une indication statistique intéressante sur la raison des notes d'évaluation exceptionnellement faibles attribués aux commandes livrées en septembre 2018.


Aussi, l'emploi de la technique TF-IDF sur un petit échantillon de 22 messages d'évaluation peut-être considéré comme superflu mais il présente l'intérêt de montrer ce qui aurait pu être réalisée de la stricte même manière et dans le même objectif sur un échantillon beaucoup plus important pour lequel la lecture des messages un à un eut été beaucoup plus couteuse.

#Délai entre achat et livraison

##Analyse globale

In [62]:
""" Création d'une colonne représentant le délai en heures entre achat et livraison dans la dataset relatif aux commandes """

df_orders['delivery_time'] = (df_orders['order_delivered_customer_date'] - df_orders['order_purchase_timestamp']).astype('timedelta64[h]')

In [63]:
""" Staistiques descriptives du délai en heures entre achat et livraison """

df_orders['delivery_time'].describe().round(2)

count    96476.00
mean       300.91
std        229.12
min         12.00
25%        162.00
50%        245.00
75%        377.00
max       5031.00
Name: delivery_time, dtype: float64

Les statistiques descriptives du délai entre achat et livraison indiquent que la moyenne se situent à 301 heures. Cependant il existe des valeurs exceptionnellement élevées. En effet, la médiane de la distribution n'est que de 245 heures, le troisième quartile de 377 heures, mais le maximum est d'un autre ordre de grandeur, à savoir 5031 heures (20,5x la médiane).

In [64]:
""" Histogramme de la distribution du délai entre achat et livraison """

fig = go.Figure()

fig.add_trace(go.Histogram(x=df_orders['delivery_time'], nbinsx=250))

fig.update_yaxes(type="log")

fig.update_layout(
    title_text="Distribution du nombre de commandes selon le délai entre achat et livraison en heures",
    xaxis_title="Délai (h)",
    yaxis_title="Nombre de commandes")

fig.show()

Ce graphique, utilisant une échelle logarithmique sur l'axe des ordonnées,
 ce qui permet de visualiser les quelques valeurs extrêmes tirant la moyenne du délai entre achat et livraison vers le haut.

##Analyse de relation entre délai et note d'évaluation

In [65]:
""" Jointure de la colonne 'review_score' afin d'analyser l'hypothèse' d'une relation entre note attribuée et délai de livraison et visualisation graphique """

df_OrdersReviewsBis = df_orders.merge(df_reviews[['order_id', 'review_score']], on='order_id', how='left')

fig = go.Figure()

fig.add_trace(go.Box(x=df_OrdersReviewsBis['review_score'],
                     y=df_OrdersReviewsBis['delivery_time']))

fig.update_layout(
    title_text="Distribution du délai entre achat et livraison, en fonction de la note d'évaluation accordée à la commande",
    xaxis_title="Note d'évaluation",
    yaxis_title="Délai entre achat et livraison")

fig.show()

La visualisation graphique de la relation entre les deux variables tend à confirmer l'existence d'un lien. En effet, on observe que plus la note d'évaluation attribuée à la commande est élevée, plus la médiane, le 3ème quartile, représentant 75% des valeurs, et la moustache haute, représentant Q3+1.5*IQR (soit 99% des valeurs attendues dans une distribution normale), sont faibles. La médiane des délais entre achat et livraison est de 402 heures pour les commandes évaluées à 1 sur 5 contre 221 heures pour celles évaluées à 5 sur 5. Q3, soit 75% des valeurs, atteint 732 heures pour les commandes évaluées à 1 contre 332 heures pour celles évaluées à 5.

In [66]:
""" Ajout de la colonne de délai entre achat et livraison au dataset des commandes ayant reçues une note d'évaluation de 1 en septembre 2018 """

df_notes1_DeliveryTimes = df_notes1.merge(df_orders[['order_id', 'delivery_time']], on="order_id", how='left')

In [67]:
""" Graphique présentant la différence de distribution dans le délai de livraison entre l'ensemble des commandes de la période et celles ayant reçues la note de 1 en septembre 2018 """

fig = go.Figure()

fig.add_trace(go.Box(
    y=df_notes1_DeliveryTimes['delivery_time'],
    name='Commandes livrées en Sep 18 ayant reçues la note de 1',
    marker_color='red'))

fig.add_trace(go.Box(
    y=df_orders['delivery_time'],
    name='Ensemble des commandes de la période',
    marker_color='green'))

fig.update_layout(
    title='Distribution du délai entre achat et livraison, selon le type de commande',
    yaxis_title='Délai entre achat et livraison (h)',
    showlegend=False)

fig.show()

Les boîtes à moustaches représentant la distribution du délai entre achat et livraison des commandes livrées en septembre 2018 et évaluées à 1 sur 5 par les clients n'est clairement pas semblable à celle représentant cette distribution pour l'ensemble des commandes de la période. La médiane de la première est de 786 heures, tandis que celle de la seconde n'est que de 245 heures, soit quasiment trois fois inférieure. De plus, quand 75% de l'ensemble des commandes ont été livrées en moins de 377 heures après leur commande, 75% des commandes de septembre 2018 ont été livrées en 579 heures ou plus.

Ces informations renforcent l'idée que les notes anormalement très faibles d'évaluation pour les commandes livrées en septembre 2018 sont liées, au moins en partie, a un délai entre achat et livraison très nettement supérieur sur cette période que sur l'ensemble de la période étudiée.

#Carte animée et interactive synthétique

In [68]:
""" Import du dataset relatif aux données de géolocalisation """

df_geo = pd.read_csv('/content/drive/MyDrive/OLIST_EDA/olist_geolocation_dataset.csv')
df_geo.head(3)

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP


In [69]:
""" Import du dataset relatif aux clients """

df_customers = pd.read_csv('/content/drive/MyDrive/OLIST_EDA/olist_customers_dataset.csv')
df_customers.head(3)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP


In [70]:
""" Jointure du dataset relatif aux données de géolocalisation et du dataset relatif aux clients """

df_customers.rename(columns={'customer_zip_code_prefix': "geolocation_zip_code_prefix"}, inplace=True)

df_CustomersGeo = pd.merge(df_customers, df_geo, on='geolocation_zip_code_prefix', how='left')
df_CustomersGeo.head(3)

Unnamed: 0,customer_id,customer_unique_id,geolocation_zip_code_prefix,customer_city,customer_state,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,-20.509897,-47.397866,franca,SP
1,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,-20.497396,-47.399241,franca,SP
2,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,-20.510459,-47.399553,franca,SP


In [71]:
""" Comparaison du nombre de lignes présentes dans le dataset obtenu et dans les deux datasets initiaux """

print("Nombre de lignes dataset clients :", df_customers.shape[0])
print("Nombre de lignes dataset géolocalisations :", df_geo.shape[0])
print("Nombre de lignes après jointure des deux datasets :", df_CustomersGeo.shape[0])

Nombre de lignes dataset clients : 99441
Nombre de lignes dataset géolocalisations : 1000163
Nombre de lignes après jointure des deux datasets : 15083733


Après jointure des deux datasets il y a explosion du nombre de lignes.

In [72]:
""" Nombre d'apparitions de "customer_id" uniques """

df_CustomersGeo['customer_id'].value_counts()

a521b24543a0798c2e47274b14267f40    1146
82782a8ab4c15acf2e65f35f6ac6237d    1146
8ba0374666bfb38c409875762a5af81e    1146
f8897ca2b66630b4d587f8daab079c08    1146
4ce2275dc1246c364f683d473ae3081b    1146
                                    ... 
d198b40ba4bff0ab7ca1a37d872e9c5b       1
f3e73ca7cd85db9bb9be47fc88d38bc8       1
c785736d6fb1a0a904195d7f5b709f12       1
59365a596fafb5488c739ac1e657f6ab       1
bdf5201a85adc11a3881a5e1ffab102c       1
Name: customer_id, Length: 99441, dtype: int64

In [73]:
""" Observation des différentes lignes correspondant à un "customer_id" unique """

df_CustomersGeo.loc[df_CustomersGeo['customer_id']=="a521b24543a0798c2e47274b14267f40"]

Unnamed: 0,customer_id,customer_unique_id,geolocation_zip_code_prefix,customer_city,customer_state,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
13437849,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.905817,-43.106989,niteroi,RJ
13437850,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.902306,-43.112545,niteroi,RJ
13437851,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.904567,-43.110491,niteroi,RJ
13437852,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.902575,-43.109192,niteroi,RJ
13437853,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.907500,-43.106170,niteroi,RJ
...,...,...,...,...,...,...,...,...,...
13438990,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.904023,-43.111683,niteroi,RJ
13438991,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.905393,-43.100512,niterói,RJ
13438992,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.906420,-43.104933,niteroi,RJ
13438993,a521b24543a0798c2e47274b14267f40,993d9a0e5fd88247da657a4c85fe72b0,24220,niteroi,RJ,-22.909701,-43.108452,niteroi,RJ


Les deux cellules de code ci-dessus permettent de déduire que cette explosion du nombre de lignes vient du fait que certains "zip_code_préfix" correspondent à une multitude de latitudes et longitudes variables à la marge.

In [74]:
""" Groupement du dataset relatif aux geolocalisations par "zip_code_prefix" afin d'agréger chaque latitude et longitude à un préfixe unique """

df_geo_ZipPrefixGrouped = df_geo.groupby('geolocation_zip_code_prefix').agg({
    "geolocation_lat": "mean",
    "geolocation_lng": "mean",
    'geolocation_city': "first",
    'geolocation_state': "first"})

In [75]:
""" Jointure du dataset relatif aux clients avec le nouveau dataset agrégé des gélolocalisations"""

df_CustomersGeoBis = pd.merge(df_customers, df_geo_ZipPrefixGrouped, on='geolocation_zip_code_prefix', how='left')
df_CustomersGeoBis

Unnamed: 0,customer_id,customer_unique_id,geolocation_zip_code_prefix,customer_city,customer_state,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,-20.498489,-47.396929,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,-23.727992,-46.542848,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,-23.531642,-46.656289,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,-23.499702,-46.185233,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,-22.975100,-47.142925,campinas,SP
...,...,...,...,...,...,...,...,...,...
99436,17ddf5dd5d51696bb3d7c6291687be6f,1a29b476fee25c95fbafc67c5ac95cf8,3937,sao paulo,SP,-23.586003,-46.499638,são paulo,SP
99437,e7b71a9017aa05c9a7fd292d714858e8,d52a67c98be1cf6a5c84435bd38d095d,6764,taboao da serra,SP,-23.615830,-46.768533,taboao da serra,SP
99438,5e28dfe12db7fb50a4b2f691faecea5e,e9f50caf99f032f0bf3c55141f019d99,60115,fortaleza,CE,-3.734569,-38.510534,fortaleza,CE
99439,56b18e2166679b8a959d72dd06da27f9,73c2643a0a458b49f58cea58833b192e,92120,canoas,RS,-29.949839,-51.168494,canoas,RS


On vérifie bien cette fois que chaque client dispose d'une localisation unique.

In [76]:
""" Jointure du dataset obtenu (clients + géolocalisations) avec celui relatif au détail des commandes, groupé par commandes uniques """

OrdersItemsGrouped = df_OrdersItems.groupby('order_id').agg({
    'customer_id':'first',
    'order_delivered_customer_date':'first',
    'value_perProduct_perOrder':'sum'})

df_OrdersItemsGrouped = pd.DataFrame(OrdersItemsGrouped.reset_index())
df_OrdersItemsGrouped.rename(columns={"value_perProduct_perOrder":"value_perOrder"}, inplace=True)

df_CustomersGeoOrdersItems = pd.merge (df_OrdersItemsGrouped, df_CustomersGeoBis, on='customer_id', how='left')
df_CustomersGeoOrdersItems = df_CustomersGeoOrdersItems.merge(df_reviews[['order_id', 'review_score']], on='order_id', how='left')
df_CustomersGeoOrdersItems.head(3)

Unnamed: 0,order_id,customer_id,order_delivered_customer_date,value_perOrder,customer_unique_id,geolocation_zip_code_prefix,customer_city,customer_state,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state,review_score
0,00010242fe8c5a6d1ba2dd792cb16214,3ce436f183e68e07877b285a838db11a,2017-09-20 23:43:48,72.19,871766c5855e863f6eccc05f988b23cb,28013,campos dos goytacazes,RJ,-21.762775,-41.309633,campos dos goytacazes,RJ,5.0
1,00018f77f2f0320c557190d7a144bdd3,f6dd3ec061db4e3987629fe6b26e5cce,2017-05-12 16:04:24,259.83,eb28e67c4c0b83846050ddfb8a35d051,15775,santa fe do sul,SP,-20.220527,-50.903424,santa fe do sul,SP,4.0
2,000229ec398224ef6ca0657da4fc703e,6489ae5e4333f3693df5ad4372dab6d3,2018-01-22 13:19:16,216.87,3818d81c6709e39d06b2738a8d3a2474,35661,para de minas,MG,-19.870305,-44.593326,pará de minas,MG,5.0


In [77]:
""" Groupement des commandes par années et semaines, ordonnancement du dataset par ordre chronologique et retrait des commandes dont les colonnes
 'order_delivered_customer_date', 'revenue' ou 'review_score' ne présentent pas de valeurs """

df_CustomersGeoOrdersItems = df_CustomersGeoOrdersItems.dropna(subset=['order_delivered_customer_date'])
df_CustomersGeoOrdersItems = df_CustomersGeoOrdersItems.dropna(subset=['value_perOrder'])
df_CustomersGeoOrdersItems = df_CustomersGeoOrdersItems.dropna(subset=['review_score'])

df_CustomersGeoOrdersItems['year'] = df_CustomersGeoOrdersItems['order_delivered_customer_date'].dt.isocalendar().year.astype(int)
df_CustomersGeoOrdersItems['week'] = df_CustomersGeoOrdersItems['order_delivered_customer_date'].dt.isocalendar().week.astype(int)
df_CustomersGeoOrdersItems = df_CustomersGeoOrdersItems.sort_values(by=['year', 'week'], ascending=True )
df_CustomersGeoOrdersItems['year_week'] = df_CustomersGeoOrdersItems['week'].astype(str) + '-' + df_CustomersGeoOrdersItems['year'].astype(str)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [78]:
""" Carte animée présentant de manière synthétique l'évolution des ventes livrées par semaine avec leur CA généré et leur note d'évaluation accordée par le client """

df_CustomersGeoOrdersItems['Note évaluation client'] = df_CustomersGeoOrdersItems['review_score'].astype(str)

color_map = {
    '1.0': '#540d6e',
    '2.0': '#ee4266',
    '3.0': '#ffd23f',
    '4.0': '#3bceac',
    '5.0': '#0ead69'}

category_order = ['5.0', '4.0', '3.0', '2.0', '1.0']
color_sequence = [color_map[key] for key in category_order]

fig = px.scatter_mapbox(df_CustomersGeoOrdersItems, lat="geolocation_lat", lon="geolocation_lng", color='Note évaluation client', color_discrete_map=color_map,
                        size='value_perOrder', size_max=35, mapbox_style="carto-darkmatter", template="plotly_dark", animation_frame='year_week', zoom=2.3,
                        category_orders={'Note évaluation client': category_order},
                        title="Evolution des ventes livrées par semaine ; valeur (taille du point) et note d'évalution client (légende)")

fig.update_layout(
    mapbox=dict(
        center=dict(lat=-17.00, lon=-55.00)),
    annotations=[
        dict(
            x=0.5,
            y=-0.1,
            showarrow=False,
            text="Survolez le point pour voir le détail de la commande",
            xref="paper",
            yref="paper")
    ])

fig.show()