<h1>
    Sommaire<span class="tocSkip"></span>
</h1>
<br>
<div class="toc">
    <ul class="toc-item">
        <li>
            <span>
                <a href="#Import-des-librairies-et-chargement-des-données" data-toc-modified-id="Import-des-librairies-et-chargement-des-données-1">
                    <span class="toc-item-num">1&nbsp;&nbsp;</span>Import des librairies et chargement des données
                </a>
            </span>
        </li>
        <li>
            <span>
                <a href="#Exploration-des-données" data-toc-modified-id="Exploration-des-données-2">
                    <span class="toc-item-num">2&nbsp;&nbsp;</span>Exploration des données
                </a>
            </span>
            <ul class="toc-item">
                <li>
                    <span>
                        <a href="#Exploration-des-tables-de-la-BDD" data-toc-modified-id="Exploration-des-tables-de-la-BDD-2.1">
                            <span class="toc-item-num">2.1&nbsp;&nbsp;</span>Exploration des tables de la BDD
                        </a>
                    </span>
                </li>
                <li>
                    <span>
                        <a href="#Construction-du-dataset" data-toc-modified-id="Construction-du-dataset-3.2">
                            <span class="toc-item-num">2.2&nbsp;&nbsp;</span>Construction du dataset
                        </a>
                    </span>
                </li>
            </ul>
        </li>
        <li>
            <span>
                <a href="#Spatial-coverage" data-toc-modified-id="Spatial-coverage-3">
                    <span class="toc-item-num">3&nbsp;&nbsp;</span>Spatial coverage
                </a>
            </span>
            <ul class="toc-item">
                <li>
                    <span>
                        <a href="#Locations-without-ISO-code" data-toc-modified-id="Locations-without-ISO-code-3.1">
                            <span class="toc-item-num">3.1&nbsp;&nbsp;</span>Locations without ISO code
                        </a>
                    </span>
                </li>
                <li>
                    <span>
                        <a href="#ISO-country-codes" data-toc-modified-id="ISO-country-codes-3.2">
                            <span class="toc-item-num">3.2&nbsp;&nbsp;</span>ISO country codes
                        </a>
                    </span>
                </li>
            </ul>
        </li>
        <li>
            <span>
                <a href="#Temporal-coverage" data-toc-modified-id="Temporal-coverage-4">
                    <span class="toc-item-num">4&nbsp;&nbsp;</span>Temporal coverage
                </a>
            </span>
            <ul class="toc-item">
                <li>
                    <span>
                        <a href="#Temporal-coverage-per-type-of-CO2-emissions" data-toc-modified-id="Temporal-coverage-per-type-of-CO2-emissions-4.1">
                            <span class="toc-item-num">4.1&nbsp;&nbsp;</span>Temporal coverage per type of CO2 emissions
                        </a>
                    </span>
                </li>
                <li>
                    <span>
                        <a href="#Temporal-coverage-per-country" data-toc-modified-id="Temporal-coverage-per-country-4.2">
                            <span class="toc-item-num">4.2&nbsp;&nbsp;</span>Temporal coverage per country
                        </a>
                    </span>
                </li>
            </ul>
        </li>
        <li>
            <span>
                <a href="#Descriptive-statistics" data-toc-modified-id="Descriptive-statistics-5">
                    <span class="toc-item-num">5&nbsp;&nbsp;</span>Descriptive statistics
                </a>
            </span>
        </li>
        <li>
            <span>
                <a href="#Sectors" data-toc-modified-id="Sectors-6">
                    <span class="toc-item-num">6&nbsp;&nbsp;</span>Sectors
                </a>
            </span>
            <ul class="toc-item">
                <li>
                    <span>
                        <a href="#Production-based,-trade-related,-production-of-cement..." data-toc-modified-id="Production-based,-trade-related,-production-of-cement...-6.1">
                            <span class="toc-item-num">6.1&nbsp;&nbsp;</span>Production-based, trade-related, production of cement...
                        </a>
                    </span>
                </li>
            </ul>
        </li>
    </ul>
</div>

# Import des librairies et chargement des données

In [1]:
import os

# grammaire abstraite de l'arbre syntaxique de Python
import ast

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

from pandas.api.types import is_string_dtype, is_numeric_dtype

pd.options.mode.chained_assignment = None  # default='warn'

In [2]:
# mise en place des chemins des fichiers contenant les datasets
dossier_data = "data/"
nom_fichier_clients = "olist_customers_dataset.csv"
nom_fichier_geolocalisation = "olist_geolocation_dataset.csv"
nom_fichier_produits_commandes = "olist_order_items_dataset.csv"
nom_fichier_paiements_commandes = "olist_order_payments_dataset.csv"
nom_fichier_commentaires_commandes = "olist_order_reviews_dataset.csv"
nom_fichier_commandes = "olist_orders_dataset.csv"
nom_fichier_produits = "olist_products_dataset.csv"
nom_fichier_vendeurs = "olist_sellers_dataset.csv"
nom_fichier_categorie_produit = "product_category_name_translation.csv"

In [3]:
# chargement des datasets (BDD complète)
clients = pd.read_csv(dossier_data + nom_fichier_clients)
geolocalisation = pd.read_csv(dossier_data + nom_fichier_geolocalisation)
produits_commandes = pd.read_csv(dossier_data + nom_fichier_produits_commandes)
paiements_commandes = pd.read_csv(dossier_data + nom_fichier_paiements_commandes)
commentaires_commandes = pd.read_csv(dossier_data + nom_fichier_commentaires_commandes)
commandes = pd.read_csv(dossier_data + nom_fichier_commandes)
produits = pd.read_csv(dossier_data + nom_fichier_produits)
vendeurs = pd.read_csv(dossier_data + nom_fichier_vendeurs)
categorie_produit = pd.read_csv(dossier_data + nom_fichier_categorie_produit)

# Exploration des données

In [4]:
noms_datasets = ["clients", "geolocalisation", "produits_commandes", "paiements_commandes", "commentaires_commandes", 
                 "commandes", "produits", "vendeurs", "categorie_produit"]

for dataset in noms_datasets:
    print("Le dataset {} a la forme suivante : {}.".format(dataset, eval(dataset).shape))

Le dataset clients a la forme suivante : (99441, 5).
Le dataset geolocalisation a la forme suivante : (1000163, 5).
Le dataset produits_commandes a la forme suivante : (112650, 7).
Le dataset paiements_commandes a la forme suivante : (103886, 5).
Le dataset commentaires_commandes a la forme suivante : (100000, 7).
Le dataset commandes a la forme suivante : (99441, 8).
Le dataset produits a la forme suivante : (32951, 9).
Le dataset vendeurs a la forme suivante : (3095, 4).
Le dataset categorie_produit a la forme suivante : (71, 2).


In [5]:
# fonctions
def compter_donnees_manquantes(dataset):
    """Retourne un DataFrame contenant la liste des variables avec leurs nombre et pourcentage respectifs 
    de données manquantes. Ne retourne rien s'il n'y a aucune donnée manquante.
    
    Paramètres
    ----------
    dataset : DataFrame
        Dataset sur lequel on compte le nombre et le pourcentage de données manquantes par variable.
        
    """
    
    nombres_donnees_manquantes = dataset.isnull().sum()
    nombres_donnees_totales = dataset.isnull().count()
    pourcentages_donnees_manquantes = round(nombres_donnees_manquantes/nombres_donnees_totales*100, 1)

    donnees_manquantes_df = pd.DataFrame({'nombre': nombres_donnees_manquantes, 
                                      'total': nombres_donnees_totales, 
                                      'pourcentage': pourcentages_donnees_manquantes})

    donnees_manquantes_df.sort_values(by=['nombre'], ascending=False, inplace=True)
    donnees_manquantes_df = donnees_manquantes_df[donnees_manquantes_df['nombre'] > 0]

    if len(donnees_manquantes_df) != 0:
        return donnees_manquantes_df
    else:
        return None

## Exploration des tables de la BDD

### Table clients

In [6]:
clients.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


Le *customer_id* permet de faire le lien entre la commande et le client. À chaque commande, un unique *customer_id* est assigné au client. Un même client peut donc avoir plusieurs *customer_id* s'il a fait plusieurs commandes mais il est identifié grâce au *customer_unique_id*.

In [7]:
compter_donnees_manquantes(clients)

Pas de donnée manquante dans cette table.

In [8]:
clients.customer_city.value_counts()[:10]

sao paulo                15540
rio de janeiro            6882
belo horizonte            2773
brasilia                  2131
curitiba                  1521
campinas                  1444
porto alegre              1379
salvador                  1245
guarulhos                 1189
sao bernardo do campo      938
Name: customer_city, dtype: int64

In [9]:
clients.customer_state.value_counts()

SP    41746
RJ    12852
MG    11635
RS     5466
PR     5045
SC     3637
BA     3380
DF     2140
ES     2033
GO     2020
PE     1652
CE     1336
PA      975
MT      907
MA      747
MS      715
PB      536
PI      495
RN      485
AL      413
SE      350
TO      280
RO      253
AM      148
AC       81
AP       68
RR       46
Name: customer_state, dtype: int64

La plupart des clients viennent de l'état et de la ville de Sao Paulo puis vient ensuite Rio de Janeiro. Ce sont donc principalement des clients urbains provenant de grandes agglomérations.

### Table géolocalisation

In [10]:
geolocalisation.head()

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


In [11]:
compter_donnees_manquantes(geolocalisation)

Pas de donnée manquante dans cette table.

In [12]:
geolocalisation.geolocation_city.value_counts()[:10]

sao paulo                135800
rio de janeiro            62151
belo horizonte            27805
são paulo                 24918
curitiba                  16593
porto alegre              13521
salvador                  11865
guarulhos                 11340
brasilia                  10470
sao bernardo do campo      8112
Name: geolocation_city, dtype: int64

In [13]:
geolocalisation.geolocation_state.value_counts()

SP    404268
MG    126336
RJ    121169
RS     61851
PR     57859
SC     38328
BA     36045
GO     20139
ES     16748
PE     16432
DF     12986
MT     12031
CE     11674
PA     10853
MS     10431
MA      7853
PB      5538
RN      5041
PI      4549
AL      4183
TO      3576
SE      3563
RO      3478
AM      2432
AC      1301
AP       853
RR       646
Name: geolocation_state, dtype: int64

### Table commandes

In [14]:
commandes.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [15]:
compter_donnees_manquantes(commandes)

Unnamed: 0,nombre,total,pourcentage
order_delivered_customer_date,2965,99441,3.0
order_delivered_carrier_date,1783,99441,1.8
order_approved_at,160,99441,0.2


Il existe des données manquantes pour 3 variables concernant des dates :
- la date de livraison au client
- la date de livraison chez le transporteur
- et la date à laquelle la commande a été approuvée

Etudions le statut des commandes pour lesquelles des données sont manquantes.

In [17]:
# conserver que les lignes ayant des données manquantes
commandes_avec_dates_manquantes = commandes[commandes.isna().any(axis=1)]
commandes_avec_dates_manquantes.order_status.value_counts()

shipped        1107
canceled        619
unavailable     609
invoiced        314
processing      301
delivered        23
created           5
approved          2
Name: order_status, dtype: int64

Parmi toutes les commandes qui ont des dates manquantes, seules 23 d'entre elles ont bien été livrées au client. Vérifions alors quel(s) champ(s) sont manquants pour ces commandes.

In [18]:
compter_donnees_manquantes(commandes_avec_dates_manquantes[commandes_avec_dates_manquantes.order_status == "delivered"])

Unnamed: 0,nombre,total,pourcentage
order_approved_at,14,23,60.9
order_delivered_customer_date,8,23,34.8
order_delivered_carrier_date,2,23,8.7


Revenons au dataset principal.

In [19]:
commandes.order_status.value_counts()

delivered      96478
shipped         1107
canceled         625
unavailable      609
invoiced         314
processing       301
created            5
approved           2
Name: order_status, dtype: int64

### Table des produits commandés

In [20]:
produits_commandes.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


Le prix total de la commande est la somme de *price* et *freight_value*.

In [21]:
compter_donnees_manquantes(produits_commandes)

Pas de données manquantes dans cette table.

### Table produits

In [22]:
produits.head()

Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


Pour la segmentation, la seule donnée intéressante est la catégorie du produit.

In [23]:
compter_donnees_manquantes(produits)

Unnamed: 0,nombre,total,pourcentage
product_category_name,610,32951,1.9
product_name_lenght,610,32951,1.9
product_description_lenght,610,32951,1.9
product_photos_qty,610,32951,1.9
product_weight_g,2,32951,0.0
product_length_cm,2,32951,0.0
product_height_cm,2,32951,0.0
product_width_cm,2,32951,0.0


### Table de traduction des catégories de produits

In [24]:
categorie_produit.head()

Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor


Cette table est en fait une table de traduction entre le nom de catégorie qui est initialement en portugais vers l'anglais.

In [25]:
compter_donnees_manquantes(categorie_produit)

Pas de données manquantes dans cette table.

### Table vendeurs

In [26]:
vendeurs.head()

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP


In [27]:
vendeurs.seller_city.value_counts()[:10]

sao paulo         694
curitiba          127
rio de janeiro     96
belo horizonte     68
ribeirao preto     52
guarulhos          50
ibitinga           49
santo andre        45
campinas           41
maringa            40
Name: seller_city, dtype: int64

In [28]:
vendeurs.seller_state.value_counts()

SP    1849
PR     349
MG     244
SC     190
RJ     171
RS     129
GO      40
DF      30
ES      23
BA      19
CE      13
PE       9
PB       6
RN       5
MS       5
MT       4
RO       2
SE       2
MA       1
AM       1
PI       1
AC       1
PA       1
Name: seller_state, dtype: int64

La majeure partie des vendeurs se trouvent sur Sao Paulo.

In [29]:
compter_donnees_manquantes(vendeurs)

Pas de données manquantes dans cette table.

### Table paiement commandes

In [30]:
paiements_commandes.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


In [31]:
paiements_commandes.payment_type.value_counts()

credit_card    76795
boleto         19784
voucher         5775
debit_card      1529
not_defined        3
Name: payment_type, dtype: int64

La majeure partie des commandes est payée par carte de crédit, puis par *boleto*.

In [32]:
compter_donnees_manquantes(paiements_commandes)

Pas de données manquantes dans cette table.

### Table commentaires commandes

In [33]:
commentaires_commandes.head()

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53


Le score donné par le client serait une donnée intéressante à exploiter. Il est compris entre 1 et 5 et un score de 5 reflète une satisfaction totale du client.

In [34]:
compter_donnees_manquantes(commentaires_commandes)

Unnamed: 0,nombre,total,pourcentage
review_comment_title,88285,100000,88.3
review_comment_message,58247,100000,58.2


Pour rappel, des données manquantes sont présentes dans les tables :
- *commandes*,
- *produits*,
- et *commentaires_commandes*.

## Construction du dataset

In [39]:
# enrichissement des données clients avec les données des commandes
clients = clients.merge(geolocalisation, how="left", 
                                            left_on="customer_zip_code_prefix", 
                                            right_on="geolocation_zip_code_prefix")

clients.shape

(15083733, 10)

In [37]:
geolocalisation.head()

Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP
3,1041,-23.544392,-46.639499,sao paulo,SP
4,1035,-23.541578,-46.641607,sao paulo,SP


In [35]:
noms_datasets = ["clients", "geolocalisation", "produits_commandes", "paiements_commandes", "commentaires_commandes", 
                 "commandes", "produits", "vendeurs", "categorie_produit"]

for dataset in noms_datasets:
    print("Le dataset {} a la forme suivante : {}.".format(dataset, eval(dataset).shape))

Le dataset clients a la forme suivante : (99441, 5).
Le dataset geolocalisation a la forme suivante : (1000163, 5).
Le dataset produits_commandes a la forme suivante : (112650, 7).
Le dataset paiements_commandes a la forme suivante : (103886, 5).
Le dataset commentaires_commandes a la forme suivante : (100000, 7).
Le dataset commandes a la forme suivante : (99441, 8).
Le dataset produits a la forme suivante : (32951, 9).
Le dataset vendeurs a la forme suivante : (3095, 4).
Le dataset categorie_produit a la forme suivante : (71, 2).
