# Brazilian E-Commerce
## Etude SQL du dataset olist

![title](banner.jpg)

### Introduction du dataset

L'ensemble de données contient des informations sur 100 000 commandes de 2016 à 2018 passées sur plusieurs marchés au Brésil. Ses fonctionnalités permettent de visualiser une commande sous plusieurs dimensions : du statut de la commande, du prix, du paiement et des performances de transport à l'emplacement du client, aux attributs du produit et enfin aux avis rédigés par les clients. Nous avons également publié un ensemble de données de géolocalisation qui relie les codes postaux brésiliens aux coordonnées lat/lng.

Il s'agit de véritables données commerciales, elles ont été anonymisées et les références aux sociétés et partenaires dans le texte de la critique ont été remplacées par les noms des grandes maisons de Game of Thrones. 

### Contexte

Cet ensemble de données a été généreusement fourni par Olist, le plus grand magasin des marchés brésiliens. Olist connecte les petites entreprises de tout le Brésil à des canaux sans tracas et avec un seul contrat. Ces marchands peuvent vendre leurs produits via la boutique Olist et les expédier directement aux clients en utilisant les partenaires logistiques d'Olist. En savoir plus sur notre site : www.olist.com

Une fois qu'un client a acheté le produit sur Olist Store, un vendeur est informé de l'exécution de cette commande. Une fois que le client a reçu le produit ou que la date de livraison estimée est due, le client reçoit une enquête de satisfaction par e-mail où il peut donner une note pour l'expérience d'achat et écrire quelques commentaires. 

#### Analyse du contexte : logigramme

![title](logigram.jpg)

### Point d'attention

- Une commande peut contenir plusieurs articles.
- Chaque article peut être rempli par un vendeur distinct.
- Tous les textes identifiant les magasins et les partenaires ont été remplacés par les noms des grandes maisons de Game of Thrones. 


## Shema de la base de données

![title](https://i.imgur.com/HRhd2Y0.png)

### Analyse dans les discussions du dataset

- Un client à un customer_id par commande
- Un client n'a qu'un seul customer_unique_id
- Un client peut commander plusieurs articles similaires (même référence) en une seule commande, `item_id` est utilisé pour les identifier séparément
- Le code postal au Brésil est sur 8 chiffres
- Le prix est en réal brésilien (BRL)
- Le dataframe `olist_order_reviews_dataset.csv` a plusieurs enregistrements avec le même `review_id`
- Les `order_id` semblent faire référence à des commandes très similaires mais pour des clients différents, placés très près dans le temps les uns des autres
- Le dataframe `olist_order_payments_dataset` a en effet des valeurs `order_id` dupliquées, cela se produit car une commande peut avoir plusieurs modes de paiement 
- Chaque commande est attribuée à un `customer_id` unique. Cela signifie que le même client obtiendra des identifiants différents pour différentes commandes. Le but d'avoir un `customer_unique_id` sur l'ensemble de données est de permettre d'identifier les clients qui ont effectué des rachats dans le magasin. Sinon chaque commande est associée à un client différent. 


- https://www.kaggle.com/olistbr/brazilian-ecommerce/discussion/66466
- https://www.kaggle.com/olistbr/brazilian-ecommerce/discussion/69667
- https://www.kaggle.com/olistbr/brazilian-ecommerce/discussion/66851

### Analyse des données

In [1]:
#import des lib
import pandas as pd

In [103]:
# Chargement des dataset
order_review = pd.read_csv('olist_order_reviews_dataset.csv')
order_payments = pd.read_csv('olist_order_payments_dataset.csv')
orders = pd.read_csv('olist_orders_dataset.csv')
order_customer = pd.read_csv('olist_customers_dataset.csv')
products = pd.read_csv('olist_products_dataset.csv')
order_items = pd.read_csv('olist_order_items_dataset.csv')
sellers = pd.read_csv('olist_sellers_dataset.csv')
geolocation = pd.read_csv('olist_geolocation_dataset.csv')
product_category_name_translation = pd.read_csv('product_category_name_translation.csv')

In [92]:
# Affiche l'analyse d'un dataframe
def analyseDf(df):
    print('Nombre de lignes et colonnes :',df.shape)
    print('\nType de données :\n')
    print(df.dtypes)
    print('\nValeurs manquantes :\n')
    print(df.isna().sum())
    print('\nNombre de doublons :\n')
    for col in df:
        print(col,':',df[col].duplicated().sum(),'doublons')

#### Analyse de order_review

In [93]:
analyseDf(order_review)

Nombre de lignes et colonnes : (99224, 7)

Type de données :

review_id                  object
order_id                   object
review_score                int64
review_comment_title       object
review_comment_message     object
review_creation_date       object
review_answer_timestamp    object
dtype: object

Valeurs manquantes :

review_id                      0
order_id                       0
review_score                   0
review_comment_title       87656
review_comment_message     58247
review_creation_date           0
review_answer_timestamp        0
dtype: int64

Nombre de doublons :

review_id : 814 doublons
order_id : 551 doublons
review_score : 99219 doublons
review_comment_title : 94696 doublons
review_comment_message : 63064 doublons
review_creation_date : 98588 doublons
review_answer_timestamp : 976 doublons


#### Analayse de order_payments

In [94]:
analyseDf(order_payments)

Nombre de lignes et colonnes : (103886, 5)

Type de données :

order_id                 object
payment_sequential        int64
payment_type             object
payment_installments      int64
payment_value           float64
dtype: object

Valeurs manquantes :

order_id                0
payment_sequential      0
payment_type            0
payment_installments    0
payment_value           0
dtype: int64

Nombre de doublons :

order_id : 4446 doublons
payment_sequential : 103857 doublons
payment_type : 103881 doublons
payment_installments : 103862 doublons
payment_value : 74809 doublons


#### Analyse de orders

In [95]:
analyseDf(orders)

Nombre de lignes et colonnes : (99441, 8)

Type de données :

order_id                         object
customer_id                      object
order_status                     object
order_purchase_timestamp         object
order_approved_at                object
order_delivered_carrier_date     object
order_delivered_customer_date    object
order_estimated_delivery_date    object
dtype: object

Valeurs manquantes :

order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

Nombre de doublons :

order_id : 0 doublons
customer_id : 0 doublons
order_status : 99433 doublons
order_purchase_timestamp : 566 doublons
order_approved_at : 8707 doublons
order_delivered_carrier_date : 18422 doublons
order_delivered_customer_date : 3776 doublon

#### Analyse de order_customer

In [96]:
analyseDf(order_customer)

Nombre de lignes et colonnes : (99441, 5)

Type de données :

customer_id                 object
customer_unique_id          object
customer_zip_code_prefix     int64
customer_city               object
customer_state              object
dtype: object

Valeurs manquantes :

customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64

Nombre de doublons :

customer_id : 0 doublons
customer_unique_id : 3345 doublons
customer_zip_code_prefix : 84447 doublons
customer_city : 95322 doublons
customer_state : 99414 doublons


#### Analyse de products

In [97]:
analyseDf(products)

Nombre de lignes et colonnes : (32951, 9)

Type de données :

product_id                     object
product_category_name          object
product_name_lenght           float64
product_description_lenght    float64
product_photos_qty            float64
product_weight_g              float64
product_length_cm             float64
product_height_cm             float64
product_width_cm              float64
dtype: object

Valeurs manquantes :

product_id                      0
product_category_name         610
product_name_lenght           610
product_description_lenght    610
product_photos_qty            610
product_weight_g                2
product_length_cm               2
product_height_cm               2
product_width_cm                2
dtype: int64

Nombre de doublons :

product_id : 0 doublons
product_category_name : 32877 doublons
product_name_lenght : 32884 doublons
product_description_lenght : 29990 doublons
product_photos_qty : 32931 doublons
product_weight_g : 30746 doublons
pro

#### Analyse de order_items

In [99]:
analyseDf(order_items)

Nombre de lignes et colonnes : (112650, 7)

Type de données :

order_id                object
order_item_id            int64
product_id              object
seller_id               object
shipping_limit_date     object
price                  float64
freight_value          float64
dtype: object

Valeurs manquantes :

order_id               0
order_item_id          0
product_id             0
seller_id              0
shipping_limit_date    0
price                  0
freight_value          0
dtype: int64

Nombre de doublons :

order_id : 13984 doublons
order_item_id : 112629 doublons
product_id : 79699 doublons
seller_id : 109555 doublons
shipping_limit_date : 19332 doublons
price : 106682 doublons
freight_value : 105651 doublons


#### Analyse de sellers

In [100]:
analyseDf(sellers)

Nombre de lignes et colonnes : (3095, 4)

Type de données :

seller_id                 object
seller_zip_code_prefix     int64
seller_city               object
seller_state              object
dtype: object

Valeurs manquantes :

seller_id                 0
seller_zip_code_prefix    0
seller_city               0
seller_state              0
dtype: int64

Nombre de doublons :

seller_id : 0 doublons
seller_zip_code_prefix : 849 doublons
seller_city : 2484 doublons
seller_state : 3072 doublons


#### Analyse de geolocation

In [101]:
analyseDf(geolocation)

Nombre de lignes et colonnes : (1000163, 5)

Type de données :

geolocation_zip_code_prefix      int64
geolocation_lat                float64
geolocation_lng                float64
geolocation_city                object
geolocation_state               object
dtype: object

Valeurs manquantes :

geolocation_zip_code_prefix    0
geolocation_lat                0
geolocation_lng                0
geolocation_city               0
geolocation_state              0
dtype: int64

Nombre de doublons :

geolocation_zip_code_prefix : 981148 doublons
geolocation_lat : 282803 doublons
geolocation_lng : 282550 doublons
geolocation_city : 992152 doublons
geolocation_state : 1000136 doublons


#### Analyse de product_category_name_translation

In [104]:
analyseDf(product_category_name_translation)

Nombre de lignes et colonnes : (71, 2)

Type de données :

product_category_name            object
product_category_name_english    object
dtype: object

Valeurs manquantes :

product_category_name            0
product_category_name_english    0
dtype: int64

Nombre de doublons :

product_category_name : 0 doublons
product_category_name_english : 0 doublons
