# Análise do banco de dados público de Comércio Eletrônico Brasileiro da Plataforma Olist

## Motivação:

A forma como desenvolve-se o código para a realização de uma análise é de suma importância para a organização das ideias, e desenvolvimento de uma estrutura coerente, que faça sentido ao programador.<br>

Assim, a ideia desse projeto é apresentar uma maneira simples de trabalhar com conjuntos de dados separados, ou seja, unir data frames de maneira objetiva.

## Finalidade do estudos:

O projeto visa analisar o Conjunto de dados públicos de comércio eletrônico brasileiro da Plataforma Olist. O conjunto de dados tem informações de 100 mil pedidos de 2016 a 2018 feitos em vários marketplaces no Brasil.<br>
Portanto a ideia é fazer a junção dessa base de dados através da função ``merge`` da biblioteca ``pandas``.<br>

Vamos também investigar algumas hipóteses juntos:<br>
Qual o ID de cliente que mais compra na Olist?<br>
Onde estão localizados os top 10 clientes?<br>
Qual a média de preços de cada categoria?<br>

## Bibliotecas

In [1]:
import pandas as pd
import numpy as py
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('fivethirtyeight')
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

## Carregando dados:

In [2]:
df_prod = pd.read_csv('conj_produtos.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_client = pd.read_csv('clientes.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_pedidos = pd.read_csv('conj_de_pedidos.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_vendedo = pd.read_csv('conj_vendedores.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_traduc = pd.read_csv('traduc_categoria_produto.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_revis_pedi = pd.read_csv('revisoes_pedidos.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_pg_pedidos = pd.read_csv('pagamentos_pedidos.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_iten_pedidos = pd.read_csv('itens_pedidos.csv', sep=',', on_bad_lines='skip', encoding='latin-1')
df_loc = pd.read_csv('geolocalização.csv', sep=',', on_bad_lines='skip', encoding='latin-1')


## Descrição dos dados:

#### Informações sobre os dados:

Os dados são divididos em vários conjuntos de dados para melhor compreensão e organização. Porém, este estudo está trazendo um domínio das funções da biblioteca Pandas para a união de dataframes, através de ``merge`` e ``concat``.<br>
Dessa forma, a descrição das variáveis utilizadas se dará ao longo do estudo.<br>

As informações a seguir ainda mostra o conjunto de dados separados em vários ``dataframes``.

In [13]:
df_prod.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


In [14]:
df_client.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


In [15]:
df_pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


In [16]:
df_vendedo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 1   seller_zip_code_prefix  3095 non-null   int64 
 2   seller_city             3095 non-null   object
 3   seller_state            3095 non-null   object
dtypes: int64(1), object(3)
memory usage: 96.8+ KB


In [18]:
df_revis_pedi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


In [19]:
df_pg_pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


In [22]:
df_iten_pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


### Observando valores nulos:

Nesta parte utilizei a função .isnull() para observar se há valores missing no datasets.

In [29]:
df_prod.isnull().sum()

product_id                      0
product_category_name         610
product_name_lenght           610
product_description_lenght    610
product_photos_qty            610
product_weight_g                2
product_length_cm               2
product_height_cm               2
product_width_cm                2
dtype: int64

In [30]:
df_pedidos.isnull().sum()

order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

In [31]:
df_pg_pedidos.isnull().sum()

order_id                0
payment_sequential      0
payment_type            0
payment_installments    0
payment_value           0
dtype: int64

In [32]:
df_client.isnull().sum()

customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64

In [33]:
df_vendedo.isnull().sum()

seller_id                 0
seller_zip_code_prefix    0
seller_city               0
seller_state              0
dtype: int64

In [34]:
df_iten_pedidos.isnull().sum()

order_id               0
order_item_id          0
product_id             0
seller_id              0
shipping_limit_date    0
price                  0
freight_value          0
dtype: int64

# Realizando a união dos dataframes para análise:

Nesta parte foi realizado o ``merge`` da base de dados de **clientes** e **pedidos** no intuito de identificar o **customer_unique_id** de cada cliente individual. Dessa forma, foi realizado um ``groupby`` e identificado o ID pertencente aos 10 clientes que mais realizaram compra dentro da Plataforma Olist.

**OBS: cada pedido é atribuído a um ID de cliente exclusivo. Isso significa que o mesmo cliente receberá IDs diferentes para pedidos diferentes. O objetivo de ter um customer_unique_id no conjunto de dados é permitir que você identifique os clientes que fizeram recompras na loja. Caso contrário, você descobriria que cada pedido tinha um cliente diferente associado.**

In [3]:
m_df1 = pd.merge(df_client, df_pedidos, how='inner', on='customer_id')

In [53]:
m_df1.head(10)

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,2017-05-25 10:35:35,2017-06-05 00:00:00
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,29150127e6685892b6eab3eec79f59c7,delivered,2018-01-12 20:48:24,2018-01-12 20:58:32,2018-01-15 17:14:59,2018-01-29 12:41:19,2018-02-06 00:00:00
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,b2059ed67ce144a36e2aa97d2c9e9ad2,delivered,2018-05-19 16:07:45,2018-05-20 16:19:10,2018-06-11 14:31:00,2018-06-14 17:58:51,2018-06-13 00:00:00
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,951670f92359f4fe4a63112aa7306eba,delivered,2018-03-13 16:06:38,2018-03-13 17:29:19,2018-03-27 23:22:42,2018-03-28 16:04:25,2018-04-10 00:00:00
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,6b7d50bd145f6fc7f33cebabd7e49d0f,delivered,2018-07-29 09:51:30,2018-07-29 10:10:09,2018-07-30 15:16:00,2018-08-09 20:55:48,2018-08-15 00:00:00
5,879864dab9bc3047522c92c82e1212b8,4c93744516667ad3b8f1fb645a3116a4,89254,jaragua do sul,SC,5741ea1f91b5fbab2bd2dc653a5b5099,delivered,2017-09-14 18:14:31,2017-09-14 18:25:11,2017-09-18 21:27:40,2017-09-28 17:32:43,2017-10-04 00:00:00
6,fd826e7cf63160e536e0908c76c3f441,addec96d2e059c80c30fe6871d30d177,4534,sao paulo,SP,36e694cf4cbc2a4803200c35e84abdc4,delivered,2018-02-19 14:38:35,2018-02-19 14:50:37,2018-02-20 00:03:39,2018-02-20 16:25:51,2018-03-05 00:00:00
7,5e274e7a0c3809e14aba7ad5aae0d407,57b2a98a409812fe9618067b6b8ebe4f,35182,timoteo,MG,1093c8304c7a003280dd34598194913d,delivered,2017-11-16 19:29:02,2017-11-16 19:55:41,2017-11-22 16:46:33,2017-11-27 12:44:36,2017-12-08 00:00:00
8,5adf08e34b2e993982a47070956c5c65,1175e95fb47ddff9de6b2b06188f7e0d,81560,curitiba,PR,1ebeea841c590e86a14a0d7a48e7d062,delivered,2018-01-18 12:35:44,2018-01-18 12:56:32,2018-01-18 23:25:35,2018-01-26 15:17:57,2018-02-20 00:00:00
9,4b7139f34592b3a31687243a302fa75b,9afe194fb833f79e300e37e580171f22,30575,belo horizonte,MG,7433cbcc783205509d66a5260da5b574,delivered,2018-01-08 11:22:34,2018-01-08 11:35:27,2018-01-11 01:00:40,2018-01-13 14:51:55,2018-02-05 00:00:00


In [54]:
m_df1.isnull().sum()

customer_id                         0
customer_unique_id                  0
customer_zip_code_prefix            0
customer_city                       0
customer_state                      0
order_id                            0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

**ID dos 10 clientes que mais compraram na Plataforma**:

In [4]:
m_df1.groupby('customer_unique_id')['customer_id'].count().sort_values(ascending=False).head(10)

customer_unique_id
8d50f5eadf50201ccdcedfb9e2ac8455    17
3e43e6105506432c953e165fb2acf44c     9
6469f99c1f9dfae7733b25662e7f1782     7
ca77025e7201e3b30c44b472ff346268     7
1b6c7548a2a1f9037c1fd3ddfed95f33     7
12f5d6e1cbf93dafd9dcc19095df0b3d     6
de34b16117594161a6a89c50b289d35a     6
63cfc61cee11cbe306bff5857d00bfe4     6
f0e310a6839dce9de1638e0fe5ab282a     6
47c1a3033b8b77b3ab6e109eb4d5fdf3     6
Name: customer_id, dtype: int64

Dessa forma, nota-se que a cidade de **São Paulo** é o local onde tem maior número de compradores na plataforma, em seguida tem-se **Rio de Janeiro**, **Belo Horizonte**, e etc.<br>

Observa-se também o quanto São Paulo e Rio estão à frente das demais cidades.

In [5]:
m_df1.groupby('customer_city')['customer_unique_id'].count().sort_values(ascending=False).head(10)

customer_city
sao paulo                15540
rio de janeiro            6882
belo horizonte            2773
brasilia                  2131
curitiba                  1521
campinas                  1444
porto alegre              1379
salvador                  1245
guarulhos                 1189
sao bernardo do campo      938
Name: customer_unique_id, dtype: int64

In [6]:
m_df1.groupby('customer_state')['customer_unique_id'].count().sort_values(ascending=False).head(10)

customer_state
SP    41746
RJ    12852
MG    11635
RS     5466
PR     5045
SC     3637
BA     3380
DF     2140
ES     2033
GO     2020
Name: customer_unique_id, dtype: int64

Já para os estados o padrão segue o mesmo da lista de cidades, tendo o estado de SP e RJ como os dois maiores na plataforma.

Essa próxima etapa da análise foi realizado um ``merge`` da base de dados de **itens pedidos** com a base de dados de **produtos vendidos**.<br>
Assim, foi realizado a observação das categórias que mais vendem na Plataforma, e após foi realizado um ``groupby`` para a análise do preço médio de cada categoria.<br>

**OBS: O ``merge`` foi realizado a partir de um ``inner`` da variável ``product_id`` de ambas as tabelas**.

In [35]:
m_df2 = pd.merge(df_iten_pedidos, df_prod, how='inner', on='product_id')
m_df2.head(10)

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
1,130898c0987d1801452a8ed92a670612,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-07-05 02:44:11,55.9,17.96,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
2,532ed5e14e24ae1f0d735b91524b98b9,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2018-05-23 10:56:25,64.9,18.33,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
3,6f8c31653edb8c83e1a739408b5ff750,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-07 18:55:08,58.9,16.17,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
4,7d19f4ef4d04461989632411b7e588b9,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-16 22:05:11,58.9,13.29,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
5,a0f9acf0b6294ed8561e32cde1a966bc,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-03 15:23:46,55.9,26.93,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
6,bbf796534aaf9c59f8da8c7982db56e0,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2018-03-26 03:28:44,64.9,38.5,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
7,c9ef97d2854afe64a3b4488bc2836af6,2,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-14 04:25:34,58.9,18.12,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
8,df2d910b8b5e5f461f67043489f9569d,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-06-09 14:31:21,55.9,35.71,cool_stuff,58.0,598.0,4.0,650.0,28.0,9.0,14.0
9,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93,pet_shop,56.0,239.0,2.0,30000.0,50.0,30.0,40.0


In [67]:
m_df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 112650 entries, 0 to 112649
Data columns (total 15 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   order_id                    112650 non-null  object 
 1   order_item_id               112650 non-null  int64  
 2   product_id                  112650 non-null  object 
 3   seller_id                   112650 non-null  object 
 4   shipping_limit_date         112650 non-null  object 
 5   price                       112650 non-null  float64
 6   freight_value               112650 non-null  float64
 7   product_category_name       111047 non-null  object 
 8   product_name_lenght         111047 non-null  float64
 9   product_description_lenght  111047 non-null  float64
 10  product_photos_qty          111047 non-null  float64
 11  product_weight_g            112632 non-null  float64
 12  product_length_cm           112632 non-null  float64
 13  product_height

In [66]:
m_df2.isnull().sum()

order_id                         0
order_item_id                    0
product_id                       0
seller_id                        0
shipping_limit_date              0
price                            0
freight_value                    0
product_category_name         1603
product_name_lenght           1603
product_description_lenght    1603
product_photos_qty            1603
product_weight_g                18
product_length_cm               18
product_height_cm               18
product_width_cm                18
dtype: int64

**Nota-se as 20 categorias que mais vendem na Olist**.

In [13]:
m_df2['product_category_name'].value_counts().sort_values(ascending=False).head(20)

cama_mesa_banho                11115
beleza_saude                    9670
esporte_lazer                   8641
moveis_decoracao                8334
informatica_acessorios          7827
utilidades_domesticas           6964
relogios_presentes              5991
telefonia                       4545
ferramentas_jardim              4347
automotivo                      4235
brinquedos                      4117
cool_stuff                      3796
perfumaria                      3419
bebes                           3065
eletronicos                     2767
papelaria                       2517
fashion_bolsas_e_acessorios     2031
pet_shop                        1947
moveis_escritorio               1691
consoles_games                  1137
Name: product_category_name, dtype: int64

Em relação ao preço médio pode-se observar as categorias com os preços médio mais elevados, como pcs (eletronicos), produtos para casa portateis, eletrodomesticos, e etc.<br>

Dentre as categorias com maior valor médio; ``relógio_presentes``, ``cool_stuff``, ``moveis_escritorio`` estão presentes também dentro das 20 categorias que mais vendem.

In [12]:
m_df2.groupby('product_category_name')['price'].mean().sort_values(ascending=False).head(20)

product_category_name
pcs                                               1098.340542
portateis_casa_forno_e_cafe                        624.285658
eletrodomesticos_2                                 476.124958
agro_industria_e_comercio                          342.124858
instrumentos_musicais                              281.616000
eletroportateis                                    280.778468
portateis_cozinha_e_preparadores_de_alimentos      264.568667
telefonia_fixa                                     225.693182
construcao_ferramentas_seguranca                   208.992371
relogios_presentes                                 201.135984
climatizacao                                       185.269226
moveis_quarto                                      183.750275
pc_gamer                                           171.772222
cool_stuff                                         167.357969
moveis_cozinha_area_de_servico_jantar_e_jardim     164.869644
moveis_escritorio                               

Nota-se as categorias com maiores valores médio de frete.

In [36]:
m_df2.groupby('product_category_name')['freight_value'].mean().sort_values(ascending=False).head(20)

product_category_name
pcs                                               48.454680
eletrodomesticos_2                                44.538571
moveis_colchao_e_estofado                         42.906842
moveis_cozinha_area_de_servico_jantar_e_jardim    42.702598
moveis_quarto                                     42.497523
moveis_escritorio                                 40.551124
portateis_casa_forno_e_cafe                       36.156053
moveis_sala                                       35.722008
sinalizacao_e_seguranca                           32.702613
industria_comercio_e_negocios                     29.420448
malas_acessorios                                  27.880247
agro_industria_e_comercio                         27.564151
instrumentos_musicais                             27.409544
construcao_ferramentas_iluminacao                 24.946711
la_cuisine                                        23.825000
eletroportateis                                   23.593888
casa_construcao   

## Conclusão:

O presente estudo procurou demonstrar soluções para um problema de unir tabelas com muitos dados a partir de funções da biblioteca ``pandas``.<br>

E para além apenas de mostrar as funcionalidades dessas funções, o estudo também tentou trazer alguns ensights da base de dados demonstrada.<br>

Logo, nota-se a importância da região sudeste para a Plataforma Olist, devido ao seu poder de compra em relação as demais regiões do país.<br>
Observa-se também a importância da categoria de informatica (pcs) para a Plataforma, em questão de valor agregado sobre as suas vendas.<br>