# Análise exploratória dos Dados

## Sobre o Dataset

Este é um dataset sobre pedidos em ecommerce brasileiro realizado pela Olist Store. O dataset contém informações sobre 100 mil pedidos feitos em diversas lojas durante o período de 2016 a 2018. O dataset permite visualizar os pedidos a partir de múltiplas dimensões. De status do pedido, preço, pagamento e performance do frete até a localização do cliente, atributos do produto e, finalmente, avaliações escritas pelos clientes. Também há um conjunto de dados de geolocalização que relaciona os códigos postais brasileiros às coordenadas lat/long.

São dados comerciais reais, foram anonimizados e as referências às empresas e parceiros no texto da revisão foram substituídas pelos nomes das grandes casas de Game of Thrones.


## Atenção
1. Um pedido pode ter vários itens.
2. Cada item pode ser atendido por um vendedor distinto.
3. Todo o texto identificando lojas e parceiros foi substituído pelos nomes das grandes casas de Game of Thrones.

## Data Schema
Os dados são divididos em vários conjuntos de dados para melhor compreensão e organização. Consulte o esquema de dados a seguir ao trabalhar com ele:

<img src="assets/data_schema.png" width="1000px" />



---

**Customers Dataset (dataset de clientes)**<br/><br/>
Este conjunto de dados contém informações sobre o cliente e sua localização. Use-o para identificar clientes únicos no conjunto de dados de pedidos e para encontrar o local de entrega dos pedidos.

No sistema, cada pedido é atribuído a um customerid exclusivo. Isso significa que o mesmo cliente receberá IDs diferentes para pedidos diferentes. O objetivo de ter um customerunique_id no conjunto de dados é permitir que você identifique clientes que fizeram recompras na loja. Caso contrário, você descobriria que cada pedido tinha um cliente diferente associado.

---

**Geolocation Dataset (Conjunto de dados de geolocalização)**<br/><br/>
Este conjunto de dados contém informações sobre códigos postais brasileiros e suas coordenadas lat/lng. Use-o para traçar mapas e encontrar distâncias entre vendedores e clientes.

---

**Order Items Dataset (Conjunto de dados de itens de pedido)**<br/><br/>
Este conjunto de dados inclui dados sobre os itens comprados em cada pedido.

---

**Payments Dataset (Conjunto de dados de pagamentos)**<br/><br/>
Este conjunto de dados inclui dados sobre as opções de pagamento dos pedidos.

---

**Order Reviews Dataset (Conjunto de dados de avaliações de pedidos)**<br/><br/>
Este conjunto de dados inclui dados sobre as avaliações feitas pelos clientes.

Depois que um cliente compra o produto da Olist Store, um vendedor é notificado para atender a esse pedido. Assim que o cliente recebe o produto, ou a data prevista de entrega está prevista, o cliente recebe um inquérito de satisfação por e-mail onde pode dar nota da experiência de compra e deixar alguns comentários.

---

**Order Dataset (Conjunto de dados do pedido)**<br/><br/>
Este é o conjunto de dados principal. De cada pedido você pode encontrar todas as outras informações.

---

**Products Dataset (Conjunto de dados de produtos)**<br/><br/>
Este conjunto de dados inclui dados sobre os produtos vendidos pela Olist.

---

**Sellers Dataset (Conjunto de dados de vendedores)**<br/><br/>
Este conjunto de dados inclui dados sobre os vendedores que atenderam aos pedidos feitos na Olist. Use-o para encontrar a localização do vendedor e identificar qual vendedor entregou cada produto.

---

**Tradução do nome da categoria**<br/><br/>
Traduz o nome da categoria do produto para o inglês.

---

# Análise Exploratória por Datasets

## 1) Orders_dataset (Dataset de Pedidos)

**Ideias:**
* Calcular a quantidade de tempo desde o momento da compra até a entrega no cliente

In [1]:
# Análise dos dados
import pandas as pd
import numpy as np

# Visualização dos dados
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objs as go

# Bibliotecas de utilidades
from include.graficos import exibirGrafico

import warnings
warnings.filterwarnings("ignore")

In [2]:
dfOrders = pd.read_csv('data/orders_dataset.csv')

dfCustomers = pd.read_csv('data/customers_dataset.csv')

In [3]:
print(dfOrders.shape)

dfOrders.head(5)

(99441, 8)


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [4]:
dfOrders.dtypes

order_id                         object
customer_id                      object
order_status                     object
order_purchase_timestamp         object
order_approved_at                object
order_delivered_carrier_date     object
order_delivered_customer_date    object
order_estimated_delivery_date    object
dtype: object

In [5]:
dfOrders.isnull().sum()

order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

In [6]:
dfOrders = pd.merge(dfOrders, dfCustomers, left_on='customer_id', right_on='customer_id', how='left')

del dfCustomers

In [7]:
dfOrders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00,af07308b275d755c9edb36a90c618231,47813,barreiras,BA
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00,7c142cf63193a1473d2e66489a9ae977,59296,sao goncalo do amarante,RN
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00,72632f0f9dd73dfee390c9b22eb56dd6,9195,santo andre,SP


In [8]:
dfOrders.columns

Index(['order_id', 'customer_id', 'order_status', 'order_purchase_timestamp',
       'order_approved_at', 'order_delivered_carrier_date',
       'order_delivered_customer_date', 'order_estimated_delivery_date',
       'customer_unique_id', 'customer_zip_code_prefix', 'customer_city',
       'customer_state'],
      dtype='object')

In [9]:
dfOrders['order_purchase_timestamp'] = pd.to_datetime(dfOrders['order_purchase_timestamp'])
dfOrders['order_approved_at'] = pd.to_datetime(dfOrders['order_approved_at'])
dfOrders['order_delivered_carrier_date'] = pd.to_datetime(dfOrders['order_delivered_carrier_date'])
dfOrders['order_delivered_customer_date'] = pd.to_datetime(dfOrders['order_delivered_customer_date'])
dfOrders['order_estimated_delivery_date'] = pd.to_datetime(dfOrders['order_estimated_delivery_date'])

In [10]:
dfOrders.dtypes

order_id                                 object
customer_id                              object
order_status                             object
order_purchase_timestamp         datetime64[ns]
order_approved_at                datetime64[ns]
order_delivered_carrier_date     datetime64[ns]
order_delivered_customer_date    datetime64[ns]
order_estimated_delivery_date    datetime64[ns]
customer_unique_id                       object
customer_zip_code_prefix                  int64
customer_city                            object
customer_state                           object
dtype: object

In [11]:
def convertToTimesOfDay(value):
    result = ''
    hour = value.hour

    if hour >= 5 and hour < 12:
        result = 'manha'
    elif hour >= 12 and hour < 19:
        result = 'tarde'
    elif hour >= 19 and hour <= 23:
        result = 'noite'
    else:
        result = 'madrugada'

    return result


In [12]:
dfOrders['times_of_day'] = dfOrders['order_purchase_timestamp'].apply(convertToTimesOfDay)

dfOrders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,times_of_day
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,manha
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,noite
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,manha
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,7c142cf63193a1473d2e66489a9ae977,59296,sao goncalo do amarante,RN,noite
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,72632f0f9dd73dfee390c9b22eb56dd6,9195,santo andre,SP,noite


In [21]:
dfTimes = dfOrders['times_of_day'].value_counts().reset_index()
dfTimes.columns = ['times_of_day', 'count']


display(dfTimes.head())

exibirGrafico(dfTimes, x='times_of_day', y='count', type='bar', title='Quantidade de Vendas por Período', \
                xlabel='Períodos', ylabel='Quantidade', width=600, height=400)

Unnamed: 0,times_of_day,count
0,tarde,44130
1,noite,28331
2,manha,22428
3,madrugada,4552


In [60]:
dfOrders['order_hour'] = dfOrders['order_purchase_timestamp'].dt.hour

In [63]:
dfTimes = dfOrders['order_hour'].value_counts().reset_index()
dfTimes.columns = ['order_hour', 'count']


display(dfTimes.head())

exibirGrafico(dfTimes, x='order_hour', y='count', type='bar', title='Total de Pedidos por Hora', \
                xlabel='Horários', ylabel='Quantidade', width=600, height=400)

Unnamed: 0,order_hour,count
0,16,6675
1,11,6578
2,14,6569
3,13,6518
4,15,6454


In [61]:
dfOrders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,times_of_day,order_date_purchase,order_hour
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,manha,2017-10-02,10
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,noite,2018-07-24,20
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,manha,2018-08-08,8
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,7c142cf63193a1473d2e66489a9ae977,59296,sao goncalo do amarante,RN,noite,2017-11-18,19
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,72632f0f9dd73dfee390c9b22eb56dd6,9195,santo andre,SP,noite,2018-02-13,21


---

### 1.) Análise de Série Temporal de Pedidos

In [25]:
dfOrders['order_date_purchase'] = pd.to_datetime(dfOrders['order_purchase_timestamp']).dt.date

dfOrders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,times_of_day,order_date_purchase
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,7c396fd4830fd04220f754e42b4e5bff,3149,sao paulo,SP,manha,2017-10-02
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,af07308b275d755c9edb36a90c618231,47813,barreiras,BA,noite,2018-07-24
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,3a653a41f6f9fc3d2a113cf8398680e8,75265,vianopolis,GO,manha,2018-08-08
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,7c142cf63193a1473d2e66489a9ae977,59296,sao goncalo do amarante,RN,noite,2017-11-18
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,72632f0f9dd73dfee390c9b22eb56dd6,9195,santo andre,SP,noite,2018-02-13


In [26]:
tsPurchase = dfOrders['order_date_purchase'].value_counts().reset_index().sort_values(by=['index'])

tsPurchase.columns = ['date', 'count']
tsPurchase['date'] = pd.to_datetime(tsPurchase['date'])


print(tsPurchase.shape)
tsPurchase.head()

(634, 2)


Unnamed: 0,date,count
627,2016-09-04,1
632,2016-09-05,1
629,2016-09-13,1
626,2016-09-15,1
617,2016-10-02,1


In [27]:
fig = exibirGrafico(tsPurchase, x='date', y='count', type='line', title = 'Pedidos durante todo o período', \
                    width = 1000, height = 400, xlabel = 'Período', ylabel = 'Quantidade de Pedidos')

fig.show()

Observações:
* Vemos que nas pontas dos gráficos há poucos registros. Provavelmente se trata de uma pequena amostra que não representa de fato o que aconteceu neste dataset (isto é uma suposição). Portanto, como analista tomo a decisão de remover os dados anteriores ao dia `05 jan de 2017` e dados superiores ao dia `20 de ago de 2018`.

In [28]:
tsPurchase = tsPurchase.loc[(tsPurchase['date'] > '2017-01-04') & (tsPurchase['date'] < '2018-08-21')]

print(tsPurchase.shape)
tsPurchase.head()

(593, 2)


Unnamed: 0,date,count
590,2017-01-05,32
608,2017-01-06,4
611,2017-01-07,4
606,2017-01-08,6
607,2017-01-09,5


In [29]:
fig = exibirGrafico(tsPurchase, x='date', y='count', type='line', title = 'Pedidos durante todo o período', \
                    width = 1000, height = 400, xlabel = 'Período', ylabel = 'Quantidade de Pedidos')

fig.show()

In [30]:
tsCount = tsPurchase.sort_values(by='count', ascending=False)[0:10]
tsCount.sort_values(by=['date'], inplace=True)
tsCount['date'] = tsCount['date'].dt.strftime('%b %d, %Y')

fig = exibirGrafico(tsCount, x='date', y='count', type='bar', title = 'Top 10 Dias com mais vendas', \
                    width = 1000, height = 400, xlabel = 'Data', ylabel = 'Quantidade de Pedidos')

fig.show()

---

### 1.2) Vendas por Região

In [33]:
dfOrdersMun = dfOrders['customer_state'].value_counts().reset_index()
dfOrdersMun.columns = ['UF', 'Count']

dfOrdersMun.head()

Unnamed: 0,UF,Count
0,SP,41746
1,RJ,12852
2,MG,11635
3,RS,5466
4,PR,5045


In [59]:
fig = px.bar(dfOrdersMun, x='Count', y='UF', orientation='h', text='Count')

fig.update_layout(yaxis={'categoryorder':'total ascending'}, \
                width=800, height=900, title='<span>Total de Vendedores por Estado</span>', )

---

### 1.3) Análise de tempo médio

In [76]:
dfOrders['days_between_purchase_delivery'] = (dfOrders['order_estimated_delivery_date'] - dfOrders['order_purchase_timestamp']).dt.days


dfOrders['days_between_purchase_delivery'].head()

0    15
1    19
2    26
3    26
4    12
Name: days_between_purchase_delivery, dtype: int64

In [77]:
dfOrders['days_between_purchase_delivery'].describe()

count    99441.000000
mean        23.403958
std          8.829562
min          1.000000
25%         18.000000
50%         23.000000
75%         28.000000
max        155.000000
Name: days_between_purchase_delivery, dtype: float64

In [81]:
fig = px.box(dfOrders['days_between_purchase_delivery'])

fig.update_layout(width=600, height=500, title='<span>Boxplot de Tempo entre Compra e Entrega Estimada</span>', )

In [108]:
dfOrders['month_purchase'] = pd.to_datetime(dfOrders['order_purchase_timestamp']).dt.to_period('M')
dfOrders['month_purchase'] = dfOrders['month_purchase'].astype(str)

tsMeanWaitingTime = dfOrders.groupby(['month_purchase'], as_index=False)['days_between_purchase_delivery'].mean()
tsMeanWaitingTime.sort_values(by=['month_purchase'], inplace=True)

tsMeanWaitingTime.head()

Unnamed: 0,month_purchase,days_between_purchase_delivery
0,2016-09,32.75
1,2016-10,54.904321
2,2016-12,26.0
3,2017-01,39.24875
4,2017-02,31.65618


In [111]:
fig = exibirGrafico(tsMeanWaitingTime, x='month_purchase', y='days_between_purchase_delivery', \
                    type='line', title = 'Tempo Médio de Espera de Entrega do Pedido', \
                    width = 1000, height = 400, xlabel = 'Período', ylabel = 'Tempo de Espera')

fig.show()

Observações:
* Note que o tempo médio de espera para entrega dos pedidos vem caindo com o passar dos meses. A explicação deste fenômeno é que cada vez mais os clientes querem seus produtos entregues o mais rápido possível.


Agora irei fazer a mesma análise, mas desta vez desconsiderarei os valores outliers.
> Segundo o boxplot, quaisquer valores acima de 43 e abaixo de 3 são considerados outliers.

In [115]:
dfOrders2 = dfOrders.loc[(dfOrders['days_between_purchase_delivery'] > 2) & (dfOrders['days_between_purchase_delivery'] < 44)]

dfOrders2['month_purchase'] = pd.to_datetime(dfOrders2['order_purchase_timestamp']).dt.to_period('M')
dfOrders2['month_purchase'] = dfOrders2['month_purchase'].astype(str)

tsMeanWaitingTime = dfOrders2.groupby(['month_purchase'], as_index=False)['days_between_purchase_delivery'].mean()
tsMeanWaitingTime.sort_values(by=['month_purchase'], inplace=True)


fig = exibirGrafico(tsMeanWaitingTime, x='month_purchase', y='days_between_purchase_delivery', \
                    type='line', title = 'Tempo Médio de Espera de Entrega do Pedido', \
                    width = 1000, height = 400, xlabel = 'Período', ylabel = 'Tempo de Espera')

fig.show()

Esta segunda análise está mais próxima da realidade, dado que, embora os dados outliers estivessem com valores bastante elevados, se tratava de poucos dados.

---

## 2) Orders_items (Dataset de Itens de Pedidos)

**Ideias:**


In [None]:
dfItems = pd.read_csv('data/order_items_dataset.csv')

In [None]:
dfItems.head(5)

In [None]:
dfItems.shape

---

## 3) Order_payments (Tipos de Pagamentos de Pedidos)

**Ideias:**

In [None]:
dfPayments = pd.read_csv('data/order_payments_dataset.csv')

dfPayments.head()

In [None]:
dfPayments['payment_type'].value_counts()

---

## 4) Orders_reviews (Avaliações de Pedidos)

**Ideias:**

In [None]:
dfReviews = pd.read_csv('data/order_reviews_dataset.csv')

dfReviews.head()

In [None]:
dfReviews['review_score'].value_counts()

---

## 5) Products_dataset (Dataset de Produtos)

**Ideias**

In [None]:
dfProducts = pd.read_csv('data/products_dataset.csv')

In [None]:
print(dfProducts.shape)
display(dfProducts.head())

In [None]:
dfProducts = dfProducts[['product_id', 'product_category_name']]

dfProducts.head()

---

## 6) Customers_dataset (Dataset dos compradores)

**Ideias:**

In [None]:
dfCustomers = pd.read_csv('data/customers_dataset.csv')

print(dfCustomers.shape)

dfCustomers.head()

## 7) Sellers_dataset (Dataset de vendedores)

**Ideias:**

In [None]:
dfSellers = pd.read_csv('data/sellers_dataset.csv')

print(dfSellers.shape)

dfSellers.head()

---

## 8) Geolocation_dataset (Dataset de Geolocalização)

**Ideias:**

In [None]:
dfGeolocation = pd.read_csv('data/geolocation_dataset.csv')

dfGeolocation.head()

In [None]:
dfGeolocation.shape