# Analisando os dados da Olist

Para a nossa segunda parte da aula, iremos trabalhar em cima de uma base de dados disponibilizada pela Olist, uma empresa de e-commerce. Essa base de dados
é composta por 9 tabelas, conforme o seguinte esquema:

![](/material/img/banco_de_dados_olist.png)

Essa base de dados é uma base menos "limpa" e é o que mais se aproxima da análise de dados do dia-a-dia de uma pessoa que trabalha com dados no mundo corporativo. Com essas tabelas, precisaremos demais manipulações de dados de forma mais minuciona que aquela que fizemos pela manhã. Vamos lá!

Para ter acesso à base de dados, acesse: https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce, mas usando esse link:

 https://drive.google.com/drive/folders/1RuibSOdMp-cR6niAdbH8bRIj3PO4EOlh?usp=sharing


# Coleta dos Dados

Nossa base de dados da Olist é composta por 9 tabelas diferentes, nelas temos informações de:
- pedidos (olist_orders_dataset)
- itens dos pedidos (olist_order_items_dataset)
- review dos usuários sobre os pedidos (olist_order_reviews_dataset)
- detalhes de pagamento dos pedidos (olist_order_payments_dataset)
- detalhes do consumidor que fez os pedidos (olist_customers_dataset)
- detalhes de geolocalização do consumidor (olist_geolocation_dataset)
- detalhes dos produtos (olist_products_dataset)
- detalhes dos vendedores (olist_sellers_dataset)

Nesta aula, iremos focar em três datasets, o de pedidos (olist_orders_dataset), itens do pedido (olist_order_items_dataset) e o de consumidor (olist_customers_dataset). Vamos lá!

In [None]:
# Importa a biblioteca Pandas, que é usada para trabalhar com dados em tabelas.
# 'import' é usado para trazer funcionalidades de outras bibliotecas para o seu código.
# 'pandas' é o nome da biblioteca que vamos usar.
# 'as pd' é um apelido que damos para a biblioteca, para que possamos usá-la mais facilmente, escrevendo 'pd' ao invés de 'pandas'.
import pandas as pd

In [None]:
# Lê o arquivo CSV 'dados/olist_orders_dataset.csv' e cria um DataFrame chamado 'df_pedidos'.
# 'pd.read_csv()' é uma função do Pandas que lê um arquivo CSV e o coloca em um DataFrame.
# 'dados/olist_orders_dataset.csv' é o caminho para o arquivo CSV que queremos ler.
# 'df_pedidos' é o nome que damos para o DataFrame que será criado.
df_pedidos = pd.read_csv('dados/olist_orders_dataset.csv')

# Mostra o DataFrame 'df_pedidos' na tela.
# 'df_pedidos' é o nome do DataFrame que queremos mostrar.
df_pedidos

Para a tabela de pedidos, iremos utilizar as seguintes colunas:

- **order_id**: Identificador do pedido
- **customer_id**: Identificador do cliente. Essa coluna é importante pois será a nossa chave com a tabela de consumidor
- **order_status**: Status do pedido
- **order_purchase_timestamp**: timestamp do horário que a compra foi feita
- **order_delivered_customer_date**: timestamp do horário que a compra foi entregue ao cliente

In [None]:
# Lê o arquivo CSV 'dados/olist_order_items_dataset.csv' e cria um DataFrame chamado 'df_itens_pedido'.
# 'pd.read_csv()' é a função do Pandas que lê um arquivo CSV e o coloca em um DataFrame.
# 'dados/olist_order_items_dataset.csv' é o caminho para o arquivo CSV que queremos ler.
# 'df_itens_pedido' é o nome que damos para o DataFrame que será criado.
df_itens_pedido = pd.read_csv('dados/olist_order_items_dataset.csv')

# Mostra o DataFrame 'df_itens_pedido' na tela.
# 'df_itens_pedido' é o nome do DataFrame que queremos mostrar.
df_itens_pedido

In [None]:
# Junta os DataFrames 'df_pedidos' e 'df_itens_pedido' usando a coluna 'order_id' como chave.
# 'pd.merge()' é uma função do Pandas que junta dois DataFrames.
# 'df_pedidos' e 'df_itens_pedido' são os nomes dos DataFrames que queremos juntar.
# 'on=['order_id']' indica a coluna que será usada como chave para a junção.
# 'how='inner'' significa que só as linhas que possuem 'order_id' em ambos os DataFrames serão incluídas.
# O resultado é armazenado em um novo DataFrame chamado 'df_olist_pedidos'.
df_olist_pedidos = pd.merge(df_pedidos, df_itens_pedido, on=['order_id'], how='inner')

# Mostra o DataFrame 'df_olist_pedidos' na tela.
# 'df_olist_pedidos' é o nome do DataFrame que queremos mostrar.
df_olist_pedidos

Para a tabela de itens dos pedidos, iremos utilizar as seguintes colunas:

- **order_id**: Identificador do pedido. Será a nossa chave com a tabela de pedidos
- **product_id**: Identificador do produto
- **seller_id**: Identificador do vendedor
- **shipping_limit_date**: timestamp limite para a entrega do pedido
- **price**: valor do pedido
- **freight_value**: valor do frete

In [None]:
# Lê o arquivo CSV 'dados/olist_customers_dataset.csv' e cria um DataFrame chamado 'df_consumidor'.
# 'pd.read_csv()' é a função do Pandas que lê um arquivo CSV e o coloca em um DataFrame.
# 'dados/olist_customers_dataset.csv' é o caminho para o arquivo CSV que queremos ler.
# 'df_consumidor' é o nome que damos para o DataFrame que será criado.
df_consumidor = pd.read_csv('dados/olist_customers_dataset.csv')

# Mostra o DataFrame 'df_consumidor' na tela.
# 'df_consumidor' é o nome do DataFrame que queremos mostrar.
df_consumidor

In [None]:
# Junta os DataFrames 'df_olist_pedidos' e 'df_consumidor' usando a coluna 'customer_id' como chave.
# 'pd.merge()' é uma função do Pandas que junta dois DataFrames.
# 'df_olist_pedidos' e 'df_consumidor' são os nomes dos DataFrames que queremos juntar.
# 'on=['customer_id']' indica a coluna que será usada como chave para a junção.
# 'how='inner'' significa que só as linhas que possuem 'customer_id' em ambos os DataFrames serão incluídas.
# O resultado é armazenado em um novo DataFrame chamado 'df_olist_pedidos_uf'.
df_olist_pedidos_uf = pd.merge(df_olist_pedidos, df_consumidor, on=['customer_id'], how='inner')

# Mostra o DataFrame 'df_olist_pedidos_uf' na tela.
# 'df_olist_pedidos_uf' é o nome do DataFrame que queremos mostrar.
df_olist_pedidos_uf

Para a tabela de consumidor, iremos utilizar as seguintes colunas:

- **customer_id**: Identificador do cliente. Essa coluna é importante pois será a nossa chave com a tabela de pedidos. 
- **customer_state**: Estado
- **customer_city**: Cidade

# Objetivo da nossa Análise Exploratória:

Lembra que pela manhã comentamos a necessidade de estabelecer nossas perguntas para direcionar nossas análises? Para essa segunda parte da aula, buscaremos responder perguntas simples com base nessas 3 tabelas:

- Qual a frequência de compra dos clientes na plataforma da Olist no ano de 2017?
- Qual é o valor médio das compras desses clientes?  
- O número de vendas varia de acordo com a época do ano?
- O tempo limite de entrega das compras está sendo respeitado?

# Limpando os dados da Olist

## Pedidos

In [None]:
# Vamos entender um pouquinho melhor dos nossos dados

# Mostra informações sobre o DataFrame 'df_pedidos', como o tipo de dados de cada coluna e se há valores faltantes.
# 'df_pedidos.info()' é uma função do Pandas que mostra informações sobre um DataFrame.
df_pedidos.info()

Estamos lidando com um dataset relativamente grande, com quase 100.000 linhas. Temos dados nulos nas colunas de data,
o que faz sentido, pois nem todo o pedido realizado foi devidamente pago e finalizado, então aqueles pedidos que por algum motivo não foram finalizados. Por isso, algumas informações não estarão disponíveis. Por exemplo: um pedido que teve o pagamento negado, não terá dados de entrega. 

In [None]:
# Vamos começar nossa limpeza filtrando somente as colunas que desejamos utilizar

# Cria uma lista chamada 'columns_drop' com os nomes das colunas que serão removidas do DataFrame 'df_pedidos'.
# 'columns_drop' é o nome da lista que criamos.
# '=['order_approved_at', 'order_delivered_carrier_date', 'order_estimated_delivery_date']' são os nomes das colunas que queremos remover.
columns_drop = ['order_approved_at', 'order_delivered_carrier_date', 'order_estimated_delivery_date']

# Remove as colunas da lista 'columns_drop' do DataFrame 'df_pedidos'.
# 'df_pedidos.drop()' é uma função do Pandas que remove colunas de um DataFrame.
# 'columns_drop' é o nome da lista com os nomes das colunas que queremos remover.
# 'axis=1' indica que queremos remover colunas.
df_pedidos = df_pedidos.drop(columns_drop, axis=1)

# Mostra o DataFrame 'df_pedidos' na tela, agora sem as colunas removidas.
# 'df_pedidos' é o nome do DataFrame que queremos mostrar.
df_pedidos

In [None]:
# Agora iremos filtrar somente aqueles pedidos que foram finalizados, mas antes é importante entender todos os status disponíveis que temos na base
# Mostra os valores únicos da coluna 'order_status' do DataFrame 'df_pedidos'.
# 'df_pedidos['order_status'].unique()' é uma função do Pandas que mostra os valores únicos de uma coluna.
# 'order_status' é o nome da coluna que queremos ver os valores únicos.
df_pedidos['order_status'].unique()

In [None]:
# filtrando apenas os pedidos que foram entregues
# Filtra o DataFrame 'df_pedidos' para incluir apenas as linhas onde a coluna 'order_status' é igual a 'delivered'.
# 'df_pedidos.loc[]' é uma função do Pandas que filtra um DataFrame.
# 'df_pedidos['order_status'] == 'delivered'' é uma condição que filtra as linhas onde a coluna 'order_status' é igual a 'delivered'.
df_pedidos = df_pedidos.loc[df_pedidos['order_status'] == 'delivered']

# Mostra o DataFrame 'df_pedidos' na tela, agora com apenas os pedidos entregues.
# 'df_pedidos' é o nome do DataFrame que queremos mostrar.
df_pedidos

In [None]:
# Filtrando somente pedidos finalizados, percebemos que perdemos um número razoável de linhas, cerca de 3 mil.
# Agora, com nosso dataset filtrado, precisamos resetar o seu index:
# Reseta o índice do DataFrame 'df_pedidos', removendo o índice antigo.
# 'df_pedidos.reset_index()' é uma função do Pandas que reseta o índice de um DataFrame.
# 'drop=True' indica que o índice antigo deve ser removido.
df_pedidos = df_pedidos.reset_index(drop=True)

# Mostra o DataFrame 'df_pedidos' na tela, com o novo índice.
# 'df_pedidos' é o nome do DataFrame que queremos mostrar.
df_pedidos

In [None]:
# Mostra informações sobre o DataFrame 'df_pedidos', agora com o índice resetado.
# 'df_pedidos.info()' é uma função do Pandas que mostra informações sobre um DataFrame.
df_pedidos.info()

In [None]:
# Para fecharmos a limpeza dessa tabela, precisamos criar uma coluna de mês! Uma das perguntas que precisamos responder é se existe sazonalidade
# nas vendas, então, criar uma coluna de mês irá facilitar bastante nosso trabalho na etapa de análise:

# Vamos transformar nossas colunas de data (que estão como string) em data: 
# Converte as colunas 'order_purchase_timestamp' e 'order_delivered_customer_date' para o tipo de dados 'datetime'.
# 'pd.to_datetime()' é uma função do Pandas que converte uma coluna para o tipo de dados 'datetime'.
# 'order_purchase_timestamp' e 'order_delivered_customer_date' são os nomes das colunas que queremos converter.
df_pedidos['order_purchase_timestamp'] = pd.to_datetime(df_pedidos['order_purchase_timestamp'])
df_pedidos['order_delivered_customer_date'] = pd.to_datetime(df_pedidos['order_delivered_customer_date'])

# Agora sim, vamos criar uma coluna de mês!
# Cria uma nova coluna chamada 'reference_month' no DataFrame 'df_pedidos', com o mês e ano de cada compra, no formato 'YYYY-MM-01'.
# 'df_pedidos['order_purchase_timestamp'].dt.strftime('%Y-%m-01')' extrai o mês e ano de cada data na coluna 'order_purchase_timestamp'.
# '%Y-%m-01' é um formato de data que especifica o ano, o mês e o dia 1 do mês.
# 'reference_month' é o nome da nova coluna que criamos.
df_pedidos['reference_month'] = df_pedidos['order_purchase_timestamp'].dt.strftime('%Y-%m-01')

# Mostra o DataFrame 'df_pedidos' na tela, com a nova coluna 'reference_month'.
# 'df_pedidos' é o nome do DataFrame que queremos mostrar.
df_pedidos

## Itens do Pedido

In [None]:
# Vamos entender um pouquinho melhor dos nossos dados
# Mostra informações sobre o DataFrame 'df_itens_pedido', como o tipo de dados de cada coluna e se há valores faltantes.
# 'df_itens_pedido.info()' é uma função do Pandas que mostra informações sobre um DataFrame.
df_itens_pedido.info()

Estamos lidando com um dataset um pouco maior que o de pedidos, o que faz sentido, pois nossa informação aqui está a nível de item, e um pedido pode ter 1 ou mais itens. Não temos dados nulos nessa tabela, mas isso não significa que aqui constam somente pedidos confirmados, tá? Precisaremos filtrá-los em breve. 

## Consumidor

In [None]:
# Vamos entender um pouquinho melhor dos nossos dados
# Mostra informações sobre o DataFrame 'df_consumidor', como o tipo de dados de cada coluna e se há valores faltantes.
# 'df_consumidor.info()' é uma função do Pandas que mostra informações sobre um DataFrame.
df_consumidor.info()

In [None]:
# Remove a coluna 'customer_unique_id' do DataFrame 'df_consumidor'.
# 'df_consumidor.drop()' é uma função do Pandas que remove colunas de um DataFrame.
# 'customer_unique_id' é o nome da coluna que queremos remover.
# 'axis=1' indica que queremos remover colunas.
df_consumidor = df_consumidor.drop('customer_unique_id', axis=1)

# Mostra o DataFrame 'df_consumidor' na tela, agora sem a coluna 'customer_unique_id'.
# 'df_consumidor' é o nome do DataFrame que queremos mostrar.
df_consumidor

## Juntando os três datasets

Agora que fizemos a limpeza dos nossos três datasets, chegou a hora de juntarmos de acordo com a coluna em comum em cada um deles. Um ponto importante 
aqui é que queremos manter as informações que correspondem somente à pedidos **finalizados**. 

Para unir os 3 datasets usaremos a função merge(), precisamos entender qual é a coluna em comum entre os 3: no nosso caso, serão as colunas customer_id e order_id. 



In [None]:
# Por padrão é realizado o merge dos dados com o inner join
# Jutando os df pedidos e itens de pedidos

# Junta os DataFrames 'df_pedidos', 'df_itens_pedido' e 'df_consumidor' usando as colunas 'order_id' e 'customer_id' como chaves.
# 'pd.merge()' é uma função do Pandas que junta dois DataFrames.
# 'df_pedidos', 'df_itens_pedido' e 'df_consumidor' são os nomes dos DataFrames que queremos juntar.
# 'on=['order_id']' e 'on=['customer_id']' indicam as colunas que serão usadas como chave para a junção.
# 'how='inner'' significa que só as linhas que possuem 'order_id' e 'customer_id' em todos os três DataFrames serão incluídas.
# O resultado é armazenado em um novo DataFrame chamado 'df_olist'.
df_olist = pd.merge(df_pedidos, df_itens_pedido, on='order_id', how='inner')
df_olist = pd.merge(df_olist, df_consumidor, on='customer_id', how='inner')

# Mostra o DataFrame 'df_olist' na tela.
# 'df_olist' é o nome do DataFrame que queremos mostrar.
df_olist

In [None]:
# Exportando a base final (p/ encaminhar para as alunas)

# Salva o DataFrame 'df_olist' em um arquivo CSV chamado 'base_final_s14_olist.csv', sem incluir o índice.
# 'df_olist.to_csv()' é uma função do Pandas que salva um DataFrame em um arquivo CSV.
# 'base_final_s14_olist.csv' é o nome do arquivo que queremos criar.
# 'index=False' indica que o índice do DataFrame não deve ser salvo no arquivo.
df_olist.to_csv('base_final_s14_olist.csv', index=False)

# Analisando os dados

Agora chegou a hora de respondermos as perguntas que estipulamos no começo dessa análise:
- Qual é o valor médio das compras desses clientes?  
- O número de vendas varia de acordo com a época do ano?
- O tempo limite de entrega das compras está sendo respeitado?

### Qual é o valor médio das compras desses clientes? E qual o valor médio pago em frete?


In [None]:
# Calcula estatísticas descritivas para o DataFrame 'df_olist', incluindo média, desvio padrão, mínimo, máximo, etc.
# 'df_olist.describe()' é uma função do Pandas que calcula estatísticas descritivas para um DataFrame.
# '.T' transpõe o resultado, mostrando as estatísticas por coluna.
df_olist.describe().T

In [None]:
# Calcula a média dos valores da coluna 'price' do DataFrame 'df_olist'.
# 'df_olist['price'].mean()' é uma função do Pandas que calcula a média de uma coluna.
# 'price' é o nome da coluna que queremos calcular a média.
df_olist['price'].mean()

Apesar de termos pedidos com valores bem altos, como o caso do pedido no valor de R$ 6735, a média dos pedidos está cerca de 120 reais. O frete segue o mesmo padrão, sendo cerca de 10% do valor do pedido. 

Fazendo uma análise adicional aqui, pela coluna order_item_id, conseguimos observar a quantidade de itens que temos dentro de um pedido. A média de cada um desses pedidos é ter cerca de 1,2 itens. Sendo o seu máximo, um pedido que possui 21 itens iguais. 

### O número de vendas varia de acordo com a época do ano?

![](/material/img/calendario-sazonalidades.jpg)
Fonte: https://pagar.me/blog/como-lidar-com-a-sazonalidade-de-vendas-no-e-commerce/


As sazonalidades podem ser positivas ou negativas, e essa imagem pode nos ajudar a interpretar nossos dados.

In [None]:
# Agora, vamos fazer uma análise de sazonalidade. Será que o número de vendas aumenta ou diminui de acordo com a época do ano?

# Agrupa o DataFrame 'df_olist' por 'reference_month' e conta o número único de 'order_id' em cada grupo.
# 'df_olist.groupby()' é uma função do Pandas que agrupa um DataFrame por uma coluna.
# 'reference_month' é o nome da coluna que queremos agrupar.
# 'agg({'order_id': 'nunique'})' calcula o número único de valores na coluna 'order_id' para cada grupo.
# O resultado é armazenado em um novo DataFrame chamado 'df_sazonalidade'.
df_sazonalidade = df_olist.groupby('reference_month').agg({'order_id': 'nunique'})

# Ordena o DataFrame 'df_sazonalidade' em ordem decrescente pelo número de 'order_id'.
# 'df_sazonalidade.sort_values()' é uma função do Pandas que ordena um DataFrame por uma coluna.
# 'by='order_id'' indica a coluna que queremos ordenar.
# 'ascending=False' indica que queremos ordenar em ordem decrescente.
df_sazonalidade.sort_values(by='order_id', ascending=False)

### O tempo limite de entrega das compras está sendo respeitado?


In [None]:
# Para essa análise, iremos criar uma classificação para o status do frete, sendo: ATRASADO, ADIANTADO e DENTRO DO ESPERADO, e então iremos observar a proporção
# dos pedidos para cada status.

# Converte as colunas 'order_purchase_timestamp' e 'order_delivered_customer_date' para o tipo de dados 'datetime'.
# 'pd.to_datetime()' é uma função do Pandas que converte uma coluna para o tipo de dados 'datetime'.
# 'order_purchase_timestamp' e 'order_delivered_customer_date' são os nomes das colunas que queremos converter.
df_olist['order_purchase_timestamp'] = pd.to_datetime(df_olist['order_purchase_timestamp'])
df_olist['order_delivered_customer_date'] = pd.to_datetime(df_olist['order_delivered_customer_date'])

# Cria uma nova coluna chamada 'order_delivered_date' no DataFrame 'df_olist', com a data de entrega do pedido.
# 'df_olist['order_delivered_customer_date'].dt.date' extrai a data da coluna 'order_delivered_customer_date'.
# 'order_delivered_date' é o nome da nova coluna que criamos.
df_olist['order_delivered_date'] = df_olist['order_delivered_customer_date'].dt.date

# Cria uma nova coluna chamada 'shipping_limit_dt' no DataFrame 'df_olist', com a data limite de entrega do pedido.
# 'pd.to_datetime()' é uma função do Pandas que converte uma coluna para o tipo de dados 'datetime'.
# 'shipping_limit_date' é o nome da coluna que queremos converter.
# 'dt.date' extrai a data da coluna 'shipping_limit_date'.
# 'shipping_limit_dt' é o nome da nova coluna que criamos.
df_olist['shipping_limit_dt'] = pd.to_datetime(df_olist['shipping_limit_date']).dt.date

# Define condições para classificar o status de entrega em 'ATRASADO', 'ADIANTADO' e 'DENTRO DO ESPERADO'.
# 'df_olist.loc[]' é uma função do Pandas que filtra um DataFrame e define novos valores para as linhas filtradas.
# 'df_olist['order_delivered_date'] > df_olist['shipping_limit_dt']' é uma condição que filtra as linhas onde a data de entrega é maior que a data limite de entrega.
# 'status_entrega' é o nome da coluna que queremos definir o valor.
# 'ATRASADO' é o valor que queremos definir para a coluna 'status_entrega'.
df_olist.loc[df_olist['order_delivered_date'] > df_olist['shipping_limit_dt'], 'status_entrega'] = 'ATRASADO'
df_olist.loc[df_olist['order_delivered_date'] < df_olist['shipping_limit_dt'], 'status_entrega'] = 'ADIANTADO'
df_olist.loc[df_olist['order_delivered_date'] == df_olist['shipping_limit_dt'], 'status_entrega'] = 'DENTRO DO ESPERADO'

# Mostra o DataFrame 'df_olist' na tela, com a nova coluna 'status_entrega'.
# 'df_olist' é o nome do DataFrame que queremos mostrar.
df_olist

In [None]:
# Conta o número de ocorrências de cada valor na coluna 'status_entrega' do DataFrame 'df_olist'.
# 'df_olist["status_entrega"].value_counts()' é uma função do Pandas que conta o número de ocorrências de cada valor em uma coluna.
# 'normalize=True' calcula a proporção de cada valor.
df_olist["status_entrega"].value_counts(normalize=True)

# Ou seja, cerca de 72% dos pedidos chegam atrasados na casa dos consumidores. É interessante entender o padrão aqui, esse status se mantém de acordo com 
# a cidade? O quanto esse status mudaria se olhassemos para uma cidade grande tipo São Paulo? 
