## 1. Preparação dos dados

In [2]:
# -----------------------------------------
# Projeto: Análise de dados do E-commerce Brasileiro (Olist)
# Etapa: 1 - Preparação dos dados
# Objetivo: Importação e explocação inicial dos arquivos csv
# Autor: Davi Cruvel
# -----------------------------------------

# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

pd.set_option('display.max_columns', 100)
sns.set(style='whitegrid')

# Caminho para onde os arquivos csv estão localizados
data_path = "../data"

# Lista de arquivos presentes no dataset
csv_files = {
    "customers": "olist_customers_dataset.csv",
    "geolocation": "olist_geolocation_dataset.csv",
    "order_items": "olist_order_items_dataset.csv",
    "order_payments": "olist_order_payments_dataset.csv",
    "order_reviews": "olist_order_reviews_dataset.csv",
    "orders": "olist_orders_dataset.csv",
    "products": "olist_products_dataset.csv",
    "sellers": "olist_sellers_dataset.csv",
    "category_translation": "product_category_name_translation.csv"
}

In [3]:
# Carregamento dos arquivos csv em dataframes
dfs = {}
for name, file in csv_files.items():
    path = os.path.join(data_path, file)
    dfs[name] = pd.read_csv(path)
    print(f"'{name}' carregado com {dfs[name].shape[0]} linhas e {dfs[name].shape[1]} colunas.")

# Exibindo as primeiras linhas dos dataframes
for name, df in dfs.items():
    print(f"\nVisualizando o dataframe: {name}")
    display(df.head(2))

'customers' carregado com 99441 linhas e 5 colunas.
'geolocation' carregado com 1000163 linhas e 5 colunas.
'order_items' carregado com 112650 linhas e 7 colunas.
'order_payments' carregado com 103886 linhas e 5 colunas.
'order_reviews' carregado com 99224 linhas e 7 colunas.
'orders' carregado com 99441 linhas e 8 colunas.
'products' carregado com 32951 linhas e 9 colunas.
'sellers' carregado com 3095 linhas e 4 colunas.
'category_translation' carregado com 71 linhas e 2 colunas.

Visualizando o dataframe: customers


Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP



Visualizando o dataframe: geolocation


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP



Visualizando o dataframe: order_items


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93



Visualizando o dataframe: order_payments


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39



Visualizando o dataframe: order_reviews


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13



Visualizando o dataframe: orders


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00



Visualizando o dataframe: products


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0



Visualizando o dataframe: sellers


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP



Visualizando o dataframe: category_translation


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories


#### Verificação de valores nulos e duplicatas
* O código percorre cada DataFrame
* Exibe:
    - Quais colunas tem valores nulos;
    - Quantas linhas duplicadas existem

In [4]:
def verifica_nulos_e_duplicatas(dfs):
    print("Verificação de valores nulos e duplicatas\n")
    for name, df in dfs.items():
        print(f"--- {name.upper()} ---")

        # Valores nulos
        nulos = df.isnull().sum()
        nulos = nulos[nulos > 0]
        if not nulos.empty:
            print("Colunas com valores nulos:")
            print(nulos)
        else:
            print("Nenhuma coluna com valores nulos.")
        
        # Duplicatas
        duplicatas = df.duplicated().sum()
        if duplicatas > 0:
            print(f"{duplicatas} linhas duplicadas.")
        else:
            print("Nenhuma linha duplicada encontrada.")
        
        print("-"*40)

# Executando a função
verifica_nulos_e_duplicatas(dfs)

Verificação de valores nulos e duplicatas

--- CUSTOMERS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- GEOLOCATION ---
Nenhuma coluna com valores nulos.
261831 linhas duplicadas.
----------------------------------------
--- ORDER_ITEMS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDER_PAYMENTS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDER_REVIEWS ---
Colunas com valores nulos:
review_comment_title      87656
review_comment_message    58247
dtype: int64
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDERS ---
Colunas com valores nulos:
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
dtype: int64
Nenhuma linha duplicada encontrada.
----------------------------------

#### Tratamento de valores nulos
* Tabela 'products' - remover registros com categoria nula
* Tabela 'orders' - datas podem ser nulas por cancelamento ou processamento incompleto
* A tabela 'orders_review' - os comentários podem ser nulos, pois são opcionais. Logo os nulos podem ser mantidos
* As demais tabelas não possuem valores nulos relevantes
* Estratégia:
    - Manter esses registros, pois refletem o estado real do negócio
    - Não serão imputados valores, pois isso afetaria análises de tempo de entrega e predições
    - Futuramente pode-se filtrar por pedidos entregues quando necessário

In [5]:
dfs['products'] = dfs['products'].dropna(subset=['product_category_name'])

#### Vefiricação final

In [6]:
# Verificação final de valores nulos
verifica_nulos_e_duplicatas(dfs)

Verificação de valores nulos e duplicatas

--- CUSTOMERS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- GEOLOCATION ---
Nenhuma coluna com valores nulos.
261831 linhas duplicadas.
----------------------------------------
--- ORDER_ITEMS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDER_PAYMENTS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDER_REVIEWS ---
Colunas com valores nulos:
review_comment_title      87656
review_comment_message    58247
dtype: int64
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDERS ---
Colunas com valores nulos:
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
dtype: int64
Nenhuma linha duplicada encontrada.
----------------------------------

#### Criação do modelo relacional e conexão adequeda das tabelas

- Tabela: **orders**
    - chave primária: `order_id`,
    - chaves estrangeiras: `customer_id` -> `customers.customer_id` <br>
- Tabela: **order_itens**
    - chave primária: `order_id` + `order_item_id`
    - chaves estrangeiras: `order_id` -> `orders.order_id`, <br>
                           `product_id` -> `products.product_id`, <br>
                           `seller_id` -> `sellers.seller_id`, <br>
- Tabela: **order_payments**
    - chave primária: `order_id` + `payment_sequential`
    - chave estrangeira: `order_id` -> `orders.order_id`
- Tabela: **order_reviews**
    - chave primária: `review_id`
    - chave estrangeira: `order_id` -> `orders.order_id`
- Tabela: **customers**
    - chave primária: `customer_id`
    - chave estrangeira: `customer_zip_code_prefix` -> `geolocation.zip_code_prefix`
- Tabela: products
    - chave primária: `product_id`
    - chave estrangeira: `product_category_name` -> `product_category_name_translation.product_category_name`
- Tabela: **sellers**
    - chave primária: `seller_id`
    - chave estrangeira: `seller_zip_code_prefix` -> `geolocation.zip_code_prefix`
- Tabela: **geolocation**
    - chave primária: _sem chave clara_
    - chave estrangeira: -//-
- Tabela: `product_category_name_translation`
    - chave primária: `product_category_name`
    - chave estrangeira: -//-

In [7]:
df_orders_produtos = (dfs['orders']
                     .merge(dfs['order_items'], on='order_id')
                     .merge(dfs['products'], on='product_id')
                     .merge(dfs['customers'], on='customer_id')
                     .merge(dfs['order_reviews'], on='order_id', how='left'))

#### 📌 Diagnóstico de valores nulos e tipos de dados

In [8]:
for nome_tabela, df in dfs.items():
    print(f'\n Tabela: {nome_tabela}')
    print(f'Dimensões: {df.shape[0]} linhas x {df.shape[1]} colunas')
    print("Valores nulos por colunas")
    print(df.isnull().sum())
    print("\nTipos de dados:")
    print(df.dtypes)
    print('-'*50)


 Tabela: customers
Dimensões: 99441 linhas x 5 colunas
Valores nulos por colunas
customer_id                 0
customer_unique_id          0
customer_zip_code_prefix    0
customer_city               0
customer_state              0
dtype: int64

Tipos de dados:
customer_id                 object
customer_unique_id          object
customer_zip_code_prefix     int64
customer_city               object
customer_state              object
dtype: object
--------------------------------------------------

 Tabela: geolocation
Dimensões: 1000163 linhas x 5 colunas
Valores nulos por colunas
geolocation_zip_code_prefix    0
geolocation_lat                0
geolocation_lng                0
geolocation_city               0
geolocation_state              0
dtype: int64

Tipos de dados:
geolocation_zip_code_prefix      int64
geolocation_lat                float64
geolocation_lng                float64
geolocation_city                object
geolocation_state               object
dtype: object
--------

#### 📌 Conversão de colunas de datas
As colunas que serão convertidas, serão:
- order_purchase_timestamp
- order_approved_at
- order_delivered_carrier_date
- order_delivered_customer_date
- order_estimated_delivery_date
- shipping_limit_date
- review_creation_date
- review_answer_timestamp

In [9]:
# Conversão de colunas de dados em 'orders'
df_orders = dfs['orders'].copy()
colunas_data_orders = ['order_purchase_timestamp', 'order_approved_at',
                       'order_delivered_carrier_date', 'order_delivered_customer_date',
                       'order_estimated_delivery_date']
for col in colunas_data_orders:
    df_orders[col] = pd.to_datetime(df_orders[col], errors='coerce')

dfs['orders'] = df_orders

# Conversão de colunas de data em outras tabelas
dfs['order_items']['shipping_limit_date'] = pd.to_datetime(dfs['order_items']['shipping_limit_date'], errors='coerce')
dfs['order_reviews']['review_creation_date'] = pd.to_datetime(dfs['order_reviews']['review_creation_date'], errors='coerce')
dfs['order_reviews']['review_answer_timestamp'] = pd.to_datetime(dfs['order_reviews']['review_answer_timestamp'], errors='coerce')

#### 📌 Diagnóstico de valores nulos em todas as tabelas

In [19]:
# Diagnóstico geral de valores nulos, mostrando somente as colunas que possuem nulos
for nome_tabela, df in dfs.items():
    print(f"\nTabela: {nome_tabela}")
    nulos = df.isnull().sum()
    nulos = nulos[nulos > 0] # Filtra apenas as colunas com nulos
    if nulos.empty:
        print("Nenhum nulo encontrado.")
    else:
        df_nulos = pd.DataFrame({
            'Qtd Nulos': nulos
        }).sort_values(by='Qtd Nulos', ascending=True)
        display(df_nulos)


Tabela: customers
Nenhum nulo encontrado.

Tabela: geolocation
Nenhum nulo encontrado.

Tabela: order_items
Nenhum nulo encontrado.

Tabela: order_payments
Nenhum nulo encontrado.

Tabela: order_reviews


Unnamed: 0,Qtd Nulos
review_comment_message,58247
review_comment_title,87656



Tabela: orders


Unnamed: 0,Qtd Nulos
order_approved_at,160
order_delivered_carrier_date,1783
order_delivered_customer_date,2965



Tabela: products


Unnamed: 0,Qtd Nulos
product_weight_g,1
product_length_cm,1
product_height_cm,1
product_width_cm,1



Tabela: sellers
Nenhum nulo encontrado.

Tabela: category_translation
Nenhum nulo encontrado.


#### Análise do diagnóstico de valores nulos
- Tabela `order_reviews`: é possível deixar esses valores nulos, muitos clientes apenas avaliam o produto, mas não deixam comentários;
- Tabela `orders`: possivelmente são pedidos cancelados, não entregues ou não aprovados. Remover esses registros para manter apenas os pedidos concluídos;
- Tabela `products`: é possível remover os registros nulos e ter um impacto mínimo nas análises, outra opção seria preencher com média/mediana, essa forma é mais robusta caso seja necessario usar essas colunas em modelos ou análises;
- Tabelas sem nulos: `customers`, `geolocation`, `order_items`, `order_payments`, `sellers`, `category_translation`

In [23]:
# Cópia das tabelas para preservar os dados originais
df_order_reviews = dfs['order_reviews'].copy()
df_orders = dfs['orders'].copy()
df_products = dfs['products'].copy()

produtos_nulos = df_products[df_products[['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']].isnull().any(axis=1)]
print("Produtos removidos por dados ausentes:")
display(produtos_nulos)

# Removendo os produtos com dados ausentes
df_products.dropna(subset=['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm'], inplace=True)

# Atualiza dicionário
dfs['products'] = df_products

Produtos removidos por dados ausentes:


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm


#### Tratamento dos valores nulos nas colunas de datas em `orders`
Colunas relacionada às datas dos pedidos:
- `order_approved_at`: quando um pedido foi aprovado
- `order_delivered_carrier_date`: data em que o pedido foi entregue à transportadora
- `order_delivered_customer_date`: data em que o pedido foi entregue ao cliente

Foi identificado que algumas dessas colunas possuem valores nulos:
- Isso pode significar que um pedido não foi aprovado, não foi entregue ou ainda não chegou ao cliente
- Como esses dados representam algo comum que realmente acontece em uma compra, foi decidido manter os valores nulos

In [25]:
# Análise dos valores nulos na colunas de datas da tabela orders
colunas_datas = ['order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date']
print("Quantidade de valores nulos nas colunas de datas da tabela orders:\n")
for col in colunas_datas:
    nulos = df_orders[col].isnull().sum()
    print(f"{col}: {nulos}")

'''
Foi decido manter os valores nulos pois indicam valores não aprovados ou não entregues
que fazem parte do comportamento dos dados que vão ser importantes para análises futuras
'''

Quantidade de valores nulos nas colunas de datas da tabela orders:

order_approved_at: 160
order_delivered_carrier_date: 1783
order_delivered_customer_date: 2965


'\nFoi decido manter os valores nulos pois indicam valores não aprovados ou não entregues\nque fazem parte do comportamento dos dados que vão ser importantes para análises futuras\n'

In [26]:
# Cópia para não mexer no original
df_order_reviews = dfs['order_reviews'].copy()

num_comentarios_titulo = df_order_reviews['review_comment_title'].notnull().sum()
num_comentarios_mensagem = df_order_reviews['review_comment_message'].notnull().sum()

print(f"Quantidade de reviews com título de comentário: {num_comentarios_titulo}")
print(f"Quantidade de reviews com mensagem de comentário: {num_comentarios_mensagem}")

# Criando flags para indicar se um review tem título e mensagem
df_order_reviews['has_comment_title'] = df_order_reviews['review_comment_title'].notnull()
df_order_reviews['has_comment_message'] = df_order_reviews['review_comment_message'].notnull()

# Atualiza o dicionário
dfs['order_reviews'] = df_order_reviews

Quantidade de reviews com título de comentário: 11568
Quantidade de reviews com mensagem de comentário: 40977


## Descrição dos passos de preparação dos dados adotados
### Importação dos dados
Os arquivos csv foram lidos usando a biblioteca pandas, cada arquivo foi organizado no dicionário `dfs` onde cada chave desse dicionário representa uma tabela do banco de dados relacional

### Banco de dados relacional e integração dos dados
Com base nas chaves presentes na tabela, foi criada uma junção relacional entre as princiais entidades: pedidos, itens dos pedidos, produtos, clientes e avaliações. As relações foram feitas da seguinte forma:

- `orders` -> `orders_items` através de `order_id`
- `orders_items` -> `products` através de `product_id`
- `orders` -> `customers` através de `customer_id`
- `orders` -> `order_review` através de `order_id`
Foi feita uma junção left, pois nem todos os pedido possuem avaliação

Nesse processo, foi gerado o DataFrame `df_orders_produtos`. Esse DataFrame reúne todas as informações essenciais para as análises que serão realizadas nas próximas etapas.