# **MVP ‚Äì Engenharia de Dados**
## **An√°lise Log√≠stica e Satisfa√ß√£o no E-commerce Brasileiro**

**Disciplina:** Sprint ‚Äì Engenharia de Dados  
**Autor:** Eduardo Belisario Nicolau  
**Dataset:** Brazilian E-Commerce Public Dataset by Olist  
**Fonte:** Kaggle  
**Per√≠odo:** 2016‚Äì2018  

Este trabalho apresenta a constru√ß√£o de um **pipeline de dados em nuvem**, desde a coleta at√© a an√°lise, utilizando dados p√∫blicos de e-commerce, com foco em **desempenho log√≠stico e satisfa√ß√£o do cliente**.


## üéØ **Objetivo**

O objetivo deste MVP √© **construir um pipeline de dados em nuvem**, utilizando o **Google Colab** como ambiente de execu√ß√£o, capaz de **coletar, organizar, modelar, transformar e analisar dados reais de e-commerce**, com foco em **desempenho log√≠stico e satisfa√ß√£o do cliente**.

Busca-se compreender como **fatores log√≠sticos, geogr√°ficos e operacionais** influenciam:
- O tempo de entrega dos pedidos  
- Os custos de frete  
- A avalia√ß√£o dos clientes  

Embora a disciplina direcione o suporte √† plataforma **Databricks**, optou-se pelo **Google Colab** como ambiente de execu√ß√£o em nuvem, o qual **atende integralmente aos requisitos do MVP**, conforme permitido no enunciado da disciplina.


## ‚ùì **Perguntas de Neg√≥cio**

- Qual √© o **tempo m√©dio de entrega** dos pedidos?
- Quais **estados** apresentam maiores varia√ß√µes no desempenho log√≠stico?
- Existe rela√ß√£o entre **atraso na entrega** e **avalia√ß√£o do cliente**?
- Quais **categorias de produto** possuem maior tempo m√©dio de entrega?
- O **custo de frete** varia significativamente por regi√£o?
- H√° diferen√ßas no comportamento de compra entre **grandes centros urbanos** e **cidades menores**?


## üèóÔ∏è **Arquitetura do Pipeline**

O pipeline foi estruturado em **tr√™s camadas l√≥gicas**, seguindo boas pr√°ticas de Engenharia de Dados:

- **Bronze:** dados brutos coletados diretamente do Kaggle  
- **Silver:** dados tratados, padronizados e enriquecidos  
- **Gold:** dados integrados e modelados em **Esquema Estrela** para an√°lise  

O **Google Colab** foi utilizado como ambiente de execu√ß√£o em nuvem, simulando um pipeline anal√≠tico completo com **ETL expl√≠cito**.


In [14]:
# Coleta dos dados utilizando kagglehub (reprodut√≠vel e automatizada)

import kagglehub
import os
import pandas as pd

DATASET_PATH = kagglehub.dataset_download("olistbr/brazilian-ecommerce")

print("Dataset dispon√≠vel em:", DATASET_PATH)
os.listdir(DATASET_PATH)


Using Colab cache for faster access to the 'brazilian-ecommerce' dataset.
Dataset dispon√≠vel em: /kaggle/input/brazilian-ecommerce


['olist_customers_dataset.csv',
 'olist_sellers_dataset.csv',
 'olist_order_reviews_dataset.csv',
 'olist_order_items_dataset.csv',
 'olist_products_dataset.csv',
 'olist_geolocation_dataset.csv',
 'product_category_name_translation.csv',
 'olist_orders_dataset.csv',
 'olist_order_payments_dataset.csv']

## üì• **Coleta dos Dados**

Os dados foram coletados diretamente do **Kaggle** utilizando a biblioteca **kagglehub**, que permite o download **program√°tico e reprodut√≠vel** de datasets p√∫blicos.

Essa abordagem:
- Elimina a necessidade de downloads manuais  
- Garante **reprodutibilidade total**  
- Facilita a execu√ß√£o do pipeline por avaliadores e outros usu√°rios  


In [15]:
# Leitura dos datasets (Camada Bronze)

orders = pd.read_csv(os.path.join(DATASET_PATH, "olist_orders_dataset.csv"))
order_items = pd.read_csv(os.path.join(DATASET_PATH, "olist_order_items_dataset.csv"))
customers = pd.read_csv(os.path.join(DATASET_PATH, "olist_customers_dataset.csv"))
products = pd.read_csv(os.path.join(DATASET_PATH, "olist_products_dataset.csv"))
sellers = pd.read_csv(os.path.join(DATASET_PATH, "olist_sellers_dataset.csv"))
reviews = pd.read_csv(os.path.join(DATASET_PATH, "olist_order_reviews_dataset.csv"))
payments = pd.read_csv(os.path.join(DATASET_PATH, "olist_order_payments_dataset.csv"))


## üß© **Modelagem de Dados**

O **gr√£o** definido para a tabela fato √© **item de pedido**.

### **Tabela Fato**
- **fact_order_items:** representa cada item vendido em um pedido

### **Dimens√µes**
- **dim_orders:** informa√ß√µes temporais e status do pedido  
- **dim_customers:** dados geogr√°ficos do cliente  
- **dim_products:** atributos do produto  
- **dim_sellers:** informa√ß√µes do vendedor  

O modelo segue o padr√£o de **Esquema Estrela**, amplamente utilizado em **Data Warehouses** para an√°lises anal√≠ticas.


In [16]:
# Camada Silver ‚Äì Tratamento e enriquecimento

date_cols = [
    "order_purchase_timestamp",
    "order_delivered_customer_date",
    "order_estimated_delivery_date"
]

for col in date_cols:
    orders[col] = pd.to_datetime(orders[col], errors="coerce")

# M√©trica de atraso de entrega
orders["delivery_delay_days"] = (
    orders["order_delivered_customer_date"]
    - orders["order_estimated_delivery_date"]
).dt.days


## üßπ **Camada Silver ‚Äì Tratamento e Enriquecimento**

Nesta etapa foram realizadas:
- Convers√£o de colunas de data para o tipo **datetime**
- Cria√ß√£o da m√©trica **delivery_delay_days**

**Interpreta√ß√£o da m√©trica:**
- Valores **positivos** indicam atraso log√≠stico  
- Valores **zero ou negativos** indicam entregas no prazo ou antecipadas  


In [17]:
# Camada Gold ‚Äì Constru√ß√£o da tabela fato integrada

fact = (
    order_items
    .merge(orders, on="order_id", how="left")
    .merge(customers, on="customer_id", how="left")
    .merge(products, on="product_id", how="left")
    .merge(sellers, on="seller_id", how="left")
)


## üìö **Cat√°logo de Dados (Resumo)**

### **fact_order_items**
- **order_id:** identificador do pedido  
- **product_id:** identificador do produto  
- **price:** valor do item (R$)  
- **freight_value:** custo do frete (R$)  
- **delivery_delay_days:** atraso da entrega em dias  
  - Dom√≠nio esperado: aproximadamente **[-30, +100]**

### **dim_customers**
- **customer_state:** estado (UF)  
- **customer_city:** cidade  

### **dim_products**
- **product_category_name:** categoria do produto  


In [18]:
def quality_report(df):
    return pd.DataFrame({
        "null_pct": df.isnull().mean() * 100,
        "unique_values": df.nunique()
    }).sort_values("null_pct", ascending=False)

quality_report(fact)


Unnamed: 0,null_pct,unique_values
order_delivered_customer_date,2.178429,95664
delivery_delay_days,2.178429,198
product_category_name,1.422992,73
product_name_lenght,1.422992,66
product_description_lenght,1.422992,2960
product_photos_qty,1.422992,19
order_delivered_carrier_date,1.05992,81017
product_length_cm,0.015979,99
product_height_cm,0.015979,102
product_weight_g,0.015979,2204


## üîç **An√°lise de Qualidade dos Dados**

Observa-se a presen√ßa de valores nulos principalmente em colunas relacionadas √† **data de entrega**, o que √© esperado para pedidos **ainda n√£o entregues ou cancelados**.

Esses valores **n√£o caracterizam erro de qualidade**, mas refletem o **estado operacional** do pedido dentro do processo log√≠stico.


In [19]:
# Diferen√ßa m√©dia entre data de entrega e data estimada por estado

fact.groupby("customer_state")["delivery_delay_days"].mean().sort_values(ascending=False)


Unnamed: 0_level_0,delivery_delay_days
customer_state,Unnamed: 1_level_1
AL,-8.735363
MA,-9.90625
SE,-10.002667
ES,-10.646292
BA,-10.982623
CE,-11.103787
SP,-11.207911
MS,-11.229346
PI,-11.527725
SC,-11.572718


In [20]:
# Rela√ß√£o entre atraso e avalia√ß√£o
fact_reviews = fact.merge(reviews, on="order_id", how="left")


In [21]:
fact_reviews.groupby(
    pd.cut(fact_reviews["delivery_delay_days"], [-999, 0, 3, 7, 100]),
    observed=False
)["review_score"].mean()


Unnamed: 0_level_0,review_score
delivery_delay_days,Unnamed: 1_level_1
"(-999, 0]",4.2073
"(0, 3]",3.228858
"(3, 7]",2.088672
"(7, 100]",1.681308


In [22]:
# Categorias com maior tempo m√©dio de entrega
fact.groupby("product_category_name")["delivery_delay_days"].mean().sort_values(ascending=False).head(10)


Unnamed: 0_level_0,delivery_delay_days
product_category_name,Unnamed: 1_level_1
artes_e_artesanato,-6.791667
moveis_colchao_e_estofado,-7.162162
casa_conforto_2,-8.433333
portateis_cozinha_e_preparadores_de_alimentos,-9.5
pc_gamer,-9.625
casa_conforto,-9.811189
alimentos,-9.867735
audio,-10.149171
fashion_underwear_e_moda_praia,-10.929134
eletronicos,-11.139978


## ‚úÖ **Conclus√µes**

Os resultados indicam uma **rela√ß√£o clara entre desempenho log√≠stico e satisfa√ß√£o do cliente**, onde maiores atrasos est√£o associados a **avalia√ß√µes mais baixas**.

Observa-se tamb√©m que fatores **geogr√°ficos** influenciam o tempo de entrega, refor√ßando a log√≠stica como elemento estrat√©gico no e-commerce brasileiro.

Esses achados demonstram que a **qualidade log√≠stica** impacta diretamente a **experi√™ncia do cliente**.


## üìù **Autoavalia√ß√£o**

Os objetivos inicialmente propostos foram **majoritariamente atingidos**, especialmente no que se refere √† constru√ß√£o de um **pipeline de dados completo** e √† an√°lise dos fatores log√≠sticos.

As principais dificuldades encontradas estiveram relacionadas √† **padroniza√ß√£o de datas** e √† **concilia√ß√£o entre m√∫ltiplos conjuntos de dados**.

Como trabalhos futuros, pretendo:
- Automatiza√ß√£o do pipeline em uma plataforma dedicada de dados  
- Cria√ß√£o de **dashboards interativos** para acompanhamento cont√≠nuo dos indicadores log√≠sticos  
