# An√°lise explorat√≥ria de dados

In [1]:
import pandas as pd
import os
from termcolor import colored
from IPython.display import display
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:

caminho = '../data/raw'

# Leitura dos conjuntos de dados
tabelas = {
    os.path.splitext(arquivo)[0]: pd.read_csv(os.path.join(caminho, arquivo))
    for arquivo in os.listdir(caminho)
    if arquivo.endswith('.csv')
}

# Exibir
for nome, df in tabelas.items():
    print(colored(f'\n=== {nome.upper()} ===', 'blue', attrs=['bold']))
    print(f'Shape: {df.shape}')
    print('Nulos por coluna:')
    print(df.isnull().sum())
    display(df.head(3))


[1m[34m
=== DELIVERIES ===[0m
Shape: (378843, 5)
Nulos por coluna:
delivery_id                     0
delivery_order_id               0
driver_id                   15886
delivery_distance_meters       73
delivery_status                 0
dtype: int64


Unnamed: 0,delivery_id,delivery_order_id,driver_id,delivery_distance_meters,delivery_status
0,2174658,68413340,8378.0,5199.0,DELIVERED
1,2174660,68414309,2473.0,410.0,DELIVERED
2,2174661,68416230,7615.0,3784.0,DELIVERED


[1m[34m
=== STORES ===[0m
Shape: (951, 7)
Nulos por coluna:
store_id              0
hub_id                0
store_name            0
store_segment         0
store_plan_price    115
store_latitude       16
store_longitude      16
dtype: int64


Unnamed: 0,store_id,hub_id,store_name,store_segment,store_plan_price,store_latitude,store_longitude
0,3,2,CUMIURI,FOOD,0.0,,
1,6,3,PIMGUCIS DA VIVA,FOOD,0.0,-30.037415,-51.20352
2,8,3,RASMUR S,FOOD,0.0,-30.037415,-51.20352


[1m[34m
=== ORDERS ===[0m
Shape: (368999, 29)
Nulos por coluna:
order_id                                  0
store_id                                  0
channel_id                                0
payment_order_id                          0
delivery_order_id                         0
order_status                              0
order_amount                              0
order_delivery_fee                        0
order_delivery_cost                    7205
order_created_hour                        0
order_created_minute                      0
order_created_day                         0
order_created_month                       0
order_created_year                        0
order_moment_created                      0
order_moment_accepted                  9461
order_moment_ready                    25106
order_moment_collected                42894
order_moment_in_expedition            67429
order_moment_delivering               25316
order_moment_delivered               349398
order_mom

Unnamed: 0,order_id,store_id,channel_id,payment_order_id,delivery_order_id,order_status,order_amount,order_delivery_fee,order_delivery_cost,order_created_hour,...,order_moment_delivering,order_moment_delivered,order_moment_finished,order_metric_collected_time,order_metric_paused_time,order_metric_production_time,order_metric_walking_time,order_metric_expediton_speed_time,order_metric_transit_time,order_metric_cycle_time
0,68405119,3512,5,68405119,68405119,CANCELED,62.7,0.0,,0,...,,,,,,,,,,
1,68405123,3512,5,68405123,68405123,CANCELED,62.7,0.0,,0,...,,,,,,,,,,
2,68405206,3512,5,68405206,68405206,CANCELED,115.5,0.0,,0,...,,,,,,,,,,


[1m[34m
=== DRIVERS ===[0m
Shape: (4824, 3)
Nulos por coluna:
driver_id       0
driver_modal    0
driver_type     0
dtype: int64


Unnamed: 0,driver_id,driver_modal,driver_type
0,133,MOTOBOY,LOGISTIC OPERATOR
1,138,MOTOBOY,FREELANCE
2,140,MOTOBOY,FREELANCE


[1m[34m
=== HUBS ===[0m
Shape: (32, 6)
Nulos por coluna:
hub_id           0
hub_name         0
hub_city         0
hub_state        0
hub_latitude     0
hub_longitude    0
dtype: int64


Unnamed: 0,hub_id,hub_name,hub_city,hub_state,hub_latitude,hub_longitude
0,2,BLUE SHOPPING,PORTO ALEGRE,RS,-30.047415,-51.21351
1,3,GREEN SHOPPING,PORTO ALEGRE,RS,-30.037415,-51.20352
2,4,RED SHOPPING,PORTO ALEGRE,RS,-30.021948,-51.208382


[1m[34m
=== PAYMENTS ===[0m
Shape: (400834, 6)
Nulos por coluna:
payment_id            0
payment_order_id      0
payment_amount        0
payment_fee         175
payment_method        0
payment_status        0
dtype: int64


Unnamed: 0,payment_id,payment_order_id,payment_amount,payment_fee,payment_method,payment_status
0,4427917,68410055,118.44,0.0,VOUCHER,PAID
1,4427918,68410055,394.81,7.9,ONLINE,PAID
2,4427941,68412721,206.95,5.59,ONLINE,PAID


[1m[34m
=== CHANNELS ===[0m
Shape: (40, 3)
Nulos por coluna:
channel_id      0
channel_name    0
channel_type    0
dtype: int64


Unnamed: 0,channel_id,channel_name,channel_type
0,1,OTHER PLACE,OWN CHANNEL
1,2,PHONE PLACE,OWN CHANNEL
2,3,WHATS PLACE,OWN CHANNEL


# üìò Gloss√°rio dos Conjuntos de Dados

---

## üöö **deliveries.csv**

| Coluna                    | Descri√ß√£o                                                           |
|---------------------------|----------------------------------------------------------------------|
| `delivery_id`             | Identificador √∫nico da entrega.                                     |
| `delivery_order_id`       | ID da ordem associada √† entrega.                                     |
| `driver_id`               | ID do motorista respons√°vel pela entrega.                           |
| `delivery_distance_meters` | Dist√¢ncia percorrida na entrega (em metros).                        |
| `delivery_status`         | Status da entrega (ex: `DELIVERED`, `CANCELLED`).                   |

---

## üè¨ **stores.csv**

| Coluna            | Descri√ß√£o                                                           |
|--------------------|----------------------------------------------------------------------|
| `store_id`         | Identificador √∫nico da loja.                                         |
| `hub_id`           | ID do hub log√≠stico ao qual a loja est√° associada.                  |
| `store_name`       | Nome da loja.                                                       |
| `store_segment`    | Segmento de mercado da loja (ex: FOOD, RETAIL).                     |
| `store_plan_price` | Valor do plano da loja na plataforma.                               |
| `store_latitude`   | Latitude da localiza√ß√£o da loja.                                     |
| `store_longitude`  | Longitude da localiza√ß√£o da loja.                                    |

---

## üì¶ **orders.csv**

| Coluna               | Descri√ß√£o                                                           |
|------------------------|----------------------------------------------------------------------|
| `order_id`             | Identificador √∫nico do pedido.                                     |
| `store_id`             | ID da loja onde o pedido foi feito.                                |
| `channel_id`           | Canal pelo qual o pedido foi realizado.                            |
| `payment_order_id`     | ID da transa√ß√£o de pagamento associada.                            |
| `delivery_order_id`    | ID da entrega associada ao pedido.                                 |

---

## üåê **channels.csv**

| Coluna           | Descri√ß√£o                                                           |
|--------------------|----------------------------------------------------------------------|
| `channel_id`       | Identificador √∫nico do canal de vendas.                             |
| `channel_name`     | Nome do canal (ex: aplicativo, site, delivery parceiro).            |

---

## üë®‚Äç‚úàÔ∏è **drivers.csv**

| Coluna           | Descri√ß√£o                                                           |
|--------------------|----------------------------------------------------------------------|
| `driver_id`        | Identificador √∫nico do motorista.                                   |
| `driver_name`      | Nome do motorista.                                                  |
| `driver_vehicle`   | Tipo de ve√≠culo utilizado (ex: moto, carro, bike).                 |

---

## üè¢ **hubs.csv**

| Coluna         | Descri√ß√£o                                                           |
|------------------|----------------------------------------------------------------------|
| `hub_id`         | Identificador √∫nico do centro de distribui√ß√£o.                      |
| `hub_name`       | Nome do hub log√≠stico.                                              |
| `hub_region`     | Regi√£o ou cidade do hub.                                            |

---

## üí≥ **payments.csv**

| Coluna               | Descri√ß√£o                                                           |
|------------------------|----------------------------------------------------------------------|
| `payment_order_id`     | Identificador √∫nico da transa√ß√£o de pagamento.                     |
| `payment_method`       | M√©todo de pagamento (ex: cart√£o, PIX, dinheiro).                   |
| `payment_status`       | Status do pagamento (ex: `PAID`, `FAILED`).                        |
| `payment_value`        | Valor total da transa√ß√£o.                                          |

---

## 1. Descri√ß√£o dos dados

<p align="center">
    
![Imagem do projeto](https://raw.githubusercontent.com/nosbielcs/verao_usp_2017/master/exploratoria/data_model.png)

O conjunto de dados pode ser acessado [neste link do Kaggle](https://www.kaggle.com/datasets/nosbielcs/brazilian-delivery-center). Este conjunto possui **7 datasets**, organizados da seguinte forma:

- **`channels`**: informa√ß√µes sobre os canais de venda (marketplaces) onde s√£o vendidos os *good* e *food* dos lojistas.
- **`deliveries`**: informa√ß√µes sobre as entregas realizadas pelos entregadores.
- **`drivers`**: informa√ß√µes sobre os entregadores.
- **`hubs`**: informa√ß√µes sobre os hubs do Delivery Center.
- **`orders`**: informa√ß√µes sobre as vendas processadas atrav√©s da plataforma do Delivery Center.
- **`payments`**: informa√ß√µes sobre os pagamentos realizados ao Delivery Center.
- **`stores`**: informa√ß√µes sobre os lojistas que utilizam a plataforma do Delivery Center para vender seus itens (*good* e/ou *food*) nos marketplaces.

## Dicion√°rio de Dados

In [3]:
## Dicion√°rio de Dados
dictionary = '../data/external/dicionario.csv'
dt_dict = pd.read_csv(dictionary)

# Exibe dicion√°rio
dt_dict

Unnamed: 0.1,Unnamed: 0,variavel,descricao,tipo,subtipo
0,0,channel_id,Identificador do canal de venda,qualitativa,nominal
1,1,channel_name,"Nome do canal (ex: App, WhatsApp, etc.)",qualitativa,nominal
2,2,channel_type,"Tipo do canal (Pr√≥prio, Marketplace, etc.)",qualitativa,nominal
3,3,delivery_id,Identificador √∫nico da entrega,qualitativa,nominal
4,4,delivery_order_id,ID do pedido relacionado √† entrega,qualitativa,nominal
5,5,driver_id,ID do motorista respons√°vel pela entrega,qualitativa,nominal
6,6,delivery_distance_meters,Dist√¢ncia total da entrega em metros,quantitativa,cont√≠nua
7,7,delivery_status,"Status final da entrega (ex: entregue, cancela...",qualitativa,nominal
8,8,driver_modal,"Modal de transporte do motorista (carro, moto,...",qualitativa,nominal
9,9,driver_type,"Tipo de v√≠nculo com o motorista (CLT, parceiro...",qualitativa,nominal


O dicion√°rio de dados acima descreve as principais vari√°veis presentes no dataset, bem como seus respectivos tipos e significados:

- Vari√°veis **qualitativas nominais** predominam no dataset, como channel_name, delivery_status, driver_type, hub_state, entre outras. Essas vari√°veis representam identificadores, categorias ou status sem ordem impl√≠cita.

- Vari√°veis **quantitativas cont√≠nuas**, como delivery_distance_meters, order_amount, hub_latitude e hub_longitude, permitem an√°lises num√©ricas e agrega√ß√µes estat√≠sticas.

- Cada tabela pode ser relacionada a outra por meio de **identificadores √∫nicos**, como order_id, delivery_id, driver_id, store_id e channel_id.

In [4]:
#verifica o formato do dataset e se existem dados duplicados (linhas id√™nticas)
for tabela, df in tabelas.items():
    linhas_duplicadas = df[df.duplicated()]
    print(f"Formato do Dataset {tabela}: {df.shape}\n", 
          f"N√∫mero de linhas duplicadas: {linhas_duplicadas.shape}\n")

Formato do Dataset deliveries: (378843, 5)
 N√∫mero de linhas duplicadas: (0, 5)

Formato do Dataset stores: (951, 7)
 N√∫mero de linhas duplicadas: (0, 7)

Formato do Dataset orders: (368999, 29)
 N√∫mero de linhas duplicadas: (0, 29)

Formato do Dataset drivers: (4824, 3)
 N√∫mero de linhas duplicadas: (0, 3)

Formato do Dataset hubs: (32, 6)
 N√∫mero de linhas duplicadas: (0, 6)

Formato do Dataset payments: (400834, 6)
 N√∫mero de linhas duplicadas: (0, 6)

Formato do Dataset channels: (40, 3)
 N√∫mero de linhas duplicadas: (0, 3)



√â poss√≠vel ver nesse breve resumo algumas informa√ß√µes importantes sobre o conjunto de dados que ir√£o ajudar nas an√°lises posteriores, como, por exemplo, o tipo e a qualidade de cada vari√°vel. Por hora, temos o seguinte:

- **`channels`** √© uma **tabela de dimens√£o**, com **40 linhas e 3 colunas**, **sem dados duplicados e sem nulos**. Representa os diferentes canais de venda dispon√≠veis.

- **`deliveries`** √© uma **tabela de fatos**, com **378.843 linhas e 5 colunas**, **sem duplicados**, mas **com algumas vari√°veis contendo dados nulos**. Relaciona-se diretamente com a execu√ß√£o das entregas.

- **`drivers`** √© uma **tabela de dimens√£o**, com **4.824 linhas e 3 colunas**, **sem dados nulos ou duplicados**. Cont√©m informa√ß√µes sobre os motoristas envolvidos nas entregas.

- **`orders`** √© uma **tabela de fatos (a principal do dataset)**, com **368.999 linhas e 29 colunas**, **sem duplica√ß√µes**, mas **com diversas vari√°veis com dados ausentes ‚Äî alguns em quantidade significativa**. Essa tabela centraliza a maioria dos relacionamentos entre as demais.

- **`payments`** √© uma **tabela de fatos**, com **400.834 linhas e 6 colunas**, **sem duplica√ß√µes**, e **apenas uma vari√°vel com baixo n√∫mero de dados faltantes**. Cont√©m as transa√ß√µes financeiras ligadas aos pedidos.

- **`hubs`** √© uma **tabela de dimens√£o**, com **32 linhas e 6 colunas**, **sem nulos ou duplica√ß√µes**. Armazena os dados dos hubs log√≠sticos.

- **`stores`** √© uma **tabela de dimens√£o**, com **951 linhas e 7 colunas**, **sem duplicados**, por√©m **com alguns dados ausentes em algumas colunas**.

Pode-se observar que os datasets **n√£o apresentaram nenhuma linha duplicada**, o que √© um indicativo positivo de consist√™ncia na coleta ou ingest√£o dos dados. Com isso, √© finalizada a **leitura prim√°ria** do conjunto de dados apresentado.

## 2. Perguntas de partida e hip√≥teses

## 3. Insights