## An√°lise Explora√≥ria de Dados

In [1]:
import pandas as pd
import os
from termcolor import colored
from IPython.display import display
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:

caminho = '../data/raw'

# Leitura dos conjuntos de dados
tabelas = {
    os.path.splitext(arquivo)[0]: pd.read_csv(os.path.join(caminho, arquivo))
    for arquivo in os.listdir(caminho)
    if arquivo.endswith('.csv')
}

# Exibir
for nome, df in tabelas.items():
    print(colored(f'\n=== {nome.upper()} ===', 'blue', attrs=['bold']))
    print(f'Shape: {df.shape}')
    print('Nulos por coluna:')
    print(df.isnull().sum())
    display(df.head(3))


[1m[34m
=== DELIVERIES ===[0m
Shape: (378843, 5)
Nulos por coluna:
delivery_id                     0
delivery_order_id               0
driver_id                   15886
delivery_distance_meters       73
delivery_status                 0
dtype: int64


Unnamed: 0,delivery_id,delivery_order_id,driver_id,delivery_distance_meters,delivery_status
0,2174658,68413340,8378.0,5199.0,DELIVERED
1,2174660,68414309,2473.0,410.0,DELIVERED
2,2174661,68416230,7615.0,3784.0,DELIVERED


[1m[34m
=== STORES ===[0m
Shape: (951, 7)
Nulos por coluna:
store_id              0
hub_id                0
store_name            0
store_segment         0
store_plan_price    115
store_latitude       16
store_longitude      16
dtype: int64


Unnamed: 0,store_id,hub_id,store_name,store_segment,store_plan_price,store_latitude,store_longitude
0,3,2,CUMIURI,FOOD,0.0,,
1,6,3,PIMGUCIS DA VIVA,FOOD,0.0,-30.037415,-51.20352
2,8,3,RASMUR S,FOOD,0.0,-30.037415,-51.20352


[1m[34m
=== ORDERS ===[0m
Shape: (368999, 29)
Nulos por coluna:
order_id                                  0
store_id                                  0
channel_id                                0
payment_order_id                          0
delivery_order_id                         0
order_status                              0
order_amount                              0
order_delivery_fee                        0
order_delivery_cost                    7205
order_created_hour                        0
order_created_minute                      0
order_created_day                         0
order_created_month                       0
order_created_year                        0
order_moment_created                      0
order_moment_accepted                  9461
order_moment_ready                    25106
order_moment_collected                42894
order_moment_in_expedition            67429
order_moment_delivering               25316
order_moment_delivered               349398
order_mom

Unnamed: 0,order_id,store_id,channel_id,payment_order_id,delivery_order_id,order_status,order_amount,order_delivery_fee,order_delivery_cost,order_created_hour,...,order_moment_delivering,order_moment_delivered,order_moment_finished,order_metric_collected_time,order_metric_paused_time,order_metric_production_time,order_metric_walking_time,order_metric_expediton_speed_time,order_metric_transit_time,order_metric_cycle_time
0,68405119,3512,5,68405119,68405119,CANCELED,62.7,0.0,,0,...,,,,,,,,,,
1,68405123,3512,5,68405123,68405123,CANCELED,62.7,0.0,,0,...,,,,,,,,,,
2,68405206,3512,5,68405206,68405206,CANCELED,115.5,0.0,,0,...,,,,,,,,,,


[1m[34m
=== DRIVERS ===[0m
Shape: (4824, 3)
Nulos por coluna:
driver_id       0
driver_modal    0
driver_type     0
dtype: int64


Unnamed: 0,driver_id,driver_modal,driver_type
0,133,MOTOBOY,LOGISTIC OPERATOR
1,138,MOTOBOY,FREELANCE
2,140,MOTOBOY,FREELANCE


[1m[34m
=== HUBS ===[0m
Shape: (32, 6)
Nulos por coluna:
hub_id           0
hub_name         0
hub_city         0
hub_state        0
hub_latitude     0
hub_longitude    0
dtype: int64


Unnamed: 0,hub_id,hub_name,hub_city,hub_state,hub_latitude,hub_longitude
0,2,BLUE SHOPPING,PORTO ALEGRE,RS,-30.047415,-51.21351
1,3,GREEN SHOPPING,PORTO ALEGRE,RS,-30.037415,-51.20352
2,4,RED SHOPPING,PORTO ALEGRE,RS,-30.021948,-51.208382


[1m[34m
=== PAYMENTS ===[0m
Shape: (400834, 6)
Nulos por coluna:
payment_id            0
payment_order_id      0
payment_amount        0
payment_fee         175
payment_method        0
payment_status        0
dtype: int64


Unnamed: 0,payment_id,payment_order_id,payment_amount,payment_fee,payment_method,payment_status
0,4427917,68410055,118.44,0.0,VOUCHER,PAID
1,4427918,68410055,394.81,7.9,ONLINE,PAID
2,4427941,68412721,206.95,5.59,ONLINE,PAID


[1m[34m
=== CHANNELS ===[0m
Shape: (40, 3)
Nulos por coluna:
channel_id      0
channel_name    0
channel_type    0
dtype: int64


Unnamed: 0,channel_id,channel_name,channel_type
0,1,OTHER PLACE,OWN CHANNEL
1,2,PHONE PLACE,OWN CHANNEL
2,3,WHATS PLACE,OWN CHANNEL


## üìä Resumo das Tabelas Carregadas

Foram carregadas **7 tabelas** referentes ao ecossistema de pedidos e entregas:

- **DELIVERIES**: 378.843 entregas registradas, com poucas aus√™ncias em `driver_id` e `delivery_distance_meters`.

- **STORES**: 951 lojas cadastradas; algumas com coordenadas geogr√°ficas e plano de pre√ßo ausentes.

- **ORDERS**: 368.999 pedidos com rastreamento detalhado de status e tempos. V√°rios campos relacionados a momentos da entrega cont√™m valores ausentes (esperado para pedidos cancelados ou incompletos).

- **DRIVERS**: 4.824 entregadores, com `modal` e `tipo` definidos.

- **HUBS**: 32 centros de distribui√ß√£o totalmente preenchidos.

- **PAYMENTS**: 400.834 registros de pagamento; pequenas aus√™ncias na taxa (`payment_fee`).

- **CHANNELS**: 40 canais de venda distintos, sem valores nulos.


In [3]:
# Tratamentos gerais nas tabelas durante a An√°lise Explorat√≥ria de Dados

for nome, df in tabelas.items():
    print(f'\nTratando: {nome.upper()}')

    # 1. Padroniza√ß√£o de nomes de colunas
    df.columns = df.columns.str.lower().str.strip().str.replace(' ', '_')

    # 2. Remo√ß√£o de duplicatas
    linhas_antes = df.shape[0]
    df.drop_duplicates(inplace=True)
    linhas_depois = df.shape[0]
    print(f'  - Duplicatas removidas: {linhas_antes - linhas_depois}')

    # 3. Preenchimento de valores nulos:
    # a) Para colunas num√©ricas, preencher com a mediana
    for col in df.select_dtypes(include='number'):
        mediana = df[col].median()  # Calculando a mediana
        df[col] = df[col].fillna(mediana)  # Preenche com a mediana, sem usar inplace=True

    # b) Para colunas de texto (object), preencher com 'desconhecido'
    for col in df.select_dtypes(include='object'):
        if df[col].isnull().any():  # Verifica se h√° valores nulos na coluna
            df[col].fillna('desconhecido', inplace=True)  # Preenche com 'desconhecido', sem usar inplace=True

    print(f'  - Valores nulos preenchidos (quando aplic√°vel).')



Tratando: DELIVERIES
  - Duplicatas removidas: 0
  - Valores nulos preenchidos (quando aplic√°vel).

Tratando: STORES
  - Duplicatas removidas: 0
  - Valores nulos preenchidos (quando aplic√°vel).

Tratando: ORDERS
  - Duplicatas removidas: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna('desconhecido', inplace=True)  # Preenche com 'desconhecido', sem usar inplace=True


  - Valores nulos preenchidos (quando aplic√°vel).

Tratando: DRIVERS
  - Duplicatas removidas: 0
  - Valores nulos preenchidos (quando aplic√°vel).

Tratando: HUBS
  - Duplicatas removidas: 0
  - Valores nulos preenchidos (quando aplic√°vel).

Tratando: PAYMENTS
  - Duplicatas removidas: 0
  - Valores nulos preenchidos (quando aplic√°vel).

Tratando: CHANNELS
  - Duplicatas removidas: 0
  - Valores nulos preenchidos (quando aplic√°vel).


## Tratamento de Duplicatas:

Para todas as tabelas (DELIVERIES, STORES, ORDERS, DRIVERS, HUBS, PAYMENTS e CHANNELS), o c√≥digo tentou remover duplicatas.

No entanto, o resultado mostra que n√£o foram removidas duplicatas em nenhuma das tabelas, ou seja, n√£o havia registros duplicados nos dados que estamos analisando.

## Preenchimento de Valores Nulos:

Em todas as tabelas, o c√≥digo preencheu os valores nulos. A abordagem usada foi:

- Para colunas num√©ricas, os valores nulos foram preenchidos com a mediana da coluna.
- Para colunas de texto (tipicamente de tipo object ou strings), os valores nulos foram preenchidos com a palavra "desconhecido".

## Impress√£o dos Resultados:

O c√≥digo exibiu um resumo para cada tabela com duas informa√ß√µes principais:

- **Duplicatas removidas**: 0 para todas as tabelas, indicando que n√£o havia registros duplicados.
- **Valores nulos preenchidos**: A mensagem "Valores nulos preenchidos (quando aplic√°vel)" apareceu para todas as tabelas, indicando que o preenchimento dos valores nulos foi realizado corretamente.

## Conclus√µes:

- N√£o h√° duplicatas nas tabelas, o que √© um bom sinal de que os dados est√£o bem organizados e sem redund√¢ncias.
- Valores nulos foram tratados, com preenchimentos adequados de acordo com o tipo de dado: mediana para n√∫meros e "desconhecido" para texto.
- O processo de limpeza e prepara√ß√£o dos dados parece ter sido bem-sucedido, garantindo que as tabelas estejam mais consistentes e prontas para an√°lise posterior.


## Resumo Estat√≠stico Geral dos Dados

In [4]:
df = pd.read_csv('../data/processed/dataset_final.csv')
df.describe(include='all')

Unnamed: 0,order_id,store_id,channel_id,payment_order_id_x,delivery_order_id,order_status,order_amount,order_delivery_fee,order_delivery_cost,order_created_hour,...,driver_id,delivery_distance_meters,delivery_status,driver_modal,driver_type,hub_name,hub_city,hub_state,hub_latitude,hub_longitude
count,442239.0,442239.0,442239.0,442239.0,442239.0,442239,442239.0,442239.0,432138.0,442239.0,...,414427.0,431111.0,431184,414427,414427,442239,442239,442239,442239.0,442239.0
unique,,,,,,2,,,,,...,,,3,2,2,32,4,4,,
top,,,,,,FINISHED,,,,,...,,,DELIVERED,MOTOBOY,FREELANCE,GOLDEN SHOPPING,S√É¬É√Ç¬É√É¬Ç√Ç¬É√É¬É√Ç¬Ç√É¬Ç√Ç¬É√É¬É√Ç¬É√É¬Ç√Ç¬Ç√É¬É√Ç¬Ç√É¬Ç√Ç¬É√É¬É√Ç¬É√É¬Ç√Ç¬É√É¬É√Ç¬Ç√É...,SP,,
freq,,,,,,424906,,,,,...,,,423675,302172,295235,54967,196143,196143,,
mean,82355910.0,1269.036417,7.752708,82355910.0,82355910.0,,100.6244,5.885275,7.511628,16.722379,...,21007.130935,9694.615,,,,,,,-24.129915,-46.076996
std,6982708.0,1189.666317,8.141471,6982708.0,6982708.0,,2697.975,6.109197,4.257308,6.104885,...,15463.477075,217047.3,,,,,,,2.055516,2.534145
min,68405120.0,3.0,1.0,68405120.0,68405120.0,,0.0,0.0,0.0,0.0,...,133.0,0.0,,,,,,,-30.085743,-51.245997
25%,76578090.0,415.0,5.0,76578090.0,76578090.0,,38.8,0.0,5.3,15.0,...,7638.0,1165.0,,,,,,,-23.622995,-46.718197
50%,83237020.0,806.0,5.0,83237020.0,83237020.0,,67.8,5.99,7.35,17.0,...,18791.0,2046.0,,,,,,,-23.561053,-46.624152
75%,87951900.0,1930.0,5.0,87951900.0,87951900.0,,117.0,11.9,8.86,22.0,...,31048.0,3446.0,,,,,,,-22.96988,-43.370811


## Vari√°veis num√©ricas principais:

- **order_id, store_id, channel_id, payment_order_id_x, delivery_order_id**: Estas colunas representam identificadores exclusivos para os pedidos, lojas, canais de pagamento e entregas. Como esperado, os valores para essas colunas possuem uma contagem de 442.239 registros, com valores √∫nicos que n√£o s√£o aplic√°veis a essas colunas, pois s√£o identificadores de registros.

- **order_amount**: Refere-se ao valor do pedido. A m√©dia √© de aproximadamente 100,62 unidades monet√°rias, com um desvio padr√£o consider√°vel de 2.698, sugerindo uma grande varia√ß√£o nos valores dos pedidos. O valor m√≠nimo registrado foi 0,00, o que pode indicar dados faltantes ou pedidos com valor simb√≥lico, e o valor m√°ximo foi de 1.788.306,00 unidades monet√°rias, representando um grande pico nas transa√ß√µes.

- **order_delivery_fee e order_delivery_cost**: Essas colunas representam, respectivamente, as taxas de entrega e os custos de entrega. As m√©dias s√£o de 5,89 e 7,51, com desvios padr√£o de 6,11 e 4,26, respectivamente. Isso indica que, apesar de a maioria das taxas e custos de entrega serem mais baixos, h√° uma varia√ß√£o significativa, possivelmente devido a diferentes tipos de entregas ou √°reas geogr√°ficas.

- **delivery_distance_meters**: Representa a dist√¢ncia da entrega. A m√©dia √© de cerca de 9.694 metros, com um desvio padr√£o de 217.047 metros, o que sugere uma grande dispers√£o nos dados. Algumas entregas s√£o significativamente mais distantes do que outras, com um valor m√≠nimo de 0 metros e um m√°ximo de mais de 7 milh√µes de metros (provavelmente um erro de entrada de dados ou um valor extremo).

## Vari√°veis categ√≥ricas principais:

- **order_status**: A maior parte dos pedidos foi registrada como "FINISHED" (424.906 ocorr√™ncias), indicando que a maioria das transa√ß√µes foi conclu√≠da com sucesso. A distribui√ß√£o de status de pedidos √© desbalanceada, com uma predomin√¢ncia de pedidos finalizados.

- **delivery_status**: A maioria das entregas tem o status "DELIVERED", com 423.675 ocorr√™ncias, indicando que a maioria dos pedidos foi entregue conforme esperado. Isso tamb√©m reflete uma distribui√ß√£o desbalanceada, com outros status ocorrendo de forma muito menos frequente.

- **driver_modal e driver_type**: A maioria dos motoristas parece ser do tipo "MOTOBOY" e "FREELANCE", com 302.172 e 295.235 ocorr√™ncias, respectivamente. Isso pode sugerir que o modelo de neg√≥cios prioriza entregas r√°pidas e flex√≠veis.

- **hub_name, hub_city, hub_state**: As hubs de entrega est√£o distribu√≠das principalmente em cidades como "GOLDEN SHOPPING" e localizadas em estados como "SP", o que √© consistente com o padr√£o geogr√°fico da opera√ß√£o.

## Geolocaliza√ß√£o:

- **hub_latitude e hub_longitude**: As coordenadas geogr√°ficas das hubs de entrega variam amplamente, com algumas hubs localizadas em posi√ß√µes extremas. As latitudes variam entre -30,09 e -22,89, enquanto as longitudes variam entre -51,25 e -43,18, refletindo a cobertura geogr√°fica extensa das opera√ß√µes de entrega.

## Observa√ß√µes adicionais:

- **Distribui√ß√£o dos valores**: A distribui√ß√£o das vari√°veis como o valor do pedido (order_amount), taxas de entrega (order_delivery_fee) e dist√¢ncias de entrega (delivery_distance_meters) apresentam uma grande dispers√£o. Isso pode ser um indicativo de diferentes tipos de pedidos e entregas (por exemplo, pedidos pequenos versus grandes, ou entregas urbanas versus rurais).

- **Valores nulos e dados faltantes**: Algumas colunas apresentam valores nulos ou faltantes (como delivery_status, driver_modal e driver_type), o que pode exigir uma an√°lise mais aprofundada para decidir como trat√°-los (como remo√ß√£o, imputa√ß√£o ou an√°lise separada).

## Conclus√£o

A an√°lise estat√≠stica revela que o sistema de pedidos e entregas da plataforma opera com uma grande quantidade de dados e com uma variedade de valores, como transa√ß√µes de valores baixos e elevados, dist√¢ncias de entrega variadas e diferentes tipos de motoristas e hubs. A predomin√¢ncia de status "FINISHED" e "DELIVERED" sugere uma opera√ß√£o eficiente, mas a variabilidade nas dist√¢ncias de entrega e nos valores dos pedidos pode indicar √°reas para otimiza√ß√£o, como ajustes de rotas de entrega ou personaliza√ß√£o das taxas de entrega conforme o tipo de pedido.


In [5]:
df.select_dtypes(include=['number']).agg(['skew', 'kurt'])


Unnamed: 0,order_id,store_id,channel_id,payment_order_id_x,delivery_order_id,order_amount,order_delivery_fee,order_delivery_cost,order_created_hour,order_created_minute,...,store_longitude,payment_id,payment_order_id_y,payment_amount,payment_fee,delivery_id,driver_id,delivery_distance_meters,hub_latitude,hub_longitude
skew,-0.277764,1.141677,3.466293,-0.277764,-0.277764,658.515404,23.899504,6.895325,-1.552186,0.007714,...,-0.514887,-0.016425,-0.27855,238.926596,222.260958,-0.010776,0.56674,31.667657,-2.274051,-0.513969
kurt,-1.060476,0.09318,12.283845,-1.060476,-1.060476,436384.121181,2632.550791,129.64491,2.077918,-1.191406,...,-0.609774,-1.194535,-1.057952,103424.522688,94249.325845,-1.180416,-0.548019,1002.486254,3.782418,-0.608557


### An√°lise de Assimetria (Skew) e Curtose (Kurtosis)

A an√°lise estat√≠stica foi aprofundada com o c√°lculo da assimetria (skew) e curtose (kurtosis), que ajudam a entender a distribui√ß√£o dos dados al√©m da m√©dia e desvio padr√£o. Skew positivo indica cauda longa √† direita; kurtose alta revela presen√ßa de outliers e caudas pesadas.

A vari√°vel **`order_amount`** foi a mais impactante, com skew de **658,5** e curtose acima de **436 mil**, evidenciando pedidos geralmente baixos, mas com poucos valores extremamente altos. Isso indica a necessidade de tratamento, como **transforma√ß√£o logar√≠tmica ou remo√ß√£o de outliers**.

Vari√°veis como **`order_delivery_fee`** (skew 23,9) e **`order_delivery_cost`** (skew 6,89) tamb√©m mostraram distribui√ß√µes assim√©tricas, com maioria dos valores baixos e alguns muito elevados. Isso pode refletir **entregas especiais ou distantes**.

A vari√°vel **`delivery_distance_meters`** apresentou skew de **31,6** e kurtose acima de **1.000**, sugerindo **extremos fora da curva** que distorcem a m√©dia e devem ser analisados.

Al√©m disso, as vari√°veis seguintes tamb√©m apresentaram comportamentos not√°veis:

- **`channel_id`** (skew 3,46): um canal de vendas √© muito mais utilizado em rela√ß√£o aos outros, sugerindo um padr√£o de compras concentrado.
- **`order_created_hour`** (skew -1,55): a maioria dos pedidos ocorre no final do dia.
- **`store_longitude`** (skew -0,51): um comportamento levemente assim√©trico √† esquerda, com varia√ß√£o mais concentrada em longitudes menores.
- **`payment_amount`** (skew 238,9): extremamente assim√©trica, indicando que os pagamentos de valor mais alto s√£o raros, mas com grande impacto na distribui√ß√£o.
- **`delivery_distance_meters`** (skew 31,66, kurtose 1002,5): grandes dist√¢ncias de entrega, indicando casos de entregas mais longas ou at√© erros de digita√ß√£o em alguns dados.

Por fim, as vari√°veis geogr√°ficas de localiza√ß√£o das hubs:

- **`hub_latitude`** (skew -2,27): leve concentra√ß√£o em regi√µes com menores latitudes, como o sul do pa√≠s.
- **`hub_longitude`** (skew -0,51): distribui√ß√£o relativamente equilibrada, mas com uma ligeira concentra√ß√£o na regi√£o leste.

Em resumo, a an√°lise de skew e kurtosis permitiu identificar importantes desvios de distribui√ß√£o que podem influenciar diretamente na interpreta√ß√£o dos dados e na performance de modelos anal√≠ticos.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Vari√°veis num√©ricas analisadas
numerical_columns = ['order_amount', 'order_delivery_fee', 'order_delivery_cost', 'delivery_distance_meters', 'channel_id', 'order_created_hour', 'store_longitude', 'payment_amount', 'delivery_id']

# Criar um gr√°fico para cada vari√°vel
fig, axes = plt.subplots(nrows=3, ncols=3, figsize=(18, 15))
axes = axes.flatten()

for i, col in enumerate(numerical_columns):
    # Histograma
    sns.histplot(df[col], kde=True, ax=axes[i], bins=50)
    axes[i].set_title(f'Distribui√ß√£o de {col}')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequ√™ncia')

plt.tight_layout()
plt.show()


### Visualiza√ß√£o com Histogramas e KDE

Para explorar as distribui√ß√µes das vari√°veis num√©ricas, utilizamos **histogramas com Kernel Density Estimate (KDE)**. Essa escolha facilita a visualiza√ß√£o das distribui√ß√µes, permitindo identificar padr√µes de assimetria e caudas pesadas.

#### Objetivos da Visualiza√ß√£o:
- **Analisar a assimetria (skew)**: O histograma mostra visualmente caudas √† direita ou √† esquerda, facilitando a identifica√ß√£o de distribui√ß√µes assim√©tricas.
- **Compreender a distribui√ß√£o**: O KDE suaviza a distribui√ß√£o, destacando padr√µes que podem n√£o ser vis√≠veis em um histograma tradicional.
- **Identificar outliers**: A presen√ßa de caudas pesadas indica valores extremos que podem distorcer a an√°lise.

#### Justificativa:
- O histograma com KDE revela n√£o s√≥ a frequ√™ncia dos dados, mas tamb√©m as caracter√≠sticas da distribui√ß√£o, como a presen√ßa de caudas e a dire√ß√£o da assimetria.
- Ele ajuda a entender como as vari√°veis se comportam.
