# Exploração Inicial — Dataset Orders (Olist)

Este notebook faz parte do projeto **olist-orders-analysis**, cujo objetivo é analisar
o comportamento dos pedidos da base pública da Olist, aplicando conceitos fundamentais
de análise de dados com **Python, Pandas e Numpy**.

Neste primeiro notebook, o foco está exclusivamente no dataset **orders**, realizando:
- entendimento da estrutura dos dados
- análise exploratória inicial
- identificação de padrões, assimetrias e possíveis problemas de qualidade
- geração de hipóteses que serão exploradas nos próximos notebooks

## Objetivo deste notebook

O objetivo deste notebook é realizar uma **análise exploratória inicial (EDA)** do dataset
`orders.csv`, respondendo perguntas como:

- Quantos pedidos existem no dataset?
- Qual o status mais comum dos pedidos?
- Como os pedidos se distribuem ao longo do tempo?
- Existem indícios de assimetria ou caudas longas nos dados?
- Há dados ausentes ou inconsistências relevantes?

As respostas a essas perguntas servirão de base para a definição das métricas
que serão construídas nos próximos notebooks.

## Dataset utilizado

Neste notebook utilizamos o arquivo:

- `data/raw/olist_orders_dataset.csv`

Este dataset contém informações a nível de pedido, incluindo:
- identificador do pedido
- identificador do cliente
- status do pedido
- datas relacionadas ao ciclo do pedido (compra, aprovação, envio, entrega)

Neste estágio, os dados são utilizados **sem qualquer tratamento prévio**,
respeitando a camada *raw* do pipeline analítico.


## Abordagem de análise

A exploração dos dados seguirá os seguintes passos:

1. Leitura do dataset e inspeção inicial da estrutura
2. Análise dos tipos de dados e valores ausentes
3. Exploração das variáveis categóricas (ex: status do pedido)
4. Análise temporal básica dos pedidos
5. Observação de estatísticas descritivas relevantes
6. Registro de insights e hipóteses iniciais

Nenhuma transformação definitiva será aplicada neste notebook.
O objetivo é **entender os dados antes de modelá-los**.


## Observações importantes

- Este notebook não tem como objetivo gerar métricas finais
- Nenhuma decisão de negócio será tomada aqui
- Possíveis problemas ou inconsistências serão apenas identificados, não corrigidos

Correções, tratamentos e métricas serão implementados
nos notebooks seguintes, respeitando o pipeline analítico do projeto.


## Checklist da exploração

Ao final deste notebook, esperamos ter clareza sobre:

- [ ] Estrutura geral do dataset
- [ ] Volume total de pedidos
- [ ] Distribuição dos status
- [ ] Cobertura temporal dos dados
- [ ] Presença de dados ausentes
- [ ] Validação e conversão de colunas temporais
- [ ] Possíveis assimetrias ou padrões relevantes


In [1]:
import pandas as pd

## Carregamento do dataset

Antes de qualquer análise, é necessário carregar o dataset principal que será utilizado ao longo deste notebook.

O arquivo `orders.csv` contém informações centrais sobre os pedidos realizados na plataforma da Olist, incluindo identificadores, status do pedido e timestamps relevantes do ciclo de compra.

Neste bloco, realizaremos:
- A leitura do arquivo CSV a partir da camada de dados brutos (`data/raw`)
- A criação do DataFrame inicial que servirá como base para a exploração exploratória

O objetivo aqui **não é transformar, limpar ou validar os dados**, mas apenas **garantir que o dataset seja carregado corretamente** para as etapas seguintes de inspeção e entendimento da sua estrutura.

In [2]:
DATA_PATH = "../data/raw/olist_orders_dataset.csv"
orders_df = pd.read_csv(DATA_PATH)

## Inspeção inicial dos dados

Após o carregamento do dataset, o próximo passo é realizar uma inspeção inicial para compreender sua estrutura básica.

Nesta etapa, buscamos responder perguntas simples, porém fundamentais, como:
- Quantas linhas e colunas o dataset possui
- Quais informações cada linha representa
- Quais tipos de dados estão presentes
- Se existem valores ausentes nas colunas

Essas verificações ajudam a confirmar se o dataset está consistente com a documentação esperada e orientam decisões futuras, como conversões de tipo e análises mais específicas.

Neste bloco, realizaremos:
- A visualização das primeiras observações do dataset
- A inspeção dos tipos de dados e da presença de valores nulos

O objetivo aqui **não é analisar padrões ou métricas**, mas sim **entender a estrutura dos dados** antes de avançar para etapas mais profundas da exploração.

In [3]:
orders_df.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [4]:
orders_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB


## Estrutura geral do dataset

Antes de avançarmos para análises mais específicas, é importante compreender a dimensão do dataset com o qual estamos trabalhando.

Nesta etapa, analisamos:
- O número total de registros (linhas)
- O número de variáveis disponíveis (colunas)

Essa informação é fundamental para contextualizar as análises seguintes, pois o volume de dados influencia interpretações estatísticas, desempenho computacional e até mesmo a representatividade dos resultados.

O objetivo aqui é **obter uma visão quantitativa básica do dataset**, sem qualquer transformação ou filtragem.

In [5]:
orders_df.shape

(99441, 8)

## Volume total de pedidos

Antes de explorar distribuições, padrões ou métricas derivadas, é fundamental compreender o volume total de pedidos presente no dataset.

Nesta etapa, avaliamos:
- A quantidade total de pedidos registrados
- A escala dos dados com os quais a análise será realizada

Essa informação ajuda a contextualizar análises futuras, como distribuições de status, cobertura temporal e possíveis segmentações, além de fornecer uma noção inicial sobre a representatividade do conjunto de dados.

O objetivo aqui é **quantificar o volume bruto de pedidos**, sem qualquer tipo de filtragem ou agregação.

In [6]:
len(orders_df)

99441

## Distribuição dos status dos pedidos

Para compreender o comportamento geral dos pedidos ao longo do seu ciclo de vida, é importante analisar a distribuição dos diferentes status presentes no dataset.

Nesta etapa, investigamos:
- A frequência absoluta de cada status de pedido
- A proporção relativa (percentual) de cada status em relação ao total de pedidos

Essa análise fornece uma visão inicial sobre:
- O estágio predominante dos pedidos (entregues, cancelados, em processamento, etc.)
- Possíveis desequilíbrios entre estados do ciclo de vida
- Indícios iniciais de gargalos operacionais ou padrões relevantes

O objetivo aqui é **entender como os pedidos estão distribuídos entre seus status**, sem ainda buscar explicações causais ou métricas mais avançadas.

In [7]:
orders_df['order_status'].value_counts()

order_status
delivered      96478
shipped         1107
canceled         625
unavailable      609
invoiced         314
processing       301
created            5
approved           2
Name: count, dtype: int64

In [8]:
orders_df['order_status'].value_counts(normalize=True)

order_status
delivered      0.970203
shipped        0.011132
canceled       0.006285
unavailable    0.006124
invoiced       0.003158
processing     0.003027
created        0.000050
approved       0.000020
Name: proportion, dtype: float64

## Conversão consciente de colunas temporais e validações leves

Antes de avançarmos para análises de padrões ou possíveis assimetrias, é fundamental garantir que as colunas temporais do dataset estejam corretamente tipadas como datas.

Trabalhar com colunas temporais como `string` pode gerar interpretações incorretas, especialmente em análises de cobertura temporal, ordenação cronológica e cálculos de intervalo de tempo.

Neste bloco, realizaremos:
- A conversão explícita das colunas temporais para o tipo `datetime`
- Validações leves para compreender a presença de valores ausentes
- Verificações simples de consistência temporal

O objetivo aqui **não é limpar ou corrigir dados**, mas sim **entender sua estrutura e possíveis limitações**.

In [9]:
# Lista de colunas temporais do dataset orders
date_columns = [
    'order_purchase_timestamp',
    'order_approved_at',
    'order_delivered_carrier_date',
    'order_delivered_customer_date',
    'order_estimated_delivery_date'
]

# Conversão explícita para datetime
for col in date_columns:
    orders_df[col] = pd.to_datetime(orders_df[col])

In [10]:
# Verificando valores ausentes nas colunas temporais
orders_df[date_columns].isna().sum()

order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

In [11]:
# Quantidade de pedidos entregues antes da data de compra (inconsistência lógica)
(orders_df['order_delivered_customer_date'] < orders_df['order_purchase_timestamp']).sum()

np.int64(0)

In [12]:
# Estatísticas descritivas das colunas temporais
orders_df[date_columns].describe()

Unnamed: 0,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
count,99441,99281,97658,96476,99441
mean,2017-12-31 08:43:12.776581120,2017-12-31 18:35:24.098800128,2018-01-04 21:49:48.138278656,2018-01-14 12:09:19.035542272,2018-01-24 03:08:37.730111232
min,2016-09-04 21:15:19,2016-09-15 12:16:38,2016-10-08 10:34:01,2016-10-11 13:46:32,2016-09-30 00:00:00
25%,2017-09-12 14:46:19,2017-09-12 23:24:16,2017-09-15 22:28:50.249999872,2017-09-25 22:07:22.249999872,2017-10-03 00:00:00
50%,2018-01-18 23:04:36,2018-01-19 11:36:13,2018-01-24 16:10:58,2018-02-02 19:28:10.500000,2018-02-15 00:00:00
75%,2018-05-04 15:42:16,2018-05-04 20:35:10,2018-05-08 13:37:45,2018-05-15 22:48:52.249999872,2018-05-25 00:00:00
max,2018-10-17 17:30:18,2018-09-03 17:40:06,2018-09-11 19:48:28,2018-10-17 13:22:46,2018-11-12 00:00:00


## Cobertura temporal dos dados

Antes de analisar padrões, tendências ou possíveis assimetrias, é essencial compreender o período temporal coberto pelo dataset.

Nesta etapa, avaliamos:
- A data mais antiga de compra registrada
- A data mais recente de compra registrada

Essa verificação permite entender:
- A extensão temporal dos dados disponíveis
- Se o dataset representa um período contínuo ou fragmentado
- Possíveis limitações para análises temporais futuras

O objetivo aqui é **delimitar o intervalo temporal dos pedidos**, sem ainda investigar sazonalidade, tendências ou variações ao longo do tempo.

In [13]:
orders_df['order_purchase_timestamp'].min(), orders_df['order_purchase_timestamp'].max()

(Timestamp('2016-09-04 21:15:19'), Timestamp('2018-10-17 17:30:18'))

## Presença de dados ausentes

Antes de avançar para a identificação de padrões ou assimetrias, é fundamental avaliar a presença de valores ausentes no dataset.

Nesta etapa, verificamos:
- A quantidade de valores nulos em cada coluna
- Quais campos apresentam ausência de dados
- A magnitude dessas ausências em relação ao volume total de registros

Essa análise é importante para:
- Compreender limitações estruturais dos dados
- Antecipar possíveis impactos em análises futuras
- Avaliar a necessidade (ou não) de tratamento de dados ausentes em etapas posteriores

O objetivo aqui **não é realizar imputação ou limpeza**, mas apenas **mapear a existência e a distribuição de valores ausentes** no dataset.

In [14]:
orders_df.isna().sum()

order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

## Possíveis assimetrias ou padrões relevantes

Após compreender a estrutura do dataset, sua cobertura temporal, a distribuição dos status e a presença de dados ausentes, podemos agora realizar uma exploração inicial em busca de possíveis assimetrias ou padrões relevantes.

Nesta etapa, buscamos:
- Identificar distribuições desbalanceadas
- Observar concentrações atípicas ao longo do tempo
- Detectar indícios iniciais de comportamento não uniforme nos dados

É importante destacar que esta análise:
- Não tem como objetivo explicar causas
- Não utiliza métricas avançadas
- Não busca conclusões definitivas

O foco aqui é **levantar hipóteses iniciais** e **mapear comportamentos que merecem investigação futura** nos próximos notebooks.

In [15]:
(
    orders_df
    .set_index('order_purchase_timestamp')
    .resample('ME')
    .size()
)

order_purchase_timestamp
2016-09-30       4
2016-10-31     324
2016-11-30       0
2016-12-31       1
2017-01-31     800
2017-02-28    1780
2017-03-31    2682
2017-04-30    2404
2017-05-31    3700
2017-06-30    3245
2017-07-31    4026
2017-08-31    4331
2017-09-30    4285
2017-10-31    4631
2017-11-30    7544
2017-12-31    5673
2018-01-31    7269
2018-02-28    6728
2018-03-31    7211
2018-04-30    6939
2018-05-31    6873
2018-06-30    6167
2018-07-31    6292
2018-08-31    6512
2018-09-30      16
2018-10-31       4
Freq: ME, dtype: int64

Observações iniciais:
- A distribuição de pedidos ao longo do tempo não é uniforme
- Há períodos com maior concentração de pedidos
- Esses padrões serão explorados com mais profundidade em análises futuras