# Notebook 02 — Exploração dos Itens dos Pedidos

## Objetivo deste notebook

Este notebook tem como objetivo realizar uma exploração inicial do dataset de itens dos pedidos (`order_items`), buscando compreender como os pedidos se desdobram em produtos, qual o volume de itens comercializados e como os valores de preço e frete se distribuem.

A análise aqui realizada tem caráter exploratório e descritivo, servindo como base para análises mais aprofundadas nos próximos notebooks.

## Dataset utilizado

Neste notebook utilizamos o dataset `olist_order_items_dataset.csv`, que contém informações detalhadas sobre os itens associados a cada pedido, incluindo:

- Identificador do pedido
- Identificador do produto
- Identificador do vendedor
- Preço do item
- Valor do frete
- Sequência do item dentro do pedido

Cada linha do dataset representa um item individual pertencente a um pedido.

## Abordagem de análise

A exploração será conduzida de forma incremental, abordando:

- Estrutura geral do dataset
- Volume total de itens
- Relação entre pedidos e quantidade de itens
- Distribuição de preços e frete
- Identificação de possíveis assimetrias ou padrões relevantes

Assim como no notebook anterior, o foco está em compreender os dados, não em limpá-los ou transformá-los profundamente.

## Observações importantes

- Este notebook não realiza agregações financeiras finais
- Não há união com outros datasets neste momento
- Possíveis inconsistências serão apenas observadas, não corrigidas
- Resultados aqui obtidos servirão como insumo para análises posteriores

## Checklist da exploração

Ao final deste notebook, esperamos ter clareza sobre:

- [ ] Estrutura geral do dataset
- [ ] Volume total de itens
- [ ] Quantidade média de itens por pedido
- [ ] Distribuição dos preços dos itens
- [ ] Distribuição dos valores de frete
- [ ] Presença de dados ausentes
- [ ] Possíveis assimetrias ou padrões relevantes

In [2]:
import pandas as pd

## Carregamento do dataset

Nesta etapa realizamos a leitura do arquivo `olist_order_items_dataset.csv`, que contém as informações detalhadas sobre os itens associados a cada pedido.

O objetivo aqui é apenas carregar os dados para uma inspeção inicial, garantindo que o dataset esteja acessível para as análises exploratórias subsequentes, sem realizar qualquer transformação ou limpeza.

In [None]:
DATA_PATH = "../data/raw/olist_order_items_dataset.csv"

order_items_df = pd.read_csv(DATA_PATH)

## Inspeção inicial dos dados

A partir das primeiras visualizações, buscamos compreender a estrutura geral do dataset, observando as primeiras linhas, os tipos de dados presentes e a existência de valores ausentes.

Essas informações são fundamentais para definir os próximos passos da análise exploratória.

In [4]:
order_items_df.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [5]:
order_items_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB


## Estrutura geral do dataset

Nesta etapa verificamos a dimensão do dataset, identificando o número total de linhas e colunas disponíveis, o que nos ajuda a entender o volume de dados com o qual estamos lidando.

In [6]:
order_items_df.shape

(112650, 7)

## Volume total de itens

Aqui avaliamos o número total de itens registrados no dataset. Cada linha representa um item individual associado a um pedido.

In [7]:
len(order_items_df)

112650

## Quantidade de itens por pedido

Nesta etapa analisamos como os itens se distribuem entre os pedidos, identificando quantos itens, em média, compõem um pedido e se existem pedidos com quantidades significativamente maiores de itens.

In [8]:
(
    order_items_df
    .groupby("order_id")
    .size()
    .describe()
)

count    98666.000000
mean         1.141731
std          0.538452
min          1.000000
25%          1.000000
50%          1.000000
75%          1.000000
max         21.000000
dtype: float64

## Distribuição dos preços dos itens

Analisamos a distribuição dos preços dos itens para compreender o comportamento dos valores praticados, identificando possíveis assimetrias, concentrações ou presença de valores extremos.

In [9]:
order_items_df["price"].describe()

count    112650.000000
mean        120.653739
std         183.633928
min           0.850000
25%          39.900000
50%          74.990000
75%         134.900000
max        6735.000000
Name: price, dtype: float64

## Distribuição dos valores de frete

Nesta etapa avaliamos como os valores de frete se distribuem entre os itens, buscando compreender sua variabilidade e possíveis padrões.

In [10]:
order_items_df["freight_value"].describe()

count    112650.000000
mean         19.990320
std          15.806405
min           0.000000
25%          13.080000
50%          16.260000
75%          21.150000
max         409.680000
Name: freight_value, dtype: float64

## Presença de dados ausentes

Verificamos a existência de valores ausentes em cada coluna do dataset, o que pode impactar análises futuras ou exigir tratamentos específicos em etapas posteriores.

In [11]:
order_items_df.isna().sum()

order_id               0
order_item_id          0
product_id             0
seller_id              0
shipping_limit_date    0
price                  0
freight_value          0
dtype: int64

## Possíveis assimetrias ou padrões relevantes

Com base nas análises realizadas até aqui, buscamos identificar indícios iniciais de assimetrias, concentrações ou comportamentos atípicos nos dados.

Essas observações não representam conclusões finais, mas levantam hipóteses que poderão ser exploradas de forma mais aprofundada nos próximos notebooks do projeto.