# Sprint 2 – Análise Exploratória Inicial (Zents Marketplace)
Olá! Neste notebook, eu vou começar a explorar os dados da Zents Marketplace. A ideia aqui é entender melhor como os dados estão organizados, ver se tem valores faltando e já começar a preparar algumas colunas que vão ser úteis nas próximas etapas.

In [None]:
# Importando bibliotecas que eu vou usar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
sns.set(style='whitegrid')

In [None]:
# Carregando os dados (arquivos CSV da base Olist)
pedidos = pd.read_csv('olist_orders_dataset.csv', parse_dates=['order_purchase_timestamp', 'order_delivered_customer_date'])
clientes = pd.read_csv('olist_customers_dataset.csv')
vendedores = pd.read_csv('olist_sellers_dataset.csv')
produtos = pd.read_csv('olist_products_dataset.csv')

## 1. Olhando o início dos dados
Vou começar vendo as primeiras linhas da tabela de pedidos.

In [None]:
pedidos.head()

Agora quero entender o tipo de informação que tem em cada coluna e se há valores faltando.

In [None]:
pedidos.info()

## 2. Criando a coluna de tempo de entrega
Vou criar uma coluna chamada `tempo_entrega`, que é a diferença entre a data da compra e a data de entrega.

In [None]:
pedidos['tempo_entrega'] = (pedidos['order_delivered_customer_date'] - pedidos['order_purchase_timestamp']).dt.days

Algumas entregas ainda não foram feitas, por isso o valor fica nulo. Vou remover esses casos só para o gráfico ficar mais bonito.

In [None]:
tempo_entrega_limpo = pedidos['tempo_entrega'].dropna()

## 3. Visualizando o tempo de entrega
Agora vou ver como os tempos de entrega estão distribuídos.

In [None]:
plt.figure(figsize=(10, 5))
sns.histplot(tempo_entrega_limpo, bins=30, kde=True, color='skyblue')
plt.title('Distribuição do Tempo de Entrega (em dias)')
plt.xlabel('Dias para entrega')
plt.ylabel('Quantidade de pedidos')
plt.show()

## 4. Valores ausentes
Quero ver agora quais colunas têm valores faltando e quanto isso representa.

In [None]:
nulos = pedidos.isnull().mean() * 100
nulos[nulos > 0].sort_values(ascending=False)

## 5. Conclusão até aqui
Consegui entender um pouco melhor os dados da Zents. Vi que o tempo de entrega varia bastante e que há algumas entregas que ainda não foram feitas. Na próxima sprint, vou focar nos valores extremos e ver se tem algum outlier que pode afetar a análise.