# Introdução

Neste notebook realizo a exploração inicial do dataset da Olist, verificando estrutura, consistência e possíveis problemas de qualidade.

In [None]:
# Importação de libs
from utils.load_dataframe import load_dataframe
import pandas as pd

In [None]:
# Importação e carregamento de dados
customers = load_dataframe('customer')
geolocation = load_dataframe('geolocation')
order_items = load_dataframe('order_items')
order_payments = load_dataframe('order_payments')
order_reviews = load_dataframe('order_reviews')
orders = load_dataframe('orders')
product_category_name = load_dataframe('product_category_name')
products = load_dataframe('products')
sellers = load_dataframe('sellers')

In [None]:
# Listando datasets e primeiras inspeções inicial
display(customers.info())
display(customers.head())

display(geolocation.info())
display(geolocation.head())

display(order_items.info())
display(order_items.head())



In [None]:
# Verificando dados faltantes
display(customers.isnull().sum())
display(geolocation.isnull().sum())
display(order_items.isnull().sum())
display(order_payments.isnull().sum())
display(order_reviews.isnull().sum())
display(orders.isnull().sum())
display(product_category_name.isnull().sum())
display(products.isnull().sum())
display(sellers.isnull().sum())

In [None]:
# Tabela de Pedidos

# converter colunas de data para o tipo datetime
date_cols = [
    'order_purchase_timestamp',
    'order_approved_at',
    'order_delivered_carrier_date',
    'order_delivered_customer_date',
    'order_estimated_delivery_date'
]

orders[date_cols] = orders[date_cols].apply(pd.to_datetime, errors='coerce')

orders.head()

In [None]:

# Criar flag para indicar se o pedido foi entregue
orders['is_delivered'] = ~orders['order_delivered_customer_date'].isnull()

orders.head()

In [None]:
# Preenchimento dos campos textuais
order_reviews['review_comment_title'].fillna('Sem título', inplace=True)
order_reviews['review_comment_message'].fillna('Sem comentário', inplace=True)

# Optei por preencher os campos ausentes com textos padrão para manter consistência textual.


In [None]:
# Colunas numéricas
num_cols = [
    'product_name_lenght', 'product_description_lenght',
    'product_photos_qty', 'product_weight_g', 'product_length_cm',
    'product_height_cm', 'product_width_cm'
]
products[num_cols] = products[num_cols].apply(lambda x: x.fillna(x.median()))

# Coluna categórica
products['product_category_name'].fillna('desconhecido', inplace=True)

products.head()


# Como as ausências eram pontuais, foi utilizado o preenchimento por mediana (numéricos) e “desconhecido” (categoria). Assim, nenhum produto foi removido.

# Agora, para ficar automatizado, vou criar uma função chamada load_dataframe e essas aplicações passadas no dataframe quando chamar a função