# ETL — Análise de Renda no Brasil

Este notebook prepara o dataset para análise:
- leitura do CSV
- validações básicas
- criação de colunas derivadas
- exportação do dataset tratado


In [None]:
import pandas as pd
from pathlib import Path

RAW = Path('../data/renda_brasil_raw.csv')
OUT = Path('../data/renda_brasil_clean.csv')

df = pd.read_csv(RAW)
df.columns = [c.strip().lower() for c in df.columns]

# Validations
assert df['ano'].between(2010, 2100).all()
assert df['renda_media'].gt(0).all()
assert df['populacao'].gt(0).all()
assert set(['uf','regiao']).issubset(df.columns)

# Derived columns (idempotent)
df['renda_em_sal_min'] = (df['renda_media'] / df['salario_minimo']).round(2)
df['renda_total_estimada'] = (df['renda_media'] * df['populacao']).round(2)

OUT.parent.mkdir(parents=True, exist_ok=True)
df.to_csv(OUT, index=False)
df.head()