# üìò Notebook 01 ‚Äî EDA & Prepara√ß√£o do Dataset (Renda x Im√≥veis x D√≠vidas)

Projeto: **Clusteriza√ß√£o em 3D com K-Means**  
Disciplina: **Aprendizado de M√°quina N√£o Supervisionado** ‚Äî Senac DF  
Autores: **Anderson de Matos Guimar√£es, Renan Ost, Gustavo Stefano Thomazinho**

**Objetivo deste notebook**  
Explorar o dataset bruto de **Distribui√ß√£o de Renda por Centis** (IRPF), entender o neg√≥cio, selecionar **3 vari√°veis cont√≠nuas** e produzir um dataset **limpo e padronizado** para o Notebook 02 (clusteriza√ß√£o e visualiza√ß√£o 3D).

## üéØ Escopo & Entreg√°veis

**Vamos:**
1. Carregar e validar o CSV bruto.  
2. Inspecionar colunas, tipos, nulos, duplicatas e consist√™ncia.  
3. Documentar o **dicion√°rio de dados** (vis√£o de neg√≥cio).  
4. Definir a **amostragem reprodut√≠vel** (300‚Äì500 linhas) com crit√©rios claros.  
5. Selecionar e preparar as **3 vari√°veis**:
   - `rtb_soma_centil` (renda),
   - `bens_imoveis` (patrim√¥nio),
   - `dividas_onus` (endividamento).
6. Tratar outliers e zeros estruturais quando necess√°rio (sem distorcer a realidade).  
7. Escalonar (opcional) e **salvar** o dataset tratado (+ `metadata.json`).  

**Sa√≠das:**
- `data/processed/distribuicao-renda-3vars.csv`  
- `data/processed/distribuicao-renda-3vars.metadata.json`  
- Gr√°ficos e anota√ß√µes que justificam as decis√µes.

## ‚úÖ Crit√©rios do Professor (como atendemos)

- **Entradas (300‚Äì500)** ‚Üí definiremos uma **amostra reprodut√≠vel** com base em (ano, entes federativos, centis).  
- **Dados granulares** ‚Üí centis (100 cortes por distribui√ß√£o de RTB) garantem granularidade.  
- **Num√©ricos cont√≠nuos** ‚Üí valores monet√°rios (R$) para as 3 vari√°veis.  
- **Exatamente 3 vari√°veis** ‚Üí renda, patrim√¥nio (im√≥veis) e d√≠vidas (3D pronto).  
- **Notebook estilo IDEB** ‚Üí manteremos se√ß√µes claras, decis√µes justificadas e, no 02, poderemos comparar diferentes *k* (e opcionalmente usar dois anos se for relevante).

## üóÇÔ∏è Fonte de Dados, Licen√ßa e Paths

- **Fonte oficial**: Receita Federal ‚Äî Distribui√ß√£o de Renda por Centis.  
- **Arquivo bruto**: `data/raw/distribuicao-renda.csv`  
- **Arquivo tratado (3 vari√°veis)**: `data/processed/distribuicao-renda-3vars.csv`

> Observa√ß√£o: trabalharemos com unidades conforme o arquivo (muitos campos est√£o em **R$ milh√µes**). Faremos padroniza√ß√£o de nomes e registraremos as unidades no metadado.

## üè¢ Entendimento do Neg√≥cio (resumo)

O dataset agrega informa√ß√µes de declara√ß√µes de **IRPF** por **centis de renda tribut√°vel bruta (RTB)**.  
Cada linha representa um **grupo** (centil) para um **ente federativo** em um **ano**.  
As colunas trazem somat√≥rios de rendimentos, bens/direitos, despesas dedut√≠veis, d√≠vidas, etc.

**Hip√≥teses de leitura econ√¥mica (para orientar a an√°lise):**
- `rtb_soma_centil` aproxima **capacidade de gera√ß√£o de renda** do grupo.  
- `bens_imoveis` aproxima **acumula√ß√£o patrimonial** est√°vel.  
- `dividas_onus` aproxima **alavancagem/endividamento**.  

Essas tr√™s dimens√µes juntas formam um **espa√ßo 3D** que deveria segregar perfis de grupos (baixa renda com baixa riqueza e baixa d√≠vida vs. alta renda com alta riqueza e d√≠vida vari√°vel, etc.).

## üìñ Dicion√°rio de Dados (campos relevantes ao projeto)

| Coluna original (exemplo)                 | Nome padronizado        | Tipo      | Unidade         | Observa√ß√£o de neg√≥cio |
|-------------------------------------------|-------------------------|-----------|-----------------|-----------------------|
| Ano-calend√°rio                            | `ano`                   | int       | ano             | Ano da declara√ß√£o     |
| Ente Federativo                           | `uf`                    | string    | ‚Äî               | Estado/Agregado       |
| Centil                                    | `centil`                | float     | 1‚Äì100           | Corte por RTB         |
| Rend. Trib. ‚Äî Soma da RTB do Centil       | `rtb_soma_centil`       | float     | R$ milh√µes      | **Renda** (capacidade)|
| Bens e Direitos ‚Äî Im√≥veis                 | `bens_imoveis`          | float     | R$ milh√µes      | **Patrim√¥nio**        |
| D√≠vidas e √înus                            | `dividas_onus`          | float     | R$ milh√µes      | **Endividamento**     |

> Notas:
> - Confirmaremos nomes exatos das colunas do CSV bruto e mapearemos para os padronizados acima.  
> - Se necess√°rio, convertendo v√≠rgulas decimais e removendo formata√ß√µes.

In [None]:
# Imports, seed e paths (corrigidos para notebook em /notebooks)
from __future__ import annotations
import os, json, math, textwrap, re, sys
from datetime import datetime
from pathlib import Path
from typing import Dict, List, Tuple

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
pd.set_option("display.max_columns", 120)
pd.set_option("display.float_format", lambda v: f"{v:,.3f}")

# Paths
ROOT = Path("..").resolve()  # sobe um n√≠vel a partir de /notebooks
DATA_RAW = ROOT / "data" / "raw" / "distribuicao-renda.csv"
DATA_PROCESSED_DIR = ROOT / "data" / "processed"
DATA_PROCESSED = DATA_PROCESSED_DIR / "distribuicao-renda-3vars.csv"
METADATA = DATA_PROCESSED_DIR / "distribuicao-renda-3vars.metadata.json"
FIG_DIR = ROOT / "reports" / "figures"
for p in [DATA_PROCESSED_DIR, FIG_DIR]:
    p.mkdir(parents=True, exist_ok=True)

FALLBACK_FILE = Path("/mnt/data/distribuicao-renda.csv")
if not DATA_RAW.exists() and FALLBACK_FILE.exists():
    print(f"[INFO] Usando fallback: {FALLBACK_FILE}")
    DATA_RAW = FALLBACK_FILE

print("ROOT        :", ROOT)
print("DATA_RAW    :", DATA_RAW)
print("PROCESSED   :", DATA_PROCESSED)
print("FIG_DIR     :", FIG_DIR)

In [None]:
def read_csv_br(filepath: Path) -> pd.DataFrame:
    """
    Leitura robusta para CSV com poss√≠veis varia√ß√µes:
    - separador ',' ou ';'
    - decimal '.' ou ','
    - encoding 'utf-8' ou 'latin-1'
    Retorna o DataFrame lido com detec√ß√£o autom√°tica.
    """
    trials = [
        dict(sep=";", decimal=",", encoding="utf-8", engine="python"),
        dict(sep=",", decimal=",", encoding="utf-8", engine="python"),
        dict(sep=";", decimal=".", encoding="utf-8", engine="python"),
        dict(sep=",", decimal=".", encoding="utf-8", engine="python"),
        dict(sep=";", decimal=",", encoding="latin-1", engine="python"),
        dict(sep=",", decimal=",", encoding="latin-1", engine="python"),
    ]
    last_err = None
    for opts in trials:
        try:
            df = pd.read_csv(filepath, **opts)
            if df.shape[1] == 1:
                last_err = RuntimeError("prov√°vel separador incorreto (1 coluna)")
                continue
            print(f"[OK] Leitura com par√¢metros: {opts}")
            return df
        except Exception as e:
            last_err = e
    raise RuntimeError(f"Falha ao ler {filepath}: {last_err}")

def snake(s: str) -> str:
    s2 = re.sub(r"[^\w]+", "_", s.strip().lower(), flags=re.UNICODE)
    s2 = re.sub(r"_{2,}", "_", s2).strip("_")
    return s2

def find_col(candidates: List[str], patterns: List[str]) -> str | None:
    for c in candidates:
        cl = c.lower()
        ok = True
        for pat in patterns:
            ors = pat.split("|")
            if not any(o in cl for o in ors):
                ok = False
                break
        if ok:
            return c
    return None

def quantiles_report(s: pd.Series, qs=(0.5, 0.9, 0.95, 0.99)) -> pd.Series:
    qv = s.quantile(q=list(qs))
    qv.index = [f"q{int(q*100):02d}" for q in qs]
    return qv

def savefig(path: Path):
    plt.tight_layout()
    plt.savefig(path, dpi=160)
    print(f"[FIG] salvo: {path}")

## üîç EDA do Arquivo Bruto

Nesta se√ß√£o faremos:
1. **Leitura segura** (encoding, separador, decimal).  
2. **Shape, colunas, tipos, nulos, duplicatas**.  
3. **Estat√≠sticas descritivas** (mediana, p95, p99) para entender caudas.  
4. **Sanidade de chaves l√≥gicas**: (ano, uf, centil) sem duplicidades por registro.  
5. **Distribui√ß√µes**:
   - Histogramas de `rtb_soma_centil`, `bens_imoveis`, `dividas_onus`.  
   - Scatterpairs para rela√ß√µes bivariadas.  
6. **Zeros e ‚Äúaus√™ncias esperadas‚Äù**: bens ou d√≠vidas podem ter zeros; n√£o confundir com *missing*.  
7. **Outliers**: avaliar se s√£o fen√¥meno real (alt√≠ssima concentra√ß√£o no topo) ‚Üí provavelmente **n√£o remover**, apenas documentar e considerar **log-transform** opcional.

In [None]:
df_raw = read_csv_br(DATA_RAW)

print("\n# VIS√ÉO GERAL")
print("shape:", df_raw.shape)
display(df_raw.head(10))

print("\n# COLUNAS")
print(list(df_raw.columns))

print("\n# TIPOS")
display(df_raw.dtypes)

print("\n# NULOS (%)")
display((df_raw.isna().mean() * 100).round(2).sort_values(ascending=False))

print("\n# Duplicatas (linhas id√™nticas):", df_raw.duplicated().sum())

In [None]:
cols = list(df_raw.columns)

col_ano    = find_col(cols, ["ano", "calendario|calend√°rio"])
col_uf     = find_col(cols, ["ente|uf|federativo"])
col_centil = find_col(cols, ["centil"])

col_rtb_soma   = find_col(cols, ["rendimentos|rtb", "soma|somatorio|somat√≥rio"])
col_bens_imov  = find_col(cols, ["bens|direitos", "imoveis|im√≥veis"])
col_dividas    = find_col(cols, ["dividas|d√≠vidas", "onus|√¥nus"])

mapping = {
    col_ano: "ano",
    col_uf: "uf",
    col_centil: "centil",
    col_rtb_soma: "rtb_soma_centil",
    col_bens_imov: "bens_imoveis",
    col_dividas: "dividas_onus",
}

print("# MAPEAMENTO PROPOSTO")
display(mapping)

missing_keys = [k for k in mapping if k is None]
if missing_keys:
    raise ValueError("N√£o consegui detectar automaticamente algumas colunas. Revise os padr√µes desta c√©lula e rode novamente.")

df = df_raw.rename(columns={k: v for k, v in mapping.items()})
df.columns = [snake(c) for c in df.columns]
display(df.head(3))

In [None]:
# === Tipagem robusta ===
df["ano"] = (
    df["ano"].astype(str).str.extract(r"(\d{4})", expand=False)
      .pipe(pd.to_numeric, errors="coerce")
      .astype("Int64")
)

centil_raw = (
    df["centil"]
      .astype(str)
      .str.replace(",", ".", regex=False)
      .str.extract(r"(\d+(?:\.\d+)?)", expand=False)
)
df["centil"] = pd.to_numeric(centil_raw, errors="coerce")

for c in ["rtb_soma_centil", "bens_imoveis", "dividas_onus"]:
    df[c] = pd.to_numeric(df[c], errors="coerce")

df = df.dropna(subset=["rtb_soma_centil", "bens_imoveis", "dividas_onus"])

mask_centil = (df["centil"] >= 1) & (df["centil"] <= 100)
rem_out = (~mask_centil).sum()
if rem_out:
    print(f"[INFO] Removendo {rem_out} linhas com centil fora de [1,100]")
df = df[mask_centil].copy()

dup = df.duplicated(subset=["ano", "uf", "centil"]).sum()
print("Duplicidades em (ano, uf, centil):", dup)

print("Shape ap√≥s limpeza b√°sica:", df.shape)
display(df[["ano", "uf", "centil", "rtb_soma_centil", "bens_imoveis", "dividas_onus"]].head())

In [None]:
num_cols = ["rtb_soma_centil", "bens_imoveis", "dividas_onus"]
display(df[num_cols].describe().T)

qtab = pd.concat([quantiles_report(df[c]) for c in num_cols], axis=1).T
qtab.columns = qtab.columns.str.upper()
display(qtab)

print("anos:", sorted(df["ano"].dropna().unique().tolist())[:10], "...")
print("UFs (amostra):", df["uf"].dropna().unique()[:10])
print("linhas totais:", len(df))

In [None]:
plt.figure(figsize=(12,3.6))
for i,c in enumerate(num_cols, 1):
    plt.subplot(1,3,i)
    plt.hist(df[c].dropna(), bins=40)
    plt.title(c)
    plt.xlabel("valor")
    plt.ylabel("freq")
plt.tight_layout()
plt.show()

pairs = [("rtb_soma_centil","bens_imoveis"),
         ("rtb_soma_centil","dividas_onus"),
         ("bens_imoveis","dividas_onus")]

plt.figure(figsize=(12,3.6))
for i,(x,y) in enumerate(pairs,1):
    plt.subplot(1,3,i)
    plt.scatter(df[x], df[y], s=8, alpha=0.6)
    plt.xlabel(x); plt.ylabel(y)
    plt.title(f"{x} vs {y}")
plt.tight_layout()
plt.show()

for c in num_cols:
    df[f"log_{c}"] = np.log1p(df[c].clip(lower=0))

## üß™ Estrat√©gia de Amostragem (300‚Äì500 linhas)

**Princ√≠pio**: reprodutibilidade + representatividade.

**Passos**:
1. Escolher **um ano-base** (tipicamente o mais recente dispon√≠vel).  
2. Calcular o total de linhas (UF √ó centis) e **estimar** quantos UFs e centis precisamos para cair entre **300‚Äì500**.  
3. Estrat√©gias poss√≠veis (a definir ap√≥s ver o shape real):
   - **E1 (recomendada)**: Fixar ano; **usar todos os UFs**; selecionar um **intervalo cont√≠nuo de centis** (ex.: 1‚Äì20, 30‚Äì60, 90‚Äì100) que d√™ ~300‚Äì500.  
   - **E2**: Fixar ano; **amostrar UFs** (estratificado por regi√£o) e usar **todos os centis** desses UFs.  
4. Fixar uma **seed** para qualquer amostragem aleat√≥ria.  
5. Registrar a regra no `metadata.json`.

> Justificativa did√°tica: manter **centis cont√≠guos** preserva estrutura da distribui√ß√£o e facilita interpretar clusters (baixa, m√©dia, alta renda).

In [None]:
def choose_year_base(data: pd.DataFrame) -> int:
    anos = data["ano"].dropna().astype(int)
    year = int(anos.max())
    print(f"[ANO-BASE] Selecionado automaticamente: {year}")
    return year

def sample_rows(data: pd.DataFrame, target_min: int = 300, target_max: int = 500) -> pd.DataFrame:
    year = choose_year_base(data)
    dfy = data.query("ano == @year").copy()
    possiveis_agregados = {"brasil", "nacional", "todos", "agregado"}
    dfy["uf_lc"] = dfy["uf"].astype(str).str.lower()
    dfy = dfy[~dfy["uf_lc"].isin(possiveis_agregados)].drop(columns=["uf_lc"])

    n_uf = dfy["uf"].nunique()
    print(f"[AMOSTRA] UFs distintos no ano {year}: {n_uf}")

    N_min = math.ceil(target_min / n_uf)
    N_max = min(100, math.floor(target_max / n_uf))
    N = max(1, min(N_max, max(N_min, 10)))
    print(f"[AMOSTRA] Intervalo de centis: 1..{N} (alvo {target_min}-{target_max})")

    df_sample = dfy[dfy["centil"].between(1, N, inclusive="both")].copy()
    print(f"[AMOSTRA] Linhas resultantes: {len(df_sample)}")
    return df_sample

df_sample = sample_rows(df)
display(df_sample.head())
display(df_sample.tail())
print("shape:", df_sample.shape)

In [None]:
dups = df_sample.duplicated(subset=["ano", "uf", "centil"]).sum()
print("Duplicidades (ano,uf,centil) na amostra:", dups)

print("Nulos nas vari√°veis selecionadas:")
display(df_sample[["rtb_soma_centil", "bens_imoveis", "dividas_onus"]].isna().sum())

display(df_sample[["rtb_soma_centil", "bens_imoveis", "dividas_onus"]].describe().T)

## üßº Limpeza & Transforma√ß√µes

1. **Padronizar nomes** de colunas para *snake_case*.  
2. **Selecionar colunas**: `ano`, `uf`, `centil`, `rtb_soma_centil`, `bens_imoveis`, `dividas_onus`.  
3. **Tipos corretos** (int/float); tratar decimal com v√≠rgula, se houver.  
4. **Checagens de integridade**:
   - `centil` ‚àà [1, 100]  
   - Sem duplicidade para (ano, uf, centil) na amostra.  
5. **Tratamento de escalas**:
   - Manter valores em **R$ milh√µes** (consist√™ncia com a fonte).  
   - Criar **vers√£o log-transform** para visualiza√ß√£o, se necess√°rio (`log1p`).  
6. **Escalonamento (para o Notebook 02)**:
   - Salvar **dados crus** e, opcionalmente, uma **c√≥pia escalada** (StandardScaler/MinMax) para K-Means.  
   - A decis√£o final de escalonamento ser√° aplicada no Notebook 02; aqui apenas deixamos a fun√ß√£o e um preview.

In [None]:
cols_final = ["ano", "uf", "centil", "rtb_soma_centil", "bens_imoveis", "dividas_onus"]
df_out = df_sample[cols_final].copy()

# Salvar
DATA_PROCESSED.parent.mkdir(parents=True, exist_ok=True)
df_out.to_csv(DATA_PROCESSED, index=False)
print(f"[SALVO] {DATA_PROCESSED} ({len(df_out)} linhas)")

# Metadados
metadata = {
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "source_file": str(DATA_RAW),
    "output_file": str(DATA_PROCESSED),
    "year_base": int(df_out["ano"].dropna().max()) if len(df_out) else None,
    "sampling_rule": "ano=max; UFs=all (excl. agregados nacionais); centis=1..N tal que linhas entre 300-500",
    "n_rows": int(len(df_out)),
    "units": {
        "rtb_soma_centil": "R$ milh√µes (somat√≥rio por centil)",
        "bens_imoveis": "R$ milh√µes (somat√≥rio por UF-centil)",
        "dividas_onus": "R$ milh√µes (somat√≥rio por UF-centil)",
    },
    "notes": [
        "Colunas padronizadas para snake_case.",
        "Zeros podem representar aus√™ncia real de bens/d√≠vidas.",
        "EDA completa salva em reports/figures/.",
        "Transforma√ß√µes log(1+x) usadas apenas para visualiza√ß√£o na EDA.",
    ],
    "random_seed": RANDOM_SEED,
    "authors": [
        "Anderson de Matos Guimar√£es",
        "Renan Ost",
        "Gustavo Stefano Thomazinho",
    ],
}
import json
with open(METADATA, "w", encoding="utf-8") as f:
    json.dump(metadata, f, ensure_ascii=False, indent=2)
print(f"[SALVO] {METADATA}")

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

X = df_out[["rtb_soma_centil", "bens_imoveis", "dividas_onus"]].values

sc_std = StandardScaler()
X_std = sc_std.fit_transform(X)

sc_mm = MinMaxScaler()
X_mm = sc_mm.fit_transform(X)

print("Preview StandardScaler (primeiras 5 linhas):")
print(pd.DataFrame(X_std, columns=["rtb_std","imoveis_std","dividas_std"]).head())

print("\nPreview MinMaxScaler (primeiras 5 linhas):")
print(pd.DataFrame(X_mm, columns=["rtb_mm","imoveis_mm","dividas_mm"]).head())

## üíæ Persist√™ncia dos Resultados

- **CSV final**: `data/processed/distribuicao-renda-3vars.csv`  
  - Colunas: `ano, uf, centil, rtb_soma_centil, bens_imoveis, dividas_onus`  
  - Somente linhas da **amostra definida**.  
- **Metadados**: `data/processed/distribuicao-renda-3vars.metadata.json`  
  - `created_at`, `source_file`, `year_base`, `sampling_rule`, `n_rows`, `units`, `notes`.  
- **Imagens** (opcional): `reports/figures/eda_*`

## üß∞ Reprodutibilidade e Vers√£o

- Scripts utilit√°rios em `src/utils.py` (fun√ß√µes de leitura, checagens, gr√°ficos r√°pidos).  
- Fixar `RANDOM_SEED` no topo do notebook.  
- Salvar `pip freeze` (opcional) em `requirements.txt` (j√° existe no repo).  
- Comentar decis√µes no corpo do notebook para facilitar a corre√ß√£o.

## ‚öñÔ∏è Limita√ß√µes & √âtica

- Dados **agregados** por centis (n√£o individuais).  
- Poss√≠vel **assimetria extrema** nos top centis (riqueza concentrada).  
- ‚ÄúZero‚Äù em patrim√¥nio/d√≠vida pode indicar **aus√™ncia real**, n√£o erro.  
- Interpreta√ß√µes devem ser **econ√¥micas** e **contextualizadas** (n√£o normativas).

## üó∫Ô∏è Pr√≥ximos Passos (Notebook 02)

- Escolha do **k** (Elbow, Silhouette).  
- **K-Means** com dados escalados.  
- **Gr√°fico 3D interativo** (Plotly) dos clusters.  
- **Anima√ß√£o** (Forma√ß√£o dos clusters / frames por itera√ß√£o ou por *k*).  
- Interpreta√ß√£o dos grupos e relato.

## ‚úÖ Checklist (para eu mesmo)

- [ ] CSV bruto carregado e validado  
- [ ] Dicion√°rio de dados preenchido com nomes exatos  
- [ ] Estrat√©gia de amostragem definida e aplicada  
- [ ] 3 vari√°veis selecionadas e conferidas  
- [ ] CSV tratado salvo + metadados gerados  
- [ ] Gr√°ficos EDA salvos em `reports/figures/`  
- [ ] Commit com mensagem padr√£o **conventional commits**

In [None]:
checks = {
    "csv_tratado_existe": DATA_PROCESSED.exists(),
    "metadata_existe": METADATA.exists(),
    "linhas_entre_300_500": (300 <= len(pd.read_csv(DATA_PROCESSED)) <= 500) if DATA_PROCESSED.exists() else False,
    "tem_colunas_certas": (set(pd.read_csv(DATA_PROCESSED).columns) == {"ano", "uf", "centil", "rtb_soma_centil", "bens_imoveis", "dividas_onus"}) if DATA_PROCESSED.exists() else False,
}
print(checks)
print("[OK] Todos os checks passaram." if all(checks.values()) else "[ATEN√á√ÉO] Algum check falhou.")