# Prepara√ß√£o de Dados (N1)

---

## üóÇÔ∏è Projeto Telco Customer Churn Analysis  

**Dataset:** Telcom Customer Churn (7043 registros, 21 vari√°veis)  
**Objetivo Geral:** Analisar o comportamento de cancelamento de clientes em uma empresa de telecomunica√ß√µes, aplicando t√©cnicas de Machine Learning para prever o churn e identificar fatores que influenciam a reten√ß√£o.

---

## üìã Descri√ß√£o Geral do Tratamento

Nesta etapa ser√£o realizados os principais **processos de limpeza, transforma√ß√£o e padroniza√ß√£o dos dados**.  
O foco √© garantir que o dataset esteja **consistente, estruturado e pronto para an√°lises posteriores**.

**Tarefas previstas:**  
- Leitura e diagn√≥stico inicial do dataset.  
- Tratamento de valores nulos, duplicados e outliers.  
- Convers√£o de tipos e padroniza√ß√£o de nomes de colunas.  
- Codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o de num√©ricas (quando necess√°rio).  
- Gera√ß√£o de artefatos intermedi√°rios e relat√≥rio de qualidade dos dados.

## üîß Configura√ß√£o do Projeto (Bootstrap)

Esta etapa realiza o **bootstrap do ambiente de execu√ß√£o**, preparando o notebook para funcionar em qualquer m√°quina ‚Äî garantindo **reprodutibilidade**, **organiza√ß√£o** e **autonomia**.  
Todas as depend√™ncias, caminhos e configura√ß√µes s√£o ajustadas automaticamente, sem necessidade de modifica√ß√µes manuais.

---

### ‚öôÔ∏è Etapas executadas

#### üß≠ 1. Localiza√ß√£o da raiz do projeto  
- Busca o arquivo `config/defaults.json` subindo diret√≥rios at√© encontr√°-lo.  
- Define `PROJECT_ROOT` como refer√™ncia principal para todo o projeto.

#### üß© 2. Valida√ß√£o do m√≥dulo `utils/`  
- Verifica a exist√™ncia da pasta `utils/` e do arquivo `__init__.py`.  
- Cria o arquivo caso ausente, garantindo que o pacote seja import√°vel.

#### üß± 3. Registro no `sys.path`  
- Injeta o diret√≥rio raiz no `sys.path`.  
- Permite importar m√≥dulos internos (`utils.utils_data`) em qualquer ambiente.

#### ‚ôªÔ∏è 4. Importa√ß√£o das utilidades  
- Importa e recarrega `utils.utils_data` via `importlib.reload()`.  
- Garante que a vers√£o mais recente do m√≥dulo seja utilizada no notebook.

#### üßæ 5. Inicializa√ß√£o de logs  
- Configura o sistema de logging unificado (`reports/data_preparation.log`).  
- Todos os eventos s√£o registrados no console e em arquivo.

#### ‚öôÔ∏è 6. Carregamento de configura√ß√µes  
- L√™ os par√¢metros de `defaults.json` e aplica substitui√ß√µes de `local.json` (se houver).  
- Resolve automaticamente os caminhos padr√£o do N1.

#### üîÑ 7. Reprodutibilidade global e ajustes finais de ambiente  
- Define a semente aleat√≥ria (`RANDOM_SEED`) para NumPy, Random e vari√°veis de ambiente.  
- Assegura resultados reprodut√≠veis entre diferentes execu√ß√µes. 
- Exibe confirma√ß√£o no log sobre configura√ß√£o e paths resolvidos.

---

### ‚úÖ Resultado esperado

- O ambiente √© inicializado corretamente em qualquer m√°quina.  
- O m√≥dulo `utils_data.py` √© importado e recarregado.  
- As pastas e arquivos padr√£o s√£o criados (se necess√°rio).  
- O log central passa a registrar todas as a√ß√µes subsequentes.

---

> üí° **Resumo:** Esta c√©lula garante que o notebook seja totalmente **port√°vel e reprodut√≠vel**, sem necessidade de alterar caminhos ou depend√™ncias manualmente.


In [1]:
# -*- coding: utf-8 -*-
# Bootstrap do projeto ‚Äî encontra a raiz, injeta no sys.path e garante utils/__init__.py

from IPython.display import display
from pathlib import Path
import sys
import logging
from datetime import datetime
import importlib
import pandas as pd
import json
import os
import random
import numpy as np

# ---------------------------------------------------------
# Helpers m√≠nimos
# ---------------------------------------------------------
def _find_up(relative_path: str, start: Path | None = None) -> Path | None:
    start = start or Path.cwd()
    rel = Path(relative_path)
    for base in (start, *start.parents):
        cand = base / rel
        if cand.exists():
            return cand
    return None

# 1) Descobrir a raiz a partir do config/defaults.json
_cfg = _find_up("config/defaults.json")
if _cfg is None:
    raise FileNotFoundError("config/defaults.json n√£o encontrado. Confirme a estrutura do projeto.")
PROJECT_ROOT = _cfg.parent.parent.resolve()
print(f"[INFO] PROJECT_ROOT: {PROJECT_ROOT}")

# 2) Garantir pasta utils/ e __init__.py
UTILS_DIR = PROJECT_ROOT / "utils"
INIT_FILE = UTILS_DIR / "__init__.py"
if not UTILS_DIR.exists():
    raise ModuleNotFoundError(f"Pasta n√£o encontrada: {UTILS_DIR} (crie 'utils' na raiz).")
if not INIT_FILE.exists():
    INIT_FILE.write_text("", encoding="utf-8")
    print(f"[INFO] Criado: {INIT_FILE}")

# 3) Injetar a raiz no sys.path
root_str = str(PROJECT_ROOT)
if root_str not in sys.path:
    sys.path.insert(0, root_str)
print(f"[INFO] sys.path ok. utils: {UTILS_DIR}")

# 4) Importar utils.utils_data
import utils.utils_data as ud
importlib.reload(ud)  # garante vers√£o mais recente ao iterar no notebook

# 5) Configurar logging base do notebook
LOG_FILE = (PROJECT_ROOT / "reports" / "data_preparation.log")
LOG_FILE.parent.mkdir(parents=True, exist_ok=True)
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s | %(levelname)s | %(message)s",
    handlers=[logging.StreamHandler(sys.stdout), logging.FileHandler(LOG_FILE, encoding="utf-8")],
    force=True,
)
logger = logging.getLogger(__name__)
logger.info("Bootstrap iniciado‚Ä¶")

# 6) Carregar configura√ß√µes
config = ud.load_config(PROJECT_ROOT / "config" / "defaults.json",
                        PROJECT_ROOT / "config" / "local.json")

paths = ud.resolve_n1_paths(PROJECT_ROOT)

# 7) Reprodutibilidade (seed) e display
RANDOM_SEED = config.get("random_seed", 42)
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
os.environ["PYTHONHASHSEED"] = str(RANDOM_SEED)

pd.set_option("display.max_rows", 200)
pd.set_option("display.max_columns", 120)

logger.info("Bootstrap conclu√≠do. Config carregada e paths resolvidos.")

[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\utils
2025-11-13 21:27:05,375 | INFO | Bootstrap iniciado‚Ä¶
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:05,377 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\utils
2025-11-13 21:27:05,379 | INFO | sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\utils
2025-11-13 21:27:05,383 | INFO | Bootstrap conclu√≠do. Config carregada e paths resolvidos.


## üîß Configura√ß√£o de Fontes

Nesta etapa s√£o definidos os **arquivos de origem** que servir√£o de base para o projeto.  
Aqui √© onde especifica **quais datasets ser√£o utilizados**, **em qual formato** est√£o (CSV ou Parquet) e, caso existam m√∫ltiplas fontes, **como elas se relacionam** entre si.

---

### üóÇÔ∏è 1. Explora√ß√£o das fontes dispon√≠veis

Antes de configurar o dicion√°rio `SOURCES`, √© poss√≠vel listar os arquivos presentes no diret√≥rio `data/raw/`:

```python
from utils.utils_data import list_raw_sources_safe

RAW_DIR = paths["raw_dir"] if isinstance(paths, dict) else paths.raw_dir
df_sources = list_raw_sources_safe(RAW_DIR, pattern="*.csv", show_rel=True)
```

Esse comando exibe uma tabela com os arquivos encontrados e gera uma **sugest√£o autom√°tica de caminho** para uso no `SOURCES`.  
Basta mover o arquivo desejado para a pasta `data/raw/` e executar o bloco ‚Äî o nome aparecer√° pronto para ser copiado e colado.

---

### ‚öôÔ∏è 2. Defini√ß√£o das fontes de dados (`SOURCES`)

- Cada entrada do dicion√°rio `SOURCES` representa uma **tabela nomeada**.  
- A chave (ex.: `"main"`, `"dim_customers"`) identifica a tabela dentro do projeto.  
- Cada item deve conter:
  - `path`: caminho do arquivo dentro de `data/raw/`;  
  - `format`: formato opcional (`"csv"` ou `"parquet"`, detectado automaticamente se omitido);  
  - `read_opts`: par√¢metros personalizados de leitura (`encoding`, `sep`, `low_memory`, etc.).

Exemplo de estrutura:
```python
SOURCES = {
    "main": {
        "path": RAW_DIR / "dataset.csv",
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo adicional em CSV:
     "dim_customers": {
         "path": RAW_DIR / "exemplo.csv",
         "format": "csv"
     },
    # Exemplo em Parquet:
     "dim_customers": {
         "path": RAW_DIR / "customers.parquet",
         "format": "parquet"
     }
}
```

---

### üîó 3. Configura√ß√£o opcional de jun√ß√µes (`MERGE_STEPS`)

O DataFrame principal √© aquele definido em `MAIN_SOURCE`.  
Se existirem outras fontes, √© poss√≠vel configur√°-las em `MERGE_STEPS` para realizar jun√ß√µes autom√°ticas:

```python
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]
```

Cada item representa uma jun√ß√£o e define:
- o nome da tabela secund√°ria (`right_name`),  
- o tipo de jun√ß√£o (`how`),  
- e as chaves de correspond√™ncia (`left_on`, `right_on`).

---

### ‚úÖ 4. Valida√ß√£o e feedback autom√°tico

Ap√≥s definir as fontes, o bloco de c√≥digo executa uma checagem simples para:

- Confirmar a exist√™ncia do arquivo principal;  
- Detectar automaticamente o formato (`CSV` ou `Parquet`);  
- Exibir mensagens de status:

```
‚úÖ Fontes configuradas com sucesso.
‚Üí Fonte principal: 'main'  | Arquivo: dataset.csv  | Formato detectado: CSV
‚Üí Nenhum merge configurado (usando apenas a fonte principal).
```

---

> üí° **Resumo**
>
>Essa abordagem torna a **configura√ß√£o de fontes interativa, leve e flex√≠vel**:
>- Basta adicionar novos arquivos em `data/raw/` e executar `suggest_source_path()` para gerar os caminhos automaticamente.  
>- Nenhum outro bloco do notebook precisa ser alterado ‚Äî apenas o dicion√°rio `SOURCES` e, se necess√°rio, as jun√ß√µes em `MERGE_STEPS`.

---

üìÇ **Abaixo, bloco auxiliar:**  
Para visualizar as fontes dispon√≠veis em `data/raw/`, execute:

In [2]:
from utils.utils_data import list_raw_sources_safe
RAW_DIR = paths["raw_dir"] if isinstance(paths, dict) else paths.raw_dir
display(list_raw_sources_safe(RAW_DIR, pattern="*.csv", show_rel=True))

Unnamed: 0,file,size,size_bytes,modified,relpath
0,dataset.csv,955 KB,977501,2019-09-27T19:30:08,data\raw\dataset.csv
1,WA_Fn-UseC_-Telco-Customer-Churn.csv,955 KB,977501,2019-09-27T19:30:08,data\raw\WA_Fn-UseC_-Telco-Customer-Churn.csv


In [3]:
#from utils.utils_data import show_source_overview_neat, show_df_summary_neat, run_quality_and_typing, render_quality_and_typing

# Obs: s√≥ alterar este bloco quando precisar mudar os arquivos ou as chaves de jun√ß√£o.

SOURCES = {
    # nome_da_tabela: {path, (opcional) format: 'csv'|'parquet', (opcional) read_opts}
    "main": {
        "path": RAW_DIR / "WA_Fn-UseC_-Telco-Customer-Churn.csv",
        # "format": "csv",  # se omitir, detecta pelo sufixo
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo de segunda fonte em CSV:
    # "dim_customers": {
    #   "path": RAW_DIR / "exemplo.csv",
    #   "format": "csv",  # se omitir, detecta pelo sufixo
    #   "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    # }
    
    # Exemplo de fonte em Parquet:
    # "dim_customers": {
    #     "path": RAW_DIR / "customers.parquet",
    #     "format": "parquet"
    # }
}

# Plano de merges (opcional):
# Cada item √© um passo: (right_name, how, left_on, right_on)
# O DataFrame base ser√° o SOURCES[MAIN_SOURCE]
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]

# Valida√ß√£o
main_path = SOURCES[MAIN_SOURCE]["path"]
main_format = SOURCES[MAIN_SOURCE].get("format") or main_path.suffix.lstrip(".").lower()
print(f"‚úÖ Fontes configuradas com sucesso.")

print(
    f"‚Üí Fonte principal: '{MAIN_SOURCE}'  "
    f"| Arquivo: {main_path.name}  "
    f"| Formato detectado: {main_format.upper()}"
)
if MERGE_STEPS:
    print(f"‚Üí {len(MERGE_STEPS)} etapa(s) de merge configuradas.")
else:
    print("‚Üí Nenhum merge configurado (usando apenas a fonte principal).")


‚úÖ Fontes configuradas com sucesso.
‚Üí Fonte principal: 'main'  | Arquivo: WA_Fn-UseC_-Telco-Customer-Churn.csv  | Formato detectado: CSV
‚Üí Nenhum merge configurado (usando apenas a fonte principal).


# üì• Ingest√£o & Vis√£o R√°pida

Nesta etapa, os **datasets definidos em `SOURCES`** s√£o carregados, inspecionados e validados antes de iniciar o tratamento dos dados.  
O objetivo √© garantir que as fontes estejam corretamente lidas e que o DataFrame principal (`df`) esteja pronto para seguir no pipeline.

---

## ‚öôÔ∏è 1) Carregamento das fontes

O notebook percorre cada item de `SOURCES` para:
- Ler o arquivo (`path`) conforme o formato (`csv` ou `parquet`);
- Aplicar as op√ß√µes de leitura (`read_opts`), quando houver;
- Armazenar o DataFrame em `tables[name]`, onde `name` √© a chave da fonte.

A fun√ß√£o usada √© `ud.load_table_simple()` ‚Äî ela **detecta o formato pelo sufixo** (se n√£o informado) e aplica `read_opts` com seguran√ßa.

Ap√≥s cada leitura, √© mostrada uma vis√£o compacta da fonte via `show_source_overview(name, path, df_src)`, com:
- Linhas, colunas e mem√≥ria aproximada em MB;
- Resumo de tipos (`dtype`);
- Top 20 colunas com maiores √≠ndices de valores ausentes.

> **Nota:** Esta vis√£o √© **por fonte**. Se houver m√∫ltiplas fontes, voc√™ ver√° um bloco para cada uma.

---

## üîó 2) Defini√ß√£o do DataFrame base e jun√ß√µes (opcional)

O dataset principal √© `tables[MAIN_SOURCE]`.  
Se houver fontes adicionais e `MERGE_STEPS` definido, o notebook aplica as jun√ß√µes com `ud.merge_chain()` (ou l√≥gica equivalente), registrando logs √∫teis para depura√ß√£o.  
Sem jun√ß√µes, o fluxo segue apenas com a fonte principal.

---

## üìä 3) Vis√£o consolidada do DataFrame que segue no pipeline

Depois do carregamento (e merges, se houver), exibimos **uma segunda vis√£o** via `show_df_summary(df, label=...)`.  
Ela √© **parecida** com a vis√£o por fonte, mas agora representa **o DataFrame resultante** que seguir√° para as pr√≥ximas etapas (limpeza, tipagem, etc.).

- Estrutura geral (linhas/colunas/mem√≥ria);
- Resumo de tipos;
- Top 20 de faltantes no **df final** (ap√≥s merges, se configurados).

---

> üí°  Resumo
> - **Vis√£o por fonte** (um card por item de `SOURCES`) ajuda a detectar problemas na **leitura individual** (tipos inesperados, aus√™ncias, tamanho/atualiza√ß√£o do arquivo).  
> - **Vis√£o consolidada** confirma o que **segue no pipeline**; se houver merges, √© aqui que aparecem os efeitos combinados.  
> - Logs e relat√≥rios s√£o gravados para apoiar **rastreabilidade** e **reprodutibilidade**.


In [4]:
# Ingest√£o & vis√£o r√°pida ‚Äî organizado (aut√¥nomo)

from utils.utils_data import (
    load_table_simple, merge_chain,
    show_source_overview, show_df_summary
)

# 1) Carregar todas as fontes em 'tables'
tables = {}
for name, cfg in SOURCES.items():
    path = cfg["path"]
    fmt = cfg.get("format")               # None => infere pelo sufixo
    read_opts = cfg.get("read_opts", {})  # ex.: sep/encoding/low_memory para CSV
    df_src = load_table_simple(path, fmt, **read_opts)
    tables[name] = df_src

    # vis√£o organizada por fonte (cards)
    show_source_overview(name, path, df_src)

# 2) Definir df base e aplicar merges (se configurado)
if MAIN_SOURCE not in tables:
    raise KeyError(f"MAIN_SOURCE '{MAIN_SOURCE}' n√£o encontrado. Fontes dispon√≠veis: {list(tables.keys())}")

df = tables[MAIN_SOURCE]

# compat: aceita MERGE_STEPS como lista de tuplas OU de dicts
def _normalize_steps(steps):
    norm = []
    for st in (steps or []):
        if isinstance(st, (list, tuple)) and len(st) >= 4:
            right_name, how, left_on, right_on = st[:4]
            norm.append({"from": right_name, "how": how, "left_on": left_on, "right_on": right_on})
        elif isinstance(st, dict):
            norm.append(st)
    return norm

if MERGE_STEPS:
    steps = _normalize_steps(MERGE_STEPS)
    if steps:
        df = merge_chain(df, tables, steps)
        print("\n=== Vis√£o geral (df ap√≥s merges) ===")
    else:
        print("\n[WARN] MERGE_STEPS definido mas vazio/inv√°lido; seguindo sem merge.")
else:
    print(f"\n[INFO] Usando df base: '{MAIN_SOURCE}' (sem merges).")

# 3) Resumo organizado do df que segue no pipeline (cards)
show_df_summary(df, label=f"MAIN_SOURCE = {MAIN_SOURCE}")


Unnamed: 0,M√©trica,Valor
0,Linhas,7043.0
1,Colunas,21.0
2,Mem√≥ria (MB),6.821


Unnamed: 0,dtype,cols
0,object,18
1,int64,2
2,float64,1


Unnamed: 0,Coluna,dtype,Faltantes,%Faltantes
0,customerID,object,0,0
1,gender,object,0,0
2,SeniorCitizen,int64,0,0
3,Partner,object,0,0
4,Dependents,object,0,0
5,tenure,int64,0,0
6,PhoneService,object,0,0
7,MultipleLines,object,0,0
8,InternetService,object,0,0
9,OnlineSecurity,object,0,0



[INFO] Usando df base: 'main' (sem merges).


Unnamed: 0,M√©trica,Valor
0,Linhas,7043.0
1,Colunas,21.0
2,Mem√≥ria (MB),6.821


Unnamed: 0,dtype,cols
0,object,18
1,int64,2
2,float64,1


Unnamed: 0,Coluna,dtype,Faltantes,%Faltantes
0,customerID,object,0,0
1,gender,object,0,0
2,SeniorCitizen,int64,0,0
3,Partner,object,0,0
4,Dependents,object,0,0
5,tenure,int64,0,0
6,PhoneService,object,0,0
7,MultipleLines,object,0,0
8,InternetService,object,0,0
9,OnlineSecurity,object,0,0


# üß≠ Cat√°logo de DataFrames e Defini√ß√£o do df ‚ÄúAtivo‚Äù

Nesta etapa √© criado um **cat√°logo centralizado de DataFrames** para organizar e gerenciar todas as tabelas carregadas e derivadas ao longo do projeto.  
O objetivo √© garantir **reprodutibilidade, rastreabilidade e controle de vers√µes** das diferentes fases do pipeline de dados.

---

## ‚öôÔ∏è 1. Inicializa√ß√£o do Cat√°logo (`TableStore`)

A classe `TableStore` ‚Äî implementada em `utils/utils_data.py` ‚Äî funciona como um **reposit√≥rio de DataFrames nomeados**.  
Ela √© inicializada com o dicion√°rio `tables` (gerado na etapa de *Ingest√£o & Vis√£o R√°pida*) e define a tabela principal (`MAIN_SOURCE`) como **tabela ativa**.

Durante a execu√ß√£o, √© exibido um feedback informativo, como no exemplo abaixo:

```
‚úÖ Cat√°logo de DataFrames inicializado com sucesso.
‚Üí Total de tabelas carregadas: 1
‚Üí Tabela ativa: 'main'  | Shape: 7043 linhas √ó 21 colunas
```

E, logo em seguida, uma pr√©via do invent√°rio atual:

| name | rows | cols | memory_mb | current |
|------|------|-------|-----------|----------|
| main | 7043 | 21 | 6.821 | ‚úÖ |

---

## üìä 2. Defini√ß√£o do DataFrame Ativo (`df`)

A vari√°vel `df` √© atribu√≠da √† tabela atual com o comando `T.get()`.  
A partir desse ponto, `df` representa o **DataFrame ativo** ‚Äî ou seja, o dataset que segue para as pr√≥ximas etapas do pipeline  
(limpeza, tipagem, tratamento de faltantes, engenharia de atributos, etc.).

---

## üß© 3. Gerenciamento de Tabelas no Cat√°logo

Novos DataFrames podem ser adicionados ao cat√°logo a qualquer momento, com nomes descritivos e controle de vers√£o.  
O `TableStore` tamb√©m permite alternar entre tabelas existentes, consultar o cat√°logo e acessar DataFrames diretamente pelo nome.

**Exemplos pr√°ticos:**
```python
T.add("churn_raw", df, set_current=True)           # adiciona e define como atual
df = T.use("churn_raw")                            # alterna o df ativo
T.add("features_v1", engenharia_de_atributos(df))  # salva uma deriva√ß√£o
df_features = T["features_v1"]                     # acesso direto por nome
display(T.list())                                  # invent√°rio completo
```

---

## üß† 4. Benef√≠cios Pr√°ticos

- Mant√©m o notebook **organizado**, sem sobrescrever DataFrames intermedi√°rios.  
- Permite **comparar diferentes vers√µes** de tratamento ou feature engineering.  
- Facilita o **debug** e o **reprocessamento seletivo** de etapas espec√≠ficas.  
- Garante **visibilidade** sobre o estado atual do pipeline, com feedback visual e logs consistentes.

---

> üí° **Resumo:**  
> O `TableStore` atua como uma **mem√≥ria estruturada** de DataFrames ‚Äî  
> permitindo **adicionar**, **alternar**, **versionar** e **consultar** tabelas de forma controlada.  
>  
> A vari√°vel `df` representa sempre a **tabela ativa atual**, garantindo consist√™ncia e rastreabilidade em todas as etapas subsequentes do pipeline.


In [5]:
from utils.utils_data import TableStore

# 1- Inicializa cat√°logo com as fontes lidas ('tables') e define a base como atual
T = TableStore(initial=tables, current=MAIN_SOURCE)

# 2 - Conveni√™ncia: df = tabela atual (boa pr√°tica para seguir no pipeline)
df = T.get()

# 3 - Feedback visual de sucesso
print(f"‚úÖ Cat√°logo de DataFrames inicializado com sucesso.")
print(f"‚Üí Total de tabelas carregadas: {len(tables)}")
print(f"‚Üí Tabela ativa: '{T.current}'  | Shape: {df.shape[0]} linhas √ó {df.shape[1]} colunas")

# 4Ô∏è4 - Exibe uma pr√©via do cat√°logo
display(T.list().head())

# --- Guia r√°pido  ---
# T.add("churn_raw", df, set_current=True)          # cadastra e ativa
# df = T.use("churn_raw")                           # muda o atual e retorna df
# T.add("features_v1", engenharia_de_atributos(df)) # salva uma deriva√ß√£o
# df_features = T["features_v1"]                    # acesso direto por nome
# display(T.list())                                 # invent√°rio das tabelas

‚úÖ Cat√°logo de DataFrames inicializado com sucesso.
‚Üí Total de tabelas carregadas: 1
‚Üí Tabela ativa: 'main'  | Shape: 7043 linhas √ó 21 colunas


Unnamed: 0,name,rows,cols,memory_mb,current
0,main,7043,21,6.821,True


In [6]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## üß™ Qualidade & Tipagem

Nesta etapa o notebook realiza a **padroniza√ß√£o estrutural e tipagem autom√°tica dos dados**, garantindo que o DataFrame principal (`df`) siga para as pr√≥ximas fases **coerente, limpo e otimizado em mem√≥ria**.  
√â uma das fases mais cr√≠ticas do pipeline, pois evita que inconsist√™ncias de tipo e formato prejudiquem as an√°lises posteriores ou a modelagem.

### üìã O que √© feito aqui

1. **Remo√ß√£o de espa√ßos em branco (`strip_whitespace`)**
   - Elimina espa√ßos extras no in√≠cio e no fim de valores textuais.  
   - Evita diverg√™ncias em compara√ß√µes e agrupamentos (ex.: `"Yes "` ‚â† `"Yes"`).  
   - Essa opera√ß√£o √© **idempotente**: se os dados j√° estiverem limpos, n√£o altera nada.

2. **Convers√£o inteligente de valores num√©ricos (`infer_numeric_like`)**
   - Detecta colunas com valores *aparentemente num√©ricos*, mas armazenados como texto (ex.: `"R$ 120,00"` ou `"1.234,56"`).  
   - Aplica heur√≠sticas para remover s√≠mbolos, normalizar separadores e converter apenas quando a propor√ß√£o de convers√£o for suficiente (`min_ratio = 0.9`).  
   - Evita convers√µes indevidas (ex.: IDs) por meio de uma lista de exclus√£o (`blacklist`).  
   - Gera o relat√≥rio **`cast_report`**, registrando:
     - Coluna analisada  
     - A√ß√£o tomada (convertida, ignorada ou parcial)  
     - Taxa de sucesso e total de valores convertidos.

3. **Otimiza√ß√£o de tipos num√©ricos (`reduce_memory_usage`)**
   - Converte automaticamente `int64` ‚Üí `int32` e `float64` ‚Üí `float32`, reduzindo o consumo de mem√≥ria sem alterar os valores.  
   - O log mostra a diferen√ßa antes e depois (ex.: `Memory reduced: 7.76MB ‚Üí 6.21MB`).

4. **Remo√ß√£o de duplicatas (`deduplicate_rows`)**
   - Verifica e elimina registros repetidos conforme a configura√ß√£o (`subset`, `keep`).  
   - Caso encontre duplicatas, gera um relat√≥rio detalhado e salva o log em `reports/duplicates.csv`.  
   - Exibe uma amostra das duplicatas detectadas, se houver.

5. **Relat√≥rios e feedback autom√°tico**
   - Ao final da execu√ß√£o, exibe um resumo completo:  
     - Linhas e colunas antes/depois  
     - Varia√ß√£o de mem√≥ria (`Œî MB`)  
     - Relat√≥rios gerados (`cast_report`, `duplicates_report`, etc.)  
   - Todos os logs s√£o gravados em `reports/data_preparation.log`.

---

> üí° **Resumo:**  
> Esta c√©lula garante que o dataset esteja **consistente, tipado e otimizado**, pronto para an√°lises e modelagem.  
> Corrige formata√ß√µes, converte n√∫meros armazenados como texto, remove duplicatas e reduz o uso de mem√≥ria ‚Äî tudo com registros autom√°ticos e relat√≥rios salvos para auditoria.


In [7]:
# 1) Qualidade & Tipagem
_result = ud.run_quality_and_typing(df, config)
df = _result["df"]
ud.render_quality_and_typing(_result)

# 2) Corrige avg_charge_per_month quando tenure == 0
df = ud.fix_avg_charge_zero_tenure(df)

# 3) Preenche TotalCharges e outras num√©ricas com flag
df, _nullmeta = ud.null_fill_from_config(df, config)
ud.render_null_fill_report(_nullmeta)

# 4) Recalcula charge_gap e charge_gap_log1p com base nas colunas corrigidas
df = ud.recompute_charge_gap_features(df)


Unnamed: 0,M√©trica,Antes,Depois,Œî
0,Linhas,7043,7043,0
1,Colunas,21,21,0
2,Mem√≥ria,6.82 MB,6.51 MB,-0.31 MB


Unnamed: 0,column,converted_non_null,introduced_nans,dtype_after
16,TotalCharges,7032,11,float64


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:07,314 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:07,320 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:07,351 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [manifest] step='save_report_df' registrado.
2025-11-13 21:27:07,369 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\nulls\fill_summary.csv (1 linhas)
2025-11-13 21:27:07,373 | INFO | [report] salvo: C:\Users\fabio\Projetos DEV\data projects\telco-

‚Ä¢ Colunas preenchidas: 1
  - TotalCharges
‚Ä¢ Flags criadas      : 1
‚Ä¢ Relat√≥rio (comparativo antes/depois) salvo em: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\nulls\fill_summary.csv


Unnamed: 0,column,missing_count,missing_pct
0,TotalCharges,11,0.16


# üßº Padroniza√ß√£o Categ√≥rica

Nesta etapa ocorre a **padroniza√ß√£o global de r√≥tulos textuais** em colunas categ√≥ricas, corrigindo inconsist√™ncias, diferen√ßas de capitaliza√ß√£o e valores redundantes (ex.: `"no internet service"` ‚Üí `"no"`).  
O objetivo √© **garantir uniformidade sem alterar o significado dos dados**, preparando o dataset para codifica√ß√£o e modelagem.

---

## üß≠ Fase Zero ‚Äî Descobrir padr√µes categ√≥ricos (candidatos)
Antes de padronizar, o notebook **sugere colunas candidatas** via heur√≠sticas e exibe *cards* com:
- **Top candidatos** (prioridade por suspeita e baixa cardinalidade)
- **Provavelmente bin√°rias (Yes/No)**
- **Frases de servi√ßo** (ex.: `"no internet service"`, `"no phone service"`)

Use isso para **ajustar seu `CAT_NORM_CFG`** de forma mais fluida.

**Bloco de uso**:
```python
import utils.utils_data as ud

# Sugere e renderiza cards (salva CSVs em reports/categorical_candidates/ se paths.reports_dir existir)
ud.render_categorical_candidates(
    df,
    max_unique_ratio=0.5,
    max_unique_count=50,
    include_numeric_small=True,   # ou False para evitar falsos-positivos num√©ricos (ex.: tenure==1)
    # base_dir=paths.reports_dir, # opcional: persistir CSVs
    top_n=30,
    head_bin=20,
    head_service=20,
)
```

> **Dica:** Se apareceram colunas num√©ricas como ‚Äúbin√°rias‚Äù por conter valor `1`, reexecute com `include_numeric_small=False` para limpar o ru√≠do.

---

## üìã O que √© feito na padroniza√ß√£o

1. **Sele√ß√£o autom√°tica das colunas categ√≥ricas**  
   - Processa colunas com tipo `object`, `string` ou `category`, exceto as listadas em `exclude` (ex.: `"customerID"`).

2. **Limpeza e normaliza√ß√£o de forma**  
   - Remove espa√ßos extras (`trim`) e consolida espa√ßos duplos (`collapse_ws`).  
   - Corrige capitaliza√ß√£o conforme `case` (`"lower"`, `"upper"`, `"title"`, `"none"`).  
   - Opcionalmente remove acentos (`strip_accents`).

3. **Substitui√ß√µes e valores nulos**  
   - Aplica **mapa global** (`global_map`) para corrigir padr√µes (ex.: `"no internet service"` ‚Üí `"no"`).  
   - Suporta **mapa por coluna** (`per_column_map`) para tratamentos finos.  
   - Converte valores definidos em `null_values` (ex.: `"n/a"`, `"na"`, `"-"`) em `NaN`.

4. **Convers√£o opcional para `category`**  
   - Se `cast_to_category=True`, converte colunas textuais em `category`, otimizando mem√≥ria.

5. **Relat√≥rio e registro autom√°tico**  
   - Gera `reports/cat_normalization.csv` com: coluna, altera√ß√µes (`changed`), etc.  
   - Exibe cards com **impacto** (linhas/colunas/mem√≥ria) e **top mudan√ßas**.  
   - Integra√ß√£o com `manifest.json` quando dispon√≠vel.

---

## ‚öôÔ∏è Configura√ß√£o recomendada (`CAT_NORM_CFG`)

> **Importante sobre *case***: O mapeamento em `global_map` √© por texto exato.  
> Para evitar desencontro (ex.: `"No internet service"` virar `"No Internet Service"` antes do mapeamento), recomenda‚Äëse usar **`case: "lower"`** e **chaves em min√∫sculas** no `global_map`.

```python
CAT_NORM_CFG = {
    "enabled": True,
    "exclude": ["customerID"],   # nunca normalizar IDs
    "case": "lower",             # recomenda√ß√£o para mapeamento determin√≠stico
    "strip_accents": True,
    "collapse_ws": True,
    "trim": True,
    "global_map": {
        "no internet service": "no",
        "no phone service": "no",
        "n/a": "no",
        "none": "no"
    },
    "null_values": ["", "na", "n/a", "-"],
    "cast_to_category": False,
    # "per_column_map": {"PaperlessBilling": {"sim": "yes", "nao": "no"}}
}
```

**Exemplo de mapa espec√≠fico por coluna:**
```python
"per_column_map": {
    "InternetService": {"dsl": "dsl", "fiber optic": "fiber optic", "no": "no"}
}
```

---

## üîé Valida√ß√£o r√°pida p√≥s-normaliza√ß√£o
Confirme que as colunas ‚Äútri-estado‚Äù foram reduzidas a **r√≥tulos coerentes** (ex.: `yes/no`):

```python
cols_tri = ["OnlineSecurity","OnlineBackup","DeviceProtection","TechSupport",
            "StreamingTV","StreamingMovies","MultipleLines","InternetService"]
for c in cols_tri:
    print(f"\n{c} ‚Äî value_counts():")
    print(df[c].value_counts(dropna=False).head(10))
```

Se ainda aparecer `"no internet service"`/`"no phone service"`, verifique:
- Se `case` est√° como `"lower"` e as chaves do `global_map` tamb√©m;
- Se `exclude` n√£o est√° retirando a coluna do fluxo;
- Se h√° um `per_column_map` sobrescrevendo o `global_map`.

---

> üí°  Resumo
>A padroniza√ß√£o categ√≥rica √© **inteligente e audit√°vel**: aplica limpeza de forma, substitui√ß√µes globais/espec√≠ficas e pode reduzir mem√≥ria convertendo para `category`.  
> Com a **Fase Zero de Descoberta**, voc√™ ajusta o `CAT_NORM_CFG` com confian√ßa antes da normaliza√ß√£o.  
> Relat√≥rios, logs e manifest garantem **clareza, rastreabilidade e consist√™ncia** ao longo do pipeline.


In [8]:
# ‚Äî‚Äî‚Äî Candidatos √† Padroniza√ß√£o Categ√≥rica (cards + CSVs) ‚Äî‚Äî‚Äî
ud.render_categorical_candidates(
    df,
    # Se quiser mudar os limites:
    max_unique_ratio=0.5,
    max_unique_count=50,
    include_numeric_small=True,
    # Para salvar CSVs, opcionalmente passe uma pasta base (sen√£o tenta usar paths.reports_dir)
    # base_dir=paths.reports_dir,
    top_n=30,
    head_bin=20,
    head_service=20,
)

Unnamed: 0,M√©trica,Valor
0,Total de colunas,24
1,Candidatas (suspected=True),20
2,Bin√°rias (sugeridas Yes/No),16
3,Com frases de servi√ßo,7


Unnamed: 0,column,dtype,n_unique,pct_unique,sample_values,reasons
0,gender,object,2,0.0003,"[Male, Female]",texto/categoria
1,SeniorCitizen,int64,2,0.0003,"[0, 1]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
2,Partner,object,2,0.0003,"[No, Yes]","texto/categoria, bin√°rio (yes/no)"
3,Dependents,object,2,0.0003,"[No, Yes]","texto/categoria, bin√°rio (yes/no)"
4,PhoneService,object,2,0.0003,"[Yes, No]","texto/categoria, bin√°rio (yes/no)"
5,PaperlessBilling,object,2,0.0003,"[Yes, No]","texto/categoria, bin√°rio (yes/no)"
6,Churn,object,2,0.0003,"[No, Yes]","texto/categoria, bin√°rio (yes/no)"
7,TotalCharges_was_missing,int64,2,0.0003,"[0, 1]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
8,MultipleLines,object,3,0.0004,"[No, Yes, No phone service]","texto/categoria, bin√°rio (yes/no), frases de s..."
9,InternetService,object,3,0.0004,"[Fiber optic, DSL, No]","texto/categoria, bin√°rio (yes/no)"


Unnamed: 0,column,dtype,n_unique,pct_unique,sample_values,reasons
1,SeniorCitizen,int64,2,0.0003,"[0, 1]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
2,Partner,object,2,0.0003,"[No, Yes]","texto/categoria, bin√°rio (yes/no)"
3,Dependents,object,2,0.0003,"[No, Yes]","texto/categoria, bin√°rio (yes/no)"
4,PhoneService,object,2,0.0003,"[Yes, No]","texto/categoria, bin√°rio (yes/no)"
5,PaperlessBilling,object,2,0.0003,"[Yes, No]","texto/categoria, bin√°rio (yes/no)"
6,Churn,object,2,0.0003,"[No, Yes]","texto/categoria, bin√°rio (yes/no)"
7,TotalCharges_was_missing,int64,2,0.0003,"[0, 1]","num√©rico baixa cardinalidade, bin√°rio (yes/no)"
8,MultipleLines,object,3,0.0004,"[No, Yes, No phone service]","texto/categoria, bin√°rio (yes/no), frases de s..."
9,InternetService,object,3,0.0004,"[Fiber optic, DSL, No]","texto/categoria, bin√°rio (yes/no)"
10,OnlineSecurity,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."


Unnamed: 0,column,dtype,n_unique,pct_unique,sample_values,reasons
8,MultipleLines,object,3,0.0004,"[No, Yes, No phone service]","texto/categoria, bin√°rio (yes/no), frases de s..."
10,OnlineSecurity,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."
11,OnlineBackup,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."
12,DeviceProtection,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."
13,TechSupport,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."
14,StreamingTV,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."
15,StreamingMovies,object,3,0.0004,"[No, Yes, No internet service]","texto/categoria, bin√°rio (yes/no), frases de s..."


In [9]:
# ‚Äî‚Äî‚Äî Padroniza√ß√£o Categ√≥rica ‚Äî‚Äî‚Äî

# Config gen√©rica do template (ajuste √† vontade)
CAT_NORM_CFG = {
    "enabled": True,
    "exclude": ["customerID"],          # nunca normalizar IDs
    "case": "lower",                    # "lower" | "upper" | "title"
    "strip_accents": True,
    "collapse_ws": True,
    "trim": True,
    "global_map": {
        "no internet service": "no",    
        "no phone service": "no",
        "n/a": "no",
        "none": "no"
    },
    "null_values": ["", "na", "n/a", "-"],
    "cast_to_category": False,
    # "per_column_map": {"PaperlessBilling": {"sim": "Yes", "nao": "No"}}
}

# Caminho do relat√≥rio (se tiver 'paths', mantenha a conven√ß√£o)
cat_report_path = paths.reports_dir / "cat_normalization.csv"

# Executa e renderiza
_cat = ud.run_categorical_normalization(df, cfg=CAT_NORM_CFG, report_path=cat_report_path)
df = _cat["df"]
ud.render_categorical_normalization(_cat)


Unnamed: 0,M√©trica,Antes,Depois,Œî
0,Linhas,7043,7043,0
1,Colunas,24,24,0
2,Mem√≥ria,6.67 MB,6.51 MB,-0.16 MB


Unnamed: 0,column,changed
0,gender,7043
1,Partner,7043
2,Dependents,7043
3,PhoneService,7043
4,MultipleLines,7043
5,InternetService,7043
6,OnlineSecurity,7043
7,OnlineBackup,7043
8,DeviceProtection,7043
9,TechSupport,7043


In [10]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn,TotalCharges_was_missing,charge_gap,charge_gap_log1p
0,7590-VHVEG,female,0,yes,no,1,no,no,dsl,no,yes,no,no,no,no,month-to-month,yes,electronic check,29.85,29.85,no,0,0.0,0.0
1,5575-GNVDE,male,0,no,no,34,yes,no,dsl,yes,no,yes,no,no,no,one year,no,mailed check,56.95,1889.5,no,0,-46.8,-3.867026
2,3668-QPYBK,male,0,no,no,2,yes,no,dsl,yes,yes,no,no,no,no,month-to-month,yes,mailed check,53.85,108.15,yes,0,0.45,0.371564
3,7795-CFOCW,male,0,no,no,45,no,no,dsl,yes,no,yes,yes,no,no,one year,no,bank transfer (automatic),42.3,1840.75,no,0,-62.75,-4.154969
4,9237-HQITU,female,0,no,no,2,yes,no,fiber optic,no,no,no,no,no,no,month-to-month,yes,electronic check,70.7,151.65,yes,0,10.25,2.420368


## ü©π Tratamento de Valores Faltantes

Nesta etapa s√£o tratadas as **aus√™ncias de dados** (valores nulos ou `NaN`) para garantir que o DataFrame siga consistente para as pr√≥ximas fases do pipeline.  
O objetivo √© **preencher ou sinalizar valores faltantes** de forma controlada, preservando a integridade estat√≠stica das colunas e registrando onde ocorreram substitui√ß√µes.

---

### üìã O que √© feito aqui

1. **Gera√ß√£o de relat√≥rio inicial**
   - Exibe um diagn√≥stico das colunas com valores ausentes, mostrando a propor√ß√£o (`missing_pct`) e o total (`missing_count`) de registros nulos.
   - Esses relat√≥rios s√£o salvos automaticamente em `reports/missing/before.csv`.

2. **Aplica√ß√£o da estrat√©gia de imputa√ß√£o**
   - O comportamento √© controlado pela configura√ß√£o `config["missing"]` e pelo par√¢metro `prefer="auto"`.
   - Quando `prefer="auto"`, o sistema escolhe a estrat√©gia dispon√≠vel (por padr√£o, `"simple"`).  
   - A estrat√©gia **simples** executa:
     - Substitui√ß√£o de valores nulos **num√©ricos** pela **mediana** da coluna.  
     - Substitui√ß√£o de valores nulos **categ√≥ricos** pela **moda** (valor mais frequente).  
   - Durante o processo, s√£o criadas **colunas de flag** no formato `<coluna>_was_missing`, indicando quais c√©lulas estavam ausentes originalmente.

3. **Relat√≥rio final e auditoria**
   - Ap√≥s o preenchimento, √© exibido novamente o relat√≥rio de faltantes (`reports/missing/after.csv`) e cards de verifica√ß√£o visual.
   - Caso ainda existam colunas cr√≠ticas, o notebook pode ser ajustado para aplicar m√©todos mais sofisticados.

---

### üßæ Exemplo de flag gerada

| customerID | TotalCharges | TotalCharges_was_missing |
|-------------|--------------|--------------------------|
| 7590-VHVEG  | 29.85        | False                   |
| 9237-HQITU  | 1840.75      | True                    |

Linhas com `True` indicam que o valor original estava ausente antes da imputa√ß√£o ‚Äî servindo como **marca de auditoria** e controle de qualidade.

---

### üìä Visualiza√ß√£o e Relat√≥rios

Ap√≥s a execu√ß√£o, o notebook renderiza automaticamente um **painel de diagn√≥stico**, com:

- **Resumo da etapa:** n√∫mero de linhas, colunas, estrat√©gia aplicada e flags criadas.  
- **Top colunas com faltantes (antes)** ‚Äî ajuda a identificar onde a imputa√ß√£o foi mais significativa.  
- **Verifica√ß√£o p√≥s-imputa√ß√£o** ‚Äî confirma se ainda existem valores ausentes.  
- **Amostra das flags `_was_missing`** criadas.  

Esses relat√≥rios garantem rastreabilidade e transpar√™ncia no pipeline.

---

> üí° **Resumo:**  
> Esta c√©lula identifica e corrige valores faltantes, aplicando regras de imputa√ß√£o simples e registrando as c√©lulas originalmente ausentes por meio de colunas `*_was_missing`.  
> Os relat√≥rios antes/depois e os cards visuais asseguram **clareza, rastreabilidade e controle de qualidade** em toda a etapa.


In [11]:
# === N1 ¬∑ Tratamento de Valores Faltantes ===============

df = ud.coerce_df(df)

res = ud.handle_missing_step(
    df,
    config=config,
    save_reports=True,
    prefer="auto"
)
df = res["df"]

# Renderiza√ß√£o estilizada
ud.render_missing_step(res, df)

[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:08,650 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:08,656 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:08,686 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [manifest] step='save_report_df' registrado.
2025-11-13 21:27:08,708 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\missing\before.csv (24 linhas)
2025-11-13 21:27:08,712 | INFO | [report] salvo: C:\Users\fabio\Projetos DEV\data projects\telco-cus

Unnamed: 0,M√©trica,Valor
0,Estrat√©gia,simple
1,Linhas no df,7043
2,Colunas no df,46
3,Total de valores faltantes (antes),0
4,Colunas com faltantes (antes),0
5,Flags criadas (_was_missing),23


Unnamed: 0,column,missing_count,missing_pct
45,Churn_was_missing,0,0.0
19,Contract_was_missing,0,0.0
9,Dependents_was_missing,0,0.0
15,DeviceProtection_was_missing,0,0.0
11,InternetService_was_missing,0,0.0
3,MonthlyCharges_was_missing,0,0.0
1,MultipleLines_was_missing,0,0.0
14,OnlineBackup_was_missing,0,0.0
13,OnlineSecurity_was_missing,0,0.0
20,PaperlessBilling_was_missing,0,0.0


## üö© Detec√ß√£o de Outliers

Esta etapa identifica **valores at√≠picos** nas colunas num√©ricas cont√≠nuas, adicionando colunas de flag (`*_is_outlier`) que indicam quais registros se desviam do padr√£o estat√≠stico esperado.  
Essas colunas servem para **inspe√ß√£o e auditoria**, sem alterar nem remover dados ‚Äî a decis√£o de tratamento posterior (ajuste, exclus√£o ou manuten√ß√£o) √© **de neg√≥cio**.

---

### ‚öôÔ∏è Como funciona

1. **Verifica a configura√ß√£o**
   - A execu√ß√£o depende da chave `detect_outliers` no arquivo `config/defaults.json`.  
     Se estiver definida como `true`, a detec√ß√£o √© realizada.

2. **Seleciona automaticamente as colunas eleg√≠veis**
   - S√£o analisadas apenas **colunas num√©ricas cont√≠nuas**, ou seja:
     - Tipo `int` ou `float`
     - Com mais de dois valores distintos (evitando vari√°veis bin√°rias)
   - Exemplo: `tenure`, `MonthlyCharges`, `TotalCharges`.

3. **Escolhe o m√©todo estat√≠stico**
   - `"iqr"` ‚Üí usa o **Intervalo Interquartil (Interquartile Range)**:
     - Calcula Q1 (25¬∫ percentil) e Q3 (75¬∫ percentil)
     - Define limites:  
       Inferior = Q1 ‚àí 1.5 √ó IQR  
       Superior = Q3 + 1.5 √ó IQR
     - Valores fora desse intervalo s√£o marcados como outliers.
   - `"zscore"` ‚Üí usa o **desvio-padr√£o (Z-Score)**:
     - Calcula a m√©dia (Œº) e o desvio-padr√£o (œÉ)
     - Para cada valor, obt√©m `z = (x ‚àí Œº) / œÉ`
     - Valores com |z| > 3 s√£o considerados outliers.

4. **Cria√ß√£o das colunas de flag**
   - Para cada vari√°vel analisada, √© criada uma nova coluna:
     ```
     <coluna>_is_outlier
     ```
   - O valor ser√°:
     - `True` ‚Üí registro identificado como outlier  
     - `False` ‚Üí registro dentro do intervalo esperado  
   - O total de flags criadas √© exibido no log e registrado em `reports/outliers/summary.csv`.

5. **Registro no log**
   - Exemplo de log real:
     ```
     [apply_outlier_flags] flags criadas: 3 | m√©todo=iqr
     ```
     Isso significa que 3 colunas num√©ricas cont√≠nuas foram analisadas e receberam flags de outlier.

---

### üìä Exemplo de resultado

| tenure | MonthlyCharges | TotalCharges | tenure_is_outlier | MonthlyCharges_is_outlier | TotalCharges_is_outlier |
|--------|----------------|--------------|-------------------|----------------------------|--------------------------|
| 5      | 35.50          | 190.00       | False             | False                      | False                    |
| 72     | 120.00         | 9999.99      | False             | **True**                   | **True**                 |

---

### üßæ Relat√≥rios e visualiza√ß√£o

- O resumo de detec√ß√£o √© salvo em:  
  `reports/outliers/summary.csv`
- O notebook exibe cards com:
  - **M√©todo e total de flags criadas**
  - **Colunas com outliers detectados**
  - **Percentual de registros afetados**
- Nenhum dado original √© removido ‚Äî apenas sinalizado.

---

> üí° **Resumo:**  
> Esta c√©lula aplica uma **detec√ß√£o estat√≠stica de valores at√≠picos** nas colunas num√©ricas cont√≠nuas.  
> Os resultados s√£o armazenados em colunas `*_is_outlier` e em relat√≥rios dedicados, preservando a integridade do dataset para decis√£o de neg√≥cio posterior.


In [12]:
# ‚Äî‚Äî‚Äî Outliers ‚Äî‚Äî‚Äî

cfg = ud.load_config()  # ou use seu dict manual
df2, out_info = ud.apply_outlier_flags(df, config=cfg)

# render organizado
ud.render_outlier_flags(out_info, df=df2, top_n=20)

# Se quiser seguir o pipeline com df j√° marcado:
df = df2


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:08,974 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:09,028 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:09,034 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:09,065 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [manifest] step='save_report_df' registrado.
2025-11-13 21:27:09,086 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo:

Unnamed: 0,M√©trica,Valor
0,Linhas no df,7043
1,Flags criadas,5
2,Colunas com outliers (>0),1
3,Total de marca√ß√µes de outlier,684


Unnamed: 0_level_0,outliers,pct
flag,Unnamed: 1_level_1,Unnamed: 2_level_1
charge_gap_is_outlier,684,9.71
tenure_is_outlier,0,0.0
MonthlyCharges_is_outlier,0,0.0
TotalCharges_is_outlier,0,0.0
charge_gap_log1p_is_outlier,0,0.0


## üõ†Ô∏è Engenharia de Atributos

Cria√ß√£o de novas colunas que capturem **rela√ß√µes, propor√ß√µes, categorias ou padr√µes** relevantes ao neg√≥cio.  
Essa etapa √© flex√≠vel e pode ser tanto autom√°tica (por regras padr√£o) quanto manual (definida via `config`).

---

### ‚öôÔ∏è O que o bloco de c√≥digo faz

- Verifica se `feature_engineering` est√° **habilitado no config**.  
- Aplica regras **autom√°ticas seguras** (heur√≠sticas Telco cl√°ssicas), como:
  - `avg_charge_per_month` ‚Üí raz√£o entre `TotalCharges / tenure`
  - `charge_gap` ‚Üí diferen√ßa entre o valor esperado (`MonthlyCharges * tenure`) e o total pago
  - `is_long_tenure_24m` ‚Üí flag para clientes com mais de 24 meses de contrato
- Executa transforma√ß√µes **condicionais √† assimetria dos dados**, aplicando `log1p` em colunas num√©ricas com forte distor√ß√£o (|skew| > 1).  
- Ignora colunas sem valor anal√≠tico para transforma√ß√£o (`*_was_missing`, bin√°rias como `0/1`).  
- Permite **regras personalizadas** via `config`, como:
  - `ratios`: lista de pares `[numerador, denominador, nome_da_nova_coluna]`
  - `log1p_cols`: colunas nas quais aplicar transforma√ß√£o logar√≠tmica
  - `binaries`: limiares para gerar flags booleanas
  - `date_parts`: colunas de data das quais extrair partes (ano, m√™s, semana...)

Quando nenhuma regra √© aplic√°vel, o notebook retorna:

```
‚ÑπÔ∏è Nenhuma engenharia de atributos aplicada.
   - Verifique config['feature_engineering'].
   - Exemplos de regras: log1p_cols, ratios, binaries, date_parts.
   - Habilite enable_default_rules para heur√≠sticas autom√°ticas.
```

---

### üí° Exemplos

- **Raz√µes e propor√ß√µes:** `TotalCharges / tenure` ‚Üí gasto m√©dio mensal.  
- **Flags categ√≥ricas:** `Contract == 'Month-to-month'` ‚Üí 1 se contrato mensal.  
- **Contagens de servi√ßos:** soma de colunas bin√°rias (Yes/No).  

Essas novas features tornam as an√°lises mais ricas e **melhoram a performance de modelos preditivos**.

---

### üß† Boas pr√°ticas
- Use nomes **claros e descritivos** para novas features (`avg_charge_per_month`, `is_tenure_ge_12m`, etc.).  
- Evite criar colunas redundantes ou altamente correlacionadas.  
- Sempre documente cada feature gerada ‚Äî especialmente se for usada em modelagem posterior.

---

> üí° **Resumo:**  
> Esta c√©lula adiciona intelig√™ncia ao dataset, criando vari√°veis derivadas que capturam padr√µes impl√≠citos e aumentam o poder explicativo dos modelos,  
> combinando **heur√≠sticas seguras autom√°ticas** com **regras personaliz√°veis** via configura√ß√£o.


In [13]:
# --- Engenharia de Atributos -------------------------------------------------
# Regras opcionais no config:
# config.get("feature_engineering") pode ser:
#   - True/False
#   - dict com op√ß√µes:
#       {
#         "enable_default_rules": True,
#         "log1p_cols": ["MonthlyCharges"],
#         "ratios": [["TotalCharges","tenure","avg_charge_per_month"]],  # num/den->nome
#         "binaries": [["tenure", 24, "is_long_tenure"]],                # col, limiar, nome
#         "date_parts": ["order_date"]                                   # extrai ano/mes/dia/semana
#       }

# helpers de prote√ß√£o
def _is_flag_col(c: str) -> bool:
    return isinstance(c, str) and c.endswith("_was_missing")

def _is_binary(s: pd.Series) -> bool:
    try:
        vals = pd.to_numeric(s, errors="coerce")
        nun = int(vals.dropna().nunique())
        return nun <= 2  # bin√°ria cl√°ssica (0/1 ou duas categorias)
    except Exception:
        return False

# ---------------------------------------------------------------------------
# üîí Helpers "NaN-safe" (apenas adicionados; n√£o removem nada existente)
def _safe_div(num, den, fallback=0.0) -> pd.Series:
    """
    Divis√£o segura: retorna 'num/den' quando den>0 e num n√£o-nulo; caso contr√°rio usa 'fallback'.
    Mant√©m alinhamento pelo √≠ndice.
    """
    a = pd.to_numeric(num, errors="coerce")
    b = pd.to_numeric(den, errors="coerce")
    out = np.where((~pd.isna(a)) & (b.astype("float64") > 0), a / b, fallback)
    return pd.Series(out, index=a.index)

def _signed_log1p(x: pd.Series) -> pd.Series:
    """
    log1p assinado: sign(x) * log1p(|x|) ‚Äî evita NaN de dom√≠nio para valores ‚â§ -1.
    Mant√©m NaN somente onde a entrada √© NaN.
    """
    v = pd.to_numeric(x, errors="coerce")
    return np.sign(v) * np.log1p(np.abs(v))
# ---------------------------------------------------------------------------

fe_cfg = config.get("feature_engineering", False)
if not fe_cfg:
    print("‚öôÔ∏è FE desabilitada em config['feature_engineering'].")
else:
    created = []

    # helper p/ log
    def _log(msg):
        try:
            logger.info(msg)  # se voc√™ tiver logger configurado
        except:
            print(msg)

    # Normaliza config em dict
    if isinstance(fe_cfg, bool):
        fe_cfg = {"enable_default_rules": True}

    # -------------------- 1) Regras expl√≠citas do config --------------------
    # (a) Raz√µes num√©ricas definidas pelo usu√°rio: [[num, den, nome], ...]
    for rule in (fe_cfg.get("ratios", []) or []):
        if len(rule) == 3:
            num, den, out = rule
            if {num, den}.issubset(df.columns):
                # (ajuste NaN-safe)
                df[out] = _safe_div(df[num], df[den], fallback=0.0)
                created.append(out)

    # (b) Log1p em colunas positivas (config) ‚Äî evita flags e bin√°rias
    for col in (fe_cfg.get("log1p_cols", []) or []):
        if col in df.columns and not _is_flag_col(col) and not _is_binary(df[col]):
            s = pd.to_numeric(df[col], errors="coerce")
            pos = s > 0
            if pos.any():
                out = f"{col}_log1p"
                if out not in df.columns:  # n√£o recriar
                    df[out] = np.nan
                    df.loc[pos, out] = np.log1p(s.loc[pos])
                    created.append(out)

    # (c) Bin√°rios por limiar: [[col, threshold, out_name], ...]
    for rule in (fe_cfg.get("binaries", []) or []):
        if len(rule) == 3:
            col, thr, out = rule
            if col in df.columns:
                try:
                    df[out] = (pd.to_numeric(df[col], errors="coerce") >= float(thr))
                    created.append(out)
                except Exception:
                    pass

    # (d) Partes de data (ano, m√™s, dia, semana ISO)
    for col in (fe_cfg.get("date_parts", []) or []):
        if col in df.columns and pd.api.types.is_datetime64_any_dtype(df[col]):
            for part in ["year", "month", "day", "week"]:
                out = f"{col}_{part}"
                try:
                    if part == "week":
                        df[out] = getattr(df[col].dt.isocalendar(), "week")
                    else:
                        df[out] = getattr(df[col].dt, part)
                    created.append(out)
                except Exception:
                    pass

    # -------------------- 2) Regras padr√£o (heur√≠sticas seguras) ------------
    if fe_cfg.get("enable_default_rules", True):
        # (a) Telco cl√°ssico: cobran√ßa m√©dia mensal estimada (NaN-safe para tenure==0)
        if {"TotalCharges", "tenure"}.issubset(df.columns):
            out = "avg_charge_per_month"
            df[out] = _safe_div(df["TotalCharges"], df["tenure"], fallback=0.0)
            created.append(out)

        # (b) Diferen√ßa entre o esperado (tenure*Monthly) e TotalCharges
        if {"MonthlyCharges", "tenure", "TotalCharges"}.issubset(df.columns):
            exp_total = (
                pd.to_numeric(df["MonthlyCharges"], errors="coerce") *
                pd.to_numeric(df["tenure"], errors="coerce")
            )
            out = "charge_gap"
            df[out] = pd.to_numeric(df["TotalCharges"], errors="coerce") - exp_total
            created.append(out)

            # (b.1) log1p do charge_gap ‚Äî usa vers√£o assinada para evitar NaN de dom√≠nio
            out_log = f"{out}_log1p"
            if out_log not in df.columns:
                df[out_log] = _signed_log1p(df[out])
                created.append(out_log)

        # (c) Limiar simples de fidelidade
        if "tenure" in df.columns:
            out = "is_long_tenure_24m"
            df[out] = (pd.to_numeric(df["tenure"], errors="coerce") >= 24)
            created.append(out)

        # (d) log1p autom√°tico em num√©ricas com valores > 0 e forte assimetria
        num_cols = df.select_dtypes(include=[np.number]).columns
        for col in num_cols:
            if _is_flag_col(col) or _is_binary(df[col]):
                continue
            s = pd.to_numeric(df[col], errors="coerce")
            if (s > 0).sum() > 0:
                skew = s.skew(skipna=True)
                if pd.notna(skew) and abs(skew) > 1.0:
                    out = f"{col}_log1p"
                    # evita recriar se j√° existe por config
                    if out not in df.columns:
                        df[out] = np.log1p(s.clip(lower=0))
                        created.append(out)

    # -------------------- 3) Relato do que foi feito -------------------------
    if created:
        created = sorted(set(created))
        _log(f"[feature_engineering] Features criadas: {len(created)} -> {created[:8]}{'...' if len(created)>8 else ''}")
        # Visual r√°pido (limita para n√£o poluir)
        display(df[created].head(10))
    else:
        _log("[feature_engineering] Nenhuma feature criada (sem regras aplic√°veis para as colunas atuais).")
        print(
            "‚ÑπÔ∏è Nenhuma engenharia de atributos aplicada.\n"
            "   - Verifique `config['feature_engineering']`.\n"
            "   - Exemplos de regras: "
            "`log1p_cols`, `ratios`, `binaries`, `date_parts`.\n"
            "   - Habilite `enable_default_rules` para heur√≠sticas autom√°ticas."
        )


2025-11-13 21:27:10,258 | INFO | [feature_engineering] Features criadas: 3 -> ['avg_charge_per_month', 'charge_gap', 'is_long_tenure_24m']


Unnamed: 0,avg_charge_per_month,charge_gap,is_long_tenure_24m
0,29.85,0.0,False
1,55.573529,-46.8,True
2,54.075,0.45,False
3,40.905556,-62.75,True
4,75.825,10.25,False
5,102.5625,23.3,False
6,88.609091,-10.8,False
7,30.19,4.4,False
8,108.7875,111.65,True
9,56.257258,6.65,True


# üìÖ Tratamento de Datas

Esta etapa detecta e converte colunas de datas de forma **autom√°tica e controlada**, criando **features temporais** √∫teis para an√°lises e modelos preditivos.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas de data

O sistema procura automaticamente colunas com nomes que contenham termos como  
`date`, `data`, `dt_`, `_dt`, `_date`, `_at`, `timestamp`, `created`, `updated`.

Tamb√©m √© poss√≠vel **for√ßar colunas espec√≠ficas** definindo manualmente em:

```python
date_cfg["explicit_cols"] = ["StartDate", "EndDate"]
```

---

### üîπ Convers√£o para datetime com auditoria

Cada coluna candidata √© testada com diferentes formatos e tentativas de *parsing*.  
O relat√≥rio **`parse_report`** mostra:

| column      | parsed_ratio | converted |
|--------------|--------------|------------|
| order_date   | 1.00         | True       |
| start_date   | 0.35         | False      |

- **column:** nome da coluna testada  
- **parsed_ratio:** porcentagem de valores convertidos com sucesso  
- **converted:** indica se a coluna foi convertida (baseado no `min_ratio`)

---

### üîπ Cria√ß√£o autom√°tica de features temporais

Para cada coluna convertida em `datetime`, s√£o geradas vari√°veis derivadas como:

`*_year`, `*_month`, `*_day`, `*_dayofweek`, `*_quarter`, `*_week`,  
`*_is_month_start`, `*_is_month_end`

O prefixo das novas colunas √© o **nome original da coluna de data**.

---

### üîé Scanner de candidatos (modo silencioso)

Caso **nenhuma coluna de data seja detectada**, o notebook realiza uma varredura leve nas colunas de texto (`object`)  
para encontrar valores que *parecem* datas, exibindo o relat√≥rio:

| column | parse_ratio | sample_examples |
|---------|--------------|----------------|
| hire_dt | 0.42 | ['2020-01-01', '2021-05-13'] |

Esse scanner:
- roda de forma **silenciosa** (sem `UserWarning` do pandas);
- analisa apenas uma amostra dos dados (mais r√°pido);
- sugere colunas para incluir em `dates.explicit_cols` ou `dates.formats`.

---

### üß± Comportamento defensivo e visual limpo

- Se **nenhuma data for detectada**, a c√©lula apenas informa:
  ```
  üìÖ Tratamento de Datas
  Nenhuma coluna de data detectada ou convertida.
  ```
- Se houver candidatos, eles s√£o listados em uma tabela visual organizada.
- Se datas forem detectadas, as novas features s√£o mostradas com cards e pr√©via de valores.

---

### ‚öôÔ∏è Configura√ß√£o (`date_cfg`)

| Par√¢metro       | Descri√ß√£o                                                        | Exemplo               |
|-----------------|------------------------------------------------------------------|------------------------|
| `detect_regex`  | Padr√£o para localizar colunas com nomes de data                 | `"date|timestamp|_at"` |
| `explicit_cols` | Lista manual de colunas a converter                             | `["StartDate"]`       |
| `dayfirst`      | Define se o formato √© D/M/Y                                     | `True` para üáßüá∑        |
| `utc`           | Define se a convers√£o deve ser em UTC                           | `False`               |
| `formats`       | Lista de formatos espec√≠ficos                                   | `["%d/%m/%Y"]`        |
| `min_ratio`     | Fra√ß√£o m√≠nima de parsing bem-sucedido para aceitar a convers√£o  | `0.8`                 |

---

> üí° **Resumo:**  
> Esta c√©lula realiza o reconhecimento e parsing autom√°tico de colunas de data,
gera vari√°veis derivadas como ano, m√™s, dia e semana,
e, quando n√£o h√° datas, executa um **scanner silencioso** para sugerir poss√≠veis colunas.  
> Tudo isso √© exibido em uma **interface limpa e defensiva**, sem gerar warnings,
mantendo o pipeline est√°vel e transparente.


In [14]:
# --- Tratamento de Datas -----------------------------------------------------
date_cfg = dict(config.get("dates", {})) or {
    "detect_regex": r"(date|data|dt_|_dt$|_date$|_at$|time|timestamp|created|updated)",
    "explicit_cols": [],
    "dayfirst": False,
    "utc": False,
    "formats": [],
    "min_ratio": 0.80,
    "report_path": "date_parse_report.csv"
}

# 1) Parsing + relat√≥rio (mant√©m sua API atual)
df, parse_report, parsed_cols = ud.parse_dates_with_report_cfg(df, date_cfg)

# 2) Se n√£o h√° colunas convertidas, roda um scanner SILENCIOSO e R√ÅPIDO
candidates = None
created = []
if not parsed_cols:
    candidates = ud.scan_date_candidates(
        df,
        cfg=date_cfg,
        min_ratio=0.20,   # coluna ‚Äúsuspeita‚Äù se >= 20% parse√°vel
        sample=2000       # acelera e reduz barulho
    )
else:
    # 3) Se houve parsing, expande features de data (como voc√™ j√° fazia)
    created = ud.expand_date_features_plus(
        df, parsed_cols,
        features=["year","month","day","dayofweek","quarter","week","is_month_start","is_month_end"],
        prefix_mode="auto"
    )
    logger.info(f"[dates] features criadas: {len(created)}")

# 4) Render organizado (cards + tabelas)
ud.render_date_step(parsed_cols, parse_report=parse_report, candidates=candidates, created_features=created)

# 5) Se quiser um preview das features criadas:
if created:
    display(df[created].head(10))


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:11,218 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:11,225 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:11,256 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [manifest] step='save_report_df' registrado.
2025-11-13 21:27:11,274 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\date_parse_report.csv (0 linhas)
2025-11-13 21:27:11,277 | INFO | [report] salvo: C:\Users\fabio\Projetos DEV\data projects\telco-c

# üóìÔ∏è Cria√ß√£o da Tabela Calend√°rio (`dim_date`)

Esta etapa constr√≥i automaticamente uma **tabela calend√°rio completa** ‚Äî tamb√©m chamada de **dimens√£o de tempo** ‚Äî a partir de uma coluna de data existente no dataset principal.  
Essa dimens√£o √© essencial para **an√°lises temporais**, **dashboards** e **modelos preditivos**, permitindo agrupamentos e compara√ß√µes ao longo do tempo.

---

## üìã O que acontece aqui

### üîπ Detec√ß√£o e valida√ß√£o da coluna de data

A fun√ß√£o `run_calendar_step()` tenta identificar automaticamente uma coluna de data no DataFrame.  
Se nenhuma for encontrada, a etapa √© **pulada com seguran√ßa**, exibindo o card:

```
üìÜ Dimens√£o Calend√°rio
Status: skipped
Nenhum campo de data dispon√≠vel. Defina 'date_col' ou trate datas antes.
```

Voc√™ tamb√©m pode definir manualmente a coluna e a frequ√™ncia de agrega√ß√£o:

```python
CAL_DATE_COL = "order_date"   # nome da coluna datetime
CAL_FREQ = "D"                # frequ√™ncia: "D" (di√°rio), "W" (semanal), "M" (mensal)
CAL_OUT = "data/processed/dim_date.parquet"
```

---

### üîπ Constru√ß√£o da dimens√£o calend√°rio

Quando uma coluna v√°lida √© encontrada, a fun√ß√£o:

1. **Converte automaticamente para datetime**, se necess√°rio (quando a taxa de parsing ‚â• 80%).  
2. **Gera todas as datas** entre o m√≠nimo e o m√°ximo da coluna informada.  
3. Cria vari√°veis derivadas como:

| Coluna            | Descri√ß√£o                                |
|--------------------|-------------------------------------------|
| `date`             | Data base (chave prim√°ria)               |
| `year`             | Ano                                      |
| `month`            | M√™s num√©rico                             |
| `day`              | Dia do m√™s                               |
| `quarter`          | Trimestre (1‚Äì4)                          |
| `week`             | Semana ISO                               |
| `dayofweek`        | Dia da semana (0 = segunda, 6 = domingo) |
| `is_month_start`   | Indica se a data √© o primeiro dia do m√™s |
| `is_month_end`     | Indica se a data √© o √∫ltimo dia do m√™s   |

---

### üîπ Armazenamento e registro

A tabela √© salva automaticamente pelo `ud.save_table()`  
‚Üí o caminho padr√£o √© `data/processed/dim_date.parquet` (ou `.csv`, se preferir).  

Se o cat√°logo `T` estiver ativo, a fun√ß√£o tamb√©m registra a tabela:

```python
T.add("dim_date", dim_date)
```

Assim, ela pode ser reutilizada em outras partes do pipeline.

---

### ‚öôÔ∏è Execu√ß√£o simplificada

O novo fluxo exige apenas uma chamada direta:

```python
info = ud.run_calendar_step(
    df,
    date_col=CAL_DATE_COL,
    freq=CAL_FREQ,
    output=CAL_OUT,
    config=config,
    paths=paths,
    catalog=T if 'T' in globals() else None
)

ud.render_calendar_step(info)
```

O `render_calendar_step()` exibe um resumo visual com:
- Status da execu√ß√£o (‚úÖ ok / ‚ö†Ô∏è skipped)
- Coluna usada
- Frequ√™ncia
- Per√≠odo coberto
- Caminho de sa√≠da
- Pr√©via das primeiras linhas da tabela

---

### üß† Comportamento defensivo

- Se nenhuma coluna de data existir ‚Üí o pipeline **n√£o quebra**.  
- Se a coluna estiver fora do formato datetime ‚Üí o sistema **sugere executar o tratamento de datas**.  
- Se tudo estiver correto ‚Üí a tabela √© criada, salva e registrada automaticamente.

---

> üí° **Resumo:**  
> A fun√ß√£o `run_calendar_step()` cria uma **tabela calend√°rio completa e reutiliz√°vel**, pronta para jun√ß√µes e agrega√ß√µes temporais.  
> O processo √© **automatizado**, **seguro** e segue as conven√ß√µes do template (`data/processed/`).  
> Caso n√£o haja colunas de data, a etapa √© apenas **pulada com aviso elegante**, mantendo o pipeline fluido e robusto.


In [15]:
# --- Cria√ß√£o da Tabela Calend√°rio (dim_date) --------------------------------
# (opcional) definir manualmente; se None, a fun√ß√£o tenta descobrir:
CAL_DATE_COL = None            # ex.: "order_date"  | None ‚Üí auto-descoberta (primeira datetime)
CAL_FREQ     = "D"             # "D", "MS", "QS", etc.
CAL_OUT      = None            # ex.: "data/processed/dim_date.parquet" | None ‚Üí default do template

info = ud.run_calendar_step(
    df,
    date_col=CAL_DATE_COL,
    freq=CAL_FREQ,
    output=CAL_OUT,
    config=config,
    paths=paths,    # se voc√™ tem o objeto 'paths' no notebook
    catalog=T if 'T' in globals() else None  # registra no cat√°logo se existir
)

ud.render_calendar_step(info)


[INFO] [calendar] Nenhum campo de data dispon√≠vel. Defina 'date_col' ou trate datas antes.
2025-11-13 21:27:12,432 | INFO | [calendar] Nenhum campo de data dispon√≠vel. Defina 'date_col' ou trate datas antes.


# üìù Tratamento de Texto (opcional)

Esta etapa extrai **m√©tricas num√©ricas e l√≥gicas a partir de colunas textuais**, transformando texto livre em informa√ß√µes quantitativas √∫teis para **an√°lise explorat√≥ria e modelagem**.  

√â uma forma leve e controlada de **estruturar dados n√£o num√©ricos**, sem recorrer a t√©cnicas avan√ßadas de NLP.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas textuais

O sistema identifica automaticamente todas as colunas com tipo `object` ou `string`,  
ignorando as listadas na *blacklist* (`TEXT_CFG["blacklist"]`).

Essas colunas geralmente representam textos curtos, como categorias, descri√ß√µes,  
nomes de servi√ßos ou observa√ß√µes registradas em texto livre.

---

### üîπ Limpeza e padroniza√ß√£o

Antes de calcular as m√©tricas, os textos passam por uma limpeza leve:
- Remo√ß√£o de **espa√ßos duplicados** e **trim** nas extremidades.  
- Convers√£o para **min√∫sculas**, garantindo consist√™ncia em an√°lises de termos.

Esses comportamentos s√£o controlados pelas chaves:

```python
"lower": True,
"strip_collapse_ws": True
```

---

### üîπ Gera√ß√£o de m√©tricas textuais

Para cada coluna textual analisada, o sistema calcula estat√≠sticas b√°sicas e as salva em um **resumo CSV**:

| Campo do Resumo  | Descri√ß√£o                                      |
|------------------|------------------------------------------------|
| `column`         | Nome da coluna textual analisada               |
| `non_null`       | Quantidade de c√©lulas n√£o nulas                |
| `avg_len`        | Comprimento m√©dio (n√∫mero de caracteres)       |
| `avg_words`      | Quantidade m√©dia de palavras                   |

Essas m√©tricas s√£o √∫teis para identificar colunas com textos longos, inconsistentes ou padronizados demais.

---

### üîπ Presen√ßa de palavras-chave

O sistema tamb√©m verifica a ocorr√™ncia de palavras espec√≠ficas em cada coluna textual.

Exemplo:

```python
TEXT_CFG["keywords"] = ["error", "cancel", "premium"]
```

Cria m√©tricas como:
- `kw_error_count`  
- `kw_cancel_count`  
- `kw_premium_count`

Essas colunas representam **quantas vezes cada termo aparece** no conjunto textual ‚Äî e s√£o √∫teis em an√°lises de sentimento, churn, reclama√ß√µes ou feedbacks de clientes.

---

### üîπ Exporta√ß√£o e visualiza√ß√£o

O resultado √© salvo automaticamente em:

```
reports/artifacts/text_features/text_features_summary.csv
```

E o notebook exibe um **painel visual resumido**, via fun√ß√£o:

```python
ud.render_text_features_summary(text_summary)
```

Esse painel apresenta:
- Total de colunas textuais analisadas  
- Quantidade total de c√©lulas n√£o nulas  
- Top colunas por comprimento m√©dio  
- Ocorr√™ncias agregadas por palavra-chave  

---

### ‚öôÔ∏è Configura√ß√£o (`TEXT_CFG`)

| Par√¢metro              | Descri√ß√£o                                                       | Exemplo                              |
|------------------------|------------------------------------------------------------------|--------------------------------------|
| `lower`                | Converte o texto para min√∫sculas                                | `True`                               |
| `strip_collapse_ws`    | Remove espa√ßos duplicados e limpa extremidades                  | `True`                               |
| `keywords`             | Lista de termos a detectar no texto                             | `["error", "cancel", "premium"]`     |
| `blacklist`            | Colunas a ignorar durante o processamento                       | `["customerID"]`                     |
| `export_summary`       | Salva relat√≥rio com resumo das features geradas                 | `True`                               |

---

### üß† Boas pr√°ticas

- Aplique esta etapa apenas em colunas realmente textuais (n√£o IDs ou c√≥digos).  
- Personalize a lista de **palavras-chave** conforme o contexto do dataset.  
- Caso o dataset n√£o possua colunas de texto, o processo ser√° ignorado com seguran√ßa.  
- Utilize o painel e o arquivo `text_features_summary.csv` para auditoria e documenta√ß√£o.

---

> üí° **Resumo:**  
> Esta etapa transforma colunas textuais em **indicadores num√©ricos e l√≥gicos**, calculando comprimento m√©dio, contagem de palavras e ocorr√™ncia de termos espec√≠ficos.  
> Os resultados s√£o exportados em CSV e apresentados de forma visual no notebook,  
> garantindo **clareza, rastreabilidade e integra√ß√£o consistente** dos dados textuais ao pipeline.


In [16]:
# ‚Äî‚Äî‚Äî Tratamento de Texto (com visual limpo) ‚Äî‚Äî‚Äî
TEXT_CFG = {
    "lower": True,
    "strip_collapse_ws": True,
    "keywords": ["error", "cancel", "premium"],
    "blacklist": ["customerID"],
    "export_summary": True,
}

if config.get("text_features", True):
    summary_path = ud.get_artifacts_dir("text_features")

    # mant√©m sua fun√ß√£o atual
    df, text_summary = ud.extract_text_features(
        df,
        lower=TEXT_CFG["lower"],
        strip_collapse_ws=TEXT_CFG["strip_collapse_ws"],
        keywords=TEXT_CFG["keywords"],
        blacklist=TEXT_CFG["blacklist"],
        export_summary=TEXT_CFG["export_summary"],
        summary_dir=summary_path
    )

    # nova renderiza√ß√£o amig√°vel
    ud.render_text_features_summary(
        text_summary,
        keywords=TEXT_CFG["keywords"],
        top=20
    )


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:14,283 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\artifacts\text_features
2025-11-13 21:27:14,286 | INFO | [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\artifacts\text_features
[INFO] [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\artifacts\text_features\text_features_summary.csv (16 colunas)
2025-11-13 21:27:14,947 | INFO | [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\artifacts\text_features\text_features_summary.csv (16 colunas)


  df_out[kw_flag] = s.str.contains(rf"\b{kw}\b", regex=True, na=False)


Unnamed: 0,M√©trica,Valor
0,Colunas textuais analisadas,16
1,Total de c√©lulas n√£o nulas (texto),112688


Unnamed: 0,column,non_null,avg_len,avg_words
0,PaymentMethod,7043,18.57,2.44
1,Contract,7043,11.3,1.45
2,InternetService,7043,6.3,1.44
3,gender,7043,4.99,1.0
4,PhoneService,7043,2.9,1.0
5,PaperlessBilling,7043,2.59,1.0
6,Partner,7043,2.48,1.0
7,MultipleLines,7043,2.42,1.0
8,StreamingMovies,7043,2.39,1.0
9,StreamingTV,7043,2.38,1.0


Unnamed: 0,keyword_metric,ocorrencias
0,kw_error_count,0
1,kw_cancel_count,0
2,kw_premium_count,0


# üéØ Cria√ß√£o e Valida√ß√£o da Vari√°vel-Alvo (`target`)

Esta etapa garante que o dataset contenha uma **vari√°vel-alvo bin√°ria** adequada para **modelos supervisionados de Machine Learning** ‚Äî como classifica√ß√£o de *churn*, fraude, aprova√ß√£o de cr√©dito, etc.  

O processo segue o padr√£o definido no arquivo `config/defaults.json`, permitindo que a cria√ß√£o e valida√ß√£o da *target* sejam **autom√°ticas, reproduz√≠veis e rastre√°veis**.

---

## ‚öôÔ∏è Configura√ß√£o do Target

O comportamento √© controlado pela se√ß√£o `"target"` do arquivo de configura√ß√£o.  
Exemplo t√≠pico (como no dataset *Telco Customer Churn*):

```json
"target": {
  "name": "Churn",
  "source": "Churn",
  "positive": "Yes",
  "negative": "No"
}
```

### Par√¢metros
| Chave | Descri√ß√£o | Exemplo |
|--------|------------|----------|
| `name` | Nome final da coluna de destino | `"Churn"` |
| `source` | Coluna de origem (caso o nome seja diferente) | `"Churn"` |
| `positive` | Valor que representa a classe positiva | `"Yes"` |
| `negative` | Valor que representa a classe negativa | `"No"` |

> üí° **Dica:** se o dataset j√° tiver a coluna-alvo, o sistema apenas validar√° e manter√° como est√° ‚Äî sem sobrescrever.

---

### ‚öôÔ∏è Execu√ß√£o e L√≥gica Interna

```python
df, target_name, class_map, tgt_report = ud.ensure_target_from_config(df, config, verbose=True)
display(tgt_report)
globals()["class_map"] = class_map
```

Etapas internas:

1. **Verifica se a coluna-alvo j√° existe**
   - Se existir (`Churn`), exibe mensagem:  
     ```
     [target] Coluna 'Churn' j√° existe ‚Äî nenhuma a√ß√£o necess√°ria.
     ```
   - Caso contr√°rio, cria automaticamente a coluna com base nas configura√ß√µes.

2. **Aplica o mapeamento definido**
   - Exemplo: `Yes ‚Üí 1`, `No ‚Üí 0`.

3. **Gera um mini-relat√≥rio**
   - Inclui nome, status, origem e classes positivas/negativas.  
   - Retorna tamb√©m o `class_map`, usado nos notebooks seguintes.

---

## üìä Mini-Relat√≥rio de Valida√ß√£o

| target | status     | source | positive | negative |
|---------|-------------|---------|-----------|-----------|
| Churn   | j√° existe  | Churn   | Yes       | No        |

Esse relat√≥rio resume como o *target* foi identificado ou criado, garantindo **transpar√™ncia e rastreabilidade**.

---

## üîç Verifica√ß√£o de Consist√™ncia

Ap√≥s validar ou criar o *target*, o notebook checa os valores e tipos:

```python
print(df["Churn"].unique())
print(df["Churn"].value_counts())
```

Resultados esperados:

| Caso | Exemplo de Sa√≠da | Interpreta√ß√£o |
|------|------------------|---------------|
| Target bin√°rio correto | `[0, 1]` | ‚úÖ Pronto para ML |
| Target textual | `['Yes', 'No']` | üîÑ Converter com `.map({'Yes':1,'No':0})` |
| Target booleano | `[True, False]` | üîÑ Converter com `.astype(int)` |

---

## üß† Boas Pr√°ticas

- Defina claramente qual valor representa a **classe positiva** (ex.: `"Yes"`, `"Exited"`, `"Churned"`).  
- Evite m√∫ltiplas colunas redundantes ‚Äî centralize em uma s√≥ (`Churn`).  
- Para modelos multiclasse, amplie o mapeamento conforme necess√°rio.  
- Sempre valide a distribui√ß√£o de classes com `value_counts()` antes da modelagem.

---

## üöÄ Integra√ß√£o com o N2 (Modelagem)

A vari√°vel `class_map` √© registrada globalmente para que o **Notebook N2** possa reutiliz√°-la:

```python
globals()["class_map"] = class_map
```

Isso garante que o mesmo mapeamento seja aplicado nas fases de:
- Convers√£o de r√≥tulos (`1 ‚Üí 'Yes'`, `0 ‚Üí 'No'`);  
- Exibi√ß√£o de m√©tricas e resultados em termos leg√≠veis.

---

‚úÖ **Status esperado ap√≥s execu√ß√£o**
- Target identificado: `Churn`  
- Tipo: categ√≥rico bin√°rio (`Yes` / `No`)  
- Propor√ß√£o positiva: ~26 %  
- A√ß√£o: validado e mantido (nenhuma recria√ß√£o necess√°ria)

---

> üí° **Resumo:**  
> Esta c√©lula assegura que o dataset possua uma vari√°vel-alvo bin√°ria consistente e configurada de forma reprodut√≠vel.  
> Se a coluna j√° existir, √© apenas validada; se n√£o, √© criada de acordo com o `config`.  
> O processo registra o mapeamento global (`class_map`) para uso direto nas pr√≥ximas etapas do pipeline (N2).  


In [17]:
# === üéØ Cria√ß√£o e Valida√ß√£o da Vari√°vel-Alvo (target) =========================
import importlib, utils.utils_data as ud
importlib.reload(ud)

# 1Ô∏è‚É£ ‚Äî Configura√ß√£o base do target --------------------------------------------
# Define manualmente o nome da coluna e o mapeamento de classes
config.setdefault("target", {})
config["target"].update({
    "name": "Churn",       # Nome da vari√°vel-alvo final
    "source": "Churn",     # Coluna de origem (j√° presente no df)
    "positive": "yes",     # Classe positiva (ajuste conforme o dataset)
    "negative": "no"       # Classe negativa
})

# 2Ô∏è‚É£ ‚Äî Execu√ß√£o e relat√≥rio ----------------------------------------------------
tgt_info = ud.fix_target_then_summary(df, config, verbose=True)
ud.render_target_summary(tgt_info)

# Atualiza o DataFrame (caso tenha sido ajustado internamente)
df = tgt_info["df"]

# 3Ô∏è‚É£ ‚Äî Diagn√≥stico r√°pido (opcional) -----------------------------------------
from IPython.display import display
print("\nüîç Verificando a consist√™ncia do tipo e dos valores:")
if config["target"]["name"] in df.columns:
    target_col = config["target"]["name"]
    display(df[target_col].value_counts(dropna=False).to_frame("contagem"))
else:
    print(f"‚ö†Ô∏è A coluna '{config['target']['name']}' ainda n√£o existe no DataFrame.")


[target] Coluna 'Churn' j√° existe ‚Äî nenhuma a√ß√£o necess√°ria.
[target] Coluna 'Churn' j√° existe ‚Äî nenhuma a√ß√£o necess√°ria.


Unnamed: 0,classe,contagem,percentual
0,no,5174,73.46%
1,yes,1869,26.54%
2,TOTAL,7043,100.00%



üîç Verificando a consist√™ncia do tipo e dos valores:


Unnamed: 0_level_0,contagem
Churn,Unnamed: 1_level_1
no,5174
yes,1869


# üî¢ Codifica√ß√µes Categ√≥ricas & Escalonamento Num√©rico

Esta etapa converte vari√°veis **categ√≥ricas** em representa√ß√µes num√©ricas e **escalona** vari√°veis **num√©ricas** para estabilizar modelos.  
Ela garante que o dataset esteja **padronizado e pronto para a modelagem (N2)**, al√©m de registrar os **artefatos reutiliz√°veis** de transforma√ß√£o.

---

## üìã O que acontece aqui

1. **Codifica√ß√£o de vari√°veis categ√≥ricas**
   - Detecta colunas `object`, `string` ou `category` (j√° padronizadas).
   - Estrat√©gias controladas por `config["encoding"]`:
     - `"onehot"` ‚Üí cria colunas dummies (`0/1`) ‚Äî ideal para modelos lineares e √°rvores modernas.
     - `"label"` ‚Üí converte categorias em inteiros ‚Äî √∫til para √°rvores de decis√£o (aten√ß√£o: ordem n√£o tem significado).
   - Os **encoders** gerados s√£o salvos para reuso posterior no N2.

2. **Escalonamento de vari√°veis num√©ricas**
   - Identifica colunas num√©ricas (incluindo novas features derivadas).
   - Estrat√©gias definidas em `config["scaling"]`:
     - `"standard"` ‚Üí aplica Z-score (m√©dia 0, desvio padr√£o 1).
     - `"minmax"` ‚Üí normaliza no intervalo [0, 1].
   - Os **scalers** s√£o salvos para garantir consist√™ncia entre treino e predi√ß√£o.

3. **Relat√≥rios e auditoria**
   - Gera um **resumo tabular** com as colunas codificadas e escalonadas.
   - Artefatos salvos automaticamente em:
     ```
     reports/artifacts/encoders/
     reports/artifacts/scalers/
     ```

---

## ‚öôÔ∏è Configura√ß√£o esperada (exemplo)

```python
config["encoding"] = {
  "enabled": True,
  "strategy": "onehot",       # "onehot" | "label"
  "drop_first": False,        # opcional para onehot
  "exclude": ["customerID"]   # nunca codificar IDs
}

config["scaling"] = {
  "enabled": True,
  "strategy": "standard",     # "standard" | "minmax"
  "exclude": []               # ex.: colunas j√° normalizadas
}
```

---

## üß† Boas pr√°ticas

- **Padronize categorias** antes de codificar (vide etapa de *Padroniza√ß√£o Categ√≥rica*).  
- **Evite codificar chaves t√©cnicas** ou identificadores √∫nicos (como `customerID`).  
- **Salve e reaplique** os mesmos encoders/scalers no N2 para consist√™ncia nos modelos.  
- Se houver muitas categorias raras, realize **agrega√ß√£o ou limpeza** pr√©via.  
- Para reduzir dimensionalidade, use `drop_first=True` no One-Hot (elimina redund√¢ncia).

---

> üí° **Resumo:**  
> Esta c√©lula transforma vari√°veis categ√≥ricas e num√©ricas em formatos compat√≠veis com modelos estat√≠sticos e de machine learning.  
> Os artefatos gerados (encoders e scalers) s√£o **registrados, versionados e reutiliz√°veis**, assegurando **reprodutibilidade e integridade do pipeline de dados**.


In [19]:
# --- üî¢ Codifica√ß√£o Categ√≥rica & Escalonamento Num√©rico (preservando o target) ---

import copy
import utils.utils_data as ud

# 0) Descobre/valida o nome do alvo
tgt_name = (config.get("target", {}) or {}).get("name") or config.get("target_column") or "Churn"
if tgt_name not in df.columns:
    raise KeyError(f"Target '{tgt_name}' n√£o encontrado no df. Colunas: {list(df.columns)[:10]}...")

# 1) Separa X e y para n√£o deixar o alvo entrar na codifica√ß√£o/escalonamento
y = df[tgt_name].copy()
X = df.drop(columns=[tgt_name])

# 2) Garante exclus√µes tamb√©m via config (caso a fun√ß√£o use internamente)
cfg2 = copy.deepcopy(config)
# Normaliza chaves novas
enc = cfg2.setdefault("encoding", {})
scl = cfg2.setdefault("scaling", {})

# Habilita pela config nova (se estiver usando o esquema antigo)
enc.setdefault("enabled", bool(cfg2.get("encode_categoricals", True)))
enc.setdefault("strategy", cfg2.get("encoding_type", "onehot"))
enc.setdefault("exclude", [])
scl.setdefault("enabled", bool(cfg2.get("scale_numeric", False)))
scl.setdefault("strategy", cfg2.get("scaler", "standard"))
scl.setdefault("exclude", [])

# Garante que o target NUNCA seja codificado/escalonado
if tgt_name not in enc["exclude"]:
    enc["exclude"].append(tgt_name)
if tgt_name not in scl["exclude"]:
    scl["exclude"].append(tgt_name)

# 3) Executa a etapa unificada APENAS em X
X_enc, enc_scal_info = ud.run_encoding_and_scaling(X, cfg2)

# 4) Reanexa o alvo exatamente como estava (ordem de colunas: alvo por √∫ltimo ou primeiro, voc√™ escolhe)
df = X_enc.copy()
df[tgt_name] = y.values  # preserva dtype e valores originais

# 5) Renderiza√ß√£o e verifica√ß√£o
ud.render_encoding_and_scaling(enc_scal_info)

print("\nüîí Verifica√ß√£o do target ap√≥s codifica√ß√£o:")
print("‚Üí Target presente?", tgt_name in df.columns)
try:
    print(df[tgt_name].value_counts())
except Exception:
    print("N√£o foi poss√≠vel exibir value_counts do target (verifique dtype).")



üîí Verifica√ß√£o do target ap√≥s codifica√ß√£o:
‚Üí Target presente? True
Churn
no     5174
yes    1869
Name: count, dtype: int64


# üì¶ Exporta√ß√£o de Artefatos (N1 ‚Üí N2)

Esta etapa consolida e exporta os **artefatos finais do notebook N1** ‚Äî garantindo que os dados tratados, os metadados e o manifesto de execu√ß√£o estejam dispon√≠veis para o **N2 (Modelagem)**.  

√â o fechamento da fase de prepara√ß√£o dos dados, onde tudo que foi limpo, transformado e enriquecido √© salvo em **arquivos persistentes e reprodut√≠veis**.

---

## üß≠ Vis√£o Geral do Processo

1. **Exporta os dados tratados** (`interim` e `processed`);
2. **Gera um arquivo de metadados (`meta.json`)** com a estrutura do dataset;
3. **Cria um manifesto (`manifest.json`)** com o resumo t√©cnico da execu√ß√£o ‚Äî mem√≥ria usada, flags criadas, caminhos de sa√≠da, etc.

Tudo √© salvo em caminhos padronizados e definidos dinamicamente a partir do `config`.

---

## ‚öôÔ∏è Configura√ß√µes e Caminhos Padr√£o

Os caminhos de sa√≠da podem ser definidos no `config/defaults.json`, ou usam valores padr√£o se ausentes:

| Chave | Caminho padr√£o | Descri√ß√£o |
|--------|----------------|-----------|
| `data_interim_file` | `data/interim/interim.parquet` | Dados intermedi√°rios tratados |
| `data_processed_file` | `data/processed/processed.parquet` | Dados finais prontos para modelagem |
| `meta_file` | `artifacts/metadata/dataset_meta.json` | Metadados do dataset |
| `random_seed` | `42` (padr√£o) | Semente para reprodutibilidade |

A fun√ß√£o `get_artifacts_dir("export")` cria automaticamente o diret√≥rio padr√£o de exporta√ß√£o:

```
reports/artifacts/export/
```

---

## üìã Etapas principais do c√≥digo

### 1Ô∏è‚É£ Exporta√ß√£o dos DataFrames

```python
OUTPUT_PROCESSED = Path(config.get("data_processed_file", "data/processed/processed.parquet"))
OUTPUT_INTERIM   = Path(config.get("data_interim_file",   "data/interim/interim.parquet"))

if config.get("export_interim", True):
    _save_df(df, OUTPUT_INTERIM)

if config.get("export_processed", True):
    _save_df(df, OUTPUT_PROCESSED)
```

A fun√ß√£o `_save_df()` detecta automaticamente o formato pelo sufixo do arquivo:

| Extens√£o | Fun√ß√£o utilizada | Compress√£o |
|-----------|------------------|-------------|
| `.parquet` | `to_parquet()` | Compactado (`snappy`) |
| `.csv` | `to_csv()` | UTF-8 |
| `.xlsx` | `to_excel()` | Excel |

---

### 2Ô∏è‚É£ Gera√ß√£o dos Metadados (`meta.json`)

Cria um registro detalhado da estrutura do dataset exportado.

```python
meta = {
  "dataset_name": config.get("dataset_name", "Dataset"),
  "version": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
  "target": target_col,
  "class_map": class_map,
  "columns": {
    "numeric": numeric_cols,
    "categorical": categorical_cols,
    "boolean": boolean_cols,
    "ignored": ignored_cols,
    "all": all_cols
  }
}
META_FILE.write_text(json.dumps(meta, indent=2, ensure_ascii=False), encoding="utf-8")
```

Esse arquivo √© essencial para o N2, pois indica:
- quais colunas s√£o num√©ricas, categ√≥ricas e booleanas;
- qual √© o `target`;
- quais colunas foram ignoradas;
- o mapeamento de classes (`class_map`, se existir);
- a vers√£o e data de exporta√ß√£o.

> üí° **Dica:**  
> voc√™ pode adicionar `meta["dtypes"] = {c: str(t) for c, t in df.dtypes.items()}`  
> para registrar os tipos exatos de cada coluna no arquivo de metadados.

---

### 3Ô∏è‚É£ Registro do Manifesto de Execu√ß√£o (`manifest.json`)

O manifesto √© um **resumo t√©cnico** da sess√£o atual ‚Äî √∫til para auditoria e rastreabilidade.

```python
manifest = {
  "created_at": datetime.now().isoformat(timespec="seconds"),
  "random_seed": RANDOM_SEED,
  "config": config,
  "memory_mb": float(df.memory_usage(deep=True).sum() / (1024**2)),
  "outlier_flags": [c for c in df.columns if c.endswith("_is_outlier")],
  "imputed_flags": [c for c in df.columns if c.startswith("was_imputed_")],
  "shape": tuple(df.shape),
  "exported": {
    "interim": str(OUTPUT_INTERIM),
    "processed": str(OUTPUT_PROCESSED),
    "meta_file": str(META_FILE)
  }
}

(ARTIFACTS_DIR / "manifest.json").write_text(json.dumps(manifest, indent=2, ensure_ascii=False))
```

Campos mais importantes:
| Campo | Descri√ß√£o |
|--------|------------|
| `created_at` | Data e hora da execu√ß√£o |
| `random_seed` | Semente aleat√≥ria utilizada |
| `memory_mb` | Tamanho em mem√≥ria do DataFrame |
| `outlier_flags` / `imputed_flags` | Colunas criadas por outliers ou imputa√ß√µes |
| `shape` | Dimens√£o final do dataset |
| `exported` | Caminhos de sa√≠da dos artefatos gerados |

---

### 4Ô∏è‚É£ Log de conclus√£o

Ao final da c√©lula, √© exibido no notebook:

```
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\export
Arquivos gerados:
- INTERIM:   data\interim\interim.parquet
- PROCESSED: data\processed\processed.parquet
- META:      artifacts\metadata\dataset_meta.json
```

---

## üß† Boas pr√°ticas

- **Vers√£o dos dados**: use o campo `"version"` do meta para marcar reprocessamentos.
- **Controle de reprodutibilidade**: defina `random_seed` no config.
- **Organiza√ß√£o**: mantenha sempre `interim`, `processed` e `meta` sob versionamento no Git.
- **Auditoria**: o `manifest.json` √© a ‚Äúassinatura digital‚Äù da execu√ß√£o do N1.
- **Portabilidade**: todo o caminho √© relativo √† raiz do projeto, garantindo compatibilidade com outros ambientes.

---

> üí° **Resumo:**  
> Esta c√©lula encerra o **notebook N1**, gerando todos os artefatos necess√°rios para as etapas seguintes (EDA, modelagem e visualiza√ß√£o).  
> Ela garante **reprodutibilidade**, **rastreamento** e **organiza√ß√£o** dos resultados, consolidando as sa√≠das do pipeline em formatos padronizados e facilmente reutiliz√°veis.


In [18]:
# =============================================================================
# üì¶ Exporta√ß√£o de Artefatos (N1 ‚Üí N2) ‚Äî corrigindo os caminhos
# =============================================================================
from datetime import datetime
from pathlib import Path
import json
import numpy as np
import pandas as pd

PROJECT_ROOT = ud.ensure_project_root()
logger.info(f"[path] PROJECT_ROOT -> {PROJECT_ROOT}")

# 1) Caminhos corretos: diret√≥rio + arquivo
proc_dir = PROJECT_ROOT / Path(config.get("data_processed_dir", "data/processed"))
proc_file = config.get("data_processed_file", "processed.parquet")
OUTPUT_PROCESSED = proc_dir / proc_file

inter_dir = PROJECT_ROOT / Path(config.get("data_interim_dir", "data/interim"))
inter_file = config.get("data_interim_file", "interim.parquet")
OUTPUT_INTERIM = inter_dir / inter_file

META_FILE = PROJECT_ROOT / Path(config.get("meta_file", "artifacts/metadata/dataset_meta.json"))

# 2) Garante diret√≥rios
OUTPUT_PROCESSED.parent.mkdir(parents=True, exist_ok=True)
OUTPUT_INTERIM.parent.mkdir(parents=True, exist_ok=True)
META_FILE.parent.mkdir(parents=True, exist_ok=True)

# 3) Salva tabelas respeitando a extens√£o
def _save_df(df_, path_: Path):
    ext = path_.suffix.lower()
    if ext == ".parquet":
        df_.to_parquet(path_, index=False)
    elif ext == ".csv":
        df_.to_csv(path_, index=False, encoding="utf-8")
    elif ext == ".xlsx":
        df_.to_excel(path_, index=False)
    else:
        raise ValueError(f"Extens√£o n√£o suportada: {ext}")

if config.get("export_interim", True):
    _save_df(df, OUTPUT_INTERIM)

if config.get("export_processed", True):
    _save_df(df, OUTPUT_PROCESSED)

# 4) Metadados (igual ao seu, mantido)
target_cfg  = config.get("target", {}) or {}
target_col  = target_cfg.get("name", config.get("target_column", "target"))

all_cols = df.columns.tolist()
ignored_cols = config.get("ignored_columns", [])
candidate_features = [c for c in all_cols if c not in ignored_cols and c != target_col]

numeric_cols     = df[candidate_features].select_dtypes(include=[np.number]).columns.tolist()
boolean_cols     = df[candidate_features].select_dtypes(include=["bool", "boolean"]).columns.tolist()
categorical_cols = [c for c in candidate_features if c not in numeric_cols]

class_map = globals().get("class_map", None)
meta = {
    "dataset_name": config.get("dataset_name", "Dataset"),
    "version":      datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "target":       target_col,
    "class_map":    class_map,
    "columns": {
        "numeric":     numeric_cols,
        "categorical": categorical_cols,
        "boolean":     boolean_cols,
        "ignored":     ignored_cols,
        "all":         all_cols
    },
    "dtypes": {c: str(t) for c, t in df.dtypes.items()},
    "rows":   int(len(df)),
}
META_FILE.write_text(json.dumps(meta, indent=2, ensure_ascii=False), encoding="utf-8")

print("\n" + "="*80)
print("üì¶  EXPORTA√á√ÉO DE ARTEFATOS ‚Äî RESUMO FINAL")
print("="*80)
print(f"üóÇÔ∏è  Dataset:        {meta['dataset_name']}")
print(f"üéØ  Target:         {meta['target']}")
print(f"üßÆ  Linhas:         {meta['rows']:,}")
print(f"üî¢  Num√©ricas:      {len(meta['columns']['numeric'])} colunas")
print(f"üî†  Categ√≥ricas:    {len(meta['columns']['categorical'])} colunas")
print(f"üîò  Booleanas:      {len(meta['columns']['boolean'])} colunas")
print(f"üßæ  Ignoradas:      {len(meta['columns']['ignored'])} colunas")
print(f"üõ†Ô∏è  INTERIM salvo:  {OUTPUT_INTERIM}")
print(f"üõ†Ô∏è  PROCESSED salvo:{OUTPUT_PROCESSED}")
print("="*80 + "\n")


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:21,112 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:21,115 | INFO | [path] PROJECT_ROOT -> C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis

üì¶  EXPORTA√á√ÉO DE ARTEFATOS ‚Äî RESUMO FINAL
üóÇÔ∏è  Dataset:        Dataset
üéØ  Target:         Churn
üßÆ  Linhas:         7,043
üî¢  Num√©ricas:      62 colunas
üî†  Categ√≥ricas:    70 colunas
üîò  Booleanas:      54 colunas
üßæ  Ignoradas:      0 colunas
üõ†Ô∏è  INTERIM salvo:  C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\data\interim\interim.parquet
üõ†Ô∏è  PROCESSED salvo:C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\data\processed\processed.parquet



# üß≠ Resumo final de sanidade

In [19]:
# =============================================================================
# ‚úÖ N1 ‚Äî Resumo final de sanidade (opcional e enxuto)
# =============================================================================
from pathlib import Path
import json
import numpy as np
import pandas as pd

if (config.get("reporting", {}).get("final_summary", True)):
    PROJECT_ROOT = ud.ensure_project_root()

    # Caminhos (alinhados ao bloco de exporta√ß√£o)
    OUTPUT_PROCESSED = PROJECT_ROOT / Path(config.get("data_processed_file", "data/processed/processed.parquet"))
    OUTPUT_INTERIM   = PROJECT_ROOT / Path(config.get("data_interim_file",   "data/interim/interim.parquet"))
    META_FILE        = PROJECT_ROOT / Path(config.get("meta_file",           "artifacts/metadata/dataset_meta.json"))
    MANIFEST_FILE    = ud.get_artifacts_dir("export") / "manifest.json"

    # Tipagem consolidada
    dtypes = df.dtypes.to_dict()
    num_cols     = [c for c,t in dtypes.items() if pd.api.types.is_numeric_dtype(t)]
    bool_cols    = [c for c,t in dtypes.items() if pd.api.types.is_bool_dtype(t)]
    cat_cols     = [c for c,t in dtypes.items() if (pd.api.types.is_string_dtype(t) or pd.api.types.is_categorical_dtype(t))]

    # Target (do config)
    target_col = (config.get("target", {}) or {}).get("name", config.get("target_column", "target"))
    target_ok  = target_col in df.columns

    # Artefatos existentes
    exists_processed = OUTPUT_PROCESSED.exists()
    exists_interim   = OUTPUT_INTERIM.exists()
    exists_meta      = META_FILE.exists()
    exists_manifest  = MANIFEST_FILE.exists()

    # Mem√≥ria (MB)
    mem_mb = float(df.memory_usage(deep=True).sum()) / (1024**2)

    line = "="*80
    print("\n" + line)
    print("‚úÖ  N1 CONCLU√çDO ‚Äî RESUMO DE SANIDADE")
    print(line)
    print(f"üìê Shape final do df:   {df.shape}")
    print(f"üéØ Target:              {target_col} ({'ok' if target_ok else 'ausente'})")
    print(f"üßÆ Linhas registradas:  {len(df):,}")
    print(f"üßæ Colunas (totais):    {df.shape[1]}")
    print(f"   ‚îú‚îÄ Num√©ricas:        {len(num_cols)}")
    print(f"   ‚îú‚îÄ Categ√≥ricas:      {len(cat_cols)}")
    print(f"   ‚îî‚îÄ Booleanas:        {len(bool_cols)}\n")
    print("üì¶ Artefatos gerados:")
    print(f"   ‚îú‚îÄ INTERIM:          {str(exists_interim):5} | {OUTPUT_INTERIM}")
    print(f"   ‚îú‚îÄ PROCESSED:        {str(exists_processed):5} | {OUTPUT_PROCESSED}")
    print(f"   ‚îú‚îÄ META:             {str(exists_meta):5} | {META_FILE}")
    print(f"   ‚îî‚îÄ MANIFEST:         {str(exists_manifest):5} | {MANIFEST_FILE}\n")
    print(f"üß† Mem√≥ria do DF:       {mem_mb:.2f} MB")
    print(line + "\n")


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:21,933 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-13 21:27:21,936 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\artifacts\export
2025-11-13 21:27:21,943 | INFO | [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\reports\artifacts\export

‚úÖ  N1 CONCLU√çDO ‚Äî RESUMO DE SANIDADE
üìê Shape final do df:   (7043, 133)
üéØ Target:              Churn (ok)
üßÆ Linhas registradas:  7,043
üßæ Colunas (totais):    133
   ‚îú‚îÄ Num√©ricas:        116
   ‚îú‚îÄ Categ√≥ricas:      17
   ‚îî‚îÄ Booleanas:        54

üì¶ Artefatos ge

  cat_cols     = [c for c,t in dtypes.items() if (pd.api.types.is_string_dtype(t) or pd.api.types.is_categorical_dtype(t))]


## ‚úÖ Checkpoint

- **Revisar** as colunas derivadas e decis√µes (imputa√ß√£o, outliers, codifica√ß√£o).  
- **Documentar** no README as escolhas de neg√≥cio e justificativas.  

## üìé Anota√ß√µes

Esta se√ß√£o pode ser usada como bloco livre para observa√ß√µes espec√≠ficas do projeto.


In [20]:
df.isna().sum().sort_values(ascending=False).head(10), df.isna().sum().sum()


(customerID                      0
 OnlineSecurity_word_count       0
 TechSupport_len                 0
 DeviceProtection_has_premium    0
 DeviceProtection_has_cancel     0
 DeviceProtection_has_error      0
 DeviceProtection_word_count     0
 DeviceProtection_len            0
 OnlineBackup_has_premium        0
 OnlineBackup_has_cancel         0
 dtype: int64,
 0)

In [21]:
spec = config.get("null_fill_with_flag", {})
print(spec.get("cols_numeric_zero"))

['TotalCharges', 'avg_charge_per_month']
