# Prepara√ß√£o de Dados (N1)

---

## üóÇÔ∏è Projeto Telco Customer Churn Analysis  

**Dataset:** Telcom Customer Churn (7043 registros, 21 vari√°veis)  
**Objetivo Geral:** Analisar o comportamento de cancelamento de clientes em uma empresa de telecomunica√ß√µes, aplicando t√©cnicas de Machine Learning para prever o churn e identificar fatores que influenciam a reten√ß√£o.

---

## üìã Descri√ß√£o Geral do Tratamento

Nesta etapa ser√£o realizados os principais **processos de limpeza, transforma√ß√£o e padroniza√ß√£o dos dados**.  
O foco √© garantir que o dataset esteja **consistente, estruturado e pronto para an√°lises posteriores**.

**Tarefas previstas:**  
- Leitura e diagn√≥stico inicial do dataset.  
- Tratamento de valores nulos, duplicados e outliers.  
- Convers√£o de tipos e padroniza√ß√£o de nomes de colunas.  
- Codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o de num√©ricas (quando necess√°rio).  
- Gera√ß√£o de artefatos intermedi√°rios e relat√≥rio de qualidade dos dados.

## üîß Configura√ß√£o do Projeto (Bootstrap)

Esta etapa realiza o **bootstrap do ambiente de execu√ß√£o**, preparando o notebook para funcionar em qualquer m√°quina ‚Äî garantindo **reprodutibilidade**, **organiza√ß√£o** e **autonomia**.  
Todas as depend√™ncias, caminhos e configura√ß√µes s√£o ajustadas automaticamente, sem necessidade de modifica√ß√µes manuais.

---

### ‚öôÔ∏è Etapas executadas

#### üß≠ 1. Localiza√ß√£o da raiz do projeto  
- Busca o arquivo `config/defaults.json` subindo diret√≥rios at√© encontr√°-lo.  
- Define `PROJECT_ROOT` como refer√™ncia principal para todo o projeto.

#### üß© 2. Valida√ß√£o do m√≥dulo `utils/`  
- Verifica a exist√™ncia da pasta `utils/` e do arquivo `__init__.py`.  
- Cria o arquivo caso ausente, garantindo que o pacote seja import√°vel.

#### üß± 3. Registro no `sys.path`  
- Injeta o diret√≥rio raiz no `sys.path`.  
- Permite importar m√≥dulos internos (`utils.utils_data`) em qualquer ambiente.

#### ‚ôªÔ∏è 4. Importa√ß√£o das utilidades  
- Importa e recarrega `utils.utils_data` via `importlib.reload()`.  
- Garante que a vers√£o mais recente do m√≥dulo seja utilizada no notebook.

#### üßæ 5. Inicializa√ß√£o de logs  
- Configura o sistema de logging unificado (`reports/data_preparation.log`).  
- Todos os eventos s√£o registrados no console e em arquivo.

#### ‚öôÔ∏è 6. Carregamento de configura√ß√µes  
- L√™ os par√¢metros de `defaults.json` e aplica substitui√ß√µes de `local.json` (se houver).  
- Resolve automaticamente os caminhos padr√£o do N1.

#### üîÑ 7. Reprodutibilidade global e ajustes finais de ambiente  
- Define a semente aleat√≥ria (`RANDOM_SEED`) para NumPy, Random e vari√°veis de ambiente.  
- Assegura resultados reprodut√≠veis entre diferentes execu√ß√µes. 
- Exibe confirma√ß√£o no log sobre configura√ß√£o e paths resolvidos.

---

### ‚úÖ Resultado esperado

- O ambiente √© inicializado corretamente em qualquer m√°quina.  
- O m√≥dulo `utils_data.py` √© importado e recarregado.  
- As pastas e arquivos padr√£o s√£o criados (se necess√°rio).  
- O log central passa a registrar todas as a√ß√µes subsequentes.

---

> üí° **Resumo:** Esta c√©lula garante que o notebook seja totalmente **port√°vel e reprodut√≠vel**, sem necessidade de alterar caminhos ou depend√™ncias manualmente.


In [4]:
# -*- coding: utf-8 -*-
# Bootstrap do projeto ‚Äî encontra a raiz, injeta no sys.path e garante utils/__init__.py

from IPython.display import display
from pathlib import Path
import sys
import logging
from datetime import datetime
import importlib
import pandas as pd
import json
import os
import random
import numpy as np

# ---------------------------------------------------------
# Helpers m√≠nimos
# ---------------------------------------------------------
def _find_up(relative_path: str, start: Path | None = None) -> Path | None:
    start = start or Path.cwd()
    rel = Path(relative_path)
    for base in (start, *start.parents):
        cand = base / rel
        if cand.exists():
            return cand
    return None

# 1) Descobrir a raiz a partir do config/defaults.json
_cfg = _find_up("config/defaults.json")
if _cfg is None:
    raise FileNotFoundError("config/defaults.json n√£o encontrado. Confirme a estrutura do projeto.")
PROJECT_ROOT = _cfg.parent.parent.resolve()
print(f"[INFO] PROJECT_ROOT: {PROJECT_ROOT}")

# 2) Garantir pasta utils/ e __init__.py
UTILS_DIR = PROJECT_ROOT / "utils"
INIT_FILE = UTILS_DIR / "__init__.py"
if not UTILS_DIR.exists():
    raise ModuleNotFoundError(f"Pasta n√£o encontrada: {UTILS_DIR} (crie 'utils' na raiz).")
if not INIT_FILE.exists():
    INIT_FILE.write_text("", encoding="utf-8")
    print(f"[INFO] Criado: {INIT_FILE}")

# 3) Injetar a raiz no sys.path
root_str = str(PROJECT_ROOT)
if root_str not in sys.path:
    sys.path.insert(0, root_str)
print(f"[INFO] sys.path ok. utils: {UTILS_DIR}")

# 4) Importar utils.utils_data
import utils.utils_data as ud
importlib.reload(ud)  # garante vers√£o mais recente ao iterar no notebook

# 5) Configurar logging base do notebook
LOG_FILE = (PROJECT_ROOT / "reports" / "data_preparation.log")
LOG_FILE.parent.mkdir(parents=True, exist_ok=True)
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s | %(levelname)s | %(message)s",
    handlers=[logging.StreamHandler(sys.stdout), logging.FileHandler(LOG_FILE, encoding="utf-8")],
    force=True,
)
logger = logging.getLogger(__name__)
logger.info("Bootstrap iniciado‚Ä¶")

# 6) Carregar configura√ß√µes
config = ud.load_config(PROJECT_ROOT / "config" / "defaults.json",
                        PROJECT_ROOT / "config" / "local.json")

paths = ud.resolve_n1_paths(PROJECT_ROOT)

# 7) Reprodutibilidade (seed) e display
RANDOM_SEED = config.get("random_seed", 42)
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)
os.environ["PYTHONHASHSEED"] = str(RANDOM_SEED)

pd.set_option("display.max_rows", 200)
pd.set_option("display.max_columns", 120)

logger.info("Bootstrap conclu√≠do. Config carregada e paths resolvidos.")

[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
[INFO] sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis\utils
2025-11-09 10:54:01,256 | INFO | Bootstrap iniciado‚Ä¶
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-09 10:54:01,258 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\telco-customer-churn-analysis
2025-11-09 10:54:01,260 | INFO | Bootstrap conclu√≠do. Config carregada e paths resolvidos.


## üîß Configura√ß√£o de Fontes

Nesta etapa s√£o definidos os **arquivos de origem** que servir√£o de base para o projeto.  
Aqui √© onde especifica **quais datasets ser√£o utilizados**, **em qual formato** est√£o (CSV ou Parquet) e, caso existam m√∫ltiplas fontes, **como elas se relacionam** entre si.

---

### üóÇÔ∏è 1. Explora√ß√£o das fontes dispon√≠veis

Antes de configurar o dicion√°rio `SOURCES`, √© poss√≠vel listar os arquivos presentes no diret√≥rio `data/raw/`:

```python
from utils.utils_data import list_raw_sources_safe

RAW_DIR = paths["raw_dir"] if isinstance(paths, dict) else paths.raw_dir
df_sources = list_raw_sources_safe(RAW_DIR, pattern="*.csv", show_rel=True)
```

Esse comando exibe uma tabela com os arquivos encontrados e gera uma **sugest√£o autom√°tica de caminho** para uso no `SOURCES`.  
Basta mover o arquivo desejado para a pasta `data/raw/` e executar o bloco ‚Äî o nome aparecer√° pronto para ser copiado e colado.

---

### ‚öôÔ∏è 2. Defini√ß√£o das fontes de dados (`SOURCES`)

- Cada entrada do dicion√°rio `SOURCES` representa uma **tabela nomeada**.  
- A chave (ex.: `"main"`, `"dim_customers"`) identifica a tabela dentro do projeto.  
- Cada item deve conter:
  - `path`: caminho do arquivo dentro de `data/raw/`;  
  - `format`: formato opcional (`"csv"` ou `"parquet"`, detectado automaticamente se omitido);  
  - `read_opts`: par√¢metros personalizados de leitura (`encoding`, `sep`, `low_memory`, etc.).

Exemplo de estrutura:
```python
SOURCES = {
    "main": {
        "path": RAW_DIR / "dataset.csv",
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo adicional em CSV:
     "dim_customers": {
         "path": RAW_DIR / "exemplo.csv",
         "format": "csv"
     },
    # Exemplo em Parquet:
     "dim_customers": {
         "path": RAW_DIR / "customers.parquet",
         "format": "parquet"
     }
}
```

---

### üîó 3. Configura√ß√£o opcional de jun√ß√µes (`MERGE_STEPS`)

O DataFrame principal √© aquele definido em `MAIN_SOURCE`.  
Se existirem outras fontes, √© poss√≠vel configur√°-las em `MERGE_STEPS` para realizar jun√ß√µes autom√°ticas:

```python
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]
```

Cada item representa uma jun√ß√£o e define:
- o nome da tabela secund√°ria (`right_name`),  
- o tipo de jun√ß√£o (`how`),  
- e as chaves de correspond√™ncia (`left_on`, `right_on`).

---

### ‚úÖ 4. Valida√ß√£o e feedback autom√°tico

Ap√≥s definir as fontes, o bloco de c√≥digo executa uma checagem simples para:

- Confirmar a exist√™ncia do arquivo principal;  
- Detectar automaticamente o formato (`CSV` ou `Parquet`);  
- Exibir mensagens de status:

```
‚úÖ Fontes configuradas com sucesso.
‚Üí Fonte principal: 'main'  | Arquivo: dataset.csv  | Formato detectado: CSV
‚Üí Nenhum merge configurado (usando apenas a fonte principal).
```

---

> üí° **Resumo**
>
>Essa abordagem torna a **configura√ß√£o de fontes interativa, leve e flex√≠vel**:
>- Basta adicionar novos arquivos em `data/raw/` e executar `suggest_source_path()` para gerar os caminhos automaticamente.  
>- Nenhum outro bloco do notebook precisa ser alterado ‚Äî apenas o dicion√°rio `SOURCES` e, se necess√°rio, as jun√ß√µes em `MERGE_STEPS`.

---

üìÇ **Abaixo, bloco auxiliar:**  
Para visualizar as fontes dispon√≠veis em `data/raw/`, execute:

In [5]:
from utils.utils_data import list_raw_sources_safe
RAW_DIR = paths["raw_dir"] if isinstance(paths, dict) else paths.raw_dir
display(list_raw_sources_safe(RAW_DIR, pattern="*.csv", show_rel=True))

Unnamed: 0,file,size,size_bytes,modified,relpath
0,dataset.csv,955 KB,977501,2019-09-27T19:30:08,data\raw\dataset.csv
1,WA_Fn-UseC_-Telco-Customer-Churn.csv,955 KB,977501,2019-09-27T19:30:08,data\raw\WA_Fn-UseC_-Telco-Customer-Churn.csv


In [14]:
#from utils.utils_data import show_source_overview_neat, show_df_summary_neat, run_quality_and_typing, render_quality_and_typing

# Obs: s√≥ alterar este bloco quando precisar mudar os arquivos ou as chaves de jun√ß√£o.

SOURCES = {
    # nome_da_tabela: {path, (opcional) format: 'csv'|'parquet', (opcional) read_opts}
    "main": {
        "path": RAW_DIR / "WA_Fn-UseC_-Telco-Customer-Churn.csv",
        # "format": "csv",  # se omitir, detecta pelo sufixo
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo de segunda fonte em CSV:
    # "dim_customers": {
    #   "path": RAW_DIR / "exemplo.csv",
    #   "format": "csv",  # se omitir, detecta pelo sufixo
    #   "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    # }
    
    # Exemplo de fonte em Parquet:
    # "dim_customers": {
    #     "path": RAW_DIR / "customers.parquet",
    #     "format": "parquet"
    # }
}

# Plano de merges (opcional):
# Cada item √© um passo: (right_name, how, left_on, right_on)
# O DataFrame base ser√° o SOURCES[MAIN_SOURCE]
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]

# Valida√ß√£o
main_path = SOURCES[MAIN_SOURCE]["path"]
main_format = SOURCES[MAIN_SOURCE].get("format") or main_path.suffix.lstrip(".").lower()
print(f"‚úÖ Fontes configuradas com sucesso.")

print(
    f"‚Üí Fonte principal: '{MAIN_SOURCE}'  "
    f"| Arquivo: {main_path.name}  "
    f"| Formato detectado: {main_format.upper()}"
)
if MERGE_STEPS:
    print(f"‚Üí {len(MERGE_STEPS)} etapa(s) de merge configuradas.")
else:
    print("‚Üí Nenhum merge configurado (usando apenas a fonte principal).")


‚úÖ Fontes configuradas com sucesso.
‚Üí Fonte principal: 'main'  | Arquivo: WA_Fn-UseC_-Telco-Customer-Churn.csv  | Formato detectado: CSV
‚Üí Nenhum merge configurado (usando apenas a fonte principal).


# üì• Ingest√£o & Vis√£o R√°pida

Nesta etapa, os **datasets definidos em `SOURCES`** s√£o carregados, inspecionados e validados antes de iniciar o tratamento dos dados.  
O objetivo √© garantir que as fontes estejam corretamente lidas e que o DataFrame principal (`df`) esteja pronto para seguir no pipeline.

---

## ‚öôÔ∏è 1) Carregamento das fontes

O notebook percorre cada item de `SOURCES` para:
- Ler o arquivo (`path`) conforme o formato (`csv` ou `parquet`);
- Aplicar as op√ß√µes de leitura (`read_opts`), quando houver;
- Armazenar o DataFrame em `tables[name]`, onde `name` √© a chave da fonte.

A fun√ß√£o usada √© `ud.load_table_simple()` ‚Äî ela **detecta o formato pelo sufixo** (se n√£o informado) e aplica `read_opts` com seguran√ßa.

Ap√≥s cada leitura, √© mostrada uma vis√£o compacta da fonte via `show_source_overview(name, path, df_src)`, com:
- Linhas, colunas e mem√≥ria aproximada em MB;
- Resumo de tipos (`dtype`);
- Top 20 colunas com maiores √≠ndices de valores ausentes.

> **Nota:** Esta vis√£o √© **por fonte**. Se houver m√∫ltiplas fontes, voc√™ ver√° um bloco para cada uma.

---

## üîó 2) Defini√ß√£o do DataFrame base e jun√ß√µes (opcional)

O dataset principal √© `tables[MAIN_SOURCE]`.  
Se houver fontes adicionais e `MERGE_STEPS` definido, o notebook aplica as jun√ß√µes com `ud.merge_chain()` (ou l√≥gica equivalente), registrando logs √∫teis para depura√ß√£o.  
Sem jun√ß√µes, o fluxo segue apenas com a fonte principal.

---

## üìä 3) Vis√£o consolidada do DataFrame que segue no pipeline

Depois do carregamento (e merges, se houver), exibimos **uma segunda vis√£o** via `show_df_summary(df, label=...)`.  
Ela √© **parecida** com a vis√£o por fonte, mas agora representa **o DataFrame resultante** que seguir√° para as pr√≥ximas etapas (limpeza, tipagem, etc.).

- Estrutura geral (linhas/colunas/mem√≥ria);
- Resumo de tipos;
- Top 20 de faltantes no **df final** (ap√≥s merges, se configurados).

---

> üí°  Resumo
> - **Vis√£o por fonte** (um card por item de `SOURCES`) ajuda a detectar problemas na **leitura individual** (tipos inesperados, aus√™ncias, tamanho/atualiza√ß√£o do arquivo).  
> - **Vis√£o consolidada** confirma o que **segue no pipeline**; se houver merges, √© aqui que aparecem os efeitos combinados.  
> - Logs e relat√≥rios s√£o gravados para apoiar **rastreabilidade** e **reprodutibilidade**.


In [15]:
# Ingest√£o & vis√£o r√°pida ‚Äî organizado (aut√¥nomo)

from utils.utils_data import (
    load_table_simple, merge_chain,
    show_source_overview, show_df_summary
)

# 1) Carregar todas as fontes em 'tables'
tables = {}
for name, cfg in SOURCES.items():
    path = cfg["path"]
    fmt = cfg.get("format")               # None => infere pelo sufixo
    read_opts = cfg.get("read_opts", {})  # ex.: sep/encoding/low_memory para CSV
    df_src = load_table_simple(path, fmt, **read_opts)
    tables[name] = df_src

    # vis√£o organizada por fonte (cards)
    show_source_overview(name, path, df_src)

# 2) Definir df base e aplicar merges (se configurado)
if MAIN_SOURCE not in tables:
    raise KeyError(f"MAIN_SOURCE '{MAIN_SOURCE}' n√£o encontrado. Fontes dispon√≠veis: {list(tables.keys())}")

df = tables[MAIN_SOURCE]

# compat: aceita MERGE_STEPS como lista de tuplas OU de dicts
def _normalize_steps(steps):
    norm = []
    for st in (steps or []):
        if isinstance(st, (list, tuple)) and len(st) >= 4:
            right_name, how, left_on, right_on = st[:4]
            norm.append({"from": right_name, "how": how, "left_on": left_on, "right_on": right_on})
        elif isinstance(st, dict):
            norm.append(st)
    return norm

if MERGE_STEPS:
    steps = _normalize_steps(MERGE_STEPS)
    if steps:
        df = merge_chain(df, tables, steps)
        print("\n=== Vis√£o geral (df ap√≥s merges) ===")
    else:
        print("\n[WARN] MERGE_STEPS definido mas vazio/inv√°lido; seguindo sem merge.")
else:
    print(f"\n[INFO] Usando df base: '{MAIN_SOURCE}' (sem merges).")

# 3) Resumo organizado do df que segue no pipeline (cards)
show_df_summary(df, label=f"MAIN_SOURCE = {MAIN_SOURCE}")


Unnamed: 0,M√©trica,Valor
0,Linhas,7043.0
1,Colunas,21.0
2,Mem√≥ria (MB),6.821


Unnamed: 0,dtype,cols
0,object,18
1,int64,2
2,float64,1


Unnamed: 0,Coluna,dtype,Faltantes,%Faltantes
0,customerID,object,0,0
1,gender,object,0,0
2,SeniorCitizen,int64,0,0
3,Partner,object,0,0
4,Dependents,object,0,0
5,tenure,int64,0,0
6,PhoneService,object,0,0
7,MultipleLines,object,0,0
8,InternetService,object,0,0
9,OnlineSecurity,object,0,0



[INFO] Usando df base: 'main' (sem merges).


Unnamed: 0,M√©trica,Valor
0,Linhas,7043.0
1,Colunas,21.0
2,Mem√≥ria (MB),6.821


Unnamed: 0,dtype,cols
0,object,18
1,int64,2
2,float64,1


Unnamed: 0,Coluna,dtype,Faltantes,%Faltantes
0,customerID,object,0,0
1,gender,object,0,0
2,SeniorCitizen,int64,0,0
3,Partner,object,0,0
4,Dependents,object,0,0
5,tenure,int64,0,0
6,PhoneService,object,0,0
7,MultipleLines,object,0,0
8,InternetService,object,0,0
9,OnlineSecurity,object,0,0


# üß≠ Cat√°logo de DataFrames e Defini√ß√£o do df ‚ÄúAtivo‚Äù

Nesta etapa √© criado um **cat√°logo centralizado de DataFrames** para organizar e gerenciar todas as tabelas carregadas e derivadas ao longo do projeto.  
O objetivo √© garantir **reprodutibilidade, rastreabilidade e controle de vers√µes** das diferentes fases do pipeline de dados.

---

## ‚öôÔ∏è 1. Inicializa√ß√£o do Cat√°logo (`TableStore`)

A classe `TableStore` ‚Äî implementada em `utils/utils_data.py` ‚Äî funciona como um **reposit√≥rio de DataFrames nomeados**.  
Ela √© inicializada com o dicion√°rio `tables` (gerado na etapa de *Ingest√£o & Vis√£o R√°pida*) e define a tabela principal (`MAIN_SOURCE`) como **tabela ativa**.

Durante a execu√ß√£o, √© exibido um feedback informativo, como no exemplo abaixo:

```
‚úÖ Cat√°logo de DataFrames inicializado com sucesso.
‚Üí Total de tabelas carregadas: 1
‚Üí Tabela ativa: 'main'  | Shape: 7043 linhas √ó 21 colunas
```

E, logo em seguida, uma pr√©via do invent√°rio atual:

| name | rows | cols | memory_mb | current |
|------|------|-------|-----------|----------|
| main | 7043 | 21 | 6.821 | ‚úÖ |

---

## üìä 2. Defini√ß√£o do DataFrame Ativo (`df`)

A vari√°vel `df` √© atribu√≠da √† tabela atual com o comando `T.get()`.  
A partir desse ponto, `df` representa o **DataFrame ativo** ‚Äî ou seja, o dataset que segue para as pr√≥ximas etapas do pipeline  
(limpeza, tipagem, tratamento de faltantes, engenharia de atributos, etc.).

---

## üß© 3. Gerenciamento de Tabelas no Cat√°logo

Novos DataFrames podem ser adicionados ao cat√°logo a qualquer momento, com nomes descritivos e controle de vers√£o.  
O `TableStore` tamb√©m permite alternar entre tabelas existentes, consultar o cat√°logo e acessar DataFrames diretamente pelo nome.

**Exemplos pr√°ticos:**
```python
T.add("churn_raw", df, set_current=True)           # adiciona e define como atual
df = T.use("churn_raw")                            # alterna o df ativo
T.add("features_v1", engenharia_de_atributos(df))  # salva uma deriva√ß√£o
df_features = T["features_v1"]                     # acesso direto por nome
display(T.list())                                  # invent√°rio completo
```

---

## üß† 4. Benef√≠cios Pr√°ticos

- Mant√©m o notebook **organizado**, sem sobrescrever DataFrames intermedi√°rios.  
- Permite **comparar diferentes vers√µes** de tratamento ou feature engineering.  
- Facilita o **debug** e o **reprocessamento seletivo** de etapas espec√≠ficas.  
- Garante **visibilidade** sobre o estado atual do pipeline, com feedback visual e logs consistentes.

---

> üí° **Resumo:**  
> O `TableStore` atua como uma **mem√≥ria estruturada** de DataFrames ‚Äî  
> permitindo **adicionar**, **alternar**, **versionar** e **consultar** tabelas de forma controlada.  
>  
> A vari√°vel `df` representa sempre a **tabela ativa atual**, garantindo consist√™ncia e rastreabilidade em todas as etapas subsequentes do pipeline.


In [20]:
from utils.utils_data import TableStore

# 1- Inicializa cat√°logo com as fontes lidas ('tables') e define a base como atual
T = TableStore(initial=tables, current=MAIN_SOURCE)

# 2 - Conveni√™ncia: df = tabela atual (boa pr√°tica para seguir no pipeline)
df = T.get()

# 3 - Feedback visual de sucesso
print(f"‚úÖ Cat√°logo de DataFrames inicializado com sucesso.")
print(f"‚Üí Total de tabelas carregadas: {len(tables)}")
print(f"‚Üí Tabela ativa: '{T.current}'  | Shape: {df.shape[0]} linhas √ó {df.shape[1]} colunas")

# 4Ô∏è4 - Exibe uma pr√©via do cat√°logo
display(T.list().head())

# --- Guia r√°pido  ---
# T.add("churn_raw", df, set_current=True)          # cadastra e ativa
# df = T.use("churn_raw")                           # muda o atual e retorna df
# T.add("features_v1", engenharia_de_atributos(df)) # salva uma deriva√ß√£o
# df_features = T["features_v1"]                    # acesso direto por nome
# display(T.list())                                 # invent√°rio das tabelas

‚úÖ Cat√°logo de DataFrames inicializado com sucesso.
‚Üí Total de tabelas carregadas: 1
‚Üí Tabela ativa: 'main'  | Shape: 7043 linhas √ó 21 colunas


Unnamed: 0,name,rows,cols,memory_mb,current
0,main,7043,21,6.821,True


In [21]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## üß™ Qualidade & Tipagem

Nesta etapa o notebook realiza a **padroniza√ß√£o estrutural e tipagem autom√°tica dos dados**, garantindo que o DataFrame principal (`df`) siga para as pr√≥ximas fases **coerente, limpo e otimizado em mem√≥ria**.  
√â uma das fases mais cr√≠ticas do pipeline, pois evita que inconsist√™ncias de tipo e formato prejudiquem as an√°lises posteriores ou a modelagem.

### üìã O que √© feito aqui

1. **Remo√ß√£o de espa√ßos em branco (`strip_whitespace`)**
   - Elimina espa√ßos extras no in√≠cio e no fim de valores textuais.  
   - Evita diverg√™ncias em compara√ß√µes e agrupamentos (ex.: `"Yes "` ‚â† `"Yes"`).  
   - Essa opera√ß√£o √© **idempotente**: se os dados j√° estiverem limpos, n√£o altera nada.

2. **Convers√£o inteligente de valores num√©ricos (`infer_numeric_like`)**
   - Detecta colunas com valores *aparentemente num√©ricos*, mas armazenados como texto (ex.: `"R$ 120,00"` ou `"1.234,56"`).  
   - Aplica heur√≠sticas para remover s√≠mbolos, normalizar separadores e converter apenas quando a propor√ß√£o de convers√£o for suficiente (`min_ratio = 0.9`).  
   - Evita convers√µes indevidas (ex.: IDs) por meio de uma lista de exclus√£o (`blacklist`).  
   - Gera o relat√≥rio **`cast_report`**, registrando:
     - Coluna analisada  
     - A√ß√£o tomada (convertida, ignorada ou parcial)  
     - Taxa de sucesso e total de valores convertidos.

3. **Otimiza√ß√£o de tipos num√©ricos (`reduce_memory_usage`)**
   - Converte automaticamente `int64` ‚Üí `int32` e `float64` ‚Üí `float32`, reduzindo o consumo de mem√≥ria sem alterar os valores.  
   - O log mostra a diferen√ßa antes e depois (ex.: `Memory reduced: 7.76MB ‚Üí 6.21MB`).

4. **Remo√ß√£o de duplicatas (`deduplicate_rows`)**
   - Verifica e elimina registros repetidos conforme a configura√ß√£o (`subset`, `keep`).  
   - Caso encontre duplicatas, gera um relat√≥rio detalhado e salva o log em `reports/duplicates.csv`.  
   - Exibe uma amostra das duplicatas detectadas, se houver.

5. **Relat√≥rios e feedback autom√°tico**
   - Ao final da execu√ß√£o, exibe um resumo completo:  
     - Linhas e colunas antes/depois  
     - Varia√ß√£o de mem√≥ria (`Œî MB`)  
     - Relat√≥rios gerados (`cast_report`, `duplicates_report`, etc.)  
   - Todos os logs s√£o gravados em `reports/data_preparation.log`.

---

> üí° **Resumo:**  
> Esta c√©lula garante que o dataset esteja **consistente, tipado e otimizado**, pronto para an√°lises e modelagem.  
> Corrige formata√ß√µes, converte n√∫meros armazenados como texto, remove duplicatas e reduz o uso de mem√≥ria ‚Äî tudo com registros autom√°ticos e relat√≥rios salvos para auditoria.


In [16]:
# ‚Äî‚Äî‚Äî Qualidade & Tipagem (limpo e organizado) ‚Äî‚Äî‚Äî
import logging, json, pandas as pd
import utils.utils_data as ud
from IPython.display import display, HTML

# 1) Silenciar logs do utils_data temporariamente
_prev = ud.logger.level
ud.logger.setLevel(logging.WARNING)

df_before_shape = df.shape
mem_before = df.memory_usage(deep=True).sum() / (1024**2)

# 2) Executar a etapa (compat√≠vel com as duas APIs)
if hasattr(ud, "n1_quality_typing_dict"):
    rep = ud.n1_quality_typing_dict(df, config)
    df  = rep["df"]
else:
    df, meta = ud.n1_quality_typing(df, config)
    rep = meta if isinstance(meta, dict) else {"df": df}

mem_after  = df.memory_usage(deep=True).sum() / (1024**2)
delta_rows = df.shape[0] - df_before_shape[0]
delta_cols = df.shape[1] - df_before_shape[1]
delta_mem  = mem_after - mem_before

# 3) Helpers de exibi√ß√£o
def card(title, subtitle=""):
    return HTML(f"""
    <div style="border:1px solid #e5e7eb;border-left:6px solid #22c55e;
                border-radius:10px;padding:12px 14px;margin:12px 0;background:#fafafa">
      <div style="font-weight:700;font-size:16px">{title}</div>
      <div style="color:#6b7280;font-size:12px;margin-top:2px">{subtitle}</div>
    </div>
    """)

def fmt_mem(x):
    return f"{x:.2f} MB"

# 4) Cabe√ßalho
display(card("üßπ Qualidade & Tipagem", "Convers√µes, mem√≥ria e checagens b√°sicas"))

# 5) Resumo de impacto (linhas/colunas/mem√≥ria)
impacto = pd.DataFrame([
    {"M√©trica":"Linhas",  "Antes": int(df_before_shape[0]), "Depois": int(df.shape[0]), "Œî": int(delta_rows)},
    {"M√©trica":"Colunas", "Antes": int(df_before_shape[1]), "Depois": int(df.shape[1]), "Œî": int(delta_cols)},
    {"M√©trica":"Mem√≥ria", "Antes": fmt_mem(mem_before),     "Depois": fmt_mem(mem_after), "Œî": f"{delta_mem:+.2f} MB"},
])
display(impacto)

# 6) Convers√µes num√©ricas relevantes (filtra o que mudou de fato)
cast_report = rep.get("cast_report") if isinstance(rep, dict) else None
if isinstance(cast_report, pd.DataFrame) and not cast_report.empty:
    conv = cast_report.copy()
    # mant√©m apenas colunas com convers√µes (>0) OU que n√£o permaneceram objeto
    conv = conv[(conv["converted_non_null"] > 0) | (conv["dtype_after"] != "object")].copy()
    # formata inteiros bonitos
    for c in ("converted_non_null","introduced_nans"):
        if c in conv.columns:
            conv[c] = conv[c].astype(int)
    if not conv.empty:
        display(card("üî¢ Convers√µes aplicadas", "Somente o que realmente mudou"))
        display(conv[["column","converted_non_null","introduced_nans","dtype_after"]])

# 7) Duplicatas (se houver)
dups = rep.get("duplicates") if isinstance(rep, dict) else None
if isinstance(dups, pd.DataFrame) and not dups.empty:
    display(card("üîÅ Duplicatas detectadas", "Amostra"))
    display(dups.head(10))
    dsum = rep.get("duplicates_summary") if isinstance(rep, dict) else None
    if isinstance(dsum, pd.DataFrame) and not dsum.empty:
        display(dsum.head(20))
else:
    display(card("‚úÖ Sem duplicidades", "Nenhuma chave duplicada Detectada"))

# 8) Nota explicativa (opcional)
nota = """
<b>Notas r√°pidas:</b><br>
‚Ä¢ Valores ‚Äúintroduced_nans‚Äù indicam entradas que n√£o puderam ser convertidas; geralmente s√£o strings vazias ou espa√ßos.<br>
‚Ä¢ Se desejar, voc√™ pode decidir preencher ou excluir essas linhas mais adiante no pipeline.
"""
display(HTML(f"<div style='color:#6b7280;font-size:12px'>{nota}</div>"))

# 9) Restaurar n√≠vel de log original
ud.logger.setLevel(_prev)


Unnamed: 0,M√©trica,Antes,Depois,Œî
0,Linhas,7043,7043,0
1,Colunas,21,21,0
2,Mem√≥ria,6.82 MB,6.51 MB,-0.31 MB


Unnamed: 0,column,converted_non_null,introduced_nans,dtype_after
16,TotalCharges,7032,11,float64


## üßº Padroniza√ß√£o Categ√≥rica

Nesta etapa ocorre a **padroniza√ß√£o global de r√≥tulos textuais** em colunas categ√≥ricas, corrigindo inconsist√™ncias, diferen√ßas de capitaliza√ß√£o e valores redundantes (como `"No internet service"` ‚Üí `"No"`).  
O objetivo √© **garantir uniformidade sem alterar o significado dos dados**, preparando o dataset para codifica√ß√£o e modelagem.

---

### üìã O que √© feito aqui

1. **Sele√ß√£o autom√°tica das colunas categ√≥ricas**  
   - S√£o processadas todas as colunas com tipo `object`, `string` ou `category`, exceto aquelas listadas em `exclude` (ex.: `"customerID"`).

2. **Limpeza e normaliza√ß√£o de forma**  
   - Remove espa√ßos extras (`trim`) e consolida espa√ßos duplos (`collapse_ws`).  
   - Corrige capitaliza√ß√£o conforme o par√¢metro `case` (`"title"`, `"lower"`, `"upper"`, `"none"`).  
   - Opcionalmente remove acentos (`strip_accents`).

3. **Substitui√ß√µes e valores nulos**  
   - Aplica um mapa global de substitui√ß√µes (`global_map`) para corrigir padr√µes conhecidos (ex.: `"No internet service"` ‚Üí `"No"`).  
   - Permite tamb√©m um mapa espec√≠fico por coluna (`per_column_map`), quando necess√°rio.  
   - Converte valores definidos em `null_values` (ex.: `"n/a"`, `"na"`, `"-"`) em `NaN`.

4. **Convers√£o opcional para categoria**  
   - Se `cast_to_category=True`, converte colunas textuais em `category`, otimizando uso de mem√≥ria.

5. **Gera√ß√£o de relat√≥rio e registro autom√°tico**  
   - Cria o arquivo `cat_normalization.csv` dentro da pasta `reports/`, com:  
     - Nome da coluna  
     - Amostras antes/depois  
     - Quantidade de altera√ß√µes (`changes`)  
     - N√∫mero de categorias √∫nicas antes/depois  
   - As informa√ß√µes tamb√©m s√£o registradas no log e adicionadas ao `manifest.json`.

---

### ‚öôÔ∏è Configura√ß√£o (`CAT_NORM_CFG`)

A padroniza√ß√£o √© controlada por um dicion√°rio de configura√ß√£o completo:

```python
CAT_NORM_CFG = {
    "enabled": True,
    "exclude": ["customerID"],
    "case": "title",
    "strip_accents": True,
    "collapse_ws": True,
    "trim": True,
    "global_map": {
        "No internet service": "No",
        "No phone service": "No",
        "n/a": "No",
        "none": "No"
    },
    "null_values": ["", "na", "n/a", "-"],
    "cast_to_category": False
}
```

Exemplo de mapa espec√≠fico por coluna:
```python
"per_column_map": {
    "InternetService": {"Dsl": "DSL", "Fiber Optic": "Fiber Optic"}
}
```

---

> üí° **Resumo:**  
> Esta c√©lula realiza uma **padroniza√ß√£o inteligente e audit√°vel** das colunas categ√≥ricas ‚Äî aplicando limpeza, substitui√ß√µes e normaliza√ß√£o de forma sistem√°tica.  
> O processo √© controlado via configura√ß√£o (`CAT_NORM_CFG`), gera um relat√≥rio autom√°tico e mant√©m registro completo no log e no `manifest.json`, garantindo **clareza, rastreabilidade e consist√™ncia** no tratamento dos dados.


In [73]:
# Config gen√©rica de normaliza√ß√£o (ajuste √† vontade)
CAT_NORM_CFG = {
    "enabled": True,
    "exclude": ["customerID"],          # nunca normalizar IDs
    "case": "title",                    # "lower" | "upper" | "title"
    "strip_accents": True,
    "collapse_ws": True,
    "trim": True,
    "global_map": {
        "No internet service": "No",
        "No phone service": "No",
        "n/a": "No",
        "none": "No"
    },
    "null_values": ["", "na", "n/a", "-"],
    "cast_to_category": False,
    # "per_column_map": {"PaperlessBilling": {"sim": "Yes", "nao": "No"}}
}

# Guarda m√©tricas antes/depois
_before_shape = df.shape
_before_mem   = float(df.memory_usage(deep=True).sum() / (1024**2))

# Caminho de relat√≥rio
cat_report_path = paths.reports_dir / "cat_normalization.csv"

# Tentativa 1: usar a fun√ß√£o avan√ßada (com cfg e relat√≥rio)
_used_fallback = False
try:
    df_norm, cat_norm_report = ud.normalize_categories(
        df,
        cfg=CAT_NORM_CFG,
        report_path=cat_report_path  # aten√ß√£o: √© um caminho completo; essa fun√ß√£o j√° lida com Path
    )
except TypeError:
    # Tentativa 2: fallback para vers√£o simples do utils (sem cfg, sem report interno)
    _used_fallback = True

    # Limita √†s colunas de texto e aplica "exclude" da config
    text_cols = [c for c in df.columns if df[c].dtype == "object" or pd.api.types.is_string_dtype(df[c])]
    target_cols = [c for c in text_cols if c not in set(CAT_NORM_CFG.get("exclude", []))]

    df_before = df.copy()

    # Chamada da vers√£o simples
    df_norm = ud.normalize_categories(
        df,
        cols=target_cols,
        case=CAT_NORM_CFG.get("case", "lower"),
        trim=CAT_NORM_CFG.get("trim", True),
        strip_accents=CAT_NORM_CFG.get("strip_accents", True),
    )

    # Se a fun√ß√£o simples retornar s√≥ o df, mantenha:
    if isinstance(df_norm, tuple):
        # alguma variante pode retornar (df, report); normaliza para df apenas
        df_norm = df_norm[0]

    # Constr√≥i um relat√≥rio equivalente (diferen√ßas por coluna)
    changes = []
    for c in target_cols:
        changed = (df_before[c].astype(str) != df_norm[c].astype(str)).sum()
        if changed > 0:
            changes.append({"column": c, "changed": int(changed)})

    cat_norm_report = pd.DataFrame(changes).sort_values("changed", ascending=False).reset_index(drop=True)
    cat_report_path.parent.mkdir(parents=True, exist_ok=True)
    cat_norm_report.to_csv(cat_report_path, index=False, encoding="utf-8")

# Atualiza o df do pipeline
df = df_norm

# M√©tricas p√≥s
_after_mem   = float(df.memory_usage(deep=True).sum() / (1024**2))
_delta_rows  = df.shape[0] - _before_shape[0]
_delta_cols  = df.shape[1] - _before_shape[1]
_delta_mem   = _after_mem - _before_mem

# Exibi√ß√£o do relat√≥rio
if isinstance(cat_norm_report, pd.DataFrame) and not cat_norm_report.empty:
    print("üìë Relat√≥rio de padroniza√ß√£o (top 20 por mudan√ßas):")
    display(cat_norm_report.head(20))
else:
    print("‚úÖ Nenhuma mudan√ßa significativa detectada nas colunas categ√≥ricas.")

# Mensagem consolidada
print(
    f"\n‚úÖ Padroniza√ß√£o Categ√≥rica conclu√≠da "
    f"{'(fallback simples)' if _used_fallback else '(fun√ß√£o avan√ßada)'}\n"
    f"‚Üí Shape: {_before_shape} ‚Üí {df.shape} (Œîlinhas={_delta_rows:+}, Œîcolunas={_delta_cols:+})\n"
    f"‚Üí Mem√≥ria: {_before_mem:.2f} MB ‚Üí {_after_mem:.2f} MB (Œî={_delta_mem:+.2f} MB)\n"
    f"‚Üí Relat√≥rio salvo em: {cat_report_path}"
)


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,583 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,595 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [manifest] step='save_report_df' registrado.
2025-11-04 05:00:02,599 | INFO | [manifest] step='save_report_df' registrado.
üìë Relat√≥rio de padroniza√ß√£o (top 20 por mudan√ßas):


Unnamed: 0,column,changed
0,Contract,7043
1,PaymentMethod,7043
2,InternetService,5517
3,OnlineSecurity,1526
4,OnlineBackup,1526
5,DeviceProtection,1526
6,TechSupport,1526
7,StreamingTV,1526
8,StreamingMovies,1526
9,MultipleLines,682



‚úÖ Padroniza√ß√£o Categ√≥rica conclu√≠da (fun√ß√£o avan√ßada)
‚Üí Shape: (7043, 21) ‚Üí (7043, 21) (Œîlinhas=+0, Œîcolunas=+0)
‚Üí Mem√≥ria: 6.51 MB ‚Üí 6.51 MB (Œî=+0.00 MB)
‚Üí Relat√≥rio salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\cat_normalization.csv


## ü©π Tratamento de Valores Faltantes

Nesta etapa s√£o tratadas as **aus√™ncias de dados** (valores nulos ou `NaN`) para garantir que o DataFrame siga consistente para as pr√≥ximas fases do pipeline.  
O objetivo √© **preencher ou sinalizar valores faltantes** de forma controlada, preservando a integridade estat√≠stica das colunas e registrando quais linhas foram modificadas.

### üìã O que √© feito aqui

1. **Gera√ß√£o de relat√≥rio inicial**
   - Exibe um diagn√≥stico das colunas com valores ausentes, mostrando a propor√ß√£o (`missing_rate`) e o total (`missing_count`) de registros nulos.
   - Essa visualiza√ß√£o ajuda a decidir se o tratamento ser√° simples ou se exigir√° t√©cnicas espec√≠ficas.

2. **Aplica√ß√£o da estrat√©gia de imputa√ß√£o**
   - O comportamento √© controlado pela chave `missing_strategy` do arquivo de configura√ß√£o:
     - `"simple"` ‚Üí aplica a fun√ß√£o `simple_impute_with_flags()`
     - `"advanced"` ‚Üí reservado para m√©todos personalizados (ex.: KNN, regress√£o, interpola√ß√£o)
   - A estrat√©gia **simples** executa:
     - Substitui√ß√£o de valores nulos **num√©ricos** pela **mediana** da coluna.  
     - Substitui√ß√£o de valores nulos **categ√≥ricos** pela **moda** (valor mais frequente).  
   - Durante a imputa√ß√£o, s√£o criadas **colunas de flag** no formato `was_imputed_<coluna>`, indicando quais linhas foram alteradas.

3. **Relat√≥rio final de verifica√ß√£o**
   - Ap√≥s o preenchimento, √© exibido novamente o relat√≥rio de faltantes para confirmar se todas as lacunas foram resolvidas.
   - Caso ainda existam colunas cr√≠ticas, o notebook pode ser ajustado para aplicar m√©todos mais avan√ßados.

### Exemplo de flag gerada:
| customerID | TotalCharges | was_imputed_TotalCharges |
|-------------|--------------|--------------------------|
| 7590-VHVEG  | 29.85        | False                   |
| 9237-HQITU  | 1840.75      | True                    |

Linhas com `True` indicam que o valor original estava ausente e foi imputado automaticamente.

> üí° **Resumo:**  
> Esta c√©lula identifica e corrige valores faltantes, aplicando regras de imputa√ß√£o simples e registrando onde cada substitui√ß√£o ocorreu.  
> Isso garante **transpar√™ncia, rastreabilidade e controle de qualidade**, permitindo filtrar posteriormente apenas os dados considerados consistentes.


In [74]:
# === N1 ¬∑ Tratamento de Valores Faltantes (compacto) =========================
import importlib, utils.utils_data as ud
importlib.reload(ud)

# Garante df como DataFrame caso alguma etapa tenha retornado tupla
df = ud.coerce_df(df)

res = ud.handle_missing_step(
    df,
    config=config,                     # usa config["missing"] ou chaves antigas
    save_reports=True,                 # salva before/after em reports/missing/
    prefer="auto"                      # "auto" tenta strategy do config e faz fallback p/ simple
)

df = res["df"]

print("\n‚úÖ Tratamento de faltantes conclu√≠do!")
print(f"‚Üí Estrat√©gia final: {res['strategy']}")
print(f"‚Üí Colunas imputadas (amostra): {res.get('imputed_cols', [])[:10] or '‚Äî'}")

from IPython.display import display
print("\nRelat√≥rio de faltantes (antes):")
display(res["before"].head(20))

print("\nRelat√≥rio de faltantes (depois):")
display(res["after"].head(20))


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,650 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,653 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,665 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [manifest] step='save_report_df' registrado.
2025-11-04 05:00:02,669 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\missing\before.csv (21 linhas)
2025-11-04 05:00:02,671 | INFO | [report] salvo: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\missing\before.csv (21 linhas)
[INF

Unnamed: 0,column,missing_count,missing_pct
0,TotalCharges,11,0.16
1,customerID,0,0.0
2,DeviceProtection,0,0.0
3,MonthlyCharges,0,0.0
4,PaymentMethod,0,0.0
5,PaperlessBilling,0,0.0
6,Contract,0,0.0
7,StreamingMovies,0,0.0
8,StreamingTV,0,0.0
9,TechSupport,0,0.0



Relat√≥rio de faltantes (depois):


Unnamed: 0,column,missing_count,missing_pct
0,customerID,0,0.0
1,InternetService_was_missing,0,0.0
2,MonthlyCharges_was_missing,0,0.0
3,TotalCharges_was_missing,0,0.0
4,customerID_was_missing,0,0.0
5,gender_was_missing,0,0.0
6,Partner_was_missing,0,0.0
7,Dependents_was_missing,0,0.0
8,PhoneService_was_missing,0,0.0
9,MultipleLines_was_missing,0,0.0


## üö© Detec√ß√£o de Outliers

Esta etapa identifica **valores at√≠picos** nas colunas num√©ricas, adicionando colunas de flag (`*_is_outlier`) que indicam quais registros se desviam do padr√£o estat√≠stico esperado.  
Essas colunas servem para **inspe√ß√£o e auditoria**, sem alterar ou remover dados ‚Äî a decis√£o de tratamento posterior (ajuste, exclus√£o ou manuten√ß√£o) √© **de neg√≥cio**.

### ‚öôÔ∏è Como funciona

1. **Verifica a configura√ß√£o**
   - A execu√ß√£o depende da flag `detect_outliers` no arquivo `config/defaults.json`.  
     Se estiver definida como `true`, a detec√ß√£o √© realizada.

2. **Seleciona o m√©todo estat√≠stico**
   - `"iqr"` ‚Üí usa o **Intervalo Interquartil (Interquartile Range)**:
     - Calcula Q1 (25¬∫ percentil) e Q3 (75¬∫ percentil)
     - Define limites:  
       Inferior = Q1 ‚àí 1.5 √ó IQR  
       Superior = Q3 + 1.5 √ó IQR
     - Valores fora desse intervalo s√£o marcados como outliers.
   - `"zscore"` ‚Üí usa o **desvio-padr√£o (Z-Score)**:
     - Calcula a m√©dia (Œº) e o desvio-padr√£o (œÉ)
     - Para cada valor, obt√©m `z = (x ‚àí Œº) / œÉ`
     - Valores com |z| > 3 s√£o considerados outliers.

3. **Cria√ß√£o de colunas de flag**
   - Para cada vari√°vel num√©rica analisada, √© criada uma nova coluna:
     ```
     <coluna>_is_outlier
     ```
   - O valor ser√°:
     - `True` ‚Üí registro identificado como outlier  
     - `False` ‚Üí registro dentro do intervalo esperado

4. **Registro no log**
   - Ao final, o sistema registra no log quantas colunas de flag foram criadas:
     ```
     Outlier flags created: 4
     ```
     Significa que 4 colunas num√©ricas foram analisadas e receberam suas respectivas flags.

### Exemplo de resultado

| tenure | MonthlyCharges | TotalCharges | tenure_is_outlier | MonthlyCharges_is_outlier | TotalCharges_is_outlier |
|--------|----------------|--------------|-------------------|----------------------------|--------------------------|
| 5      | 35.50          | 190.00       | False             | False                      | False                    |
| 72     | 120.00         | 9999.99      | False             | **True**                   | **True**                 |

> üí° **Resumo:**  
> Esta c√©lula adiciona colunas de marca√ß√£o para detectar valores at√≠picos de acordo com o m√©todo configurado.  
> Os dados originais s√£o preservados, permitindo que a an√°lise posterior defina se esses registros devem ser **mantidos, ajustados ou removidos**.


In [75]:
importlib.reload(ud)

cfg = ud.load_config()  # ou um dict manual

df2, out_info = ud.apply_outlier_flags(df, config=cfg)

print(out_info["created_flags"], "flags criadas")
display(pd.Series(out_info["counts"]).sort_values(ascending=False).head(20))

[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,909 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,925 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,928 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:02,940 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [manifest] step='save_report_df' registrado.
2025-11-04 05:00:02,946 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo: C:\Users\fabio\Projetos DEV\data projects\data-project-template

tenure_is_outlier            0
MonthlyCharges_is_outlier    0
TotalCharges_is_outlier      0
dtype: int64

In [76]:
display(df2.filter(like="_is_outlier").sum())

tenure_is_outlier            0
MonthlyCharges_is_outlier    0
TotalCharges_is_outlier      0
dtype: int64

## üß¨ Duplicidades

Remove **linhas duplicadas** do DataFrame para evitar contagens infladas, vieses e ru√≠do em m√©tricas.

### üìã O que acontece aqui
- A duplicidade √© verificada **linha a linha**, considerando todas as colunas por padr√£o.  
- A primeira ocorr√™ncia √© mantida e as demais s√£o removidas.

### üîß Op√ß√µes (definidas no `config`)
- `deduplicate.subset`: lista de colunas que definem a chave de deduplica√ß√£o.  
  *Ex.:* `["customerID"]` mant√©m apenas um registro por cliente.  
- `deduplicate.keep`: pol√≠tica de reten√ß√£o ‚Äî `"first"`, `"last"` ou `false` (remove todas as repeti√ß√µes).

### üß† Boas pr√°ticas
- Utilize `subset` quando a duplicidade for **conceitual** (ex.: mesma pessoa/pedido), n√£o necessariamente toda a linha id√™ntica.
- Em datasets extensos, a deduplica√ß√£o deve ser feita **ap√≥s** o tratamento de nulos e padroniza√ß√£o de texto, para evitar falsos positivos.

> üí° **Resumo:** esta etapa garante um dataset **sem registros repetidos** segundo o crit√©rio configurado, mantendo a consist√™ncia das an√°lises.


In [77]:
if cfg.get("deduplicate"):
    df = ud.deduplicate_rows(df, config=cfg)


[INFO] [deduplicate_rows] Removidas 0 duplicadas (7043 ‚Üí 7043) | subset=ALL | keep=first
2025-11-04 05:00:03,361 | INFO | [deduplicate_rows] Removidas 0 duplicadas (7043 ‚Üí 7043) | subset=ALL | keep=first


## üõ†Ô∏è Engenharia de Atributos

Cria√ß√£o de novas colunas que capturem **rela√ß√µes, propor√ß√µes, categorias ou padr√µes** relevantes ao neg√≥cio.  
Essa etapa √© inteiramente manual e depende do contexto do dataset.

### üí° Exemplos:
- **Raz√µes e propor√ß√µes:** `TotalCharges / tenure` ‚Üí gasto m√©dio mensal.  
- **Flags categ√≥ricas:** `Contract == 'Month-to-month'` ‚Üí 1 se contrato mensal.  
- **Contagens de servi√ßos:** soma de colunas bin√°rias (Yes/No).  

Essas novas features tornam as an√°lises mais ricas e **melhoram a performance de modelos preditivos**.

---

### ‚öôÔ∏è O que o bloco de c√≥digo faz

- Verifica se `feature_engineering` est√° **habilitado no config**.  
- Aplica regras **autom√°ticas seguras** (ex.: log1p em colunas com alta assimetria, raz√£o de `TotalCharges / tenure`, flag `is_long_tenure_24m`, etc.).  
- Permite **regras personalizadas** via `config`, como:
  - `ratios`: lista de pares `[numerador, denominador, nome_da_nova_coluna]`
  - `log1p_cols`: colunas nas quais aplicar transforma√ß√£o logar√≠tmica
  - `binaries`: limiares para gerar flags booleanas
  - `date_parts`: colunas de data das quais extrair partes (ano, m√™s, semana...)

Quando nenhuma regra √© aplic√°vel, o notebook retorna:

```
‚ÑπÔ∏è Nenhuma engenharia de atributos aplicada.
   - Verifique config['feature_engineering'].
   - Exemplos de regras: log1p_cols, ratios, binaries, date_parts.
   - Habilite enable_default_rules para heur√≠sticas autom√°ticas.
```

### üß† Boas pr√°ticas
- Use nomes **claros e descritivos** para novas features (`avg_charge_per_month`, `is_tenure_ge_12m`, etc.).  
- Evite criar colunas redundantes ou altamente correlacionadas.  
- Sempre documente cada feature gerada ‚Äî especialmente se for usada em modelagem posterior.

> üí° **Resumo:** esta etapa adiciona intelig√™ncia ao dataset, criando vari√°veis derivadas que capturam padr√µes impl√≠citos e aumentam o poder explicativo dos modelos.


In [78]:
# --- Engenharia de Atributos -------------------------------------------------
# Regras opcionais no config:
# config.get("feature_engineering") pode ser:
#   - True/False
#   - dict com op√ß√µes:
#       {
#         "enable_default_rules": True,
#         "log1p_cols": ["MonthlyCharges"],
#         "ratios": [["TotalCharges","tenure","avg_charge_per_month"]],  # num/den->nome
#         "binaries": [["tenure", 24, "is_long_tenure"]],                # col, limiar, nome
#         "date_parts": ["order_date"]                                   # extrai ano/mes/dia/semana
#       }


fe_cfg = config.get("feature_engineering", False)
if not fe_cfg:
    print("‚öôÔ∏è FE desabilitada em config['feature_engineering'].")
else:
    created = []

    # helper p/ log
    def _log(msg):
        try:
            logger.info(msg)  # se voc√™ tiver logger configurado
        except:
            print(msg)

    # Normaliza config em dict
    if isinstance(fe_cfg, bool):
        fe_cfg = {"enable_default_rules": True}

    # -------------------- 1) Regras expl√≠citas do config --------------------
    # (a) Raz√µes num√©ricas definidas pelo usu√°rio: [[num, den, nome], ...]
    for rule in fe_cfg.get("ratios", []) or []:
        if len(rule) == 3:
            num, den, out = rule
            if {num, den}.issubset(df.columns):
                denom = df[den].replace(0, np.nan)
                df[out] = df[num] / denom
                created.append(out)

    # (b) Log1p em colunas positivas
    for col in fe_cfg.get("log1p_cols", []) or []:
        if col in df.columns:
            pos = df[col] > 0
            if pos.any():
                out = f"{col}_log1p"
                df[out] = 0.0
                df.loc[pos, out] = np.log1p(df.loc[pos, col].astype(float))
                created.append(out)

    # (c) Bin√°rios por limiar: [[col, threshold, out_name], ...]
    for rule in fe_cfg.get("binaries", []) or []:
        if len(rule) == 3:
            col, thr, out = rule
            if col in df.columns:
                try:
                    df[out] = (pd.to_numeric(df[col], errors="coerce") >= float(thr))
                    created.append(out)
                except Exception:
                    pass

    # (d) Partes de data (ano, m√™s, dia, semana ISO)
    for col in fe_cfg.get("date_parts", []) or []:
        if col in df.columns and pd.api.types.is_datetime64_any_dtype(df[col]):
            for part, accessor in {
                "year": "year", "month": "month", "day": "day", "week": "isocalendar().week"
            }.items():
                out = f"{col}_{part}"
                try:
                    if part == "week":
                        df[out] = getattr(df[col].dt.isocalendar(), "week")
                    else:
                        df[out] = getattr(df[col].dt, part)
                    created.append(out)
                except Exception:
                    pass

    # -------------------- 2) Regras padr√£o (heur√≠sticas seguras) ------------
    if fe_cfg.get("enable_default_rules", True):
        # (a) Telco cl√°ssico: cobran√ßa m√©dia mensal estimada
        if {"TotalCharges", "tenure"}.issubset(df.columns):
            denom = pd.to_numeric(df["tenure"], errors="coerce").replace(0, np.nan)
            out = "avg_charge_per_month"
            df[out] = pd.to_numeric(df["TotalCharges"], errors="coerce") / denom
            created.append(out)

        # (b) Diferen√ßa entre o esperado (tenure*Monthly) e TotalCharges
        if {"MonthlyCharges", "tenure", "TotalCharges"}.issubset(df.columns):
            exp_total = (
                pd.to_numeric(df["MonthlyCharges"], errors="coerce") *
                pd.to_numeric(df["tenure"], errors="coerce")
            )
            out = "charge_gap"
            df[out] = pd.to_numeric(df["TotalCharges"], errors="coerce") - exp_total
            created.append(out)

        # (c) Limiar simples de fidelidade
        if "tenure" in df.columns:
            out = "is_long_tenure_24m"
            df[out] = (pd.to_numeric(df["tenure"], errors="coerce") >= 24)
            created.append(out)

        # (d) log1p autom√°tico em num√©ricas com valores > 0 e forte assimetria
        num_cols = df.select_dtypes(include=[np.number]).columns
        for col in num_cols:
            s = pd.to_numeric(df[col], errors="coerce")
            if (s > 0).sum() > 0:
                skew = s.skew(skipna=True)
                if pd.notna(skew) and abs(skew) > 1.0:
                    out = f"{col}_log1p"
                    # evita recriar se j√° existe por config
                    if out not in df.columns:
                        df[out] = np.log1p(s.clip(lower=0))
                        created.append(out)

    # -------------------- 3) Relato do que foi feito -------------------------
    if created:
        created = sorted(set(created))
        _log(f"[feature_engineering] Features criadas: {len(created)} -> {created[:8]}{'...' if len(created)>8 else ''}")
        # Visual r√°pido (limita para n√£o poluir)
        display(df[created].head(10))
    else:
        _log("[feature_engineering] Nenhuma feature criada (sem regras aplic√°veis para as colunas atuais).")
        print(
            "‚ÑπÔ∏è Nenhuma engenharia de atributos aplicada.\n"
            "   - Verifique `config['feature_engineering']`.\n"
            "   - Exemplos de regras: "
            "`log1p_cols`, `ratios`, `binaries`, `date_parts`.\n"
            "   - Habilite `enable_default_rules` para heur√≠sticas autom√°ticas."
        )


2025-11-04 05:00:07,374 | INFO | [feature_engineering] Features criadas: 6 -> ['SeniorCitizen_log1p', 'TotalCharges_was_missing_log1p', 'avg_charge_per_month', 'charge_gap', 'charge_gap_log1p', 'is_long_tenure_24m']


Unnamed: 0,SeniorCitizen_log1p,TotalCharges_was_missing_log1p,avg_charge_per_month,charge_gap,charge_gap_log1p,is_long_tenure_24m
0,0.0,0.0,29.85,0.0,0.0,False
1,0.0,0.0,55.573529,-46.8,0.0,True
2,0.0,0.0,54.075,0.45,0.371564,False
3,0.0,0.0,40.905556,-62.75,0.0,True
4,0.0,0.0,75.825,10.25,2.420368,False
5,0.0,0.0,102.5625,23.3,3.190476,False
6,0.0,0.0,88.609091,-10.8,0.0,False
7,0.0,0.0,30.19,4.4,1.686399,False
8,0.0,0.0,108.7875,111.65,4.724286,True
9,0.0,0.0,56.257258,6.65,2.034706,True


# üìÖ Tratamento de Datas

Esta etapa detecta e converte colunas de datas de forma **autom√°tica e controlada**, criando **features temporais** √∫teis para an√°lises e modelos preditivos.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas de data

O sistema procura automaticamente colunas com nomes que contenham termos como  
`date`, `data`, `dt_`, `_dt`, ou `_date`.

Tamb√©m √© poss√≠vel **for√ßar colunas espec√≠ficas** definindo manualmente em:

```python
date_cfg["explicit_cols"] = ["StartDate", "EndDate"]
```

### üîπ Convers√£o para datetime com auditoria

Cada coluna candidata √© testada com diferentes formatos e tentativas de *parsing*.  
O relat√≥rio **`parse_report`** mostra:

| column      | parsed_ratio | converted |
|--------------|--------------|------------|
| order_date   | 1.00         | True       |
| start_date   | 0.35         | False      |

- **column:** nome da coluna testada  
- **parsed_ratio:** porcentagem de valores convertidos com sucesso  
- **converted:** indica se a coluna foi convertida (baseado no `min_ratio`)

---

### üîπ Cria√ß√£o autom√°tica de features temporais

Para cada coluna convertida em `datetime`, s√£o geradas vari√°veis derivadas como:

`*_year`, `*_month`, `*_day`, `*_dayofweek`, `*_quarter`, `*_week`,  
`*_is_month_start`, `*_is_month_end`

O prefixo das novas colunas √© o **nome original da coluna de data** .

---

### üß± Comportamento defensivo

Caso nenhuma coluna seja detectada, a c√©lula n√£o gera erro ‚Äî apenas loga:

`[dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.`


Assim, o pipeline segue normalmente.

---

### ‚öôÔ∏è Configura√ß√£o (`date_cfg`)

| Par√¢metro       | Descri√ß√£o                                                        | Exemplo               |
|-----------------|------------------------------------------------------------------|------------------------|
| `detect_regex`  | Padr√£o para localizar colunas com nomes de data                 | `"date"`              |
| `explicit_cols` | Lista manual de colunas a converter                             | `["StartDate"]`       |
| `dayfirst`      | Define se o formato √© D/M/Y                                     | `True` para üáßüá∑        |
| `utc`           | Define se a convers√£o deve ser em UTC                           | `False`               |
| `formats`       | Lista de formatos espec√≠ficos                                   | `["%d/%m/%Y"]`        |
| `min_ratio`     | Fra√ß√£o m√≠nima de parsing bem-sucedido para aceitar a convers√£o  | `0.8`                 |

---

> üí° **Resumo:**  
> Esta c√©lula realiza o reconhecimento autom√°tico de colunas de data,
converte-as para o formato datetime e gera vari√°veis derivadas como
ano, m√™s, dia e semana.
> Caso nenhuma coluna de data seja encontrada, o c√≥digo √© ignorado com seguran√ßa,
garantindo a continuidade do pipeline sem erros.
> Os par√¢metros em date_cfg permitem ajustar formato, localiza√ß√£o e toler√¢ncia
de parsing conforme a estrutura de cada dataset.

In [79]:
# --- Tratamento de Datas -----------------------------------------------------
# Usa cfg do arquivo defaults.json (se preferir, mantenha o dict local)
date_cfg = dict(config.get("dates", {})) or {
    "detect_regex": r"(date|data|dt_|_dt$|_date$|_at$|time|timestamp|created|updated)",
    "explicit_cols": [],   # ex.: ["StartDate","EndDate"]
    "dayfirst": False,     # True se D/M/Y (BR)
    "utc": False,
    "formats": [],         # ex.: ["%d/%m/%Y", "%Y-%m-%d"]
    "min_ratio": 0.80,
    "report_path": "date_parse_report.csv"
}

df, parse_report, parsed_cols = ud.parse_dates_with_report_cfg(df, date_cfg)
display(parse_report)

if not parsed_cols:
    logger.info("[dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.")
    # Scanner r√°pido de suspeitas (em colunas object), √∫til para alimentar explicit_cols/formats
    obj_cols = df.select_dtypes(include="object").columns.tolist()
    suspects = []
    for c in obj_cols:
        s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
        ratio = float(s.notna().mean())
        if ratio >= 0.20:  # ajuste conforme seu caso
            suspects.append((c, round(ratio, 3)))
    if suspects:
        print("üîé Poss√≠veis colunas de data (taxa de parsing com heur√≠stica atual):")
        display(pd.DataFrame(suspects, columns=["column","parse_ratio"]).sort_values("parse_ratio", ascending=False))
        print("‚Üí Dica: mova as colunas acima para dates.explicit_cols e/ou informe dates.formats.")
else:
    created = ud.expand_date_features_plus(
        df, parsed_cols,
        features=["year","month","day","dayofweek","quarter","week","is_month_start","is_month_end"],
        prefix_mode="auto"
    )
    logger.info(f"[dates] features criadas: {len(created)}")
    display(df[created].head(10))


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:07,801 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:07,805 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:07,817 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [manifest] step='save_report_df' registrado.
2025-11-04 05:00:07,820 | INFO | [manifest] step='save_report_df' registrado.
[INFO] [report] salvo: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\date_parse_report.csv (0 linhas)
2025-11-04 05:00:07,822 | INFO | [report] salvo: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\date_parse_report.csv (0 linhas)


Unnamed: 0,column,non_null,parsed,ratio,method,format


2025-11-04 05:00:07,831 | INFO | [dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.


  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", dayfirst=date_cfg.get("dayfirst", False), utc=date_cfg.get("utc", False))
  s = pd.to_datetime(df[c], errors="coerce", day

# üóìÔ∏è Cria√ß√£o da Tabela Calend√°rio (`dim_date`)

Esta etapa gera automaticamente uma **tabela calend√°rio completa** ‚Äî tamb√©m chamada de **dimens√£o de tempo** ‚Äî a partir de uma coluna de datas existente no dataset principal.  
A tabela √© √∫til para **an√°lises temporais, dashboards e modelos de previs√£o** que utilizam per√≠odos como refer√™ncia (ano, m√™s, trimestre, etc).

---

## üìã O que acontece aqui

### üîπ Sele√ß√£o da coluna de data

Voc√™ define manualmente qual coluna ser√° usada como base:

```python
CAL_DATE_COL = "order_date"  # nome da coluna datetime escolhida
CAL_FREQ = "D"               # frequ√™ncia: "D" (di√°rio), "W" (semanal), "M" (mensal)
```

A coluna deve estar no formato **datetime**.  
Se n√£o estiver, o notebook exibir√° um aviso pedindo para executar antes a etapa de **Tratamento de Datas**.

---

### üîπ Gera√ß√£o da dimens√£o calend√°rio

A fun√ß√£o `build_calendar_from()` constr√≥i uma tabela com todas as datas entre o **m√≠nimo** e o **m√°ximo** encontrados em `CAL_DATE_COL`.

Para cada data, s√£o criadas colunas derivadas, como:

| Coluna          | Descri√ß√£o                                |
|------------------|-------------------------------------------|
| `date`           | Data base (chave prim√°ria)               |
| `year`           | Ano                                      |
| `month`          | M√™s num√©rico                             |
| `day`            | Dia do m√™s                               |
| `quarter`        | Trimestre (1‚Äì4)                          |
| `week`           | Semana do ano (ISO)                      |
| `dow`            | Dia da semana (0 = segunda, 6 = domingo) |
| `is_month_start` | Indica se a data √© o primeiro dia do m√™s |
| `is_month_end`   | Indica se a data √© o √∫ltimo dia do m√™s   |
| `month_name`     | Nome do m√™s                              |
| `day_name`       | Nome do dia da semana                    |

---

### üîπ Armazenamento e reuso

A tabela √© salva automaticamente no diret√≥rio de artefatos do projeto (`reports/artifacts`), usando o utilit√°rio:

```python
CAL_OUT = ud.get_artifacts_dir("calendar") / "dim_date.csv"
ud.save_table(dim_date, CAL_OUT)
```

O formato √© determinado pela extens√£o do arquivo ‚Äî `.csv` ou `.parquet`.

Al√©m disso, a tabela pode ser registrada no cat√°logo de DataFrames (`T`) para ser usada em outras partes do pipeline:

```python
T.add("dim_date", dim_date)
```

> üí° **Resumo:**  
> Esta c√©lula cria uma **dimens√£o de tempo completa** a partir da coluna de data escolhida.  
> O processo √© **autom√°tico**, **reproduz√≠vel** e **independente do dataset principal**, permitindo:
> - Agrega√ß√µes temporais por ano, m√™s, semana ou trimestre;  
> - Jun√ß√µes consistentes com outras tabelas de fato;  
> - Integra√ß√£o direta com dashboards (ex.: Power BI).  
> 
> Tudo √© salvo e versionado dentro da estrutura padr√£o do projeto em `reports/artifacts/calendar/`.


In [80]:
# --- valida√ß√µes suaves ---
if CAL_DATE_COL not in df.columns:
    msg = f"‚ö†Ô∏è Coluna '{CAL_DATE_COL}' n√£o encontrada no DataFrame. " \
          f"Ajuste CAL_DATE_COL para uma coluna v√°lida antes de gerar a tabela calend√°rio."
    print(msg); logger.warning(msg)
else:
    if not pd.api.types.is_datetime64_any_dtype(df[CAL_DATE_COL]):
        msg = f"‚ö†Ô∏è Coluna '{CAL_DATE_COL}' existe, mas **n√£o est√° em formato datetime**. " \
              "Execute a etapa de Tratamento de Datas antes, ou converta manualmente."
        print(msg); logger.warning(msg)
    else:
        # --- constru√ß√£o da dimens√£o calend√°rio ---
        dim_date = ud.build_calendar_from(df, CAL_DATE_COL, freq=CAL_FREQ)

        # --- vis√£o r√°pida ---
        display(dim_date.head(12))
        start_date = dim_date["date"].min()
        end_date   = dim_date["date"].max()
        print(f"Per√≠odo: {start_date.date()} ‚Üí {end_date.date()}  | Linhas: {len(dim_date)}")

        # --- salvar respeitando a extens√£o (.csv ou .parquet pelo sufixo)
        ud.save_table(dim_date, CAL_OUT)
        logger.info(f"[calendar] Tabela calend√°rio salva em: {CAL_OUT}")

        # --- opcional: registrar no cat√°logo de tabelas ---
        try:
            T.add("dim_date", dim_date)
            logger.info("[calendar] 'dim_date' registrada no cat√°logo T.")
        except NameError:
            pass


‚ö†Ô∏è Coluna 'order_date' n√£o encontrada no DataFrame. Ajuste CAL_DATE_COL para uma coluna v√°lida antes de gerar a tabela calend√°rio.


# üìù Tratamento de Texto (opcional)

Esta etapa extrai **m√©tricas num√©ricas e l√≥gicas a partir de colunas textuais**, transformando texto livre em informa√ß√µes quantitativas √∫teis para **an√°lise explorat√≥ria e modelagem**.  

√â uma forma leve e controlada de **estruturar dados n√£o num√©ricos**, sem recorrer a t√©cnicas avan√ßadas de NLP.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas textuais

O sistema busca automaticamente colunas com tipo `object` e ignora aquelas listadas na *blacklist*:

```python
text_cols = [c for c in df.columns if df[c].dtype == 'object' and c not in TEXT_CFG["blacklist"]]
```

Essas colunas normalmente cont√™m informa√ß√µes como:  
descri√ß√µes, coment√°rios, nomes, categorias textuais ou observa√ß√µes.

---

### üîπ Limpeza e padroniza√ß√£o

Antes de gerar as m√©tricas, os textos passam por uma limpeza leve:
- Remo√ß√£o de **espa√ßos duplicados** e **trim** nas extremidades.  
- Convers√£o para **min√∫sculas**, garantindo consist√™ncia em an√°lises de termos.

Essas a√ß√µes s√£o controladas pelas chaves:
```python
"lower": True,
"strip_collapse_ws": True
```

---

### üîπ Cria√ß√£o autom√°tica de m√©tricas textuais

Para cada coluna textual, s√£o geradas novas colunas num√©ricas:

| Nova Coluna           | Descri√ß√£o | Exemplo ("This is great!") |
|------------------------|------------|-----------------------------|
| `<coluna>_len`         | N√∫mero total de caracteres no texto | 15 |
| `<coluna>_word_count`  | N√∫mero de palavras separadas por espa√ßos | 3 |

Essas novas colunas permitem an√°lises quantitativas sobre padr√µes de texto e s√£o especialmente √∫teis em relat√≥rios e modelos de ML que exigem vari√°veis num√©ricas.

---

### üîπ Presen√ßa de termos-chave

O sistema tamb√©m cria colunas booleanas (`True` / `False`) para identificar a **ocorr√™ncia de palavras espec√≠ficas** em cada coluna textual.  

Exemplo:
```python
TEXT_CFG["keywords"] = ["error", "cancel", "premium"]
```

Gera colunas como:
- `<coluna>_has_error`  
- `<coluna>_has_cancel`  
- `<coluna>_has_premium`

Essas vari√°veis s√£o √∫teis para an√°lises de sentimento, classifica√ß√£o de textos e detec√ß√£o de padr√µes em feedbacks de clientes.

---

### üîπ Exporta√ß√£o de resumo

Ao final, √© gerado um **resumo CSV** com as colunas de texto processadas e suas m√©tricas derivadas.  
O arquivo √© salvo automaticamente em:

```
reports/artifacts/text_features/text_features_summary.csv
```

Esse relat√≥rio documenta as transforma√ß√µes aplicadas, garantindo **rastreabilidade e transpar√™ncia** dentro do pipeline de dados.

---

### ‚öôÔ∏è Configura√ß√£o (`TEXT_CFG`)

| Par√¢metro              | Descri√ß√£o                                                       | Exemplo                              |
|------------------------|------------------------------------------------------------------|--------------------------------------|
| `lower`                | Converte o texto para min√∫sculas                                | `True`                               |
| `strip_collapse_ws`    | Remove espa√ßos duplicados e limpa extremidades                  | `True`                               |
| `keywords`             | Lista de termos a detectar no texto                             | `["error", "cancel", "premium"]`     |
| `blacklist`            | Colunas a ignorar durante o processamento                       | `["customerID"]`                     |
| `export_summary`       | Salva relat√≥rio com resumo das features geradas                 | `True`                               |

---

### Boas pr√°ticas

- Aplique esta etapa apenas em colunas realmente textuais ‚Äî evite IDs ou c√≥digos.  
- Personalize a lista de **palavras-chave** conforme o contexto do dataset.  
- Caso o dataset n√£o possua colunas de texto, o processo ser√° ignorado com seguran√ßa.  
- Utilize o relat√≥rio `text_features_summary.csv` para acompanhar colunas derivadas e auditorias.

---

> üí° **Resumo:**  
> Esta c√©lula transforma campos de texto em **indicadores num√©ricos e l√≥gicos**, gerando m√©tricas b√°sicas (tamanho, n√∫mero de palavras e flags de palavras-chave).  
> Tudo √© processado automaticamente com **configura√ß√£o leve e reprodut√≠vel**, integrando dados textuais ao pipeline de forma organizada e escal√°vel.


In [81]:
TEXT_CFG = {
    "lower": True,
    "strip_collapse_ws": True,
    "keywords": ["error", "cancel", "premium"],
    "blacklist": ["customerID"],
    "export_summary": True,
}

if config.get("text_features", True):
    summary_path = ud.get_artifacts_dir("text_features")
    df, text_summary = ud.extract_text_features(
        df,
        lower=TEXT_CFG["lower"],
        strip_collapse_ws=TEXT_CFG["strip_collapse_ws"],
        keywords=TEXT_CFG["keywords"],
        blacklist=TEXT_CFG["blacklist"],
        export_summary=TEXT_CFG["export_summary"],
        summary_dir=summary_path
    )
    display(text_summary.head())


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:09,952 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features
2025-11-04 05:00:09,955 | INFO | [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features
[INFO] [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features\text_features_summary.csv (16 colunas)
2025-11-04 05:00:10,369 | INFO | [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features\text_features_summary.csv (16 colunas)


  df_out[kw_flag] = s.str.contains(rf"\b{kw}\b", regex=True, na=False)


Unnamed: 0,column,non_null,avg_len,avg_words,kw_error_count,kw_cancel_count,kw_premium_count
0,Churn,7043,2.27,1.0,0,0,0
1,Contract,7043,11.3,1.45,0,0,0
2,Dependents,7043,2.3,1.0,0,0,0
3,DeviceProtection,7043,6.03,1.43,0,0,0
4,InternetService,7043,6.3,1.44,0,0,0


# üî§ Codifica√ß√£o de Categ√≥ricas & üî¢ Escalonamento Num√©rico (opcionais)

Esta etapa transforma vari√°veis **categ√≥ricas** em representa√ß√µes num√©ricas e **padroniza a escala** de vari√°veis **num√©ricas** quando necess√°rio.  
√â √∫til para alimentar modelos de ML que **n√£o aceitam strings** (ex.: regress√µes, SVMs, redes neurais) e/ou **s√£o sens√≠veis √† escala** (KNN, SVM com kernel RBF, PCA, etc.).

---

## üß≠ Vis√£o Geral

- **Codifica√ß√£o (Encoding)**
  - **One-hot**: cria uma coluna por categoria (0/1). √â a op√ß√£o **mais segura** para baseline; evita ordenar categorias artificialmente.
  - **Ordinal**: mapeia categorias para n√∫meros inteiros. Mais **compacto**, mas induz **ordem artificial**; use com cuidado quando **n√£o** h√° ordem natural.

- **Escalonamento (Scaling)**
  - **Standard**: `z = (x - m√©dia) / desvio`; centra em 0 com vari√¢ncia ‚âà 1. Bom para dados **aprox. gaussianos**.
  - **MinMax**: escala para **[0, 1]**; √∫til quando limites m√≠nimos e m√°ximos s√£o relevantes (redes neurais, normaliza√ß√µes simples).

---

## ‚öôÔ∏è Configura√ß√£o usada no notebook

As op√ß√µes abaixo s√£o lidas do `config` e repassadas para a fun√ß√£o utilit√°ria do template (`apply_encoding_and_scaling`, quando habilitada).

```python
ENCODE_CFG = {
    "enabled":              config.get("encode_categoricals", True),
    "type":                 config.get("encoding_type", "onehot"),  # "onehot" | "ordinal"
    "exclude_cols":         ["Churn", "customerID"],                # N√ÉO codificar alvo/ids
    "high_card_threshold":  50,                                     # ignora colunas com cardinalidade muito alta
}

SCALE_CFG = {
    "enabled":              config.get("scale_numeric", False),
    "method":               config.get("scaler", "standard"),       # "standard" | "minmax"
    "exclude_cols":         ["Churn"],                              # N√ÉO escalar o alvo
    "only_continuous":      True,                                   # evita escalar dummies e inteiros-discretos
}

df, encoding_meta, scaling_meta = apply_encoding_and_scaling(
    df, encode_cfg=ENCODE_CFG, scale_cfg=SCALE_CFG
)
```

> üí° **Dica:** deixe `scale_numeric = false` no in√≠cio do projeto (explora√ß√£o/entendimento).  
> Ative a escala somente quando partir para **modelagem** e **valida√ß√£o**.

---

## üß© O que a fun√ß√£o faz (alto n√≠vel)

1. **Seleciona colunas categ√≥ricas** (`object`/`category`) **excluindo** as listadas em `exclude_cols` e as com **cardinalidade > high_card_threshold** (prote√ß√£o contra explos√£o de dummies).
2. **Codifica** conforme `type`:
   - `onehot` ‚Üí usa `pd.get_dummies(..., dtype=float)` e concatena ao DataFrame (removendo as originais).
   - `ordinal` ‚Üí usa `sklearn.preprocessing.OrdinalEncoder` (com `handle_unknown='use_encoded_value'` e `unknown_value=-1`).
3. **Escala colunas num√©ricas** se `SCALE_CFG["enabled"]`:
   - seleciona **apenas** colunas num√©ricas **cont√≠nuas** quando `only_continuous=True` (tipicamente `float`/amplitude alta).
   - aplica `StandardScaler` **ou** `MinMaxScaler` do scikit-learn.
4. Retorna:
   - `df` (atualizado),
   - `encoding_meta` (categorias vistas, tipo de codifica√ß√£o, colunas exclu√≠das, descartes por cardinalidade),
   - `scaling_meta` (tipo de escala, colunas escaladas, par√¢metros do scaler).

---

## üì¶ Sa√≠das e Metadados

**`encoding_meta`** inclui:
- `encoding`: `"onehot"` **ou** `"ordinal"`  
- `excluded`: lista de colunas ignoradas (ex.: `["Churn","customerID"]`)  
- `high_card_excluded`: colunas **n√£o encodadas** por alta cardinalidade  
- `categorical_columns`: colunas categ√≥ricas processadas  
- (para ordinal) `categories_`: categorias aprendidas por coluna

**`scaling_meta`** inclui:
- `scaler`: `"standard"` **ou** `"minmax"`  
- `scaled_columns`: lista das colunas escaladas  
- `means_`/`scales_` (Standard) **ou** `min_`/`range_` (MinMax) ‚Äî √∫teis para **reprodu√ß√£o** no deploy

---

## üß™ Exemplo de comportamento esperado

Dataset: `gender` (`Male`/`Female`), `InternetService` (DSL/Fiber/No), `MonthlyCharges` (float), `tenure` (int), `Churn` (alvo).

Com `onehot` + `standard` e exclus√µes padr√£o, o resultado ser√°:
- Novas colunas como `gender_Female`, `gender_Male`, `InternetService_DSL`, etc.
- `MonthlyCharges` escalado (m√©dia‚âà0, desvio‚âà1); `tenure` **pode** ser ignorado do scaling se `only_continuous=True` e considerado discreto.

---

## üöß Armadilhas comuns e prote√ß√µes do template

- **Explos√£o de dummies**: colunas com **muitas categorias** s√£o ignoradas (registradas em `high_card_excluded`).  
- **Vazamento do alvo**: garanta que `exclude_cols` contenha a **target** (ex.: `"Churn"`).  
- **IDs**: n√£o codificar/escalar IDs (`customerID`).  
- **Mixed types**: colunas mal tipadas (n√∫mero como string) devem ser padronizadas antes (ver **Qualidade & Tipagem**).

---

## ‚úÖ Status de execu√ß√£o e logs

Mensagens t√≠picas no log:

```
[encode] type=onehot | cols=['gender', 'InternetService'] | high_card_excluded=[]
[scale] method=standard | scaled_cols=['MonthlyCharges']
```

Se o log mostrar `cols=[]`, significa que **n√£o h√° colunas categ√≥ricas** eleg√≠veis (ou foram exclu√≠das por configura√ß√£o/cardinalidade). Isso √© **normal** em alguns datasets.

---

## üß† Boas pr√°ticas

- Comece com **one-hot** e **sem escala** para uma baseline interpret√°vel.
- Use **ordinal** s√≥ quando houver **ordem natural** nas categorias.
- S√≥ escale **depois** do split treino/valida√ß√£o para evitar vazamento.
- Salve `encoding_meta` e `scaling_meta` se for levar o modelo para produ√ß√£o.

---

> üí° **Resumo:**  
> Esta c√©lula converte dados categ√≥ricos e num√©ricos em formatos ideais para modelagem, controlando exclus√µes, cardinalidade e escala ‚Äî garantindo **robustez**, **consist√™ncia** e **clareza** no tratamento.


In [82]:
# --- üî§ Tratamento de Texto --------------------------------------------------
TEXT_CFG = {
    "lower": True,
    "strip_collapse_ws": True,
    "keywords": ["error", "cancel", "premium"],
    "blacklist": ["customerID"],
    "export_summary": True,
}

if config.get("text_features", True):
    summary_dir = ud.get_artifacts_dir("text_features")

    df, text_summary = ud.extract_text_features(
        df,
        lower=TEXT_CFG["lower"],
        strip_collapse_ws=TEXT_CFG["strip_collapse_ws"],
        keywords=TEXT_CFG["keywords"],
        blacklist=TEXT_CFG["blacklist"],
        export_summary=TEXT_CFG["export_summary"],
        summary_dir=summary_dir
    )

    display(text_summary.head(10))


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:15,310 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features
2025-11-04 05:00:15,312 | INFO | [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features
[INFO] [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features\text_features_summary.csv (16 colunas)
2025-11-04 05:00:15,767 | INFO | [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\text_features\text_features_summary.csv (16 colunas)


Unnamed: 0,column,non_null,avg_len,avg_words,kw_error_count,kw_cancel_count,kw_premium_count
0,Churn,7043,2.27,1.0,0,0,0
1,Contract,7043,11.3,1.45,0,0,0
2,Dependents,7043,2.3,1.0,0,0,0
3,DeviceProtection,7043,6.03,1.43,0,0,0
4,InternetService,7043,6.3,1.44,0,0,0
5,MultipleLines,7043,3.78,1.19,0,0,0
6,OnlineBackup,7043,6.03,1.43,0,0,0
7,OnlineSecurity,7043,5.97,1.43,0,0,0
8,PaperlessBilling,7043,2.59,1.0,0,0,0
9,Partner,7043,2.48,1.0,0,0,0


# üéØ Cria√ß√£o e Valida√ß√£o da Vari√°vel-Alvo (`target`)

Esta etapa garante que o dataset contenha uma **vari√°vel-alvo bin√°ria** adequada para **modelos supervisionados de Machine Learning** ‚Äî como classifica√ß√£o de churn, fraude, aprova√ß√£o, entre outros.  

O processo √© flex√≠vel e segue as instru√ß√µes definidas no arquivo `config/defaults.json`, permitindo que a cria√ß√£o do *target* seja **reproduz√≠vel e autom√°tica** em qualquer dataset.

---

## ‚öôÔ∏è Configura√ß√£o do Target

O comportamento √© controlado pela se√ß√£o `"target"` do arquivo de configura√ß√£o.  
Exemplo t√≠pico (como no dataset *Telco Customer Churn*):

```json
"target": {
  "name": "Churn",
  "source": "Churn",
  "positive": "Yes",
  "negative": "No"
}
```

### Par√¢metros
| Chave | Descri√ß√£o | Exemplo |
|--------|------------|----------|
| `name` | Nome final da coluna de destino | `"Churn"` |
| `source` | Coluna de origem (se o nome for diferente) | `"Churn"` |
| `positive` | Valor que representa a classe positiva | `"Yes"` |
| `negative` | Valor que representa a classe negativa | `"No"` |

> üí° **Dica:** se o dataset j√° tiver a coluna-alvo, a fun√ß√£o apenas validar√° e manter√° como est√° ‚Äî sem sobrescrever.

---

## üß© O que o c√≥digo faz

```python
df, target_name, class_map, tgt_report = ud.ensure_target_from_config(df, config, verbose=True)
display(tgt_report)
globals()["class_map"] = class_map
```

### Etapas internas:
1. **Verifica se a coluna-alvo j√° existe**
   - Se existir (`Churn`), exibe mensagem:  
     ```
     [target] Coluna 'Churn' j√° existe ‚Äî nenhuma a√ß√£o necess√°ria.
     ```
   - Caso contr√°rio, cria automaticamente a nova coluna de acordo com o `config`.

2. **Aplica o mapeamento definido**
   - Exemplo: `Yes ‚Üí 1`, `No ‚Üí 0`.

3. **Retorna informa√ß√µes estruturadas**
   - `target_name`: nome da coluna alvo  
   - `class_map`: dicion√°rio de mapeamento de classes  
   - `tgt_report`: pequeno relat√≥rio em formato DataFrame, exibindo status da opera√ß√£o

---

## üìä Mini-relat√≥rio de valida√ß√£o

Ap√≥s a execu√ß√£o, √© exibido algo como:

| target | status     | source | positive | negative |
|---------|-------------|---------|-----------|-----------|
| Churn   | j√° existe  | Churn   | Yes       | No        |

Esse relat√≥rio resume como o target foi identificado ou criado, garantindo rastreabilidade.

---

## üîç Verifica√ß√£o de consist√™ncia

Ap√≥s criar (ou validar) a coluna-alvo, o notebook checa o conte√∫do e tipo:

```python
print(df["Churn"].unique())
print(df["Churn"].value_counts())
```

Resultados esperados:

| Caso | Exemplo de sa√≠da | Interpreta√ß√£o |
|------|------------------|---------------|
| Target bin√°rio correto | `[0, 1]` | ‚úÖ Pronto para ML |
| Target textual | `['Yes', 'No']` | üîÑ Converter com `.map({'Yes':1,'No':0})` |
| Target booleano | `[True, False]` | üîÑ Converter com `.astype(int)` |

---

## üß† Boas pr√°ticas

- Defina claramente qual valor representa a **classe positiva** (ex.: `"Yes"`, `"Exited"`, `"Churned"`).  
- Evite m√∫ltiplas colunas com o mesmo significado ‚Äî centralize em uma s√≥ (`target` ou `Churn`).  
- Para modelos multiclasse, amplie o mapeamento conforme necess√°rio (ex.: `"Gold"`, `"Silver"`, `"Bronze"`).  
- Sempre valide a distribui√ß√£o de classes com `value_counts()` antes da modelagem.

---

## üöÄ Integra√ß√£o com notebooks seguintes

A vari√°vel `class_map` √© registrada globalmente para que o **Notebook N2** (modelagem) possa reutiliz√°-la:

```python
globals()["class_map"] = class_map
```

Assim, o mapeamento de classes permanece dispon√≠vel para:
- Convers√µes de r√≥tulos (`1 ‚Üí 'Yes'`, `0 ‚Üí 'No'`);
- Exibi√ß√£o de resultados e m√©tricas em termos leg√≠veis.

---

> üí° **Resumo:**  
> Esta c√©lula garante que o dataset contenha uma vari√°vel-alvo bin√°ria padronizada, compat√≠vel com os modelos de ML e definida de forma reprodut√≠vel via arquivo de configura√ß√£o.  
> Se a coluna j√° existir, √© validada e mantida; se n√£o, √© criada conforme o mapeamento indicado no `config`.


In [83]:
# Cria o target a partir da config (ou defaults)
df, target_name, class_map, tgt_report = ud.ensure_target_from_config(df, config, verbose=True)

# Opcional: ver um mini-relat√≥rio
display(tgt_report)

# Garantir que o N2 enxergue o mapeamento, se voc√™ quiser usar class_map l√°:
globals()["class_map"] = class_map

print('Verificando a consist√™ncia do tipo e dos valores:')
print(df["Churn"].unique())
print(df["Churn"].value_counts())

[target] Coluna 'Churn' j√° existe ‚Äî nenhuma a√ß√£o necess√°ria.


Unnamed: 0,target,status,source,positive,negative
0,Churn,j√° existe,Churn,Yes,No


Verificando a consist√™ncia do tipo e dos valores:
['no' 'yes']
Churn
no     5174
yes    1869
Name: count, dtype: int64


# üì¶ Exporta√ß√£o de Artefatos (N1 ‚Üí N2)

Esta etapa consolida e exporta os **artefatos finais do notebook N1** ‚Äî garantindo que os dados tratados, os metadados e o manifesto de execu√ß√£o estejam dispon√≠veis para o **N2 (Modelagem)**.  

√â o fechamento da fase de prepara√ß√£o dos dados, onde tudo que foi limpo, transformado e enriquecido √© salvo em **arquivos persistentes e reprodut√≠veis**.

---

## üß≠ Vis√£o Geral do Processo

1. **Exporta os dados tratados** (`interim` e `processed`);
2. **Gera um arquivo de metadados (`meta.json`)** com a estrutura do dataset;
3. **Cria um manifesto (`manifest.json`)** com o resumo t√©cnico da execu√ß√£o ‚Äî mem√≥ria usada, flags criadas, caminhos de sa√≠da, etc.

Tudo √© salvo em caminhos padronizados e definidos dinamicamente a partir do `config`.

---

## ‚öôÔ∏è Configura√ß√µes e Caminhos Padr√£o

Os caminhos de sa√≠da podem ser definidos no `config/defaults.json`, ou usam valores padr√£o se ausentes:

| Chave | Caminho padr√£o | Descri√ß√£o |
|--------|----------------|-----------|
| `data_interim_file` | `data/interim/interim.parquet` | Dados intermedi√°rios tratados |
| `data_processed_file` | `data/processed/processed.parquet` | Dados finais prontos para modelagem |
| `meta_file` | `artifacts/metadata/dataset_meta.json` | Metadados do dataset |
| `random_seed` | `42` (padr√£o) | Semente para reprodutibilidade |

A fun√ß√£o `get_artifacts_dir("export")` cria automaticamente o diret√≥rio padr√£o de exporta√ß√£o:

```
reports/artifacts/export/
```

---

## üìã Etapas principais do c√≥digo

### 1Ô∏è‚É£ Exporta√ß√£o dos DataFrames

```python
OUTPUT_PROCESSED = Path(config.get("data_processed_file", "data/processed/processed.parquet"))
OUTPUT_INTERIM   = Path(config.get("data_interim_file",   "data/interim/interim.parquet"))

if config.get("export_interim", True):
    _save_df(df, OUTPUT_INTERIM)

if config.get("export_processed", True):
    _save_df(df, OUTPUT_PROCESSED)
```

A fun√ß√£o `_save_df()` detecta automaticamente o formato pelo sufixo do arquivo:

| Extens√£o | Fun√ß√£o utilizada | Compress√£o |
|-----------|------------------|-------------|
| `.parquet` | `to_parquet()` | Compactado (`snappy`) |
| `.csv` | `to_csv()` | UTF-8 |
| `.xlsx` | `to_excel()` | Excel |

---

### 2Ô∏è‚É£ Gera√ß√£o dos Metadados (`meta.json`)

Cria um registro detalhado da estrutura do dataset exportado.

```python
meta = {
  "dataset_name": config.get("dataset_name", "Dataset"),
  "version": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
  "target": target_col,
  "class_map": class_map,
  "columns": {
    "numeric": numeric_cols,
    "categorical": categorical_cols,
    "boolean": boolean_cols,
    "ignored": ignored_cols,
    "all": all_cols
  }
}
META_FILE.write_text(json.dumps(meta, indent=2, ensure_ascii=False), encoding="utf-8")
```

Esse arquivo √© essencial para o N2, pois indica:
- quais colunas s√£o num√©ricas, categ√≥ricas e booleanas;
- qual √© o `target`;
- quais colunas foram ignoradas;
- o mapeamento de classes (`class_map`, se existir);
- a vers√£o e data de exporta√ß√£o.

> üí° **Dica:**  
> voc√™ pode adicionar `meta["dtypes"] = {c: str(t) for c, t in df.dtypes.items()}`  
> para registrar os tipos exatos de cada coluna no arquivo de metadados.

---

### 3Ô∏è‚É£ Registro do Manifesto de Execu√ß√£o (`manifest.json`)

O manifesto √© um **resumo t√©cnico** da sess√£o atual ‚Äî √∫til para auditoria e rastreabilidade.

```python
manifest = {
  "created_at": datetime.now().isoformat(timespec="seconds"),
  "random_seed": RANDOM_SEED,
  "config": config,
  "memory_mb": float(df.memory_usage(deep=True).sum() / (1024**2)),
  "outlier_flags": [c for c in df.columns if c.endswith("_is_outlier")],
  "imputed_flags": [c for c in df.columns if c.startswith("was_imputed_")],
  "shape": tuple(df.shape),
  "exported": {
    "interim": str(OUTPUT_INTERIM),
    "processed": str(OUTPUT_PROCESSED),
    "meta_file": str(META_FILE)
  }
}

(ARTIFACTS_DIR / "manifest.json").write_text(json.dumps(manifest, indent=2, ensure_ascii=False))
```

Campos mais importantes:
| Campo | Descri√ß√£o |
|--------|------------|
| `created_at` | Data e hora da execu√ß√£o |
| `random_seed` | Semente aleat√≥ria utilizada |
| `memory_mb` | Tamanho em mem√≥ria do DataFrame |
| `outlier_flags` / `imputed_flags` | Colunas criadas por outliers ou imputa√ß√µes |
| `shape` | Dimens√£o final do dataset |
| `exported` | Caminhos de sa√≠da dos artefatos gerados |

---

### 4Ô∏è‚É£ Log de conclus√£o

Ao final da c√©lula, √© exibido no notebook:

```
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\export
Arquivos gerados:
- INTERIM:   data\interim\interim.parquet
- PROCESSED: data\processed\processed.parquet
- META:      artifacts\metadata\dataset_meta.json
```

---

## üß† Boas pr√°ticas

- **Vers√£o dos dados**: use o campo `"version"` do meta para marcar reprocessamentos.
- **Controle de reprodutibilidade**: defina `random_seed` no config.
- **Organiza√ß√£o**: mantenha sempre `interim`, `processed` e `meta` sob versionamento no Git.
- **Auditoria**: o `manifest.json` √© a ‚Äúassinatura digital‚Äù da execu√ß√£o do N1.
- **Portabilidade**: todo o caminho √© relativo √† raiz do projeto, garantindo compatibilidade com outros ambientes.

---

> üí° **Resumo:**  
> Esta c√©lula encerra o **notebook N1**, gerando todos os artefatos necess√°rios para as etapas seguintes (EDA, modelagem e visualiza√ß√£o).  
> Ela garante **reprodutibilidade**, **rastreamento** e **organiza√ß√£o** dos resultados, consolidando as sa√≠das do pipeline em formatos padronizados e facilmente reutiliz√°veis.


In [84]:
# =============================================================================
# üì¶ Exporta√ß√£o de Artefatos (N1 ‚Üí N2)
# =============================================================================
from datetime import datetime
from pathlib import Path
import json
import numpy as np
import pandas as pd

# 0) Raiz do projeto
PROJECT_ROOT = ud.ensure_project_root()
logger.info(f"[path] PROJECT_ROOT -> {PROJECT_ROOT}")

# 1) Caminhos a partir da config (com defaults) ‚Äî relativos √† raiz
OUTPUT_PROCESSED = PROJECT_ROOT / Path(config.get("data_processed_file", "data/processed/processed.parquet"))
OUTPUT_INTERIM   = PROJECT_ROOT / Path(config.get("data_interim_file",   "data/interim/interim.parquet"))
META_FILE        = PROJECT_ROOT / Path(config.get("meta_file",           "artifacts/metadata/dataset_meta.json"))

# 2) Garante diret√≥rios
OUTPUT_PROCESSED.parent.mkdir(parents=True, exist_ok=True)
OUTPUT_INTERIM.parent.mkdir(parents=True, exist_ok=True)
META_FILE.parent.mkdir(parents=True, exist_ok=True)

# üëâ uso do helper para resolver o diret√≥rio de artefatos (sempre na raiz)
ARTIFACTS_DIR = ud.get_artifacts_dir("export")

# 3) Salva tabelas respeitando a extens√£o (.csv / .parquet / .xlsx)
def _save_df(df_, path_: Path):
    ext = path_.suffix.lower()
    if ext == ".parquet":
        df_.to_parquet(path_, index=False)
    elif ext == ".csv":
        df_.to_csv(path_, index=False, encoding="utf-8")
    elif ext == ".xlsx":
        df_.to_excel(path_, index=False)
    else:
        raise ValueError(f"Extens√£o n√£o suportada: {ext}")

if config.get("export_interim", True):
    _save_df(df, OUTPUT_INTERIM)

if config.get("export_processed", True):
    _save_df(df, OUTPUT_PROCESSED)

# 4) Monta METADADOS para o N2 (alinhado ao config.target.name, com fallback)
target_cfg  = config.get("target", {}) or {}
target_col  = target_cfg.get("name", config.get("target_column", "target"))

all_cols = df.columns.tolist()
ignored_cols = config.get("ignored_columns", [])
candidate_features = [c for c in all_cols if c not in ignored_cols and c != target_col]

numeric_cols     = df[candidate_features].select_dtypes(include=[np.number]).columns.tolist()
boolean_cols     = df[candidate_features].select_dtypes(include=["bool", "boolean"]).columns.tolist()
categorical_cols = [c for c in candidate_features if c not in numeric_cols]

class_map = globals().get("class_map", None)

meta = {
    "dataset_name": config.get("dataset_name", "Dataset"),
    "version":      datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "target":       target_col,
    "class_map":    class_map,
    "columns": {
        "numeric":     numeric_cols,
        "categorical": categorical_cols,
        "boolean":     boolean_cols,
        "ignored":     ignored_cols,
        "all":         all_cols
    }
}

# enriquecer com esquema e n¬∫ de linhas
meta["dtypes"] = {c: str(t) for c, t in df.dtypes.items()}
meta["rows"]   = int(len(df))

# 5) Salva META
META_FILE.write_text(json.dumps(meta, indent=2, ensure_ascii=False), encoding="utf-8")

# üîç Verifica√ß√£o e resumo final
_mpath = Path(META_FILE)
_mjson = json.loads(_mpath.read_text(encoding="utf-8"))
print("\n" + "="*80)
print("üì¶  EXPORTA√á√ÉO DE ARTEFATOS ‚Äî RESUMO FINAL")
print("="*80)
print(f"üóÇÔ∏è  Dataset:        {meta['dataset_name']}")
print(f"üéØ  Target:         {_mjson.get('target')}")
print(f"üßÆ  Linhas:         {_mjson.get('rows'):,}")
print(f"üî¢  Num√©ricas:      {len(_mjson['columns']['numeric'])} colunas")
print(f"üî†  Categ√≥ricas:    {len(_mjson['columns']['categorical'])} colunas")
print(f"üîò  Booleanas:      {len(_mjson['columns']['boolean'])} colunas")
print(f"üßæ  Ignoradas:      {len(_mjson['columns']['ignored'])} colunas")
print(f"üß©  Todas:          {len(_mjson['columns']['all'])} colunas totais")
print("="*80 + "\n")


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:17,596 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:17,599 | INFO | [path] PROJECT_ROOT -> C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:17,601 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\export
2025-11-04 05:00:17,603 | INFO | [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\export

üì¶  EXPORTA√á√ÉO DE ARTEFATOS ‚Äî RESUMO FINAL
üóÇÔ∏è  Dataset:        Dataset
üéØ  Target:         Churn
üßÆ  Linhas:         7,043
üî¢  Num√©ricas:      62 colunas
üî†  Categ√≥ricas:    65 colunas
üîò  Booleanas

# üß≠ Resumo final de sanidade

In [85]:
# =========================================================
# ‚úÖ Resumo final de sanidade do N1
# =========================================================
from pathlib import Path

ARTIFACTS_DIR_EXPORT = ud.get_artifacts_dir("export")  # garante caminho
manifest_path = ARTIFACTS_DIR_EXPORT / "manifest.json"

print("\n" + "="*80)
print("‚úÖ  N1 CONCLU√çDO ‚Äî RESUMO DE SANIDADE")
print("="*80)

print(f"üìê Shape final do df:   {df.shape}")
print(f"üéØ Target:              {meta.get('target', '(desconhecido)')}")
print(f"üßÆ Linhas registradas:  {meta.get('rows', '(n/a)')}")
print(f"üßæ Colunas (totais):    {len(meta.get('columns', {}).get('all', []))}")
print(f"   ‚îú‚îÄ Num√©ricas:        {len(meta.get('columns', {}).get('numeric', []))}")
print(f"   ‚îú‚îÄ Categ√≥ricas:      {len(meta.get('columns', {}).get('categorical', []))}")
print(f"   ‚îî‚îÄ Booleanas:        {len(meta.get('columns', {}).get('boolean', []))}")

print("\nüì¶ Artefatos gerados:")
print(f"   ‚îú‚îÄ INTERIM:          {Path(OUTPUT_INTERIM).exists()} | {OUTPUT_INTERIM}")
print(f"   ‚îú‚îÄ PROCESSED:        {Path(OUTPUT_PROCESSED).exists()} | {OUTPUT_PROCESSED}")
print(f"   ‚îú‚îÄ META:             {Path(META_FILE).exists()} | {META_FILE}")
print(f"   ‚îî‚îÄ MANIFEST:         {manifest_path.exists()} | {manifest_path}")

try:
    mem_mb = float(df.memory_usage(deep=True).sum() / (1024**2))
    print(f"\nüß† Mem√≥ria do DF:       {mem_mb:,.2f} MB")
except Exception:
    pass

print("="*80 + "\n")


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
2025-11-04 05:00:18,962 | INFO | PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\export
2025-11-04 05:00:18,964 | INFO | [path] artifacts_dir -> C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\artifacts\export

‚úÖ  N1 CONCLU√çDO ‚Äî RESUMO DE SANIDADE
üìê Shape final do df:   (7043, 128)
üéØ Target:              Churn
üßÆ Linhas registradas:  7043
üßæ Colunas (totais):    128
   ‚îú‚îÄ Num√©ricas:        62
   ‚îú‚îÄ Categ√≥ricas:      65
   ‚îî‚îÄ Booleanas:        49

üì¶ Artefatos gerados:
   ‚îú‚îÄ INTERIM:          True | C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\interim\interim.parquet
   ‚îú‚îÄ PROCESSED:        True | C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\processed\pr

## ‚úÖ Checkpoint

- **Revisar** as colunas derivadas e decis√µes (imputa√ß√£o, outliers, codifica√ß√£o).  
- **Documentar** no README as escolhas de neg√≥cio e justificativas.  

## üìé Anota√ß√µes

Esta se√ß√£o pode ser usada como bloco livre para observa√ß√µes espec√≠ficas do projeto.
