# Prepara√ß√£o de Dados (N1)

## üóÇÔ∏è [ Projeto ]

**Nome do Projeto:** [nome do projeto]  
**Dataset:** [Nome do dataset ou fonte de dados]  
**Objetivo Geral:** [Breve Explica√ß√£o do prop√≥sito ‚Äî ex.: ‚ÄúAnalisar o comportamento de churn e identificar fatores de reten√ß√£o de clientes.‚Äù]  

---

## üìã Descri√ß√£o Geral do Tratamento

Nesta etapa ser√£o realizados os principais **processos de limpeza, transforma√ß√£o e padroniza√ß√£o dos dados**.  
O foco √© garantir que o dataset esteja **consistente, estruturado e pronto para an√°lises posteriores**.

**Tarefas previstas:**  
- Leitura e diagn√≥stico inicial do dataset.  
- Tratamento de valores nulos, duplicados e outliers.  
- Convers√£o de tipos e padroniza√ß√£o de nomes de colunas.  
- Codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o de num√©ricas (quando necess√°rio).  
- Gera√ß√£o de artefatos intermedi√°rios e relat√≥rio de qualidade dos dados.

## üîß Configura√ß√£o do Projeto (Bootstrap)

Esta etapa realiza o **bootstrap do ambiente de execu√ß√£o**, preparando o notebook para funcionar em qualquer m√°quina ‚Äî garantindo **reprodutibilidade**, **organiza√ß√£o** e **autonomia**.  
Todas as depend√™ncias, caminhos e configura√ß√µes s√£o ajustadas automaticamente, sem necessidade de modifica√ß√µes manuais.

---

### ‚öôÔ∏è Etapas realizadas

#### üß≠ 1. Localiza√ß√£o da raiz do projeto  
- Busca o arquivo `config/defaults.json` subindo diret√≥rios at√© encontr√°-lo.  
- Define `PROJECT_ROOT` como ponto de refer√™ncia global para todos os caminhos do projeto.

#### üß© 2. Valida√ß√£o da estrutura `utils/`  
- Verifica se existem a pasta `utils/` e o arquivo `__init__.py` (criado automaticamente, se ausente).  
- Garante que o pacote seja reconhecido pelo Python, permitindo importar `utils.utils_data` sem erros.

#### üß± 3. Registro no `sys.path`  
- Adiciona o diret√≥rio raiz (`PROJECT_ROOT`) ao `sys.path`, habilitando o uso de m√≥dulos internos em qualquer ambiente.  
- Exibe o caminho detectado e o status do registro.

#### ‚ôªÔ∏è 4. Importa√ß√£o e recarregamento das utilidades  
- Importa o m√≥dulo `utils.utils_data` e o recarrega via `importlib.reload`.  
- Essa abordagem assegura que o notebook use **sempre a vers√£o mais recente** do arquivo durante o desenvolvimento iterativo.

#### üßæ 5. Inicializa√ß√£o do sistema de logs  
- Cria um log unificado em `reports/data_preparation.log`.  
- Cada etapa importante (carregamento, limpeza, exporta√ß√£o etc.) √© registrada tanto no **console** quanto em **arquivo**, facilitando a rastreabilidade do processo.

#### ‚öôÔ∏è 6. Carregamento das configura√ß√µes globais  
- L√™ os par√¢metros de `config/defaults.json` e, se existir, aplica substitui√ß√µes de `config/local.json`.  
- Esses par√¢metros controlam o comportamento de cada etapa (tratamento de nulos, tipagem, outliers, encoding etc.).

#### üìÇ 7. Resolu√ß√£o de diret√≥rios e arquivos padr√£o  
- Garante a exist√™ncia das pastas principais:  
  `data/raw`, `data/interim`, `data/processed`, `reports`, `artifacts`, `prints`, `dashboards`.  
- Define os arquivos de sa√≠da padr√£o (interim e processed), mantendo compatibilidade entre notebooks.

#### üîÑ 8. Ambiente reprodut√≠vel e consistente  
- Define a semente aleat√≥ria (`RANDOM_SEED = 42`) para resultados reprodut√≠veis.  
- Ajusta as op√ß√µes de exibi√ß√£o do pandas (`max_columns` e `display.width`) para uma visualiza√ß√£o mais confort√°vel.

---

### ‚úÖ Resultado esperado

Ao final desta c√©lula:

- O projeto √© **reconhecido automaticamente**, independentemente do ambiente de execu√ß√£o.  
- O m√≥dulo `utils_data.py` √© importado com todas as fun√ß√µes utilit√°rias dispon√≠veis.  
- As pastas e arquivos padr√£o s√£o criados e configurados.  
- O log central come√ßa a registrar todas as a√ß√µes executadas nas pr√≥ximas etapas.  

---

> üí° **Resumo:** Este design modular permite que o mesmo notebook seja executado em qualquer reposit√≥rio que siga a estrutura do template, sem ajustes manuais de caminho ou imports.  


In [1]:
# -*- coding: utf-8 -*-
# Bootstrap do projeto ‚Äî encontra a raiz, injeta no sys.path e garante utils/__init__.py

from pathlib import Path
import json
import sys

import pandas as pd


def _find_up(relative_path: str, start: Path | None = None) -> Path | None:
    start = start or Path.cwd()
    rel = Path(relative_path)
    for base in (start, *start.parents):
        cand = base / rel
        if cand.exists():
            return cand
    return None

# 1) Descobrir a raiz a partir do config/defaults.json
_cfg = _find_up("config/defaults.json")
if _cfg is None:
    raise FileNotFoundError(
        "config/defaults.json n√£o encontrado. Confirme a estrutura do projeto."
    )
PROJECT_ROOT = _cfg.parent.parent.resolve()
print(f"[INFO] PROJECT_ROOT: {PROJECT_ROOT}")

# 2) Garantir pasta utils/ e __init__.py
UTILS_DIR = PROJECT_ROOT / "utils"
INIT_FILE = UTILS_DIR / "__init__.py"
if not UTILS_DIR.exists():
    raise ModuleNotFoundError(f"Pasta n√£o encontrada: {UTILS_DIR} (crie 'utils' na raiz).")
if not INIT_FILE.exists():
    # cria um __init__.py vazio se n√£o existir (facilita em notebooks)
    INIT_FILE.write_text("", encoding="utf-8")
    print(f"[INFO] Criado: {INIT_FILE}")

# 3) Injetar a raiz no sys.path
root_str = str(PROJECT_ROOT)
if root_str not in sys.path:
    sys.path.insert(0, root_str)
print(f"[INFO] sys.path ok. utils: {UTILS_DIR}")

# 4) Importar utils.utils_data
import importlib, utils.utils_data as ud
importlib.reload(ud)  # garante vers√£o mais recente ao iterar no notebook

# 5) Configurar logging base do notebook
import logging
from datetime import datetime
LOG_FILE = (PROJECT_ROOT / "reports" / "data_preparation.log")
LOG_FILE.parent.mkdir(parents=True, exist_ok=True)
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s | %(levelname)s | %(message)s",
    handlers=[logging.StreamHandler(sys.stdout), logging.FileHandler(LOG_FILE, encoding="utf-8")],
    force=True,
)
logger = logging.getLogger(__name__)
logger.info("Bootstrap conclu√≠do.")

# 6) Carregando configura√ß√µes
config = ud.load_config(PROJECT_ROOT / "config" / "defaults.json",
                        PROJECT_ROOT / "config" / "local.json")
paths = ud.resolve_n1_paths(config, PROJECT_ROOT)
ud.set_random_seed(42)
ud.set_display(200, 120)
logger.info("Config carregada e paths resolvidos.")

[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\data-project-template\utils


SyntaxError: unexpected character after line continuation character (utils_data.py, line 30)

## üîß Configura√ß√£o de Fontes

Nesta etapa s√£o definidos os **arquivos de origem** que servir√£o de base para o projeto.  
Aqui voc√™ informa **quais datasets ser√£o utilizados**, **em qual formato** est√£o (CSV ou Parquet) e, se houver mais de uma fonte, **como elas se relacionam**.

---

### üóÇÔ∏è 1. Explora√ß√£o das fontes dispon√≠veis

Antes de configurar o dicion√°rio `SOURCES`, √© poss√≠vel listar os arquivos presentes no diret√≥rio `data/raw/`:

```python
from utils.utils_data import suggest_source_path, path_of

RAW_DIR = paths.raw_dir
suggest_source_path(RAW_DIR, pattern="*.csv")
```

Esse comando exibe uma tabela com os arquivos encontrados e gera uma **sugest√£o autom√°tica de caminho** para copiar e colar no `SOURCES`.  
Basta arrastar o arquivo para a pasta `data/raw/` e executar o bloco ‚Äî o nome aparecer√° pronto para uso.

---

### ‚öôÔ∏è 2. Defini√ß√£o das fontes de dados (`SOURCES`)

- Cada entrada do dicion√°rio `SOURCES` representa uma tabela nomeada.  
- A chave (ex.: `"main"`, `"dim_customers"`) identifica a tabela no projeto.  
- Cada item cont√©m:
  - `path`: caminho do arquivo dentro de `data/raw/`.  
  - `format`: formato opcional (`"csv"` ou `"parquet"`). Se omitido, o formato √© detectado automaticamente.  
  - `read_opts`: par√¢metros de leitura personalizados (`encoding`, `sep`, `low_memory`, etc.).

Exemplo de estrutura:
```python
SOURCES = {
    "main": {
        "path": RAW_DIR / "dataset.csv",
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo de segunda fonte em CSV:
    # "dim_customers": {
    #     "path": RAW_DIR / "exemplo.csv",
    #     "format": "csv"
    # }
    # Exemplo de fonte em Parquet:
    # "dim_customers": {
    #     "path": RAW_DIR / "customers.parquet",
    #     "format": "parquet"
    # }
}
```

---

### üîó 3. Configura√ß√£o opcional de jun√ß√µes (`MERGE_STEPS`)

O DataFrame principal √© o definido em `MAIN_SOURCE` (geralmente `"main"`).  
Se existirem outras fontes, voc√™ pode configur√°-las em `MERGE_STEPS` para realizar merges autom√°ticos:

```python
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]
```

Cada item define:
- o nome da tabela secund√°ria (`right_name`),
- o tipo de jun√ß√£o (`how`),
- e as chaves de correspond√™ncia (`left_on`, `right_on`).

---

### ‚úÖ 4. Valida√ß√£o e feedback autom√°tico

Ap√≥s definir as fontes, o bloco final realiza uma checagem simples:

- Confirma se o arquivo principal existe.  
- Detecta automaticamente o formato (`CSV` ou `Parquet`).  
- Exibe mensagens de status amig√°veis:

```
‚úÖ Fontes configuradas com sucesso.
‚Üí Fonte principal: 'main'  | Arquivo: dataset.csv  | Formato detectado: CSV
‚Üí Nenhum merge configurado (usando apenas a fonte principal).
```

---

> üí° Resumo
>
>Essa abordagem torna a **configura√ß√£o de fontes interativa, leve e flex√≠vel**:
>- Basta colocar novos arquivos em `data/raw/` e usar `suggest_source_path()` para gerar o caminho.  
>- N√£o h√° necessidade de alterar outros blocos do notebook ‚Äî apenas o `SOURCES` e, se necess√°rio, os merges.  
>- Ideal para projetos explorat√≥rios e notebooks reutiliz√°veis em diferentes datasets.


In [2]:
import importlib, utils.utils_data as ud

RAW_DIR = paths.raw_dir
ud.suggest_source_path(RAW_DIR, pattern="*.csv")

üîé Arquivos em C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\raw (filtro: *.csv)


Unnamed: 0,Arquivo,Extens√£o,Tamanho (KB),Modificado em
0,dataset.csv,.csv,954.6,2019-09-27 19:30:08


In [3]:
# Obs: s√≥ alterar este bloco quando precisar mudar os arquivos ou as chaves de jun√ß√£o.

SOURCES = {
    # nome_da_tabela: {path, (opcional) format: 'csv'|'parquet', (opcional) read_opts}
    "main": {
        "path": RAW_DIR / "dataset.csv",
        # "format": "csv",  # se omitir, detecta pelo sufixo
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo de segunda fonte em CSV:
    # "dim_customers": {
    #   "path": RAW_DIR / "exemplo.csv",
    #   "format": "csv",  # se omitir, detecta pelo sufixo
    #   "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    # }
    
    # Exemplo de fonte em Parquet:
    # "dim_customers": {
    #     "path": RAW_DIR / "customers.parquet",
    #     "format": "parquet"
    # }
}

# Plano de merges (opcional):
# Cada item √© um passo: (right_name, how, left_on, right_on)
# O DataFrame base ser√° o SOURCES[MAIN_SOURCE]
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]

# Valida√ß√£o
main_path = SOURCES[MAIN_SOURCE]["path"]
main_format = SOURCES[MAIN_SOURCE].get("format") or main_path.suffix.lstrip(".").lower()
print(f"‚úÖ Fontes configuradas com sucesso.")

print(
    f"‚Üí Fonte principal: '{MAIN_SOURCE}'  "
    f"| Arquivo: {main_path.name}  "
    f"| Formato detectado: {main_format.upper()}"
)
if MERGE_STEPS:
    print(f"‚Üí {len(MERGE_STEPS)} etapa(s) de merge configuradas.")
else:
    print("‚Üí Nenhum merge configurado (usando apenas a fonte principal).")

‚úÖ Fontes configuradas com sucesso.
‚Üí Fonte principal: 'main'  | Arquivo: dataset.csv  | Formato detectado: CSV
‚Üí Nenhum merge configurado (usando apenas a fonte principal).


## üì• Ingest√£o & Vis√£o R√°pida

Nesta etapa, os **datasets definidos em `SOURCES`** s√£o carregados, inspecionados e validados antes de iniciar o tratamento dos dados.  
O objetivo √© garantir que as fontes estejam corretamente lidas e que o DataFrame principal (`df`) esteja pronto para seguir no pipeline.

---

### ‚öôÔ∏è 1. Carregamento das fontes

Cada item de `SOURCES` √© percorrido para:
- Ler o arquivo indicado (`path`) conforme o formato (`csv` ou `parquet`);  
- Aplicar as op√ß√µes de leitura (`read_opts`) definidas no dicion√°rio;  
- Armazenar o DataFrame em `tables[name]`, onde `name` √© a chave de identifica√ß√£o da fonte.

A fun√ß√£o utilizada √© `ud.load_table_simple()`, que automaticamente:
- Detecta o formato pelo sufixo (se n√£o informado);
- Aplica `read_opts` de forma segura;
- Exibe logs amig√°veis durante o carregamento.

Ap√≥s cada leitura, √© exibido um **resumo r√°pido** da fonte carregada, com:
- N√∫mero de linhas e colunas;
- Tipos de dados;
- Uso de mem√≥ria;
- E um relat√≥rio de valores nulos (`ud.missing_report()`).

---

### üîó 2. Defini√ß√£o do DataFrame base e jun√ß√µes opcionais

O dataset principal √© definido pela vari√°vel `MAIN_SOURCE`.  
Caso existam outras fontes configuradas em `MERGE_STEPS`, o notebook aplica as jun√ß√µes automaticamente via `ud.merge_chain()` ‚Äî garantindo que cada passo do merge seja logado e validado.

Se nenhuma jun√ß√£o for configurada, o notebook utiliza apenas a fonte principal.

---

### üìä 3. Vis√£o geral final do DataFrame

Ap√≥s a etapa de ingest√£o e merges, o notebook gera uma vis√£o consolidada do dataset final (`df`) que seguir√° no pipeline.  
S√£o exibidos:
- Estrutura geral (`shape`, colunas, tipos);
- Quantidade de valores nulos por coluna;
- E um log detalhado gravado em `reports/data_preparation.log`.

---

### üß© Exemplo de estrutura do processo

```python
tables = {}
for name, cfg in SOURCES.items():
    path = cfg["path"]
    fmt = cfg.get("format")
    read_opts = cfg.get("read_opts", {})
    df_src = ud.load_table_simple(path, fmt, read_opts)
    tables[name] = df_src

    print(f"\n=== {name} ===")
    ov = ud.basic_overview(df_src)
    print(json.dumps(ov, indent=2, ensure_ascii=False))
    display(ud.missing_report(df_src).head(20))

# Base principal e merges
df = tables[MAIN_SOURCE]
if MERGE_STEPS:
    df = ud.merge_chain(df, tables, MERGE_STEPS)
else:
    print(f"[INFO] Usando df base: '{MAIN_SOURCE}' (sem merges).")

# Overview final
overview = ud.basic_overview(df)
logger.info(json.dumps(overview, indent=2, ensure_ascii=False))
display(ud.missing_report(df).head(20))
```

---

> üí° **Resumo:**  
> - Cada fonte de dados √© carregada automaticamente com base na configura√ß√£o do dicion√°rio `SOURCES`.  
> - A fun√ß√£o `ud.load_table_simple()` lida tanto com arquivos CSV quanto Parquet e detecta o formato automaticamente.  
> - O dicion√°rio `tables` mant√©m todas as fontes acess√≠veis pelo nome definido (ex.: `"main"`, `"dim_customers"`).  
> - A vari√°vel `df` representa o dataset principal que seguir√° pelas pr√≥ximas etapas do pipeline.  
> - Logs e relat√≥rios s√£o salvos para garantir transpar√™ncia e rastreabilidade do processo.


In [4]:
# 1) Carregar todas as fontes
tables = {}
for name, cfg in SOURCES.items():
    path = cfg["path"]
    fmt = cfg.get("format")              # se None, detecta pelo sufixo
    read_opts = cfg.get("read_opts", {}) # ex.: sep/encoding/low_memory para CSV
    df_src = ud.load_table_simple(path, fmt, read_opts)  # agora com prefixo ud.
    tables[name] = df_src

    # vis√£o r√°pida por fonte
    print(f"\n=== {name} ===")
    ov = ud.basic_overview(df_src)
    print(json.dumps(ov, indent=2, ensure_ascii=False))
    display(ud.missing_report(df_src).head(20))

# 2) Definir df base e aplicar merges (se configurado)
if MAIN_SOURCE not in tables:
    raise KeyError(f"MAIN_SOURCE '{MAIN_SOURCE}' n√£o encontrado. Fontes dispon√≠veis: {list(tables.keys())}")

df = tables[MAIN_SOURCE]
if MERGE_STEPS:
    df = ud.merge_chain(df, tables, MERGE_STEPS)
    print("\n=== Vis√£o geral (df merged) ===")
else:
    print(f"\n[INFO] Usando df base: '{MAIN_SOURCE}' (sem merges).")

# 3) Overview final do df que segue no pipeline
overview = ud.basic_overview(df)
logger.info(json.dumps(overview, indent=2, ensure_ascii=False))
print(json.dumps(overview, indent=2, ensure_ascii=False))
display(ud.missing_report(df).head(20))


2025-11-01 14:36:50,677 | INFO | [load] path=C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\raw\dataset.csv | format=csv | opts={'encoding': 'utf-8', 'sep': ',', 'low_memory': False}
2025-11-01 14:36:50,678 | INFO | [load_csv] C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\raw\dataset.csv

=== main ===
{
  "shape": [
    7043,
    21
  ],
  "columns": [
    "customerID",
    "gender",
    "SeniorCitizen",
    "Partner",
    "Dependents",
    "tenure",
    "PhoneService",
    "MultipleLines",
    "InternetService",
    "OnlineSecurity",
    "OnlineBackup",
    "DeviceProtection",
    "TechSupport",
    "StreamingTV",
    "StreamingMovies",
    "Contract",
    "PaperlessBilling",
    "PaymentMethod",
    "MonthlyCharges",
    "TotalCharges",
    "Churn"
  ],
  "dtypes": {
    "customerID": "object",
    "gender": "object",
    "SeniorCitizen": "int64",
    "Partner": "object",
    "Dependents": "object",
    "tenure": "int64",
    "PhoneService

Unnamed: 0,missing_rate,missing_count
customerID,0.0,0
DeviceProtection,0.0,0
TotalCharges,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0
TechSupport,0.0,0



[INFO] Usando df base: 'main' (sem merges).
2025-11-01 14:36:50,759 | INFO | {
  "shape": [
    7043,
    21
  ],
  "columns": [
    "customerID",
    "gender",
    "SeniorCitizen",
    "Partner",
    "Dependents",
    "tenure",
    "PhoneService",
    "MultipleLines",
    "InternetService",
    "OnlineSecurity",
    "OnlineBackup",
    "DeviceProtection",
    "TechSupport",
    "StreamingTV",
    "StreamingMovies",
    "Contract",
    "PaperlessBilling",
    "PaymentMethod",
    "MonthlyCharges",
    "TotalCharges",
    "Churn"
  ],
  "dtypes": {
    "customerID": "object",
    "gender": "object",
    "SeniorCitizen": "int64",
    "Partner": "object",
    "Dependents": "object",
    "tenure": "int64",
    "PhoneService": "object",
    "MultipleLines": "object",
    "InternetService": "object",
    "OnlineSecurity": "object",
    "OnlineBackup": "object",
    "DeviceProtection": "object",
    "TechSupport": "object",
    "StreamingTV": "object",
    "StreamingMovies": "object",
    "C

Unnamed: 0,missing_rate,missing_count
customerID,0.0,0
DeviceProtection,0.0,0
TotalCharges,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0
TechSupport,0.0,0


## üîñ Cat√°logo de DataFrames + df ‚Äúativo‚Äù

Esta etapa cria um **cat√°logo centralizado de DataFrames** para gerenciar facilmente todas as tabelas carregadas e derivadas ao longo do projeto.  
O objetivo √© permitir que diferentes vers√µes e transforma√ß√µes dos dados sejam armazenadas, nomeadas e acessadas de forma organizada e reprodut√≠vel.

---

### ‚öôÔ∏è 1. Inicializa√ß√£o do cat√°logo (`TableStore`)

A classe `TableStore` (definida em `utils/utils_data.py`) atua como um **reposit√≥rio de DataFrames nomeados**.  
Ela √© inicializada com o dicion√°rio `tables` (criado na etapa de *Ingest√£o & Vis√£o R√°pida*) e define a tabela principal (`MAIN_SOURCE`) como **tabela ativa**.

Durante a inicializa√ß√£o, o notebook exibe uma mensagem de sucesso semelhante a esta:

```
‚úÖ Cat√°logo de DataFrames inicializado com sucesso.
‚Üí Total de tabelas carregadas: 1
‚Üí Tabela ativa: 'main'  | Shape: 7032 linhas √ó 21 colunas
```

E apresenta uma pr√©via do invent√°rio atual:

| name | rows | cols | memory_mb |
|------|------|-------|-----------|
| main | 7032 | 21    | 1.2       |

---

### üìä 2. Defini√ß√£o do DataFrame ativo (`df`)

A vari√°vel `df` recebe a tabela atual atrav√©s de `T.get()`.  
Esse `df` passa a representar o **DataFrame padr√£o** que seguir√° nas pr√≥ximas etapas do pipeline (limpeza, tipagem e transforma√ß√£o).

---

### üß© 3. Gerenciamento de m√∫ltiplas tabelas

Novos DataFrames podem ser adicionados ao cat√°logo a qualquer momento, com nomes descritivos e controle de vers√£o.  
O cat√°logo tamb√©m permite alternar entre tabelas e listar todas as dispon√≠veis.

**Principais comandos:**

```python
T.add("churn_raw", df, set_current=True)           # adiciona e define como atual
df = T.use("churn_raw")                            # alterna o df ativo
T.add("features_v1", engenharia_de_atributos(df))  # armazena uma nova deriva√ß√£o
df_features = T["features_v1"]                     # acesso direto por nome
display(T.list())                                  # exibe o invent√°rio completo
```

---

### üß† 4. Benef√≠cio pr√°tico

- Mant√©m o notebook limpo e evita sobrescrever DataFrames importantes.  
- Facilita o reuso e o rastreamento das vers√µes intermedi√°rias dos dados.  
- Ideal para projetos com m√∫ltiplas fontes, transforma√ß√µes paralelas ou compara√ß√µes entre conjuntos tratados.  
- Fornece feedback visual imediato sobre o estado do pipeline, tornando o fluxo mais transparente e interativo.

---

> üí° **Resumo:**  
> O `TableStore` funciona como uma **mem√≥ria estruturada de DataFrames**, permitindo adicionar, alternar, versionar e consultar tabelas de forma controlada.  
> A vari√°vel `df` representa sempre a **tabela ativa** atual, garantindo consist√™ncia nas etapas seguintes do pipeline e visibilidade sobre o progresso do processamento.


In [5]:
from utils.utils_data import TableStore

# 1- Inicializa cat√°logo com as fontes lidas ('tables') e define a base como atual
T = TableStore(initial=tables, current=MAIN_SOURCE)

# 2 - Conveni√™ncia: df = tabela atual (boa pr√°tica para seguir no pipeline)
df = T.get()

# 3 - Feedback visual de sucesso
print(f"‚úÖ Cat√°logo de DataFrames inicializado com sucesso.")
print(f"‚Üí Total de tabelas carregadas: {len(tables)}")
print(f"‚Üí Tabela ativa: '{T.current}'  | Shape: {df.shape[0]} linhas √ó {df.shape[1]} colunas")

# 4Ô∏è4 - Exibe uma pr√©via do cat√°logo
display(T.list().head())

# --- Guia r√°pido  ---
# T.add("churn_raw", df, set_current=True)          # cadastra e ativa
# df = T.use("churn_raw")                           # muda o atual e retorna df
# T.add("features_v1", engenharia_de_atributos(df)) # salva uma deriva√ß√£o
# df_features = T["features_v1"]                    # acesso direto por nome
# display(T.list())                                 # invent√°rio das tabelas


‚úÖ Cat√°logo de DataFrames inicializado com sucesso.
‚Üí Total de tabelas carregadas: 1
‚Üí Tabela ativa: 'main'  | Shape: 7043 linhas √ó 21 colunas


Unnamed: 0,name,rows,cols,memory_mb
0,main,7043,21,6.820952


In [6]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## üß™ Qualidade & Tipagem

Nesta etapa o notebook realiza a **padroniza√ß√£o estrutural e tipagem autom√°tica dos dados**, garantindo que o DataFrame principal (`df`) siga para as pr√≥ximas fases **coerente, limpo e otimizado em mem√≥ria**.  
√â uma das fases mais cr√≠ticas do pipeline, pois evita que inconsist√™ncias de tipo e formato prejudiquem as an√°lises posteriores ou a modelagem.

### üìã O que √© feito aqui

1. **Remo√ß√£o de espa√ßos em branco (`strip_whitespace`)**
   - Elimina espa√ßos extras no in√≠cio e no fim de valores textuais.  
   - Evita diverg√™ncias em compara√ß√µes e agrupamentos (ex.: `"Yes "` ‚â† `"Yes"`).  
   - Essa opera√ß√£o √© **idempotente**: se os dados j√° estiverem limpos, n√£o altera nada.

2. **Convers√£o inteligente de valores num√©ricos (`infer_numeric_like`)**
   - Detecta colunas com valores *aparentemente num√©ricos*, mas armazenados como texto (ex.: `"R$ 120,00"` ou `"1.234,56"`).  
   - Aplica heur√≠sticas para remover s√≠mbolos, normalizar separadores e converter apenas quando a propor√ß√£o de convers√£o for suficiente (`min_ratio = 0.9`).  
   - Evita convers√µes indevidas (ex.: IDs) por meio de uma lista de exclus√£o (`blacklist`).  
   - Gera o relat√≥rio **`cast_report`**, registrando:
     - Coluna analisada  
     - A√ß√£o tomada (convertida, ignorada ou parcial)  
     - Taxa de sucesso e total de valores convertidos.

3. **Otimiza√ß√£o de tipos num√©ricos (`reduce_memory_usage`)**
   - Converte automaticamente `int64` ‚Üí `int32` e `float64` ‚Üí `float32`, reduzindo o consumo de mem√≥ria sem alterar os valores.  
   - O log mostra a diferen√ßa antes e depois (ex.: `Memory reduced: 7.76MB ‚Üí 6.21MB`).

4. **Remo√ß√£o de duplicatas (`deduplicate_rows`)**
   - Verifica e elimina registros repetidos conforme a configura√ß√£o (`subset`, `keep`).  
   - Caso encontre duplicatas, gera um relat√≥rio detalhado e salva o log em `reports/duplicates.csv`.  
   - Exibe uma amostra das duplicatas detectadas, se houver.

5. **Relat√≥rios e feedback autom√°tico**
   - Ao final da execu√ß√£o, exibe um resumo completo:  
     - Linhas e colunas antes/depois  
     - Varia√ß√£o de mem√≥ria (`Œî MB`)  
     - Relat√≥rios gerados (`cast_report`, `duplicates_report`, etc.)  
   - Todos os logs s√£o gravados em `reports/data_preparation.log`.

---

> üí° **Resumo:**  
> Esta c√©lula garante que o dataset esteja **consistente, tipado e otimizado**, pronto para an√°lises e modelagem.  
> Corrige formata√ß√µes, converte n√∫meros armazenados como texto, remove duplicatas e reduz o uso de mem√≥ria ‚Äî tudo com registros autom√°ticos e relat√≥rios salvos para auditoria.


In [7]:
# Executa a etapa de qualidade & tipagem encapsulada no utils
df_before_shape = df.shape
mem_before = float(df.memory_usage(deep=True).sum() / (1024**2))

df, rep = ud.n1_quality_typing(df, config, paths.reports_dir)

mem_after  = float(df.memory_usage(deep=True).sum() / (1024**2))
delta_rows = df.shape[0] - df_before_shape[0]
delta_cols = df.shape[1] - df_before_shape[1]
delta_mem  = mem_after - mem_before

# Exibe relat√≥rios √∫teis (se existirem)
if "cast_report" in rep:
    print("üìÑ Convers√µes num√©ricas (amostra):")
    display(rep["cast_report"].head(20))

if "duplicates" in rep and isinstance(rep["duplicates"], pd.DataFrame) and not rep["duplicates"].empty:
    print("\nüîÅ Duplicatas detectadas (amostra):")
    display(rep["duplicates"].head(10))
    if "duplicates_summary" in rep:
        print("üìä Resumo por chave:")
        display(rep["duplicates_summary"].head(20))
else:
    print("\n‚úÖ Nenhuma duplicidade encontrada segundo os crit√©rios definidos.")

# Mensagem de sucesso consolidada
print(
    f"\n‚úÖ Qualidade & Tipagem conclu√≠do com sucesso!\n"
    f"‚Üí Shape: {df_before_shape} ‚Üí {df.shape} (Œîlinhas={delta_rows:+}, Œîcolunas={delta_cols:+})\n"
    f"‚Üí Mem√≥ria: {mem_before:.2f} MB ‚Üí {mem_after:.2f} MB (Œî={delta_mem:+.2f} MB)\n"
    f"‚Üí Relat√≥rios gerados: {', '.join([k for k,v in rep.items() if isinstance(v, pd.DataFrame) and not v.empty]) or '‚Äî'}"
)


2025-11-01 14:36:55,193 | INFO | [N1] strip_whitespace aplicado.
2025-11-01 14:36:55,447 | INFO | [infer_numeric_like] 17 colunas verificadas. A√ß√µes: {'skip_no_conversion': 16, 'inplace_convert': 1}
2025-11-01 14:36:55,466 | INFO | [report] salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\cast_report.csv
2025-11-01 14:36:55,506 | INFO | Memory reduced: 6.51MB -> 6.36MB
2025-11-01 14:36:55,507 | INFO | [N1] reduce_memory_usage aplicado.
2025-11-01 14:36:55,538 | INFO | [deduplicate] Removed duplicates: 0 (subset=None, keep=first)
2025-11-01 14:36:55,572 | INFO | [reports] salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\overview_after_quality.json
üìÑ Convers√µes num√©ricas (amostra):


Unnamed: 0,column,ratio,action,converted,total,before_dtype,after_dtype
0,Churn,0.0,skip_no_conversion,0,7043,string,string
1,Contract,0.0,skip_no_conversion,0,7043,string,string
2,Dependents,0.0,skip_no_conversion,0,7043,string,string
3,DeviceProtection,0.0,skip_no_conversion,0,7043,string,string
4,InternetService,0.0,skip_no_conversion,0,7043,string,string
5,MultipleLines,0.0,skip_no_conversion,0,7043,string,string
6,OnlineBackup,0.0,skip_no_conversion,0,7043,string,string
7,OnlineSecurity,0.0,skip_no_conversion,0,7043,string,string
8,PaperlessBilling,0.0,skip_no_conversion,0,7043,string,string
9,Partner,0.0,skip_no_conversion,0,7043,string,string



‚úÖ Nenhuma duplicidade encontrada segundo os crit√©rios definidos.

‚úÖ Qualidade & Tipagem conclu√≠do com sucesso!
‚Üí Shape: (7043, 21) ‚Üí (7043, 21) (Œîlinhas=+0, Œîcolunas=+0)
‚Üí Mem√≥ria: 6.82 MB ‚Üí 6.36 MB (Œî=-0.46 MB)
‚Üí Relat√≥rios gerados: cast_report


## üßº Padroniza√ß√£o Categ√≥rica

Nesta etapa ocorre a **padroniza√ß√£o global de r√≥tulos textuais** em colunas categ√≥ricas, corrigindo inconsist√™ncias, diferen√ßas de capitaliza√ß√£o e valores redundantes (como `"No internet service"` ‚Üí `"No"`).  
O objetivo √© **garantir uniformidade sem alterar o significado dos dados**, preparando o dataset para codifica√ß√£o e modelagem.

---

### üìã O que √© feito aqui

1. **Sele√ß√£o autom√°tica das colunas categ√≥ricas**  
   - S√£o processadas todas as colunas com tipo `object`, `string` ou `category`, exceto aquelas listadas em `exclude` (ex.: `"customerID"`).

2. **Limpeza e normaliza√ß√£o de forma**  
   - Remove espa√ßos extras (`trim`) e consolida espa√ßos duplos (`collapse_ws`).  
   - Corrige capitaliza√ß√£o conforme o par√¢metro `case` (`"title"`, `"lower"`, `"upper"`, `"none"`).  
   - Opcionalmente remove acentos (`strip_accents`).

3. **Substitui√ß√µes e valores nulos**  
   - Aplica um mapa global de substitui√ß√µes (`global_map`) para corrigir padr√µes conhecidos (ex.: `"No internet service"` ‚Üí `"No"`).  
   - Permite tamb√©m um mapa espec√≠fico por coluna (`per_column_map`), quando necess√°rio.  
   - Converte valores definidos em `null_values` (ex.: `"n/a"`, `"na"`, `"-"`) em `NaN`.

4. **Convers√£o opcional para categoria**  
   - Se `cast_to_category=True`, converte colunas textuais em `category`, otimizando uso de mem√≥ria.

5. **Gera√ß√£o de relat√≥rio e registro autom√°tico**  
   - Cria o arquivo `cat_normalization.csv` dentro da pasta `reports/`, com:  
     - Nome da coluna  
     - Amostras antes/depois  
     - Quantidade de altera√ß√µes (`changes`)  
     - N√∫mero de categorias √∫nicas antes/depois  
   - As informa√ß√µes tamb√©m s√£o registradas no log e adicionadas ao `manifest.json`.

---

### ‚öôÔ∏è Configura√ß√£o (`CAT_NORM_CFG`)

A padroniza√ß√£o √© controlada por um dicion√°rio de configura√ß√£o completo:

```python
CAT_NORM_CFG = {
    "enabled": True,
    "exclude": ["customerID"],
    "case": "title",
    "strip_accents": True,
    "collapse_ws": True,
    "trim": True,
    "global_map": {
        "No internet service": "No",
        "No phone service": "No",
        "n/a": "No",
        "none": "No"
    },
    "null_values": ["", "na", "n/a", "-"],
    "cast_to_category": False
}
```

Exemplo de mapa espec√≠fico por coluna:
```python
"per_column_map": {
    "InternetService": {"Dsl": "DSL", "Fiber Optic": "Fiber Optic"}
}
```

---

> üí° **Resumo:**  
> Esta c√©lula realiza uma **padroniza√ß√£o inteligente e audit√°vel** das colunas categ√≥ricas ‚Äî aplicando limpeza, substitui√ß√µes e normaliza√ß√£o de forma sistem√°tica.  
> O processo √© controlado via configura√ß√£o (`CAT_NORM_CFG`), gera um relat√≥rio autom√°tico e mant√©m registro completo no log e no `manifest.json`, garantindo **clareza, rastreabilidade e consist√™ncia** no tratamento dos dados.


In [8]:
# Config via defaults.json (exemplo seguro e gen√©rico)
CAT_NORM_CFG = {
    "enabled": True,
    "exclude": ["customerID"],         # nunca normalizar IDs
    "case": "title",                   # ou "lower" se preferir
    "strip_accents": True,
    "collapse_ws": True,
    "trim": True,
    "global_map": {
        "No internet service": "No",
        "No phone service": "No",
        "n/a": "No",
        "none": "No"
    },
    "null_values": ["", "na", "n/a", "-"],
    "cast_to_category": False,         # mude pra True se quiser reduzir mem√≥ria depois
    # "per_column_map": {"PaperlessBilling": {"sim": "Yes", "nao": "No"}}
}

if config.get("normalize_categories", True):
    df, cat_norm_report = ud.normalize_categories(
        df,
        cfg=CAT_NORM_CFG,
        report_path=paths.reports_dir / "cat_normalization.csv"
    )
    if not cat_norm_report.empty:
        print("üìë Relat√≥rio de padroniza√ß√£o (top 20 por mudan√ßas):")
        display(cat_norm_report.head(20))


2025-11-01 14:36:56,780 | INFO | [report] salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\cat_normalization.csv
2025-11-01 14:36:56,802 | INFO | [N1] Padroniza√ß√£o categ√≥rica aplicada em: ['MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaymentMethod']
üìë Relat√≥rio de padroniza√ß√£o (top 20 por mudan√ßas):


Unnamed: 0,column,before_sample,after_sample,changes,unique_before,unique_after
0,Contract,"Month-to-month, One year, Two year","Month-To-Month, One Year, Two Year",7043,3,3
1,PaymentMethod,"Electronic check, Mailed check, Bank transfer ...","Electronic Check, Mailed Check, Bank Transfer ...",7043,4,4
2,InternetService,"DSL, Fiber optic, No","Dsl, Fiber Optic, No",5517,3,3
3,OnlineSecurity,"No, Yes, No internet service","No, Yes",1526,3,2
4,OnlineBackup,"Yes, No, No internet service","Yes, No",1526,3,2
5,DeviceProtection,"No, Yes, No internet service","No, Yes",1526,3,2
6,TechSupport,"No, Yes, No internet service","No, Yes",1526,3,2
7,StreamingTV,"No, Yes, No internet service","No, Yes",1526,3,2
8,StreamingMovies,"No, Yes, No internet service","No, Yes",1526,3,2
9,MultipleLines,"No phone service, No, Yes","No, Yes",682,3,2


## ü©π Tratamento de Valores Faltantes

Nesta etapa s√£o tratadas as **aus√™ncias de dados** (valores nulos ou `NaN`) para garantir que o DataFrame siga consistente para as pr√≥ximas fases do pipeline.  
O objetivo √© **preencher ou sinalizar valores faltantes** de forma controlada, preservando a integridade estat√≠stica das colunas e registrando quais linhas foram modificadas.

### üìã O que √© feito aqui

1. **Gera√ß√£o de relat√≥rio inicial**
   - Exibe um diagn√≥stico das colunas com valores ausentes, mostrando a propor√ß√£o (`missing_rate`) e o total (`missing_count`) de registros nulos.
   - Essa visualiza√ß√£o ajuda a decidir se o tratamento ser√° simples ou se exigir√° t√©cnicas espec√≠ficas.

2. **Aplica√ß√£o da estrat√©gia de imputa√ß√£o**
   - O comportamento √© controlado pela chave `missing_strategy` do arquivo de configura√ß√£o:
     - `"simple"` ‚Üí aplica a fun√ß√£o `simple_impute_with_flags()`
     - `"advanced"` ‚Üí reservado para m√©todos personalizados (ex.: KNN, regress√£o, interpola√ß√£o)
   - A estrat√©gia **simples** executa:
     - Substitui√ß√£o de valores nulos **num√©ricos** pela **mediana** da coluna.  
     - Substitui√ß√£o de valores nulos **categ√≥ricos** pela **moda** (valor mais frequente).  
   - Durante a imputa√ß√£o, s√£o criadas **colunas de flag** no formato `was_imputed_<coluna>`, indicando quais linhas foram alteradas.

3. **Relat√≥rio final de verifica√ß√£o**
   - Ap√≥s o preenchimento, √© exibido novamente o relat√≥rio de faltantes para confirmar se todas as lacunas foram resolvidas.
   - Caso ainda existam colunas cr√≠ticas, o notebook pode ser ajustado para aplicar m√©todos mais avan√ßados.

### Exemplo de flag gerada:
| customerID | TotalCharges | was_imputed_TotalCharges |
|-------------|--------------|--------------------------|
| 7590-VHVEG  | 29.85        | False                   |
| 9237-HQITU  | 1840.75      | True                    |

Linhas com `True` indicam que o valor original estava ausente e foi imputado automaticamente.

> üí° **Resumo:**  
> Esta c√©lula identifica e corrige valores faltantes, aplicando regras de imputa√ß√£o simples e registrando onde cada substitui√ß√£o ocorreu.  
> Isso garante **transpar√™ncia, rastreabilidade e controle de qualidade**, permitindo filtrar posteriormente apenas os dados considerados consistentes.


In [9]:
if config.get("handle_missing", True):
    print("Relat√≥rio de faltantes (antes):")
    display(ud.missing_report(df).head(20))

    if config.get("missing_strategy") == "simple":
        df = ud.simple_impute_with_flags(df)
    else:
        # espa√ßo para t√©cnicas avan√ßadas
        pass

    print("Relat√≥rio de faltantes (depois):")
    display(ud.missing_report(df).head(20))

Relat√≥rio de faltantes (antes):


Unnamed: 0,missing_rate,missing_count
TotalCharges,0.001562,11
customerID,0.0,0
DeviceProtection,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0
TechSupport,0.0,0


2025-11-01 14:36:58,920 | INFO | [impute] 'TotalCharges' ‚Üí 11 valores (mediana).
Relat√≥rio de faltantes (depois):


Unnamed: 0,missing_rate,missing_count
customerID,0.0,0
gender,0.0,0
Churn,0.0,0
TotalCharges,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0


## üö© Detec√ß√£o de Outliers

Esta etapa identifica **valores at√≠picos** nas colunas num√©ricas, adicionando colunas de flag (`*_is_outlier`) que indicam quais registros se desviam do padr√£o estat√≠stico esperado.  
Essas colunas servem para **inspe√ß√£o e auditoria**, sem alterar ou remover dados ‚Äî a decis√£o de tratamento posterior (ajuste, exclus√£o ou manuten√ß√£o) √© **de neg√≥cio**.

### ‚öôÔ∏è Como funciona

1. **Verifica a configura√ß√£o**
   - A execu√ß√£o depende da flag `detect_outliers` no arquivo `config/defaults.json`.  
     Se estiver definida como `true`, a detec√ß√£o √© realizada.

2. **Seleciona o m√©todo estat√≠stico**
   - `"iqr"` ‚Üí usa o **Intervalo Interquartil (Interquartile Range)**:
     - Calcula Q1 (25¬∫ percentil) e Q3 (75¬∫ percentil)
     - Define limites:  
       Inferior = Q1 ‚àí 1.5 √ó IQR  
       Superior = Q3 + 1.5 √ó IQR
     - Valores fora desse intervalo s√£o marcados como outliers.
   - `"zscore"` ‚Üí usa o **desvio-padr√£o (Z-Score)**:
     - Calcula a m√©dia (Œº) e o desvio-padr√£o (œÉ)
     - Para cada valor, obt√©m `z = (x ‚àí Œº) / œÉ`
     - Valores com |z| > 3 s√£o considerados outliers.

3. **Cria√ß√£o de colunas de flag**
   - Para cada vari√°vel num√©rica analisada, √© criada uma nova coluna:
     ```
     <coluna>_is_outlier
     ```
   - O valor ser√°:
     - `True` ‚Üí registro identificado como outlier  
     - `False` ‚Üí registro dentro do intervalo esperado

4. **Registro no log**
   - Ao final, o sistema registra no log quantas colunas de flag foram criadas:
     ```
     Outlier flags created: 4
     ```
     Significa que 4 colunas num√©ricas foram analisadas e receberam suas respectivas flags.

### Exemplo de resultado

| tenure | MonthlyCharges | TotalCharges | tenure_is_outlier | MonthlyCharges_is_outlier | TotalCharges_is_outlier |
|--------|----------------|--------------|-------------------|----------------------------|--------------------------|
| 5      | 35.50          | 190.00       | False             | False                      | False                    |
| 72     | 120.00         | 9999.99      | False             | **True**                   | **True**                 |

> üí° **Resumo:**  
> Esta c√©lula adiciona colunas de marca√ß√£o para detectar valores at√≠picos de acordo com o m√©todo configurado.  
> Os dados originais s√£o preservados, permitindo que a an√°lise posterior defina se esses registros devem ser **mantidos, ajustados ou removidos**.


In [14]:
df, out_info = ud.apply_outlier_flags(df, config=config, persist=True)
logger.info(f"Outlier flags created: {out_info['created_flags']}")
# vis√£o r√°pida
if out_info['created_flags'] > 0:
    display(
        df.filter(like="_is_outlier")
          .sum()
          .sort_values(ascending=False)
          .to_frame("outliers_count")
          .head(20)
    )


2025-11-01 14:50:28,253 | INFO | [outliers] IQR aplicado (4 colunas).
2025-11-01 14:50:28,270 | INFO | Outlier flags created: 4


In [15]:
display(df.filter(like="_is_outlier").sum())

SeniorCitizen_is_outlier     1142
tenure_is_outlier               0
MonthlyCharges_is_outlier       0
TotalCharges_is_outlier         0
dtype: int64

## üß¨ Duplicidades

Remove **linhas duplicadas** do DataFrame para evitar contagens infladas, vieses e ru√≠do em m√©tricas.

### üìã O que acontece aqui
- Por padr√£o, a duplicidade √© verificada **linha a linha** (todas as colunas iguais).  
- A primeira ocorr√™ncia √© mantida e as demais s√£o removidas.

### üîß Op√ß√µes (se configuradas no `config`)
- `deduplicate_subset`: lista de colunas que definem a chave de deduplica√ß√£o  
  *Ex.:* `["customerID"]` mant√©m apenas um registro por cliente.
- `deduplicate_keep`: pol√≠tica de reten√ß√£o ‚Äî `"first"`, `"last"` ou `false` (remove todas as repeti√ß√µes).
- `deduplicate_log` + `deduplicate_log_filename`: salva um **CSV** com as duplicatas detectadas em `reports/`.

### Boas pr√°ticas:
- Uso do `subset` quando a duplicidade for **conceitual** (ex.: mesma pessoa/pedido), n√£o necessariamente toda a linha id√™ntica.
- Gerar e revisar o relat√≥rio de duplicatas antes de decidir pela remo√ß√£o definitiva.

> üí°**Resumo:** esta etapa garante um dataset **sem registros repetidos** segundo o crit√©rio definido, mantendo rastreabilidade quando o log estiver habilitado.

In [16]:
if config['deduplicate']:
    df = deduplicate_rows(df)

2025-10-30 06:01:08,643 | INFO | deduplicate_rows: subset=None ‚Üí desduplicando linha inteira
2025-10-30 06:01:08,659 | INFO | deduplicate_rows: removidas 0 duplicatas (de 7043)


## üõ†Ô∏è Engenharia de Atributos

Cria√ß√£o de novas colunas que capturem **rela√ß√µes, propor√ß√µes, categorias ou padr√µes** relevantes ao neg√≥cio.  
Essa etapa √© inteiramente manual e depende do contexto do dataset.

### üí° Exemplos:
- **Raz√µes e propor√ß√µes:** `TotalCharges / tenure` ‚Üí gasto m√©dio mensal.  
- **Flags categ√≥ricas:** `Contract == 'Month-to-month'` ‚Üí 1 se contrato mensal.  
- **Contagens de servi√ßos:** soma de colunas bin√°rias (Yes/No).  

Essas novas features tornam as an√°lises mais ricas e **melhoram a performance de modelos preditivos**.


In [17]:
if config['feature_engineering']:
    # Exemplo gen√©rico (comente/remova conforme o caso):
    # if {'col_a','col_b'}.issubset(df.columns):
    #     df['a_per_b'] = df['col_a'] / df['col_b'].replace(0, np.nan)
    pass

# üìÖ Tratamento de Datas

Esta etapa detecta e converte colunas de datas de forma **autom√°tica e controlada**, criando **features temporais** √∫teis para an√°lises e modelos preditivos.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas de data

O sistema procura automaticamente colunas com nomes que contenham termos como  
`date`, `data`, `dt_`, `_dt`, ou `_date`.

Tamb√©m √© poss√≠vel **for√ßar colunas espec√≠ficas** definindo manualmente em:

```python
date_cfg["explicit_cols"] = ["StartDate", "EndDate"]
```

### üîπ Convers√£o para datetime com auditoria

Cada coluna candidata √© testada com diferentes formatos e tentativas de *parsing*.  
O relat√≥rio **`parse_report`** mostra:

| column      | parsed_ratio | converted |
|--------------|--------------|------------|
| order_date   | 1.00         | True       |
| start_date   | 0.35         | False      |

- **column:** nome da coluna testada  
- **parsed_ratio:** porcentagem de valores convertidos com sucesso  
- **converted:** indica se a coluna foi convertida (baseado no `min_ratio`)

---

### üîπ Cria√ß√£o autom√°tica de features temporais

Para cada coluna convertida em `datetime`, s√£o geradas vari√°veis derivadas como:

`*_year`, `*_month`, `*_day`, `*_dayofweek`, `*_quarter`, `*_week`,  
`*_is_month_start`, `*_is_month_end`

O prefixo das novas colunas √© o **nome original da coluna de data** .

---

### üß± Comportamento defensivo

Caso nenhuma coluna seja detectada, a c√©lula n√£o gera erro ‚Äî apenas loga:

`[dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.`


Assim, o pipeline segue normalmente.

---

### ‚öôÔ∏è Configura√ß√£o (`date_cfg`)

| Par√¢metro       | Descri√ß√£o                                                        | Exemplo               |
|-----------------|------------------------------------------------------------------|------------------------|
| `detect_regex`  | Padr√£o para localizar colunas com nomes de data                 | `"date"`              |
| `explicit_cols` | Lista manual de colunas a converter                             | `["StartDate"]`       |
| `dayfirst`      | Define se o formato √© D/M/Y                                     | `True` para üáßüá∑        |
| `utc`           | Define se a convers√£o deve ser em UTC                           | `False`               |
| `formats`       | Lista de formatos espec√≠ficos                                   | `["%d/%m/%Y"]`        |
| `min_ratio`     | Fra√ß√£o m√≠nima de parsing bem-sucedido para aceitar a convers√£o  | `0.8`                 |

---

> üí° **Resumo:**  
> Esta c√©lula realiza o reconhecimento autom√°tico de colunas de data,
converte-as para o formato datetime e gera vari√°veis derivadas como
ano, m√™s, dia e semana.
> Caso nenhuma coluna de data seja encontrada, o c√≥digo √© ignorado com seguran√ßa,
garantindo a continuidade do pipeline sem erros.
> Os par√¢metros em date_cfg permitem ajustar formato, localiza√ß√£o e toler√¢ncia
de parsing conforme a estrutura de cada dataset.

In [18]:
date_cfg = {
  "detect_regex": r"(date|data|dt_|_dt$|_date$)",
  "explicit_cols": [],   # ex.: ["StartDate","EndDate"]
  "dayfirst": False,     # True se datas forem D/M/Y
  "utc": False,
  "formats": [],         # ex.: ["%d/%m/%Y", "%Y-%m-%d"]
  "min_ratio": 0.80,
}


# Converter e auditar parsing
df, parse_report, parsed_cols = parse_dates_with_report(df, date_cfg)
display(parse_report)

if not parsed_cols:
    logger.info("[dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.")
else:
    created = expand_date_features(
        df, parsed_cols,
        features=["year","month","day","dayofweek","quarter","week","is_month_start","is_month_end"],
        prefix_mode="auto"
    )
    logger.info(f"[dates] features criadas: {len(created)}")

2025-10-30 06:01:19,351 | INFO | [dates] candidates=[]
2025-10-30 06:01:19,352 | INFO | [dates] parsed_ok=[]


Unnamed: 0,column,parsed_ratio,converted


2025-10-30 06:01:19,356 | INFO | [dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.


# üóìÔ∏è Cria√ß√£o da Tabela Calend√°rio (`dim_date`)

Esta etapa gera automaticamente uma **tabela calend√°rio completa** ‚Äî tamb√©m chamada de **dimens√£o de tempo** ‚Äî a partir de uma coluna de datas existente no dataset principal.  
A tabela √© √∫til para **an√°lises temporais, dashboards e modelos de previs√£o** que utilizam per√≠odos como refer√™ncia (ano, m√™s, trimestre, etc).

---

## üìã O que acontece aqui

### üîπ Sele√ß√£o da coluna de data

Voc√™ define manualmente qual coluna ser√° usada como base:

```python
CAL_DATE_COL = "order_date"  # nome da coluna datetime escolhida
CAL_FREQ = "D"               # frequ√™ncia: "D" (di√°rio), "W" (semanal), "M" (mensal)
```

A coluna deve estar no formato **datetime**.  
Se n√£o estiver, ser√° exibido um erro pedindo para executar antes a etapa de **Tratamento de Datas**.

---

### üîπ Gera√ß√£o da dimens√£o calend√°rio

A fun√ß√£o `build_calendar_from()` constr√≥i uma tabela com todas as datas entre o **m√≠nimo** e o **m√°ximo** encontrados em `CAL_DATE_COL`.

Para cada data, s√£o criadas colunas derivadas, como:

| Coluna          | Descri√ß√£o                                |
|------------------|-------------------------------------------|
| `date`           | Data base (chave principal)              |
| `year`           | Ano                                      |
| `month`          | M√™s num√©rico                             |
| `day`            | Dia do m√™s                               |
| `quarter`        | Trimestre (1‚Äì4)                          |
| `week`           | Semana do ano (ISO)                      |
| `dow`            | Dia da semana (0 = segunda, 6 = domingo) |
| `is_month_start` | Indica se a data √© o primeiro dia do m√™s |
| `is_month_end`   | Indica se a data √© o √∫ltimo dia do m√™s   |
| `month_name`     | Nome do m√™s                              |
| `day_name`       | Nome do dia da semana                    |

---

### üîπ Armazenamento e reuso

A tabela √© salva automaticamente no diret√≥rio de artefatos (`artifacts/`):

```python
CAL_OUT = ARTIFACTS_DIR / "dim_date.csv"
```

O formato √© determinado pela extens√£o (.csv ou .parquet).
Al√©m disso, a tabela pode ser registrada no cat√°logo de DataFrames (T) para uso posterior no pipeline:
```python
T.add("dim_date", dim_date)
```
> üí° **Resumo:**  
> Esta c√©lula cria uma dimens√£o de tempo completa baseada na coluna de data escolhida.
> Ela facilita compara√ß√µes e agrega√ß√µes por ano, m√™s, semana ou trimestre, al√©m de permitir jun√ß√µes temporais consistentes com outros datasets ou dashboards (ex.: Power BI).
> O processo √© autom√°tico, reproduz√≠vel e independente do dataset principal.

In [19]:
# Ajuste estes par√¢metros conforme o dataset:
CAL_DATE_COL = "order_date"           # escolha aqui a coluna de datas j√° convertida para datetime
CAL_FREQ     = "D"                    # "D" (di√°rio), "W" (semanal), "M" (mensal) etc.
CAL_OUT      = ARTIFACTS_DIR / "dim_date.csv"  # caminho de sa√≠da (csv/parquet conforme a extens√£o)

# --- valida√ß√µes suaves ---
if CAL_DATE_COL not in df.columns:
    msg = f"‚ö†Ô∏è Coluna '{CAL_DATE_COL}' n√£o encontrada no DataFrame. " \
          f"Ajuste CAL_DATE_COL para uma coluna v√°lida antes de gerar a tabela calend√°rio."
    print(msg)
    logger.warning(msg)
else:
    if not pd.api.types.is_datetime64_any_dtype(df[CAL_DATE_COL]):
        msg = f"‚ö†Ô∏è Coluna '{CAL_DATE_COL}' existe, mas **n√£o est√° em formato datetime**. " \
              "Execute a etapa de Tratamento de Datas antes, ou converta manualmente."
        print(msg)
        logger.warning(msg)
    else:
        # --- constru√ß√£o da dimens√£o calend√°rio ---
        dim_date = build_calendar_from(df, CAL_DATE_COL, freq=CAL_FREQ)

        # --- vis√£o r√°pida ---
        display(dim_date.head(12))
        start_date = dim_date["date"].min()
        end_date   = dim_date["date"].max()
        print(f"Per√≠odo: {start_date.date()} ‚Üí {end_date.date()}  | Linhas: {len(dim_date)}")

        # --- salvar em disco respeitando a extens√£o do caminho ---
        save_table(dim_date, CAL_OUT)
        logger.info(f"[calendar] Tabela calend√°rio salva em: {CAL_OUT}")

        # --- opcional: registrar no cat√°logo de tabelas ---
        try:
            T.add("dim_date", dim_date)
            logger.info("[calendar] 'dim_date' registrada no cat√°logo T.")
        except NameError:
            # Se TableStore (T) n√£o estiver sendo usado nesta sess√£o, ignore.
            pass


‚ö†Ô∏è Coluna 'order_date' n√£o encontrada no DataFrame. Ajuste CAL_DATE_COL para uma coluna v√°lida antes de gerar a tabela calend√°rio.


# üìù Tratamento de Texto (opcional)

Esta etapa extrai **m√©tricas num√©ricas e l√≥gicas a partir de colunas textuais**, transformando texto livre em informa√ß√µes quantitativas √∫teis para **an√°lise explorat√≥ria e modelagem**.  

√â uma forma leve e controlada de **estruturar dados n√£o num√©ricos**, sem recorrer a t√©cnicas avan√ßadas de NLP.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas textuais

O sistema busca automaticamente colunas com tipo `object` e ignora aquelas listadas na *blacklist*:

```python
text_cols = [c for c in df.columns if df[c].dtype == 'object' and c not in TEXT_CFG["blacklist"]]
```

Essas colunas normalmente cont√™m informa√ß√µes como:  
descri√ß√µes, coment√°rios, nomes, categorias textuais ou observa√ß√µes.

---

### üîπ Limpeza e padroniza√ß√£o

Antes de gerar as m√©tricas, os textos passam por uma limpeza leve:
- Remo√ß√£o de **espa√ßos duplicados** e **trim** nas extremidades.  
- Convers√£o para **min√∫sculas**, garantindo consist√™ncia em an√°lises de termos.

Essas a√ß√µes s√£o controladas pelas chaves:
```python
"lower": True,
"strip_collapse_ws": True
```

---

### üîπ Cria√ß√£o autom√°tica de m√©tricas textuais

Para cada coluna textual, s√£o geradas novas colunas num√©ricas:

| Nova Coluna           | Descri√ß√£o | Exemplo ("This is great!") |
|------------------------|------------|-----------------------------|
| `<coluna>_len`         | N√∫mero total de caracteres no texto | 15 |
| `<coluna>_word_count`  | N√∫mero de palavras separadas por espa√ßos | 3 |
| `<coluna>_alpha_count` | N√∫mero de letras (A‚ÄìZ, a‚Äìz) | 13 |
| `<coluna>_digit_count` | N√∫mero de d√≠gitos num√©ricos | 0 |

---

### üîπ Presen√ßa de termos-chave

O sistema tamb√©m cria colunas booleanas (`True` / `False`) para identificar a **ocorr√™ncia de palavras espec√≠ficas** em cada coluna textual.  

Exemplo:
```python
TEXT_CFG["keywords"] = ["error", "cancel", "premium"]
```

Gera colunas como:
- `<coluna>_has_error`  
- `<coluna>_has_cancel`  
- `<coluna>_has_premium`

Essas vari√°veis s√£o √∫teis para an√°lises de sentimento ou padr√µes de ocorr√™ncia em feedbacks de clientes.

---

### üîπ Exporta√ß√£o de resumo

Ao final, √© gerado um **resumo CSV** com as colunas de texto processadas e suas features derivadas.  
O arquivo √© salvo em:
```
reports/text_features/summary.csv
```

Esse relat√≥rio documenta as transforma√ß√µes aplicadas, garantindo **rastreabilidade e transpar√™ncia**.

---

### ‚öôÔ∏è Configura√ß√£o (`TEXT_CFG`)

| Par√¢metro              | Descri√ß√£o                                                       | Exemplo                              |
|------------------------|------------------------------------------------------------------|--------------------------------------|
| `lower`                | Converte o texto para min√∫sculas                                | `True`                               |
| `strip_collapse_ws`    | Remove espa√ßos duplicados e limpa extremidades                  | `True`                               |
| `keywords`             | Lista de termos a detectar no texto                             | `["error", "cancel", "premium"]`     |
| `blacklist`            | Colunas a ignorar durante o processamento                       | `["customerID"]`                     |
| `export_summary`       | Salva relat√≥rio com resumo das features geradas                 | `True`                               |

---

### Boas pr√°ticas

- Aplicar esta etapa apenas em colunas realmente textuais ‚Äî evite IDs ou c√≥digos.  
- Personalizar a lista de **palavras-chave** conforme o contexto do dataset.  
- Caso o dataset n√£o possua colunas de texto, o processo ser√° ignorado com seguran√ßa.  
- Utilize o arquivo de resumo (`summary.csv`) para acompanhar colunas derivadas e auditorias.

---

> üí° **Resumo:**  
> Esta c√©lula transforma campos de texto em **indicadores num√©ricos e l√≥gicos**, gerando m√©tricas b√°sicas (tamanho, palavras, letras, d√≠gitos) e flags de presen√ßa de termos-chave.  
> Tudo √© processado automaticamente com **configura√ß√£o leve e reprodut√≠vel**, integrando dados textuais ao pipeline de forma organizada e escal√°vel.


In [11]:
TEXT_CFG = {
    "lower": True,
    "strip_collapse_ws": True,
    "keywords": ["error", "cancel", "premium"],
    "blacklist": ["customerID"],
    "export_summary": True,
}

if config.get("text_features", True):
    df, text_summary = extract_text_features(
        df,
        lower=TEXT_CFG["lower"],
        strip_collapse_ws=TEXT_CFG["strip_collapse_ws"],
        keywords=TEXT_CFG["keywords"],
        blacklist=TEXT_CFG["blacklist"],
        export_summary=TEXT_CFG["export_summary"],
        summary_dir=REPORTS_DIR / "text_features"
    )
    display(text_summary.head())


2025-10-30 08:36:56,991 | INFO | [text] colunas processadas: ['gender', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'Churn']
2025-10-30 08:36:56,992 | INFO | [text] features criadas: 112
2025-10-30 08:36:57,006 | INFO | [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\text_features\summary.csv
üìù Resumo das colunas textuais (amostra):


Unnamed: 0,text_col,keywords_cols
0,gender,"gender_has_error, gender_has_cancel, gender_ha..."
1,Partner,"Partner_has_error, Partner_has_cancel, Partner..."
2,Dependents,"Dependents_has_error, Dependents_has_cancel, D..."
3,PhoneService,"PhoneService_has_error, PhoneService_has_cance..."
4,MultipleLines,"MultipleLines_has_error, MultipleLines_has_can..."


# üî§ Codifica√ß√£o de Categ√≥ricas & üî¢ Escalonamento Num√©rico (opcionais)

Esta etapa transforma vari√°veis **categ√≥ricas** em representa√ß√µes num√©ricas e **padroniza a escala** das vari√°veis **num√©ricas** quando necess√°rio.  
√â √∫til para alimentar modelos de ML que **n√£o aceitam strings** (ex.: regress√µes, SVMs, redes neurais) e/ou **s√£o sens√≠veis √† escala** (KNN, SVM com kernel RBF, PCA, etc.).

---

### üß≠ Vis√£o Geral

- **Codifica√ß√£o (Encoding)**
  - **One-hot**: cria uma coluna por categoria (0/1). √â a op√ß√£o **mais segura** para baseline; evita ordenar categorias artificialmente.
  - **Ordinal**: mapeia categorias para n√∫meros inteiros. Mais **compacto**, mas induz **ordem artificial**; use com cuidado.

- **Escalonamento (Scaling)**
  - **Standard**: `z = (x - m√©dia) / desvio`; centra em 0 com vari√¢ncia ‚âà 1. Bom para dados **aprox. gaussianos**.
  - **MinMax**: escala para **[0, 1]**; √∫til quando limites m√≠nimos e m√°ximos s√£o relevantes (redes neurais, normaliza√ß√µes simples).

---

### ‚öôÔ∏è Configura√ß√£o usada no notebook

Estas configura√ß√µes s√£o lidas do `config/defaults.json` (com `local.json` sobrepondo, se existir) e s√£o repassadas como dicion√°rios para a fun√ß√£o `apply_encoding_and_scaling`:

```python
ENCODE_CFG = {
    "enabled":           config.get("encode_categoricals", True),
    "type":              config.get("encoding_type", "onehot"),  # "onehot" | "ordinal"
    "exclude_cols":      ["Churn", "customerID"],                # N√ÉO codificar alvo/ids
    "high_card_threshold": 50,                                    # ignora colunas com cardinalidade muito alta
}

SCALE_CFG = {
    "enabled":           config.get("scale_numeric", False),
    "method":            config.get("scaler", "standard"),       # "standard" | "minmax"
    "exclude_cols":      ["Churn"],                              # N√ÉO escalar alvo
    "only_continuous":   True,                                   # evita escalar dummies e inteiros-discretos
}

df, encoding_meta, scaling_meta = apply_encoding_and_scaling(
    df, encode_cfg=ENCODE_CFG, scale_cfg=SCALE_CFG
)
```

> üí° **Dica:** deixe `scale_numeric = false` no in√≠cio do projeto (explora√ß√£o/entendimento). Ative a escala somente quando partir para a **modelagem** e **valida√ß√£o**.

---

### üß© O que a fun√ß√£o faz (alto n√≠vel)

1. **Seleciona colunas categ√≥ricas** (`object`/`category`) **excluindo** as listadas em `exclude_cols` e as com **cardinalidade > high_card_threshold** (prote√ß√£o contra explos√£o de dummies).
2. **Codifica** conforme `type`:
   - `onehot` ‚Üí gera `get_dummies` com `dtype=float` e concatena ao DataFrame (removendo as originais).
   - `ordinal` ‚Üí aplica `OrdinalEncoder` do scikit-learn (com `unknown_value=-1`).
3. **Escala colunas num√©ricas** se `SCALE_CFG["enabled"]`:
   - seleciona **apenas** colunas num√©ricas **cont√≠nuas** quando `only_continuous=True` (float/large-range).
   - aplica `StandardScaler` **ou** `MinMaxScaler`.
4. Retorna:
   - `df` (atualizado),
   - `encoding_meta` (categorias vistas, tipo de codifica√ß√£o, colunas exclu√≠das, descartes por cardinalidade),
   - `scaling_meta` (tipo de escala, colunas escaladas, par√¢metros do scaler).

---

### üì¶ Sa√≠das e Metadados

- **`encoding_meta`** inclui:
  - `encoding`: `"onehot"` **ou** `"ordinal"`
  - `excluded`: lista de colunas ignoradas (ex.: `["Churn","customerID"]`)
  - `high_card_excluded`: colunas **n√£o encodadas** por alta cardinalidade
  - `categorical_columns`: colunas categ√≥ricas processadas
  - (para ordinal) `categories_`: categorias aprendidas por coluna

- **`scaling_meta`** inclui:
  - `scaler`: `"standard"` **ou** `"minmax"`
  - `scaled_columns`: lista das colunas escaladas
  - `means_`/`scales_` (para Standard) **ou** `min_`/`range_` (para MinMax) ‚Äî √∫teis para **reprodu√ß√£o** no deploy

Esses metadados s√£o importantes para **reaplicar** transforma√ß√µes de forma consistente em produ√ß√£o (ou na infer√™ncia).

---

### üß™ Exemplo de comportamento esperado

Suponha um dataset com colunas:
- `gender` (`Male`/`Female`), `InternetService` (3 categorias), `MonthlyCharges` (float), `tenure` (int), `Churn` (alvo).

Com `onehot` + `standard` e exclus√µes padr√£o, o resultado ser√°:
- Novas colunas como `gender_Female`, `gender_Male`, `InternetService_DSL`, etc.
- `MonthlyCharges` escalado (m√©dia‚âà0, desvio‚âà1), `tenure` **pode** ser ignorado se `only_continuous=True` e for considerado discreto.

---

### üöß Armadilhas comuns e prote√ß√µes do template

- **Explos√£o de dummies**: colunas com **muitas categorias** s√£o ignoradas (registro em `high_card_excluded`).
- **Vazar o alvo**: `exclude_cols` deve conter a **target** (ex.: `"Churn"`).
- **IDs**: evite codificar/escale IDs (`customerID`); eles n√£o carregam sem√¢ntica √∫til.
- **Mixed types**: colunas mal tipadas (n√∫mero como string) devem ser tratadas antes (use a c√©lula **Qualidade & Tipagem**).

---

### ‚úÖ Status de execu√ß√£o e logs

Ao executar, voc√™ ver√° mensagens no log do tipo:

```
[encode] type=onehot | cols=['gender', 'InternetService'] | high_card_excluded=[]
[scale] method=standard | scaled_cols=['MonthlyCharges']
```

Se o log mostrar `cols=[]`, significa que **n√£o h√° colunas categ√≥ricas** eleg√≠veis (ou foram exclu√≠das por configura√ß√£o/cardinalidade). Isso √© **normal** em alguns datasets.

---

### üß† Boas pr√°ticas

- Comecar com **one-hot** e **sem escala** para ter uma baseline interpret√°vel.
- Ativar **ordinal** apenas quando existir **ordem natural** nas categorias.
- Escalonar **depois** de separar **treino/valida√ß√£o** para evitar vazamento (no template, esta etapa √© opcional e controlada por flag).
- Guardar `encoding_meta` e `scaling_meta` se for levar o modelo para produ√ß√£o.

---

> üí° **Resumo:**  
> Esta c√©lula converte dados categ√≥ricos e num√©ricos em formatos ideais para modelagem, mantendo controle sobre exclus√µes, cardinalidade e escala ‚Äî garantindo robustez, consist√™ncia e clareza no tratamento dos dados.

In [24]:
import importlib, utils.utils_data as ud
importlib.reload(ud)  # garante a vers√£o mais recente

TEXT_CFG = {
    "lower": True,
    "strip_collapse_ws": True,
    "keywords": ["error", "cancel", "premium"],
    "blacklist": ["customerID"],
    "export_summary": True,
}

if config.get("text_features", True):
    df, text_summary = ud.extract_text_features(
        df,
        lower=TEXT_CFG["lower"],
        strip_collapse_ws=TEXT_CFG["strip_collapse_ws"],
        keywords=TEXT_CFG["keywords"],
        blacklist=TEXT_CFG["blacklist"],
        export_summary=TEXT_CFG["export_summary"],
        summary_dir=REPORTS_DIR / "text_features"
    )
    display(text_summary.head(10))


2025-10-30 06:05:32,736 | INFO | [text] colunas processadas: []
2025-10-30 06:05:32,737 | INFO | [text] features criadas: 0
2025-10-30 06:05:32,744 | INFO | [text] resumo salvo em: C:\Users\fabio\Projetos DEV\data projects\data-project-template\reports\text_features\summary.csv


In [25]:
#CRIA√á√ÉO DE COLUNA TARGET

In [26]:
# Cria o target a partir da config (ou defaults)
df, target_name, class_map, tgt_report = ud.ensure_target_from_config(df, config, verbose=True)

# Opcional: ver um mini-relat√≥rio
display(tgt_report)

# Garantir que o N2 enxergue o mapeamento, se voc√™ quiser usar class_map l√°:
globals()["class_map"] = class_map


2025-10-30 06:05:34,838 | INFO | [target] 'target' criado de 'Churn' ‚Üí pos=1869 neg=5174 nulls=0 total=7043
[target] Definido target_column='target' (fonte='Churn')


Unnamed: 0,source_col,target_col,dtype,positives,negatives,nulls,total
0,Churn,target,int,1869,5174,0,7043


## üíæ Exporta√ß√£o de Artefatos

Salve dados **intermedi√°rios** e **prontos** para uso em modelagem/visualiza√ß√£o.  
Tamb√©m salvamos um **manifest** com metadados das transforma√ß√µes.


In [27]:
# =============================================================================
# üì¶ Exporta√ß√£o de Artefatos (N1 ‚Üí N2)
# =============================================================================
from datetime import datetime
from pathlib import Path
import json
import numpy as np
import pandas as pd

# 1) Caminhos a partir da config (com defaults)
OUTPUT_PROCESSED = Path(config.get("data_processed_file", "data/processed/processed.parquet"))
OUTPUT_INTERIM   = Path(config.get("data_interim_file",   "data/interim/interim.parquet"))
META_FILE        = Path(config.get("meta_file",           "artifacts/metadata/dataset_meta.json"))

# 2) Garante diret√≥rios
OUTPUT_PROCESSED.parent.mkdir(parents=True, exist_ok=True)
OUTPUT_INTERIM.parent.mkdir(parents=True, exist_ok=True)
META_FILE.parent.mkdir(parents=True, exist_ok=True)
ARTIFACTS_DIR.mkdir(parents=True, exist_ok=True)  # deve existir na sua c√©lula anterior

# 3) Salva tabelas respeitando a extens√£o (.csv / .parquet / .xlsx)
def _save_df(df_, path_: Path):
    ext = path_.suffix.lower()
    if ext == ".parquet":
        df_.to_parquet(path_, index=False)
    elif ext == ".csv":
        df_.to_csv(path_, index=False, encoding="utf-8")
    elif ext == ".xlsx":
        df_.to_excel(path_, index=False)
    else:
        raise ValueError(f"Extens√£o n√£o suportada: {ext}")

if config.get("export_interim", True):
    _save_df(df, OUTPUT_INTERIM)

if config.get("export_processed", True):
    _save_df(df, OUTPUT_PROCESSED)

# 4) Monta METADADOS para o N2
#    - target: vem da config (ou voc√™ pode setar manualmente)
target_col = config.get("target_column", "target")

# Listas de colunas
all_cols = df.columns.tolist()
ignored_cols = config.get("ignored_columns", [])  # opcional na sua config
candidate_features = [c for c in all_cols if c not in ignored_cols and c != target_col]

numeric_cols = df[candidate_features].select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = [c for c in candidate_features if c not in numeric_cols]
boolean_cols = df[candidate_features].select_dtypes(include=["bool", "boolean"]).columns.tolist()

# (Se quiser registrar o mapeamento de classes do target, defina aqui; opcional)
class_map = None
# Exemplo (apenas se fizer sentido no seu dataset):
# classes = sorted(df[target_col].dropna().unique().tolist())
# class_map = {c: i for i, c in enumerate(classes)}
# df[target_col] = df[target_col].map(class_map)

meta = {
    "dataset_name": config.get("dataset_name", "Dataset"),
    "version": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
    "target": target_col,
    "class_map": class_map,
    "columns": {
        "numeric": numeric_cols,
        "categorical": categorical_cols,
        "boolean": boolean_cols,
        "ignored": ignored_cols,
        "all": all_cols
    }
}

# 5) Salva META
META_FILE.write_text(json.dumps(meta, indent=2, ensure_ascii=False), encoding="utf-8")

# 6) Manifest opcional (resumo da execu√ß√£o do N1)
manifest = {
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "random_seed": RANDOM_SEED,
    "config": config,
    "memory_mb": float(df.memory_usage(deep=True).sum() / (1024**2)),
    "outlier_flags": [c for c in df.columns if c.endswith("_is_outlier")],
    "imputed_flags": [c for c in df.columns if c.startswith("was_imputed_")],
    "shape": tuple(df.shape),
    "exported": {
        "interim": str(OUTPUT_INTERIM) if config.get("export_interim", True) else None,
        "processed": str(OUTPUT_PROCESSED) if config.get("export_processed", True) else None,
        "meta_file": str(META_FILE)
    }
}
(ARTIFACTS_DIR / "manifest.json").write_text(json.dumps(manifest, indent=2, ensure_ascii=False), encoding="utf-8")

print("Arquivos gerados:")
print(f"- INTERIM:   {OUTPUT_INTERIM if config.get('export_interim', True) else '(pulado)'}")
print(f"- PROCESSED: {OUTPUT_PROCESSED if config.get('export_processed', True) else '(pulado)'}")
print(f"- META:      {META_FILE}")


Arquivos gerados:
- INTERIM:   data\interim\interim.parquet
- PROCESSED: data\processed\processed.parquet
- META:      artifacts\metadata\dataset_meta.json


## ‚úÖ Checkpoint

- **Revisar** as colunas derivadas e decis√µes (imputa√ß√£o, outliers, codifica√ß√£o).  
- **Documentar** no README as escolhas de neg√≥cio e justificativas.  

## üìé Anota√ß√µes

Esta se√ß√£o pode ser usada como bloco livre para observa√ß√µes espec√≠ficas do projeto.
