# Prepara√ß√£o de Dados (N1)

## üóÇÔ∏è [ Projeto ]

**Nome do Projeto:** [nome do projeto]  
**Dataset:** [Nome do dataset ou fonte de dados]  
**Objetivo Geral:** [Breve Explica√ß√£o do prop√≥sito ‚Äî ex.: ‚ÄúAnalisar o comportamento de churn e identificar fatores de reten√ß√£o de clientes.‚Äù]  

---

## üìã Descri√ß√£o Geral do Tratamento

Nesta etapa ser√£o realizados os principais **processos de limpeza, transforma√ß√£o e padroniza√ß√£o dos dados**.  
O foco √© garantir que o dataset esteja **consistente, estruturado e pronto para an√°lises posteriores**.

**Tarefas previstas:**  
- Leitura e diagn√≥stico inicial do dataset.  
- Tratamento de valores nulos, duplicados e outliers.  
- Convers√£o de tipos e padroniza√ß√£o de nomes de colunas.  
- Codifica√ß√£o de vari√°veis categ√≥ricas e normaliza√ß√£o de num√©ricas (quando necess√°rio).  
- Gera√ß√£o de artefatos intermedi√°rios e relat√≥rio de qualidade dos dados.

## üîß Configura√ß√£o do Projeto

Esta etapa prepara todo o ambiente do notebook antes de iniciar o tratamento dos dados.  
Ela garante que o projeto possa ser executado em qualquer m√°quina ou reposit√≥rio com estrutura padronizada.  

### üìã O que √© feito aqui:

1. **Localiza√ß√£o autom√°tica da raiz do projeto**  
   - Busca o arquivo `config/defaults.json` subindo diret√≥rios at√© encontr√°-lo.  
   - Define a vari√°vel `PROJECT_ROOT`, usada como refer√™ncia para todos os caminhos seguintes.

2. **Valida√ß√£o e registro do pacote `utils/`**  
   - Verifica se existem os arquivos `utils/__init__.py` e `utils/utils_data.py`.  
   - Adiciona a raiz do projeto (`PROJECT_ROOT`) no `sys.path` para permitir importa√ß√µes de m√≥dulos internos.

3. **Importa√ß√£o das fun√ß√µes utilit√°rias**  
   - Carrega m√©todos de leitura, tratamento e salvamento de dados definidos no m√≥dulo `utils_data.py`.

4. **Carregamento de configura√ß√µes globais**  
   - L√™ os par√¢metros de `config/defaults.json` e, se existir, substitui valores pelo `config/local.json`.  
   - Esses par√¢metros controlam o comportamento de cada etapa (tratamento de nulos, outliers, encoding etc.).

5. **Defini√ß√£o de caminhos e diret√≥rios principais**  
   - Gera vari√°veis globais para todos os diret√≥rios padr√£o:  
     `data/raw`, `data/interim`, `data/processed`, `reports`, `artifacts`, `prints`, `dashboards`.  
   - Garante que todos existam, criando-os se necess√°rio.  
   - Define tamb√©m os arquivos principais de sa√≠da (`OUTPUT_INTERIM`, `OUTPUT_PROCESSED`).

6. **Configura√ß√£o de ambiente de execu√ß√£o**  
   - Define uma semente aleat√≥ria (`RANDOM_SEED`) para reprodutibilidade.  
   - Ajusta op√ß√µes de exibi√ß√£o do pandas (largura e n√∫mero m√°ximo de colunas).

7. **Inicializa√ß√£o do sistema de logs**  
   - Cria um log local em `reports/data_preparation.log`.  
   - Toda a√ß√£o relevante (carregamento, convers√£o, limpeza, exporta√ß√£o etc.) ser√° registrada nesse arquivo.

In [1]:
# -*- coding: utf-8 -*-
# Configura√ß√µes do projeto (sem fallbacks; falha expl√≠cita se faltar algo)

from pathlib import Path
import sys, json, logging
import numpy as np
import pandas as pd
from typing import Dict, Any, Optional
from dataclasses import dataclass


# =============================================================================
# 1) Util: buscar caminho "subindo" diret√≥rios
# =============================================================================
def find_upwards(relative_path: str, start: Optional[Path] = None) -> Optional[Path]:
    start = start or Path.cwd()
    rel_parts = Path(relative_path).parts
    for base in (start, *start.parents):
        candidate = base.joinpath(*rel_parts)
        if candidate.exists():
            return candidate
    return None

# =============================================================================
# 2) Descobrir raiz do projeto pela presen√ßa de config/defaults.json
# =============================================================================
_cfg_path = find_upwards("config/defaults.json")
if _cfg_path is None:
    raise FileNotFoundError(
        "config/defaults.json n√£o encontrado. Crie a pasta 'config' na raiz do projeto "
        "e adicione o arquivo 'defaults.json' com as configura√ß√µes."
    )
PROJECT_ROOT = _cfg_path.parent.parent.resolve()
print(f"[INFO] PROJECT_ROOT: {PROJECT_ROOT}")

# =============================================================================
# 3) Garantir sys.path e validar pacote utils/ 
# =============================================================================
UTILS_DIR = PROJECT_ROOT / "utils"
INIT_FILE = UTILS_DIR / "__init__.py"
UTILS_FILE = UTILS_DIR / "utils_data.py"

if not UTILS_DIR.exists():
    raise ModuleNotFoundError(f"Pasta n√£o encontrada: {UTILS_DIR} (crie 'utils' na raiz do projeto).")
if not INIT_FILE.exists():
    raise ModuleNotFoundError(f"Arquivo n√£o encontrado: {INIT_FILE} (crie um __init__.py vazio em 'utils').")
if not UTILS_FILE.exists():
    raise ModuleNotFoundError(f"Arquivo n√£o encontrado: {UTILS_FILE} (adicione 'utils_data.py' dentro de 'utils').")

if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))
print(f"[INFO] sys.path ok. utils: {UTILS_DIR}")

# =============================================================================
# 4) Import das utilidades 
# =============================================================================
from utils.utils_data import (
    load_table_simple, infer_format_from_suffix, merge_chain,
    load_csv, save_parquet, basic_overview, reduce_memory_usage,
    infer_numeric_like, strip_whitespace, missing_report, simple_impute,
    detect_outliers_iqr, detect_outliers_zscore, deduplicate_rows,
    encode_categories, scale_numeric, save_table, simple_impute_with_flags,
    parse_dates_with_report, expand_date_features, build_calendar_from,
    encode_categories_safe, scale_numeric_safe, apply_encoding_and_scaling
)

# =============================================================================
# 5) Carregar configura√ß√µes (defaults.json obrigat√≥rio; local.json opcional)
# =============================================================================
def load_config(base_abs: Path, local_abs: Optional[Path] = None) -> Dict[str, Any]:
    if not base_abs.exists():
        raise FileNotFoundError(f"Arquivo obrigat√≥rio n√£o encontrado: {base_abs}")
    cfg = json.loads(base_abs.read_text(encoding="utf-8"))
    print(f"[INFO] Config carregada de: {base_abs}")
    if local_abs and local_abs.exists():
        local_cfg = json.loads(local_abs.read_text(encoding="utf-8"))
        cfg.update(local_cfg)
        print(f"[INFO] Overrides locais: {local_abs}")
    return cfg

CONFIG_DIR = PROJECT_ROOT / "config"
DEFAULTS_JSON = CONFIG_DIR / "defaults.json"
LOCAL_JSON = CONFIG_DIR / "local.json"
config: Dict[str, Any] = load_config(DEFAULTS_JSON, LOCAL_JSON)

# =============================================================================
# 6) Paths do projeto
# =============================================================================
DATA_DIR = PROJECT_ROOT / "data"
RAW_DIR = DATA_DIR / "raw"
INTERIM_DIR = DATA_DIR / "interim"
PROCESSED_DIR = DATA_DIR / "processed"
REPORTS_DIR = PROJECT_ROOT / "reports"
ARTIFACTS_DIR = PROJECT_ROOT / "artifacts"
PRINTS_DIR = PROJECT_ROOT / "prints"
DASHBOARDS_DIR = PROJECT_ROOT / "dashboards"
OUTPUT_INTERIM = INTERIM_DIR / "dataset_interim.csv"
OUTPUT_PROCESSED = PROCESSED_DIR / "dataset_processed.csv"

#OUTPUT_INTERIM_MAIN = INTERIM_DIR / "dataset_interim.csv"       # consolidado principal
#OUTPUT_INTERIM_CUSTOMERS = INTERIM_DIR / "customers_interim.csv" # tabela auxiliar
#OUTPUT_INTERIM_REGION = INTERIM_DIR / "region_interim.csv"       # outra fonte
#OUTPUT_PROCESSED = PROCESSED_DIR / "dataset_processed.csv"

for d in [RAW_DIR, INTERIM_DIR, PROCESSED_DIR, REPORTS_DIR, ARTIFACTS_DIR, PRINTS_DIR, DASHBOARDS_DIR]:
    d.mkdir(parents=True, exist_ok=True)

# =============================================================================
# 7) Seed & display
# =============================================================================
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
pd.set_option('display.max_columns', 200)
pd.set_option('display.width', 120)

# =============================================================================
# 8) Logging (console + arquivo)
# =============================================================================
LOG_FILE = REPORTS_DIR / 'data_preparation.log'
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s | %(levelname)s | %(message)s',
    handlers=[logging.StreamHandler(sys.stdout), logging.FileHandler(LOG_FILE, encoding='utf-8')]
)
logger = logging.getLogger(__name__)
logger.info('Project configuration loaded.')
logger.info(
    "Flags: missing=%s, outliers=%s(%s), encode=%s(%s), scale=%s(%s)",
    config.get("handle_missing"), config.get("detect_outliers"), config.get("outlier_method"),
    config.get("encode_categoricals"), config.get("encoding_type"),
    config.get("scale_numeric"), config.get("scaler")
)


[INFO] PROJECT_ROOT: C:\Users\fabio\Projetos DEV\data projects\data-project-template
[INFO] sys.path ok. utils: C:\Users\fabio\Projetos DEV\data projects\data-project-template\utils
[INFO] Config carregada de: C:\Users\fabio\Projetos DEV\data projects\data-project-template\config\defaults.json
[INFO] Overrides locais: C:\Users\fabio\Projetos DEV\data projects\data-project-template\config\local.json
2025-10-28 08:45:38,762 | INFO | Project configuration loaded.
2025-10-28 08:45:38,762 | INFO | Flags: missing=True, outliers=True(iqr), encode=True(onehot), scale=True(minmax)


## üîß Configura√ß√£o de Fontes

Nesta etapa s√£o definidos os **arquivos de origem** que servir√£o de base para o projeto.  
Aqui √© onde voc√™ informa **quais datasets ser√£o carregados**, **em qual formato** est√£o (CSV ou Parquet) e, se houver mais de uma fonte, **como elas se relacionam**.

### üìã O que √© feito aqui:

1. **Defini√ß√£o das fontes de dados (`SOURCES`)**  
   - Cada entrada do dicion√°rio representa uma tabela nomeada.  
   - A chave (ex.: `"main"`, `"dim_customers"`) ser√° o identificador da tabela no projeto.  
   - Cada item cont√©m:
     - `path`: caminho do arquivo no diret√≥rio `data/raw/`.  
     - `format`: formato opcional (`"csv"` ou `"parquet"`). Se omitido, o c√≥digo identifica automaticamente pelo sufixo.  
     - `read_opts`: par√¢metros de leitura (como `encoding`, `sep`, `low_memory` etc.).

   Exemplo de estrutura:
   ```python
   SOURCES = {
       "main": {
           "path": RAW_DIR / "dataset.csv",
           "read_opts": {"encoding": "utf-8", "sep": ","}
       },
       "dim_customers": {
           "path": RAW_DIR / "customers.parquet",
           "format": "parquet"
       }
   }


In [2]:
from utils.utils_data import list_directory_files

display(list_directory_files(RAW_DIR))

Unnamed: 0,Arquivo,Extens√£o,Tamanho (KB),Modificado em
0,.gitkeep,,0.0,2025-10-28 11:38:58
1,README.md,.md,0.2,2025-10-28 11:38:58
2,dataset.csv,.csv,954.6,2019-09-27 19:30:08


In [3]:
# Obs: s√≥ alterar este bloco quando precisar mudar os arquivos ou as chaves de jun√ß√£o.

SOURCES = {
    # nome_da_tabela: {path, (opcional) format: 'csv'|'parquet', (opcional) read_opts}
    "main": {
        "path": RAW_DIR / "dataset.csv",
        # "format": "csv",  # se omitir, detecta pelo sufixo
        "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    },
    # Exemplo de segunda fonte em CSV:
    # "dim_customers": {
    #   "path": RAW_DIR / "exemplo.csv",
    #   "format": "csv",  # se omitir, detecta pelo sufixo
    #   "read_opts": {"encoding": "utf-8", "sep": ",", "low_memory": False}
    # }
    
    # Exemplo de fonte em Parquet:
    # "dim_customers": {
    #     "path": RAW_DIR / "customers.parquet",
    #     "format": "parquet"
    # }
}

# Plano de merges (opcional):
# Cada item √© um passo: (right_name, how, left_on, right_on)
# O DataFrame base ser√° o SOURCES[MAIN_SOURCE]
MAIN_SOURCE = "main"
MERGE_STEPS = [
    # ("dim_customers", "left", "customer_id", "id"),
]


## üì• Ingest√£o & Vis√£o R√°pida

Nesta etapa ocorre o **carregamento efetivo dos datasets** definidos na configura√ß√£o de fontes e a gera√ß√£o de uma **vis√£o inicial dos dados**.  
O objetivo √© confirmar se os arquivos foram lidos corretamente, identificar poss√≠veis problemas e compreender a estrutura de cada tabela antes das transforma√ß√µes.

### üìã O que √© feito aqui

1. **Leitura das fontes (`SOURCES`)**
   - Cada fonte declarada na etapa anterior √© carregada automaticamente.
   - O m√©todo `load_table_simple()` (presente em `utils/utils_data.py`) realiza a leitura:
     - Detecta o formato (`.csv` ou `.parquet`) com base na extens√£o, caso n√£o seja informado.
     - Aplica par√¢metros de leitura personalizados (`read_opts`) quando dispon√≠veis.
   - Cada tabela √© armazenada no dicion√°rio `tables`, permitindo f√°cil acesso posterior.

2. **Gera√ß√£o de vis√£o r√°pida por tabela**
   - Para cada dataset carregado s√£o exibidos:
     - **Resumo geral** com n√∫mero de linhas, colunas, tipos de dados e uso de mem√≥ria (`basic_overview()`).
     - **Relat√≥rio de valores faltantes** ordenado pelas colunas mais afetadas (`missing_report()`).
   - Essa visualiza√ß√£o inicial ajuda a detectar inconsist√™ncias, campos nulos ou formatos inesperados.

3. **Defini√ß√£o do DataFrame base (`df`)**
   - Seleciona a tabela principal definida em `MAIN_SOURCE`.
   - Caso existam etapas de jun√ß√£o configuradas (`MERGE_STEPS`), o c√≥digo aplica os merges automaticamente via `merge_chain()`.
   - Se n√£o houver jun√ß√µes, o DataFrame principal (`df`) segue inalterado para as pr√≥ximas fases.

4. **Vis√£o geral consolidada**
   - Ap√≥s o merge (ou uso direto do dataset base), √© exibido um novo resumo (`basic_overview`) e o relat√≥rio de faltantes atualizado.
   - Essas informa√ß√µes s√£o registradas tamb√©m no log do projeto, garantindo rastreabilidade.

> üí° **Resumo:**  
> Esta c√©lula realiza a **primeira an√°lise estrutural dos dados**, validando se as fontes foram carregadas corretamente e consolidando o **DataFrame principal (`df`)** que ser√° utilizado nas pr√≥ximas etapas do pipeline (como limpeza, tipagem e tratamento de valores ausentes).


In [4]:
# 1) Carregar todas as fontes
tables = {}
for name, cfg in SOURCES.items():
    path = cfg["path"]
    fmt = cfg.get("format")              # se None, detecta pelo sufixo
    read_opts = cfg.get("read_opts", {}) # ex.: sep/encoding/low_memory para CSV
    df_src = load_table_simple(path, fmt, read_opts)  # utils.utils_data
    tables[name] = df_src

    # vis√£o r√°pida por fonte
    print(f"\n=== {name} ===")
    ov = basic_overview(df_src)
    print(json.dumps(ov, indent=2, ensure_ascii=False))
    display(missing_report(df_src).head(20))

# 2) Definir df base e aplicar merges (se configurado)
if MAIN_SOURCE not in tables:
    raise KeyError(f"MAIN_SOURCE '{MAIN_SOURCE}' n√£o encontrado. Fontes dispon√≠veis: {list(tables.keys())}")

df = tables[MAIN_SOURCE]
if MERGE_STEPS:
    df = merge_chain(df, tables, MERGE_STEPS)  # utils.utils_data
    print("\n=== Vis√£o geral (df merged) ===")
else:
    print(f"\n[INFO] Usando df base: '{MAIN_SOURCE}' (sem merges).")

# 3) Overview final do df que segue no pipeline
overview = basic_overview(df)
logger.info(json.dumps(overview, indent=2, ensure_ascii=False))
print(json.dumps(overview, indent=2, ensure_ascii=False))
display(missing_report(df).head(20))


2025-10-28 08:45:46,257 | INFO | Loading table: path=C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\raw\dataset.csv | format=csv | opts={'encoding': 'utf-8', 'sep': ',', 'low_memory': False}
2025-10-28 08:45:46,258 | INFO | Loading CSV: C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\raw\dataset.csv

=== main ===
{
  "shape": [
    7043,
    21
  ],
  "columns": [
    "customerID",
    "gender",
    "SeniorCitizen",
    "Partner",
    "Dependents",
    "tenure",
    "PhoneService",
    "MultipleLines",
    "InternetService",
    "OnlineSecurity",
    "OnlineBackup",
    "DeviceProtection",
    "TechSupport",
    "StreamingTV",
    "StreamingMovies",
    "Contract",
    "PaperlessBilling",
    "PaymentMethod",
    "MonthlyCharges",
    "TotalCharges",
    "Churn"
  ],
  "dtypes": {
    "customerID": "object",
    "gender": "object",
    "SeniorCitizen": "int64",
    "Partner": "object",
    "Dependents": "object",
    "tenure": "int64",
    "Ph

Unnamed: 0,missing_rate,missing_count
customerID,0.0,0
DeviceProtection,0.0,0
TotalCharges,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0
TechSupport,0.0,0



[INFO] Usando df base: 'main' (sem merges).
2025-10-28 08:45:46,343 | INFO | {
  "shape": [
    7043,
    21
  ],
  "columns": [
    "customerID",
    "gender",
    "SeniorCitizen",
    "Partner",
    "Dependents",
    "tenure",
    "PhoneService",
    "MultipleLines",
    "InternetService",
    "OnlineSecurity",
    "OnlineBackup",
    "DeviceProtection",
    "TechSupport",
    "StreamingTV",
    "StreamingMovies",
    "Contract",
    "PaperlessBilling",
    "PaymentMethod",
    "MonthlyCharges",
    "TotalCharges",
    "Churn"
  ],
  "dtypes": {
    "customerID": "object",
    "gender": "object",
    "SeniorCitizen": "int64",
    "Partner": "object",
    "Dependents": "object",
    "tenure": "int64",
    "PhoneService": "object",
    "MultipleLines": "object",
    "InternetService": "object",
    "OnlineSecurity": "object",
    "OnlineBackup": "object",
    "DeviceProtection": "object",
    "TechSupport": "object",
    "StreamingTV": "object",
    "StreamingMovies": "object",
    "C

Unnamed: 0,missing_rate,missing_count
customerID,0.0,0
DeviceProtection,0.0,0
TotalCharges,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0
TechSupport,0.0,0


## üîñ Cat√°logo de DataFrames + df ‚Äúativo‚Äù

Esta etapa cria um **cat√°logo centralizado de DataFrames** para gerenciar facilmente todas as tabelas carregadas e derivadas ao longo do projeto.  
O objetivo √© permitir que diferentes vers√µes e transforma√ß√µes dos dados sejam armazenadas, nomeadas e acessadas de forma organizada e reprodut√≠vel.

### üìã O que √© feito aqui

1. **Inicializa√ß√£o do cat√°logo (`TableStore`)**
   - A classe `TableStore` (definida em `utils/utils_data.py`) atua como um **reposit√≥rio de DataFrames nomeados**.  
   - Ela √© inicializada com o dicion√°rio `tables` (criado na etapa de ingest√£o) e define a tabela principal (`MAIN_SOURCE`) como **tabela ativa**.

2. **Defini√ß√£o do DataFrame ativo (`df`)**
   - A vari√°vel `df` recebe a tabela atual atrav√©s de `T.get()`.  
   - Esse `df` ser√° o **DataFrame padr√£o** para as pr√≥ximas etapas do pipeline (limpeza, tipagem e transforma√ß√£o).

3. **Gerenciamento de m√∫ltiplas tabelas**
   - Novos DataFrames podem ser adicionados ao cat√°logo a qualquer momento, com nomes descritivos e controle de vers√£o.
   - O cat√°logo tamb√©m permite alternar entre tabelas e listar todas as dispon√≠veis.

   **Principais comandos:**
   ```python
   T.add("churn_raw", df, set_current=True)           # adiciona e define como atual
   df = T.use("churn_raw")                            # alterna o df ativo
   T.add("features_v1", engenharia_de_atributos(df))  # armazena uma nova deriva√ß√£o
   df_features = T["features_v1"]                     # acesso direto por nome
   display(T.list())                                  # exibe o invent√°rio completo
   
4. **Benef√≠cio pr√°tico**
   - Mant√©m o notebook limpo e evita sobrescrever DataFrames importantes.
   - Facilita o reuso e o rastreamento das vers√µes intermedi√°rias dos dados.
   - Ideal para projetos com m√∫ltiplas fontes, transforma√ß√µes paralelas ou compara√ß√µes entre conjuntos tratados.

> üí° **Resumo:**  
> Este cat√°logo funciona como uma mem√≥ria estruturada de DataFrames, permitindo adicionar, alternar, versionar e consultar tabelas de forma controlada.
A vari√°vel (`df`) sempre representa a tabela ativa atual, garantindo consist√™ncia nas etapas subsequentes do pipeline.


In [5]:
from utils.utils_data import TableStore
# Inicializa cat√°logo com as fontes lidas ('tables') e define a base como atual
T = TableStore(initial=tables, current=MAIN_SOURCE)

# Conveni√™ncia: df = tabela atual (boa pr√°tica para seguir no pipeline)
df = T.get()

# Guia r√°pido (deixe como coment√°rio para consulta):
# T.add("churn_raw", df, set_current=True)          # cadastra e ativa
# df = T.use("churn_raw")                           # muda o atual e retorna df
# T.add("features_v1", engenharia_de_atributos(df)) # salva uma deriva√ß√£o
# df_features = T["features_v1"]                    # acesso direto por nome
# display(T.list())                                 # invent√°rio das tabelas


In [6]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## üß™ Qualidade & Tipagem

Nesta etapa ocorre a **padroniza√ß√£o estrutural e tipagem dos dados**, garantindo que o DataFrame principal (`df`) siga para as pr√≥ximas fases com formatos consistentes, tipos adequados e menor consumo de mem√≥ria.  
√â uma das etapas mais importantes do pipeline, pois corrige inconsist√™ncias comuns antes das an√°lises e modelagens.

### üìã O que √© feito aqui

1. **Remo√ß√£o de espa√ßos em branco (`strip_whitespace`)**
   - Elimina espa√ßos extras no in√≠cio e no fim de valores textuais.  
   - Evita diverg√™ncias em compara√ß√µes e agrupamentos (ex.: `"Yes "` ‚â† `"Yes"`).

2. **Convers√£o de n√∫meros em texto para valores num√©ricos (`infer_numeric_like`)**
   - Identifica colunas com valores aparentemente num√©ricos, mas armazenados como texto (ex.: `"1.234,56"` ou `"R$ 120,00"`).  
   - Converte automaticamente esses valores em n√∫meros reais (`float`), respeitando s√≠mbolos e separadores regionais.
   - O comportamento √© controlado pelos par√¢metros:
     - `min_ratio`: propor√ß√£o m√≠nima de valores convers√≠veis (padr√£o: 0.9).  
     - `create_new_col_when_partial`: cria uma nova coluna (`col_num`) se apenas parte dos valores for convers√≠vel.  
     - `blacklist`: impede que colunas espec√≠ficas (ex.: IDs) sejam convertidas.  
   - Gera um relat√≥rio (`cast_report`) exibindo:
     - Coluna analisada  
     - A√ß√£o executada (convertida, ignorada, parcial)  
     - Taxa de convers√£o e exemplos de valores n√£o convertidos.

3. **Otimiza√ß√£o de tipos num√©ricos (`reduce_memory_usage`)**
   - Reduz o uso de mem√≥ria ao substituir tipos num√©ricos gen√©ricos (`int64`, `float64`) por vers√µes mais leves (`int32`, `float32`, etc.).  
   - Essa otimiza√ß√£o √© transparente e n√£o altera os valores.  
   - Garante maior efici√™ncia e velocidade nas opera√ß√µes futuras.

4. **Exporta√ß√£o do dataset ‚Äúinterim‚Äù (`save_table`)**
   - Salva o DataFrame tratado no formato definido por `OUTPUT_INTERIM` (`.csv` ou `.parquet`).  
   - Esse arquivo representa a vers√£o intermedi√°ria, limpa e padronizada, que servir√° de entrada para as pr√≥ximas fases do projeto.

> üí° **Resumo:**  
> Esta c√©lula garante que os dados estejam **limpos, tipados e otimizados**.  
> Corrige formata√ß√µes, converte valores textuais em num√©ricos, reduz o consumo de mem√≥ria e salva uma c√≥pia organizada dos dados ‚Äî preparando o terreno para as pr√≥ximas etapas do pipeline.


In [7]:
# 1) Texto: espa√ßos em branco
if config.get("strip_whitespace", True):
    df = strip_whitespace(df)
    logger.info("[N1] strip_whitespace aplicado.")

# 2) N√∫meros em texto ‚Üí num√©rico 
if config.get("cast_numeric_like", True):
    df, cast_report = infer_numeric_like(
        df,
        columns=None,                  # listar colunas espec√≠ficas
        min_ratio=0.9,
        create_new_col_when_partial=True,
        blacklist=["customerID"]       # ids nunca devem virar n√∫mero
    )
    display(cast_report)
    logger.info("[N1] infer_numeric_like aplicado.")

# 3) Otimiza√ß√£o / downcast de tipos num√©ricos
if config.get("infer_types", True):
    df = reduce_memory_usage(df)
    logger.info("[N1] reduce_memory_usage aplicado.")

# 4) Exporta interim
if config.get("export_interim", True):
    save_table(df, OUTPUT_INTERIM)
    logger.info(f"[N1] Exportado interim: {OUTPUT_INTERIM}")

# 5) Duplicidades
if config.get("deduplicate", True):
    subset = config.get("deduplicate_subset") or None
    keep = config.get("deduplicate_keep", "first")
    log_path = None
    if config.get("deduplicate_log", True):
        fname = config.get("deduplicate_log_filename", "duplicates.csv")
        log_path = REPORTS_DIR / fname

    df, dups_df, dup_summary = deduplicate_rows(
        df,
        subset=subset,
        keep=keep,
        log_path=log_path,
        return_report=True
    )

    # feedback visual
    if not dups_df.empty:
        print("üîÅ Linhas duplicadas detectadas (amostra):")
        display(dups_df.head(10))
        print("üìä Resumo por chave:")
        display(dup_summary.head(20))
    else:
        print("‚úÖ Nenhuma duplicidade encontrada segundo os crit√©rios definidos.")


2025-10-28 08:45:49,828 | INFO | [N1] strip_whitespace aplicado.
2025-10-28 08:45:50,086 | INFO | [infer_numeric_like] summary:
          column             action  ratio  converted  non_convertible                                                    examples
    TotalCharges    apply_overwrite    1.0       7032                0                                                          []
           Churn skip_no_conversion    0.0          0             7043                                                   [No, Yes]
        Contract skip_no_conversion    0.0          0             7043                        [Month-to-month, One year, Two year]
      Dependents skip_no_conversion    0.0          0             7043                                                   [No, Yes]
DeviceProtection skip_no_conversion    0.0          0             7043                              [No, Yes, No internet service]
 InternetService skip_no_conversion    0.0          0             7043                

Unnamed: 0,column,action,ratio,converted,non_convertible,examples
0,TotalCharges,apply_overwrite,1.0,7032,0,[]
1,Churn,skip_no_conversion,0.0,0,7043,"[No, Yes]"
2,Contract,skip_no_conversion,0.0,0,7043,"[Month-to-month, One year, Two year]"
3,Dependents,skip_no_conversion,0.0,0,7043,"[No, Yes]"
4,DeviceProtection,skip_no_conversion,0.0,0,7043,"[No, Yes, No internet service]"
5,InternetService,skip_no_conversion,0.0,0,7043,"[DSL, Fiber optic, No]"
6,MultipleLines,skip_no_conversion,0.0,0,7043,"[No phone service, No, Yes]"
7,OnlineBackup,skip_no_conversion,0.0,0,7043,"[Yes, No, No internet service]"
8,OnlineSecurity,skip_no_conversion,0.0,0,7043,"[No, Yes, No internet service]"
9,PaperlessBilling,skip_no_conversion,0.0,0,7043,"[Yes, No]"


2025-10-28 08:45:50,108 | INFO | [N1] infer_numeric_like aplicado.
2025-10-28 08:45:50,138 | INFO | Memory reduced: 6.51MB -> 6.37MB
2025-10-28 08:45:50,138 | INFO | [N1] reduce_memory_usage aplicado.
2025-10-28 08:45:50,171 | INFO | Saved: C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\interim\dataset_interim.csv
2025-10-28 08:45:50,171 | INFO | [N1] Exportado interim: C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\interim\dataset_interim.csv
2025-10-28 08:45:50,189 | INFO | [deduplicate] Removed duplicates: 0 (subset=None, keep=first)
‚úÖ Nenhuma duplicidade encontrada segundo os crit√©rios definidos.


## üßº Padroniza√ß√£o Categ√≥rica

Esta etapa realiza uma **limpeza leve e expl√≠cita** nas colunas categ√≥ricas do dataset, garantindo que valores equivalentes sejam tratados de forma uniforme.  
√â uma forma simples de **padronizar r√≥tulos textuais** antes de etapas posteriores como imputa√ß√£o, codifica√ß√£o ou engenharia de atributos.

---

### üìã O que √© feito aqui
Unificar r√≥tulos redundantes ou inconsistentes que representam o mesmo conceito.

1. **Identifica√ß√£o de colunas categ√≥ricas** (`object` ou `category`);  
2. **Limpeza de forma** ‚Äì remo√ß√£o de espa√ßos extras e normaliza√ß√£o de espa√ßamento;  
3. **Substitui√ß√£o direta** com base no dicion√°rio `replacements`;  
4. **Registro em log** das colunas que foram alteradas.

Essa normaliza√ß√£o reduz o n√∫mero de categorias distintas, evitando ru√≠do e inconsist√™ncias em an√°lises e modelos.

---

### üß© Como personalizar
- O dicion√°rio `replacements` √© **manual e transparente**: edite conforme o contexto do projeto.  
  Exemplo:
  ```python
  replacements = {
        "No internet service": "No",
        "No phone service": "No",
        "n/a": "No",
        "none": "No",
    }

> üí° **Resumo:**  
> Esta c√©lula padroniza valores categ√≥ricos redundantes de forma **simples, expl√≠cita e controlada**, garantindo consist√™ncia nos dados **sem aumentar a complexidade do pipeline**.

In [8]:
if config.get("normalize_categories", True):
    replacements = {
        "No internet service": "No",
        "No phone service": "No",
        "n/a": "No",
        "none": "No",
    }

    cat_cols = df.select_dtypes(include=["object", "category"]).columns.tolist()
    changed = []

    for col in cat_cols:
        before = df[col].copy()
        # limpeza leve de forma
        s = df[col].astype("string").str.strip().str.replace(r"\s+", " ", regex=True)
        # normaliza√ß√£o expl√≠cita (mapa simples)
        s = s.replace(replacements)
        df[col] = s

        if not df[col].equals(before):
            changed.append(col)

    if changed:
        logger.info(f"[N1] Padroniza√ß√£o categ√≥rica aplicada em: {changed}")
    else:
        logger.info("[N1] Padroniza√ß√£o categ√≥rica: nenhuma altera√ß√£o necess√°ria.")


2025-10-28 08:45:51,125 | INFO | [N1] Padroniza√ß√£o categ√≥rica aplicada em: ['customerID', 'gender', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'Churn']


## ü©π Tratamento de Valores Faltantes

Nesta etapa s√£o tratadas as **aus√™ncias de dados** (valores nulos ou `NaN`) para garantir que o DataFrame siga consistente para as pr√≥ximas fases do pipeline.  
O objetivo √© **preencher ou sinalizar valores faltantes** de forma controlada, preservando a integridade estat√≠stica das colunas e registrando quais linhas foram modificadas.

### üìã O que √© feito aqui

1. **Gera√ß√£o de relat√≥rio inicial**
   - Exibe um diagn√≥stico das colunas com valores ausentes, mostrando a propor√ß√£o (`missing_rate`) e o total (`missing_count`) de registros nulos.
   - Essa visualiza√ß√£o ajuda a decidir se o tratamento ser√° simples ou se exigir√° t√©cnicas espec√≠ficas.

2. **Aplica√ß√£o da estrat√©gia de imputa√ß√£o**
   - O comportamento √© controlado pela chave `missing_strategy` do arquivo de configura√ß√£o:
     - `"simple"` ‚Üí aplica a fun√ß√£o `simple_impute_with_flags()`
     - `"advanced"` ‚Üí reservado para m√©todos personalizados (ex.: KNN, regress√£o, interpola√ß√£o)
   - A estrat√©gia **simples** executa:
     - Substitui√ß√£o de valores nulos **num√©ricos** pela **mediana** da coluna.  
     - Substitui√ß√£o de valores nulos **categ√≥ricos** pela **moda** (valor mais frequente).  
   - Durante a imputa√ß√£o, s√£o criadas **colunas de flag** no formato `was_imputed_<coluna>`, indicando quais linhas foram alteradas.

3. **Relat√≥rio final de verifica√ß√£o**
   - Ap√≥s o preenchimento, √© exibido novamente o relat√≥rio de faltantes para confirmar se todas as lacunas foram resolvidas.
   - Caso ainda existam colunas cr√≠ticas, o notebook pode ser ajustado para aplicar m√©todos mais avan√ßados.

### Exemplo de flag gerada:
| customerID | TotalCharges | was_imputed_TotalCharges |
|-------------|--------------|--------------------------|
| 7590-VHVEG  | 29.85        | False                   |
| 9237-HQITU  | 1840.75      | True                    |

Linhas com `True` indicam que o valor original estava ausente e foi imputado automaticamente.

> üí° **Resumo:**  
> Esta c√©lula identifica e corrige valores faltantes, aplicando regras de imputa√ß√£o simples e registrando onde cada substitui√ß√£o ocorreu.  
> Isso garante **transpar√™ncia, rastreabilidade e controle de qualidade**, permitindo filtrar posteriormente apenas os dados considerados consistentes.


In [9]:
if config.get("handle_missing", True):
    print("Relat√≥rio de faltantes (antes):")
    display(missing_report(df).head(20))

    if config.get("missing_strategy") == "simple":
        df = simple_impute_with_flags(df)
    else:
        # espa√ßo para t√©cnicas avan√ßadas
        pass

    print("Relat√≥rio de faltantes (depois):")
    display(missing_report(df).head(20))


Relat√≥rio de faltantes (antes):


Unnamed: 0,missing_rate,missing_count
TotalCharges,0.001562,11
customerID,0.0,0
DeviceProtection,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0
TechSupport,0.0,0


2025-10-28 08:45:52,048 | INFO | [impute] coluna 'TotalCharges' ‚Üí 11 valores preenchidos (mediana).
Relat√≥rio de faltantes (depois):


Unnamed: 0,missing_rate,missing_count
customerID,0.0,0
gender,0.0,0
Churn,0.0,0
TotalCharges,0.0,0
MonthlyCharges,0.0,0
PaymentMethod,0.0,0
PaperlessBilling,0.0,0
Contract,0.0,0
StreamingMovies,0.0,0
StreamingTV,0.0,0


## üö© Detec√ß√£o de Outliers

Esta etapa identifica **valores at√≠picos** nas colunas num√©ricas, adicionando colunas de flag (`*_is_outlier`) que indicam quais registros se desviam do padr√£o estat√≠stico esperado.  
Essas colunas servem para **inspe√ß√£o e auditoria**, sem alterar ou remover dados ‚Äî a decis√£o de tratamento posterior (ajuste, exclus√£o ou manuten√ß√£o) √© **de neg√≥cio**.

### ‚öôÔ∏è Como funciona

1. **Verifica a configura√ß√£o**
   - A execu√ß√£o depende da flag `detect_outliers` no arquivo `config/defaults.json`.  
     Se estiver definida como `true`, a detec√ß√£o √© realizada.

2. **Seleciona o m√©todo estat√≠stico**
   - `"iqr"` ‚Üí usa o **Intervalo Interquartil (Interquartile Range)**:
     - Calcula Q1 (25¬∫ percentil) e Q3 (75¬∫ percentil)
     - Define limites:  
       Inferior = Q1 ‚àí 1.5 √ó IQR  
       Superior = Q3 + 1.5 √ó IQR
     - Valores fora desse intervalo s√£o marcados como outliers.
   - `"zscore"` ‚Üí usa o **desvio-padr√£o (Z-Score)**:
     - Calcula a m√©dia (Œº) e o desvio-padr√£o (œÉ)
     - Para cada valor, obt√©m `z = (x ‚àí Œº) / œÉ`
     - Valores com |z| > 3 s√£o considerados outliers.

3. **Cria√ß√£o de colunas de flag**
   - Para cada vari√°vel num√©rica analisada, √© criada uma nova coluna:
     ```
     <coluna>_is_outlier
     ```
   - O valor ser√°:
     - `True` ‚Üí registro identificado como outlier  
     - `False` ‚Üí registro dentro do intervalo esperado

4. **Registro no log**
   - Ao final, o sistema registra no log quantas colunas de flag foram criadas:
     ```
     Outlier flags created: 4
     ```
     Significa que 4 colunas num√©ricas foram analisadas e receberam suas respectivas flags.

### Exemplo de resultado

| tenure | MonthlyCharges | TotalCharges | tenure_is_outlier | MonthlyCharges_is_outlier | TotalCharges_is_outlier |
|--------|----------------|--------------|-------------------|----------------------------|--------------------------|
| 5      | 35.50          | 190.00       | False             | False                      | False                    |
| 72     | 120.00         | 9999.99      | False             | **True**                   | **True**                 |

> üí° **Resumo:**  
> Esta c√©lula adiciona colunas de marca√ß√£o para detectar valores at√≠picos de acordo com o m√©todo configurado.  
> Os dados originais s√£o preservados, permitindo que a an√°lise posterior defina se esses registros devem ser **mantidos, ajustados ou removidos**.


In [10]:
if config['detect_outliers']:
    if config['outlier_method'] == 'iqr':
        df = detect_outliers_iqr(df)
    elif config['outlier_method'] == 'zscore':
        df = detect_outliers_zscore(df)
    else:
        raise ValueError('Unknown outlier method.')

    outlier_cols = [c for c in df.columns if c.endswith('_is_outlier')]
    logger.info(f'Outlier flags created: {len(outlier_cols)}')

2025-10-28 08:45:52,974 | INFO | Outlier flags created: 4


In [11]:
display(df.filter(like="_is_outlier").sum())

SeniorCitizen_is_outlier     1142
tenure_is_outlier               0
MonthlyCharges_is_outlier       0
TotalCharges_is_outlier         0
dtype: Int64

## üß¨ Duplicidades

Remove **linhas duplicadas** do DataFrame para evitar contagens infladas, vieses e ru√≠do em m√©tricas.

### üìã O que acontece aqui
- Por padr√£o, a duplicidade √© verificada **linha a linha** (todas as colunas iguais).  
- A primeira ocorr√™ncia √© mantida e as demais s√£o removidas.

### üîß Op√ß√µes (se configuradas no `config`)
- `deduplicate_subset`: lista de colunas que definem a chave de deduplica√ß√£o  
  *Ex.:* `["customerID"]` mant√©m apenas um registro por cliente.
- `deduplicate_keep`: pol√≠tica de reten√ß√£o ‚Äî `"first"`, `"last"` ou `false` (remove todas as repeti√ß√µes).
- `deduplicate_log` + `deduplicate_log_filename`: salva um **CSV** com as duplicatas detectadas em `reports/`.

### Boas pr√°ticas:
- Uso do `subset` quando a duplicidade for **conceitual** (ex.: mesma pessoa/pedido), n√£o necessariamente toda a linha id√™ntica.
- Gerar e revisar o relat√≥rio de duplicatas antes de decidir pela remo√ß√£o definitiva.

> üí°**Resumo:** esta etapa garante um dataset **sem registros repetidos** segundo o crit√©rio definido, mantendo rastreabilidade quando o log estiver habilitado.

In [12]:
if config['deduplicate']:
    df = deduplicate_rows(df)

2025-10-28 08:45:54,374 | INFO | [deduplicate] Removed duplicates: 0 (subset=None, keep=first)


## üõ†Ô∏è Engenharia de Atributos

Cria√ß√£o de novas colunas que capturem **rela√ß√µes, propor√ß√µes, categorias ou padr√µes** relevantes ao neg√≥cio.  
Essa etapa √© inteiramente manual e depende do contexto do dataset.

### üí° Exemplos:
- **Raz√µes e propor√ß√µes:** `TotalCharges / tenure` ‚Üí gasto m√©dio mensal.  
- **Flags categ√≥ricas:** `Contract == 'Month-to-month'` ‚Üí 1 se contrato mensal.  
- **Contagens de servi√ßos:** soma de colunas bin√°rias (Yes/No).  

Essas novas features tornam as an√°lises mais ricas e **melhoram a performance de modelos preditivos**.


In [13]:
if config['feature_engineering']:
    # Exemplo gen√©rico (comente/remova conforme o caso):
    # if {'col_a','col_b'}.issubset(df.columns):
    #     df['a_per_b'] = df['col_a'] / df['col_b'].replace(0, np.nan)
    pass

# üìÖ Tratamento de Datas

Esta etapa detecta e converte colunas de datas de forma **autom√°tica e controlada**, criando **features temporais** √∫teis para an√°lises e modelos preditivos.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas de data

O sistema procura automaticamente colunas com nomes que contenham termos como  
`date`, `data`, `dt_`, `_dt`, ou `_date`.

Tamb√©m √© poss√≠vel **for√ßar colunas espec√≠ficas** definindo manualmente em:

```python
date_cfg["explicit_cols"] = ["StartDate", "EndDate"]
```

### üîπ Convers√£o para datetime com auditoria

Cada coluna candidata √© testada com diferentes formatos e tentativas de *parsing*.  
O relat√≥rio **`parse_report`** mostra:

| column      | parsed_ratio | converted |
|--------------|--------------|------------|
| order_date   | 1.00         | True       |
| start_date   | 0.35         | False      |

- **column:** nome da coluna testada  
- **parsed_ratio:** porcentagem de valores convertidos com sucesso  
- **converted:** indica se a coluna foi convertida (baseado no `min_ratio`)

---

### üîπ Cria√ß√£o autom√°tica de features temporais

Para cada coluna convertida em `datetime`, s√£o geradas vari√°veis derivadas como:

`*_year`, `*_month`, `*_day`, `*_dayofweek`, `*_quarter`, `*_week`,  
`*_is_month_start`, `*_is_month_end`

O prefixo das novas colunas √© o **nome original da coluna de data** .

---

### üß± Comportamento defensivo

Caso nenhuma coluna seja detectada, a c√©lula n√£o gera erro ‚Äî apenas loga:

`[dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.`


Assim, o pipeline segue normalmente.

---

### ‚öôÔ∏è Configura√ß√£o (`date_cfg`)

| Par√¢metro       | Descri√ß√£o                                                        | Exemplo               |
|-----------------|------------------------------------------------------------------|------------------------|
| `detect_regex`  | Padr√£o para localizar colunas com nomes de data                 | `"date"`              |
| `explicit_cols` | Lista manual de colunas a converter                             | `["StartDate"]`       |
| `dayfirst`      | Define se o formato √© D/M/Y                                     | `True` para üáßüá∑        |
| `utc`           | Define se a convers√£o deve ser em UTC                           | `False`               |
| `formats`       | Lista de formatos espec√≠ficos                                   | `["%d/%m/%Y"]`        |
| `min_ratio`     | Fra√ß√£o m√≠nima de parsing bem-sucedido para aceitar a convers√£o  | `0.8`                 |

---

> üí° **Resumo:**  
> Esta c√©lula realiza o reconhecimento autom√°tico de colunas de data,
converte-as para o formato datetime e gera vari√°veis derivadas como
ano, m√™s, dia e semana.
> Caso nenhuma coluna de data seja encontrada, o c√≥digo √© ignorado com seguran√ßa,
garantindo a continuidade do pipeline sem erros.
> Os par√¢metros em date_cfg permitem ajustar formato, localiza√ß√£o e toler√¢ncia
de parsing conforme a estrutura de cada dataset.

In [14]:
date_cfg = {
  "detect_regex": r"(date|data|dt_|_dt$|_date$)",
  "explicit_cols": [],   # ex.: ["StartDate","EndDate"]
  "dayfirst": False,     # True se datas forem D/M/Y
  "utc": False,
  "formats": [],         # ex.: ["%d/%m/%Y", "%Y-%m-%d"]
  "min_ratio": 0.80,
}


# Converter e auditar parsing
df, parse_report, parsed_cols = parse_dates_with_report(df, date_cfg)
display(parse_report)

if not parsed_cols:
    logger.info("[dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.")
else:
    created = expand_date_features(
        df, parsed_cols,
        features=["year","month","day","dayofweek","quarter","week","is_month_start","is_month_end"],
        prefix_mode="auto"
    )
    logger.info(f"[dates] features criadas: {len(created)}")

2025-10-28 08:45:56,115 | INFO | [dates] candidates=[]
2025-10-28 08:45:56,116 | INFO | [dates] parsed_ok=[]


Unnamed: 0,column,parsed_ratio,converted


2025-10-28 08:45:56,120 | INFO | [dates] Nenhuma coluna de data detectada/convertida. Pule a cria√ß√£o de features.


# üóìÔ∏è Cria√ß√£o da Tabela Calend√°rio (`dim_date`)

Esta etapa gera automaticamente uma **tabela calend√°rio completa** ‚Äî tamb√©m chamada de **dimens√£o de tempo** ‚Äî a partir de uma coluna de datas existente no dataset principal.  
A tabela √© √∫til para **an√°lises temporais, dashboards e modelos de previs√£o** que utilizam per√≠odos como refer√™ncia (ano, m√™s, trimestre, etc).

---

## üìã O que acontece aqui

### üîπ Sele√ß√£o da coluna de data

Voc√™ define manualmente qual coluna ser√° usada como base:

```python
CAL_DATE_COL = "order_date"  # nome da coluna datetime escolhida
CAL_FREQ = "D"               # frequ√™ncia: "D" (di√°rio), "W" (semanal), "M" (mensal)
```

A coluna deve estar no formato **datetime**.  
Se n√£o estiver, ser√° exibido um erro pedindo para executar antes a etapa de **Tratamento de Datas**.

---

### üîπ Gera√ß√£o da dimens√£o calend√°rio

A fun√ß√£o `build_calendar_from()` constr√≥i uma tabela com todas as datas entre o **m√≠nimo** e o **m√°ximo** encontrados em `CAL_DATE_COL`.

Para cada data, s√£o criadas colunas derivadas, como:

| Coluna          | Descri√ß√£o                                |
|------------------|-------------------------------------------|
| `date`           | Data base (chave principal)              |
| `year`           | Ano                                      |
| `month`          | M√™s num√©rico                             |
| `day`            | Dia do m√™s                               |
| `quarter`        | Trimestre (1‚Äì4)                          |
| `week`           | Semana do ano (ISO)                      |
| `dow`            | Dia da semana (0 = segunda, 6 = domingo) |
| `is_month_start` | Indica se a data √© o primeiro dia do m√™s |
| `is_month_end`   | Indica se a data √© o √∫ltimo dia do m√™s   |
| `month_name`     | Nome do m√™s                              |
| `day_name`       | Nome do dia da semana                    |

---

### üîπ Armazenamento e reuso

A tabela √© salva automaticamente no diret√≥rio de artefatos (`artifacts/`):

```python
CAL_OUT = ARTIFACTS_DIR / "dim_date.csv"
```

O formato √© determinado pela extens√£o (.csv ou .parquet).
Al√©m disso, a tabela pode ser registrada no cat√°logo de DataFrames (T) para uso posterior no pipeline:
```python
T.add("dim_date", dim_date)
```
> üí° **Resumo:**  
> Esta c√©lula cria uma dimens√£o de tempo completa baseada na coluna de data escolhida.
> Ela facilita compara√ß√µes e agrega√ß√µes por ano, m√™s, semana ou trimestre, al√©m de permitir jun√ß√µes temporais consistentes com outros datasets ou dashboards (ex.: Power BI).
> O processo √© autom√°tico, reproduz√≠vel e independente do dataset principal.

In [15]:
# Ajuste estes par√¢metros conforme o dataset:
CAL_DATE_COL = "order_date"           # escolha aqui a coluna de datas j√° convertida para datetime
CAL_FREQ     = "D"                    # "D" (di√°rio), "W" (semanal), "M" (mensal) etc.
CAL_OUT      = ARTIFACTS_DIR / "dim_date.csv"  # caminho de sa√≠da (csv/parquet conforme a extens√£o)

# --- valida√ß√µes suaves ---
if CAL_DATE_COL not in df.columns:
    msg = f"‚ö†Ô∏è Coluna '{CAL_DATE_COL}' n√£o encontrada no DataFrame. " \
          f"Ajuste CAL_DATE_COL para uma coluna v√°lida antes de gerar a tabela calend√°rio."
    print(msg)
    logger.warning(msg)
else:
    if not pd.api.types.is_datetime64_any_dtype(df[CAL_DATE_COL]):
        msg = f"‚ö†Ô∏è Coluna '{CAL_DATE_COL}' existe, mas **n√£o est√° em formato datetime**. " \
              "Execute a etapa de Tratamento de Datas antes, ou converta manualmente."
        print(msg)
        logger.warning(msg)
    else:
        # --- constru√ß√£o da dimens√£o calend√°rio ---
        dim_date = build_calendar_from(df, CAL_DATE_COL, freq=CAL_FREQ)

        # --- vis√£o r√°pida ---
        display(dim_date.head(12))
        start_date = dim_date["date"].min()
        end_date   = dim_date["date"].max()
        print(f"Per√≠odo: {start_date.date()} ‚Üí {end_date.date()}  | Linhas: {len(dim_date)}")

        # --- salvar em disco respeitando a extens√£o do caminho ---
        save_table(dim_date, CAL_OUT)
        logger.info(f"[calendar] Tabela calend√°rio salva em: {CAL_OUT}")

        # --- opcional: registrar no cat√°logo de tabelas ---
        try:
            T.add("dim_date", dim_date)
            logger.info("[calendar] 'dim_date' registrada no cat√°logo T.")
        except NameError:
            # Se TableStore (T) n√£o estiver sendo usado nesta sess√£o, ignore.
            pass


‚ö†Ô∏è Coluna 'order_date' n√£o encontrada no DataFrame. Ajuste CAL_DATE_COL para uma coluna v√°lida antes de gerar a tabela calend√°rio.


# üìù Tratamento de Texto (opcional)

Esta etapa extrai **m√©tricas num√©ricas e l√≥gicas a partir de colunas textuais**, transformando texto livre em informa√ß√µes quantitativas √∫teis para **an√°lise explorat√≥ria e modelagem**.  

√â uma forma leve e controlada de **estruturar dados n√£o num√©ricos**, sem recorrer a t√©cnicas avan√ßadas de NLP.

---

## üìã O que acontece aqui

### üîπ Identifica√ß√£o de colunas textuais

O sistema busca automaticamente colunas com tipo `object` e ignora aquelas listadas na *blacklist*:

```python
text_cols = [c for c in df.columns if df[c].dtype == 'object' and c not in TEXT_CFG["blacklist"]]
```

Essas colunas normalmente cont√™m informa√ß√µes como:  
descri√ß√µes, coment√°rios, nomes, categorias textuais ou observa√ß√µes.

---

### üîπ Limpeza e padroniza√ß√£o

Antes de gerar as m√©tricas, os textos passam por uma limpeza leve:
- Remo√ß√£o de **espa√ßos duplicados** e **trim** nas extremidades.  
- Convers√£o para **min√∫sculas**, garantindo consist√™ncia em an√°lises de termos.

Essas a√ß√µes s√£o controladas pelas chaves:
```python
"lower": True,
"strip_collapse_ws": True
```

---

### üîπ Cria√ß√£o autom√°tica de m√©tricas textuais

Para cada coluna textual, s√£o geradas novas colunas num√©ricas:

| Nova Coluna           | Descri√ß√£o | Exemplo ("This is great!") |
|------------------------|------------|-----------------------------|
| `<coluna>_len`         | N√∫mero total de caracteres no texto | 15 |
| `<coluna>_word_count`  | N√∫mero de palavras separadas por espa√ßos | 3 |
| `<coluna>_alpha_count` | N√∫mero de letras (A‚ÄìZ, a‚Äìz) | 13 |
| `<coluna>_digit_count` | N√∫mero de d√≠gitos num√©ricos | 0 |

---

### üîπ Presen√ßa de termos-chave

O sistema tamb√©m cria colunas booleanas (`True` / `False`) para identificar a **ocorr√™ncia de palavras espec√≠ficas** em cada coluna textual.  

Exemplo:
```python
TEXT_CFG["keywords"] = ["error", "cancel", "premium"]
```

Gera colunas como:
- `<coluna>_has_error`  
- `<coluna>_has_cancel`  
- `<coluna>_has_premium`

Essas vari√°veis s√£o √∫teis para an√°lises de sentimento ou padr√µes de ocorr√™ncia em feedbacks de clientes.

---

### üîπ Exporta√ß√£o de resumo

Ao final, √© gerado um **resumo CSV** com as colunas de texto processadas e suas features derivadas.  
O arquivo √© salvo em:
```
reports/text_features/summary.csv
```

Esse relat√≥rio documenta as transforma√ß√µes aplicadas, garantindo **rastreabilidade e transpar√™ncia**.

---

### ‚öôÔ∏è Configura√ß√£o (`TEXT_CFG`)

| Par√¢metro              | Descri√ß√£o                                                       | Exemplo                              |
|------------------------|------------------------------------------------------------------|--------------------------------------|
| `lower`                | Converte o texto para min√∫sculas                                | `True`                               |
| `strip_collapse_ws`    | Remove espa√ßos duplicados e limpa extremidades                  | `True`                               |
| `keywords`             | Lista de termos a detectar no texto                             | `["error", "cancel", "premium"]`     |
| `blacklist`            | Colunas a ignorar durante o processamento                       | `["customerID"]`                     |
| `export_summary`       | Salva relat√≥rio com resumo das features geradas                 | `True`                               |

---

### Boas pr√°ticas

- Aplicar esta etapa apenas em colunas realmente textuais ‚Äî evite IDs ou c√≥digos.  
- Personalizar a lista de **palavras-chave** conforme o contexto do dataset.  
- Caso o dataset n√£o possua colunas de texto, o processo ser√° ignorado com seguran√ßa.  
- Utilize o arquivo de resumo (`summary.csv`) para acompanhar colunas derivadas e auditorias.

---

> üí° **Resumo:**  
> Esta c√©lula transforma campos de texto em **indicadores num√©ricos e l√≥gicos**, gerando m√©tricas b√°sicas (tamanho, palavras, letras, d√≠gitos) e flags de presen√ßa de termos-chave.  
> Tudo √© processado automaticamente com **configura√ß√£o leve e reprodut√≠vel**, integrando dados textuais ao pipeline de forma organizada e escal√°vel.


In [16]:
TEXT_CFG = {
    "lower": True,
    "strip_collapse_ws": True,
    "keywords": ["error", "cancel", "premium"],
    "blacklist": ["customerID"],
    "export_summary": True,
}

if config.get("text_features", True):
    df, text_summary = extract_text_features(
        df,
        lower=TEXT_CFG["lower"],
        strip_collapse_ws=TEXT_CFG["strip_collapse_ws"],
        keywords=TEXT_CFG["keywords"],
        blacklist=TEXT_CFG["blacklist"],
        export_summary=TEXT_CFG["export_summary"],
        summary_dir=REPORTS_DIR / "text_features"
    )
    display(text_summary.head())


NameError: name 'extract_text_features' is not defined

# üî§ Codifica√ß√£o de Categ√≥ricas & üî¢ Escalonamento Num√©rico (opcionais)

Esta etapa transforma vari√°veis **categ√≥ricas** em representa√ß√µes num√©ricas e **padroniza a escala** das vari√°veis **num√©ricas** quando necess√°rio.  
√â √∫til para alimentar modelos de ML que **n√£o aceitam strings** (ex.: regress√µes, SVMs, redes neurais) e/ou **s√£o sens√≠veis √† escala** (KNN, SVM com kernel RBF, PCA, etc.).

---

### üß≠ Vis√£o Geral

- **Codifica√ß√£o (Encoding)**
  - **One-hot**: cria uma coluna por categoria (0/1). √â a op√ß√£o **mais segura** para baseline; evita ordenar categorias artificialmente.
  - **Ordinal**: mapeia categorias para n√∫meros inteiros. Mais **compacto**, mas induz **ordem artificial**; use com cuidado.

- **Escalonamento (Scaling)**
  - **Standard**: `z = (x - m√©dia) / desvio`; centra em 0 com vari√¢ncia ‚âà 1. Bom para dados **aprox. gaussianos**.
  - **MinMax**: escala para **[0, 1]**; √∫til quando limites m√≠nimos e m√°ximos s√£o relevantes (redes neurais, normaliza√ß√µes simples).

---

### ‚öôÔ∏è Configura√ß√£o usada no notebook

Estas configura√ß√µes s√£o lidas do `config/defaults.json` (com `local.json` sobrepondo, se existir) e s√£o repassadas como dicion√°rios para a fun√ß√£o `apply_encoding_and_scaling`:

```python
ENCODE_CFG = {
    "enabled":           config.get("encode_categoricals", True),
    "type":              config.get("encoding_type", "onehot"),  # "onehot" | "ordinal"
    "exclude_cols":      ["Churn", "customerID"],                # N√ÉO codificar alvo/ids
    "high_card_threshold": 50,                                    # ignora colunas com cardinalidade muito alta
}

SCALE_CFG = {
    "enabled":           config.get("scale_numeric", False),
    "method":            config.get("scaler", "standard"),       # "standard" | "minmax"
    "exclude_cols":      ["Churn"],                              # N√ÉO escalar alvo
    "only_continuous":   True,                                   # evita escalar dummies e inteiros-discretos
}

df, encoding_meta, scaling_meta = apply_encoding_and_scaling(
    df, encode_cfg=ENCODE_CFG, scale_cfg=SCALE_CFG
)
```

> üí° **Dica:** deixe `scale_numeric = false` no in√≠cio do projeto (explora√ß√£o/entendimento). Ative a escala somente quando partir para a **modelagem** e **valida√ß√£o**.

---

### üß© O que a fun√ß√£o faz (alto n√≠vel)

1. **Seleciona colunas categ√≥ricas** (`object`/`category`) **excluindo** as listadas em `exclude_cols` e as com **cardinalidade > high_card_threshold** (prote√ß√£o contra explos√£o de dummies).
2. **Codifica** conforme `type`:
   - `onehot` ‚Üí gera `get_dummies` com `dtype=float` e concatena ao DataFrame (removendo as originais).
   - `ordinal` ‚Üí aplica `OrdinalEncoder` do scikit-learn (com `unknown_value=-1`).
3. **Escala colunas num√©ricas** se `SCALE_CFG["enabled"]`:
   - seleciona **apenas** colunas num√©ricas **cont√≠nuas** quando `only_continuous=True` (float/large-range).
   - aplica `StandardScaler` **ou** `MinMaxScaler`.
4. Retorna:
   - `df` (atualizado),
   - `encoding_meta` (categorias vistas, tipo de codifica√ß√£o, colunas exclu√≠das, descartes por cardinalidade),
   - `scaling_meta` (tipo de escala, colunas escaladas, par√¢metros do scaler).

---

### üì¶ Sa√≠das e Metadados

- **`encoding_meta`** inclui:
  - `encoding`: `"onehot"` **ou** `"ordinal"`
  - `excluded`: lista de colunas ignoradas (ex.: `["Churn","customerID"]`)
  - `high_card_excluded`: colunas **n√£o encodadas** por alta cardinalidade
  - `categorical_columns`: colunas categ√≥ricas processadas
  - (para ordinal) `categories_`: categorias aprendidas por coluna

- **`scaling_meta`** inclui:
  - `scaler`: `"standard"` **ou** `"minmax"`
  - `scaled_columns`: lista das colunas escaladas
  - `means_`/`scales_` (para Standard) **ou** `min_`/`range_` (para MinMax) ‚Äî √∫teis para **reprodu√ß√£o** no deploy

Esses metadados s√£o importantes para **reaplicar** transforma√ß√µes de forma consistente em produ√ß√£o (ou na infer√™ncia).

---

### üß™ Exemplo de comportamento esperado

Suponha um dataset com colunas:
- `gender` (`Male`/`Female`), `InternetService` (3 categorias), `MonthlyCharges` (float), `tenure` (int), `Churn` (alvo).

Com `onehot` + `standard` e exclus√µes padr√£o, o resultado ser√°:
- Novas colunas como `gender_Female`, `gender_Male`, `InternetService_DSL`, etc.
- `MonthlyCharges` escalado (m√©dia‚âà0, desvio‚âà1), `tenure` **pode** ser ignorado se `only_continuous=True` e for considerado discreto.

---

### üöß Armadilhas comuns e prote√ß√µes do template

- **Explos√£o de dummies**: colunas com **muitas categorias** s√£o ignoradas (registro em `high_card_excluded`).
- **Vazar o alvo**: `exclude_cols` deve conter a **target** (ex.: `"Churn"`).
- **IDs**: evite codificar/escale IDs (`customerID`); eles n√£o carregam sem√¢ntica √∫til.
- **Mixed types**: colunas mal tipadas (n√∫mero como string) devem ser tratadas antes (use a c√©lula **Qualidade & Tipagem**).

---

### ‚úÖ Status de execu√ß√£o e logs

Ao executar, voc√™ ver√° mensagens no log do tipo:

```
[encode] type=onehot | cols=['gender', 'InternetService'] | high_card_excluded=[]
[scale] method=standard | scaled_cols=['MonthlyCharges']
```

Se o log mostrar `cols=[]`, significa que **n√£o h√° colunas categ√≥ricas** eleg√≠veis (ou foram exclu√≠das por configura√ß√£o/cardinalidade). Isso √© **normal** em alguns datasets.

---

### üß† Boas pr√°ticas

- Comecar com **one-hot** e **sem escala** para ter uma baseline interpret√°vel.
- Ativar **ordinal** apenas quando existir **ordem natural** nas categorias.
- Escalonar **depois** de separar **treino/valida√ß√£o** para evitar vazamento (no template, esta etapa √© opcional e controlada por flag).
- Guardar `encoding_meta` e `scaling_meta` se for levar o modelo para produ√ß√£o.

---

> üí° **Resumo:**  
> Esta c√©lula converte dados categ√≥ricos e num√©ricos em formatos ideais para modelagem, mantendo controle sobre exclus√µes, cardinalidade e escala ‚Äî garantindo robustez, consist√™ncia e clareza no tratamento dos dados.

In [17]:
ENCODE_CFG = {
    "enabled":           config.get("encode_categoricals", True),
    "type":              config.get("encoding_type", "onehot"),  # "onehot" | "ordinal"
    "exclude_cols":      ["Churn", "customerID"],
    "high_card_threshold": 50,
}

SCALE_CFG = {
    "enabled":           config.get("scale_numeric", False),
    "method":            config.get("scaler", "standard"),       # "standard" | "minmax"
    "exclude_cols":      ["Churn"],
    "only_continuous":   True,
}

df, encoding_meta, scaling_meta = apply_encoding_and_scaling(
    df, encode_cfg=ENCODE_CFG, scale_cfg=SCALE_CFG
)

2025-10-28 08:46:00,524 | INFO | [encode] type=onehot | cols=[]
2025-10-28 08:46:00,576 | INFO | [scale] method=minmax | cols=['tenure', 'MonthlyCharges', 'TotalCharges']


## üíæ Exporta√ß√£o de Artefatos

Salve dados **intermedi√°rios** e **prontos** para uso em modelagem/visualiza√ß√£o.  
Tamb√©m salvamos um **manifest** com metadados das transforma√ß√µes.


In [18]:
# =============================================================================
# üì¶ Exporta√ß√£o de Artefatos
# =============================================================================
from datetime import datetime

# Garanta que encoding_meta / scaling_meta existam
encoding_meta = globals().get("encoding_meta", {})
scaling_meta  = globals().get("scaling_meta", {})

manifest: Dict[str, Any] = {
    "created_at": datetime.now().isoformat(timespec="seconds"),
    "random_seed": RANDOM_SEED,
    "config": config,
    "encoding_meta": encoding_meta,
    "scaling_meta": scaling_meta,
    "memory_mb": float(df.memory_usage(deep=True).sum() / (1024**2)),
    "outlier_flags": [c for c in df.columns if c.endswith("_is_outlier")],
    "imputed_flags": [c for c in df.columns if c.startswith("was_imputed_")],
    "shape": tuple(df.shape),
    "columns": df.columns.tolist(),
}

# Salvar tabelas respeitando a extens√£o (.csv ou .parquet)
if config.get("export_interim", True):
    save_table(df, OUTPUT_INTERIM)   # usa utils.save_table ‚Üí respeita a extens√£o do caminho

if config.get("export_processed", True):
    save_table(df, OUTPUT_PROCESSED)

# Manifest (sempre em JSON)
(ARTIFACTS_DIR).mkdir(parents=True, exist_ok=True)
with open(ARTIFACTS_DIR / "manifest.json", "w", encoding="utf-8") as f:
    json.dump(manifest, f, indent=2, ensure_ascii=False)

print("Arquivos gerados:")
print(f"- {OUTPUT_INTERIM if config.get('export_interim', True) else '(pulado)'}")
print(f"- {OUTPUT_PROCESSED if config.get('export_processed', True) else '(pulado)'}")
print(f"- {ARTIFACTS_DIR / 'manifest.json'}")


2025-10-28 08:46:01,918 | INFO | Saved: C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\interim\dataset_interim.csv
2025-10-28 08:46:01,951 | INFO | Saved: C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\processed\dataset_processed.csv
Arquivos gerados:
- C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\interim\dataset_interim.csv
- C:\Users\fabio\Projetos DEV\data projects\data-project-template\data\processed\dataset_processed.csv
- C:\Users\fabio\Projetos DEV\data projects\data-project-template\artifacts\manifest.json


## ‚úÖ Checkpoint

- **Revisar** as colunas derivadas e decis√µes (imputa√ß√£o, outliers, codifica√ß√£o).  
- **Documentar** no README as escolhas de neg√≥cio e justificativas.  

## üìé Anota√ß√µes

Esta se√ß√£o pode ser usada como bloco livre para observa√ß√µes espec√≠ficas do projeto.
