## Fase 5 — EDA e Pré-processamento

Nesta fase iniciaremos o **Item 5 do Plano de Atividades**, responsável por abrir a etapa de **Análise Exploratória de Dados (EDA)** do conjunto real de dados versionado.  
O objetivo é garantir que os arquivos `train.csv` e `test.csv` estejam corretamente estruturados, analisar tipos de variáveis, valores ausentes, estatísticas básicas e possíveis inconsistências.  
Todo o trabalho será executado dentro do **DevContainer**, com **rastreabilidade total**, utilizando sempre caminhos relativos revisados fisicamente, em conformidade com o **PROTOCOLO V5.4**.


In [2]:
# ETAPA: CARREGAR E INSPECIONAR O DATASET REAL

import os
import pandas as pd

# Confirma diretório de trabalho do Kernel
print("CWD Kernel:", os.getcwd())

# Define caminho coerente para o dataset real
# Se o notebook estiver dentro de notebooks/, usar ../data/raw/
data_raw_dir = "../data/raw"

# Lista arquivos para validar nomes reais
print("Conteúdo de data/raw/:", os.listdir(data_raw_dir))

# Carrega arquivos reais versionados
df_train = pd.read_csv(os.path.join(data_raw_dir, "train.csv"))
df_test = pd.read_csv(os.path.join(data_raw_dir, "test.csv"))

# Verifica estrutura inicial
print("Formato treino:", df_train.shape)
print("Formato teste:", df_test.shape)

print("\nTipos de colunas treino:")
print(df_train.dtypes)

print("\nValores nulos treino:")
print(df_train.isnull().sum())

print("\nAmostra treino:")
print(df_train.head(20))


CWD Kernel: /workspace/notebooks
Conteúdo de data/raw/: ['test.csv', 'train.csv']


  df_train = pd.read_csv(os.path.join(data_raw_dir, "train.csv"))


Formato treino: (100000, 28)
Formato teste: (50000, 27)

Tipos de colunas treino:
ID                           object
Customer_ID                  object
Month                        object
Name                         object
Age                          object
SSN                          object
Occupation                   object
Annual_Income                object
Monthly_Inhand_Salary       float64
Num_Bank_Accounts             int64
Num_Credit_Card               int64
Interest_Rate                 int64
Num_of_Loan                  object
Type_of_Loan                 object
Delay_from_due_date           int64
Num_of_Delayed_Payment       object
Changed_Credit_Limit         object
Num_Credit_Inquiries        float64
Credit_Mix                   object
Outstanding_Debt             object
Credit_Utilization_Ratio    float64
Credit_History_Age           object
Payment_of_Min_Amount        object
Total_EMI_per_month         float64
Amount_invested_monthly      object
Payment_Behaviour 

## Análise da Célula de Carregamento e Inspeção Inicial

A leitura dos arquivos `train.csv` e `test.csv` confirma que o dataset real está estruturado e coerente com o versionamento em `data/raw/`.  
O `train.csv` possui **100.000 linhas × 28 colunas** e o `test.csv` **50.000 linhas × 27 colunas**. A listagem do diretório validou os nomes dos arquivos sem dependência de heurística, alinhado ao **PROTOCOLO V5.4**.

### Principais observações:

- **DtypeWarning:** A leitura acusou tipos mistos em algumas colunas (ex.: coluna 26), indicando registros com strings, símbolos ou formatos inconsistentes em campos que deveriam ser numéricos.
- **Tipos de colunas:** Diversas variáveis numéricas (`Age`, `Outstanding_Debt`, `Amount_invested_monthly` etc.) foram lidas como `object`. Isso confirma a necessidade de conversão explícita para tipos numéricos (`int64` ou `float64`) usando coerção.
- **Valores ausentes:** A contagem de `NaN` revelou lacunas relevantes em campos como `Name` (~10%), `Monthly_Inhand_Salary` (~15%), `Credit_History_Age` (~9%) e `Num_of_Delayed_Payment`. Será necessário definir políticas de imputação ou descarte.
- **Amostra de registros:** Identificou anomalias claras, como `Age` negativo ou inválido (`-500`, `28_`), ocupações `_______` e padrões de ruído como `!@9#%8` em `Payment_Behaviour`. Estes valores precisarão ser tratados na fase de limpeza.

Esta análise serve como base para planejar o pré-processamento, garantindo integridade e consistência antes de avançar para treinamento e rastreio de experimentos.


---

##  Políticas de Tratamento de Dados — Definição Oficial

Com base na análise exploratória inicial e nos requisitos do exercício, definimos as seguintes diretrizes de limpeza e padronização para o dataset `credit-score-classification`. Todas as etapas respeitam o **PROTOCOLO V5.4** e garantem rastreabilidade do pipeline.

### 🔹 Conversão de Tipos
- Todas as colunas identificadas como `object` mas que representam valores numéricos (ex.: `Age`, `Outstanding_Debt`, `Amount_invested_monthly`) serão convertidas para `float64` usando `pd.to_numeric(errors='coerce')`.  
- Valores que não puderem ser convertidos se tornarão `NaN` de forma rastreável.

### 🔹 Tratamento de Anomalias Numéricas
- Idades negativas ou entradas não numéricas (ex.: `-500`, `28_`) serão convertidas em `NaN` e imputadas com a mediana da coluna `Age`.
- Valores absurdos ou placeholders (ex.: `__10000__`) terão caracteres especiais removidos e serão convertidos para número se possível.

### 🔹 Valores Ausentes
- Variáveis numéricas contínuas com nulos (ex.: `Monthly_Inhand_Salary`, `Credit_History_Age`) serão imputadas com a mediana, pois são menos sensíveis a outliers.
- Variáveis categóricas com nulos (ex.: `Occupation`, `Payment_Behaviour`) receberão a categoria `Unknown` para manter integridade sem supor informação.

### 🔹 Outliers
- Para colunas financeiras como `Annual_Income` e `Outstanding_Debt`, aplicaremos Winsorization limitando os extremos aos percentis 1% e 99% para reduzir impacto de valores distorcidos.

### 🔹 Padronização de Strings
- Placeholder como `_______` e ruídos do tipo `!@9#%8` serão substituídos por `Unknown`.
- Campos com `Yes/No` serão convertidos para padrão binário se necessário na fase de modelagem.

### 🔹 Split e Persistência
- Após o tratamento, o dataset limpo será salvo em `data/processed/` versionado com DVC, pronto para rastreio no MLflow.
- Esta etapa encerra o pré-processamento, mantendo coerência para o treino e serving via API posteriormente.


In [3]:
# ETAPA: CONVERSÃO DE TIPOS NUMÉRICOS COM COERÇÃO

import pandas as pd

# Lista de colunas identificadas como numéricas, mas com tipo object
numeric_cols = [
    "Age",
    "Annual_Income",
    "Outstanding_Debt",
    "Amount_invested_monthly",
    "Monthly_Balance"
]

# Antes: tipos originais
print("Tipos originais:")
print(df_train[numeric_cols].dtypes)

# Aplica coerção para float64
for col in numeric_cols:
    df_train[col] = pd.to_numeric(df_train[col], errors='coerce')

# Depois: tipos convertidos
print("\nTipos após coerção:")
print(df_train[numeric_cols].dtypes)

# Verifica quantos valores viraram NaN
print("\nValores NaN adicionados por coerção:")
print(df_train[numeric_cols].isnull().sum())


Tipos originais:
Age                        object
Annual_Income              object
Outstanding_Debt           object
Amount_invested_monthly    object
Monthly_Balance            object
dtype: object

Tipos após coerção:
Age                        float64
Annual_Income              float64
Outstanding_Debt           float64
Amount_invested_monthly    float64
Monthly_Balance            float64
dtype: object

Valores NaN adicionados por coerção:
Age                        4939
Annual_Income              6980
Outstanding_Debt           1009
Amount_invested_monthly    8784
Monthly_Balance            1209
dtype: int64


## Imputação de Valores Ausentes — Colunas Numéricas

Após converter colunas numéricas para tipos coerentes, aplicamos imputação de `NaN` usando **mediana** para variáveis contínuas.  
Esta abordagem é robusta contra distorções de valores extremos, mantém o viés controlado e respeita o histórico real do dataset.



In [4]:
# ETAPA: IMPUTAR VALORES AUSENTES COM MEDIANA

# Define novamente as colunas numéricas que já foram convertidas
numeric_cols = [
    "Age",
    "Annual_Income",
    "Outstanding_Debt",
    "Amount_invested_monthly",
    "Monthly_Balance"
]

# Antes: mostra quantos NaN existem
print("NaN antes da imputação:")
print(df_train[numeric_cols].isnull().sum())

# Aplica imputação da mediana, coluna por coluna
for col in numeric_cols:
    median_value = df_train[col].median()
    df_train[col] = df_train[col].fillna(median_value)
    print(f"Imputado {col} com mediana = {median_value}")

# Depois: verifica se ainda restaram NaN
print("\nNaN após imputação:")
print(df_train[numeric_cols].isnull().sum())


NaN antes da imputação:
Age                        4939
Annual_Income              6980
Outstanding_Debt           1009
Amount_invested_monthly    8784
Monthly_Balance            1209
dtype: int64
Imputado Age com mediana = 33.0
Imputado Annual_Income com mediana = 37550.74
Imputado Outstanding_Debt com mediana = 1166.37
Imputado Amount_invested_monthly com mediana = 128.95453805190283
Imputado Monthly_Balance com mediana = 336.73122455696387

NaN após imputação:
Age                        0
Annual_Income              0
Outstanding_Debt           0
Amount_invested_monthly    0
Monthly_Balance            0
dtype: int64


## Limpeza de Placeholders e Ruídos — Colunas Categóricas

Após a imputação numérica, iniciamos a padronização de colunas categóricas que apresentam valores placeholders ou símbolos de ruído.  
Entradas como `_______`, `______`, `__`, `!@9#%8` e variações similares serão substituídas por `Unknown` para garantir consistência e coerência nos modelos.  
Esta abordagem segue o princípio de **não supor valores** quando não há base para inferência.


In [5]:
# ETAPA: LIMPEZA DE PLACEHOLDERS E RUÍDOS EM CATEGÓRICAS

# Lista de colunas categóricas sensíveis a ruído (ajuste conforme necessário)
categorical_cols = [
    "Occupation",
    "Payment_Behaviour",
    "Credit_Mix"
]

# Padrões que vamos considerar como ruído ou placeholder
placeholder_patterns = ["_______", "______", "__", "!@9#%8", "_", "__10000__"]

# Substitui por 'Unknown'
for col in categorical_cols:
    original_unique = df_train[col].unique()
    df_train[col] = df_train[col].replace(placeholder_patterns, "Unknown")
    updated_unique = df_train[col].unique()
    print(f"\nColuna: {col}")
    print(f"Antes: {original_unique}")
    print(f"Depois: {updated_unique}")



Coluna: Occupation
Antes: ['Scientist' '_______' 'Teacher' 'Engineer' 'Entrepreneur' 'Developer'
 'Lawyer' 'Media_Manager' 'Doctor' 'Journalist' 'Manager' 'Accountant'
 'Musician' 'Mechanic' 'Writer' 'Architect']
Depois: ['Scientist' 'Unknown' 'Teacher' 'Engineer' 'Entrepreneur' 'Developer'
 'Lawyer' 'Media_Manager' 'Doctor' 'Journalist' 'Manager' 'Accountant'
 'Musician' 'Mechanic' 'Writer' 'Architect']

Coluna: Payment_Behaviour
Antes: ['High_spent_Small_value_payments' 'Low_spent_Large_value_payments'
 'Low_spent_Medium_value_payments' 'Low_spent_Small_value_payments'
 'High_spent_Medium_value_payments' '!@9#%8'
 'High_spent_Large_value_payments']
Depois: ['High_spent_Small_value_payments' 'Low_spent_Large_value_payments'
 'Low_spent_Medium_value_payments' 'Low_spent_Small_value_payments'
 'High_spent_Medium_value_payments' 'Unknown'
 'High_spent_Large_value_payments']

Coluna: Credit_Mix
Antes: ['_' 'Good' 'Standard' 'Bad']
Depois: ['Unknown' 'Good' 'Standard' 'Bad']


## Persistência do Dataset Limpo em `data/processed/`

Após conversão de tipos, imputação de valores ausentes e padronização de placeholders, o dataset está pronto para ser salvo em `data/processed/`.  
A pasta segue a estrutura **cookiecutter-data-science**, separando dados brutos (`raw/`) de dados prontos para modelagem (`processed/`).  
O artefato será versionado com DVC para garantir rastreabilidade integral até o MLflow.


In [6]:
# ETAPA: SALVAR DATASET TRATADO EM data/processed/

import os

# Define caminho coerente
processed_dir = "../data/processed"  # se seu notebook roda em /notebooks
os.makedirs(processed_dir, exist_ok=True)

# Nome do arquivo tratado
output_path = os.path.join(processed_dir, "train_clean.csv")

# Salva CSV limpo
df_train.to_csv(output_path, index=False)

print(f"Dataset salvo em: {output_path}")


Dataset salvo em: ../data/processed/train_clean.csv


In [7]:
!dvc add ../data/processed/train_clean.csv
!dvc push
!git add ../data/processed/train_clean.csv.dvc dvc.yaml
!git commit -m "Versão limpa do dataset treino persistida e versionada com DVC"


 [?25l[32m⠋[0m Checking graph
Adding...                                                                       
![A
Collecting files and computing hashes in ../data/processed/train_clean.csv |0.00[A
                                                                                [A
![A
  0% Checking cache in '/workspace/.dvc/cache/files/md5'| |0/? [00:00<?,    ?fil[A
                                                                                [A
![A
  0%|          |Adding ../data/processed/train_clean.c0/1 [00:00<?,     ?file/s][A
                                                                                [A
![A
  0%|          |Checking out /workspace/data/processed0/1 [00:00<?,    ?files/s][A
100% Adding...|████████████████████████████████████████|1/1 [00:00, 12.04file/s][A
Collecting                                            |4.00 [00:00,  295entry/s]
Pushing
![A
  0% Querying remote cache|                          |0/1 [00:00<?,    ?files/s][A
100% Querying re

## Etapa Final — Aplicar Pipeline de Pré-processamento no Conjunto de Teste

Para manter consistência, aplicamos **exatamente o mesmo fluxo de tratamento usado no treino**:
- Conversão de tipos numéricos com coerção
- Imputação de valores ausentes com mediana calculada no treino
- Substituição de placeholders e ruídos por `Unknown`
- Codificação categórica usando o mesmo esquema de colunas do treino

Isso garante que `X_test` terá **as mesmas features** do `X_train` e poderá ser usado sem risco de erro nos experimentos do MLflow.


In [8]:
# ETAPA FINAL: TRATAR CONJUNTO DE TESTE COM MESMA LÓGICA DO TREINO

# Copia test bruto
df_test_clean = df_test.copy()

# --- Conversão de tipos numéricos ---
numeric_cols = ["Age", "Annual_Income", "Outstanding_Debt", 
                "Amount_invested_monthly", "Monthly_Balance"]

for col in numeric_cols:
    df_test_clean[col] = pd.to_numeric(df_test_clean[col], errors='coerce')

# --- Imputação de valores ausentes com mediana calculada no treino ---
for col in numeric_cols:
    median_value = df_train[col].median()
    df_test_clean[col] = df_test_clean[col].fillna(median_value)
    print(f"Imputado {col} com mediana do treino = {median_value}")

# --- Limpeza de placeholders/ruídos ---
categorical_cols = ["Occupation", "Payment_Behaviour", "Credit_Mix"]
placeholder_patterns = ["_______", "______", "__", "!@9#%8", "_", "__10000__"]

for col in categorical_cols:
    df_test_clean[col] = df_test_clean[col].replace(placeholder_patterns, "Unknown")

# --- Drop de colunas ID-only ---
cols_to_drop = ["ID", "Customer_ID", "Name", "SSN"]
df_test_clean = df_test_clean.drop(columns=cols_to_drop)

# --- Codificação one-hot coerente ---
df_test_clean = pd.get_dummies(df_test_clean, columns=["Month", "Occupation", 
                                                       "Credit_Mix", "Payment_Behaviour"],
                               drop_first=True)

print("Shape final df_test_clean:", df_test_clean.shape)
print("Colunas finais:", df_test_clean.columns.tolist())


Imputado Age com mediana do treino = 33.0
Imputado Annual_Income com mediana do treino = 37550.74
Imputado Outstanding_Debt com mediana do treino = 1166.37
Imputado Amount_invested_monthly com mediana do treino = 128.95453805190283
Imputado Monthly_Balance com mediana do treino = 336.73122455696387
Shape final df_test_clean: (50000, 46)
Colunas finais: ['Age', 'Annual_Income', 'Monthly_Inhand_Salary', 'Num_Bank_Accounts', 'Num_Credit_Card', 'Interest_Rate', 'Num_of_Loan', 'Type_of_Loan', 'Delay_from_due_date', 'Num_of_Delayed_Payment', 'Changed_Credit_Limit', 'Num_Credit_Inquiries', 'Outstanding_Debt', 'Credit_Utilization_Ratio', 'Credit_History_Age', 'Payment_of_Min_Amount', 'Total_EMI_per_month', 'Amount_invested_monthly', 'Monthly_Balance', 'Month_November', 'Month_October', 'Month_September', 'Occupation_Architect', 'Occupation_Developer', 'Occupation_Doctor', 'Occupation_Engineer', 'Occupation_Entrepreneur', 'Occupation_Journalist', 'Occupation_Lawyer', 'Occupation_Manager', 'Occu

##  Persistência do Conjunto de Teste no `processed`

Após aplicar todo o pipeline de pré-processamento coerente com o treino, o conjunto de teste será salvo em `data/processed/`.  
Este arquivo garante que o `X_test` final terá as mesmas transformações do `X_train`, ficando pronto para experimentos no MLflow.


In [10]:
# ETAPA FINAL: SALVAR TESTE TRATADO EM /workspace/data/processed/

import os
from pathlib import Path

# Força caminho base coerente (mesmo que rode em /workspace/notebooks)
cwd = Path.cwd()
if cwd.name == "notebooks":
    processed_dir = cwd.parent / "data" / "processed"
else:
    processed_dir = cwd / "data" / "processed"

processed_dir.mkdir(parents=True, exist_ok=True)

# Caminho final padronizado: test_clean.csv
test_clean_path = processed_dir / "test_clean.csv"

# Salva CSV limpo
df_test_clean.to_csv(test_clean_path, index=False)

print(f"Arquivo salvo em: {test_clean_path.resolve()}")


Arquivo salvo em: /workspace/data/processed/test_clean.csv


In [13]:
# ETAPA ÚNICA: CONFERE CWD, AJUSTA CAMINHO E VERSIONA test_clean.csv CORRETAMENTE

import os

# 1) Confirma onde o Kernel está rodando
cwd = os.getcwd()
print(f"CWD Kernel: {cwd}")

# 2) Define caminho relativo coerente
if cwd.endswith("notebooks"):
    path_to_file = "../data/processed/test_clean.csv"
    path_to_dvc = "../data/processed/test_clean.csv.dvc"
else:
    path_to_file = "data/processed/test_clean.csv"
    path_to_dvc = "data/processed/test_clean.csv.dvc"

print(f"Caminho usado no dvc add: {path_to_file}")

# 3) Executa shell no Jupyter usando !
!dvc add {path_to_file}
!dvc push
!git add {path_to_dvc}
!git commit -m "Adiciona test_clean.csv versionado na camada processed"


CWD Kernel: /workspace/notebooks
Caminho usado no dvc add: ../data/processed/test_clean.csv
 [?25l[32m⠋[0m Checking graph
Adding...                                                                       
![A
Collecting files and computing hashes in ../data/processed/test_clean.csv |0.00 [A
                                                                                [A
![A
  0% Checking cache in '/workspace/.dvc/cache/files/md5'| |0/? [00:00<?,    ?fil[A
                                                                                [A
![A
  0%|          |Adding ../data/processed/test_clean.cs0/1 [00:00<?,     ?file/s][A
                                                                                [A
![A
  0%|          |Checking out /workspace/data/processed0/1 [00:00<?,    ?files/s][A
100% Adding...|████████████████████████████████████████|1/1 [00:00, 19.59file/s][A
Collecting                                            |5.00 [00:00,  321entry/s]
Pushing
![A
  0% Que

---
REFATORAMENTO DO CLEAN.CSV
---

---

## ETAPA: PADRÃO DE CURADORIA — RAW ➜ CLEAN V1

Aplicamos o mesmo pipeline de curadoria para `RAW TRAIN` e `RAW TEST`:

1️⃣ Remoção de colunas identificadoras: `ID`, `Customer_ID`, `Name`, `SSN`.  
2️⃣ Substituição de placeholders: `'Unknown'`, `'_______'`, `'!@9#%8'`, `'#F%$D@*&8'` ➜ `Other`.  
3️⃣ Coerção de tipos para colunas numéricas (`Age`, `Annual_Income`, `Monthly_Inhand_Salary`, `Changed_Credit_Limit`, `Outstanding_Debt` etc.).  
4️⃣ Correção de outliers lógicos (ex: `Age` < 0 ➜ `NaN`, `Num_Bank_Accounts` = -1 ➜ 0).  
5️⃣ Imputação de `NaN` para numéricas usando **mediana agrupada por `Occupation`**, com fallback para mediana global.
6️⃣ Imputação de `Occupation` ausente com moda.
7️⃣ Nenhuma codificação `get_dummies` neste estágio — `Occupation` permanece nominal.
8️⃣ Salvo como `train_clean_v1.csv` e `test_clean_v1.csv`.
9️⃣ Versionamento DVC para rastreabilidade.

Todo o fluxo rastreado no **PROTOCOLO V5.4**.


In [1]:
# ETAPA: PADRÃO CURADORIA RAW ➜ CLEAN V1 (TRAIN & TEST)

import pandas as pd

# ⚙️ Caminhos
TRAIN_RAW_PATH = '../data/raw/train.csv'
TEST_RAW_PATH  = '../data/raw/test.csv'

# 1️⃣ Carrega
df_train = pd.read_csv(TRAIN_RAW_PATH)
df_test  = pd.read_csv(TEST_RAW_PATH)

print(f"✅ RAW TRAIN shape: {df_train.shape}")
print(f"✅ RAW TEST shape: {df_test.shape}")

# 2️⃣ Função padrão
def clean_pipeline(df):
    # Remove IDs
    drop_cols = ['ID', 'Customer_ID', 'Name', 'SSN']
    df.drop(columns=[c for c in drop_cols if c in df.columns], inplace=True, errors='ignore')

    # Substitui placeholders
    placeholders = ['Unknown', '_______', '!@9#%8', '#F%$D@*&8']
    for col in df.select_dtypes(include='object').columns:
        df[col] = df[col].replace(placeholders, 'Other')

    # Coerção numérica e correção de outliers
    numeric_cols = ['Annual_Income', 'Monthly_Inhand_Salary', 'Changed_Credit_Limit', 
                    'Outstanding_Debt', 'Age', 'Num_Bank_Accounts', 
                    'Num_of_Loan', 'Num_of_Delayed_Payment']

    for col in numeric_cols:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors='coerce')

    if 'Age' in df.columns:
        df.loc[df['Age'] < 0, 'Age'] = pd.NA

    if 'Num_Bank_Accounts' in df.columns:
        df.loc[df['Num_Bank_Accounts'] < 0, 'Num_Bank_Accounts'] = 0

    # Imputação por Occupation se existir
    for col in ['Annual_Income', 'Monthly_Inhand_Salary', 'Changed_Credit_Limit',
                'Outstanding_Debt', 'Num_of_Loan', 'Num_of_Delayed_Payment']:
        if col in df.columns:
            if 'Occupation' in df.columns:
                df[col] = df.groupby('Occupation')[col].transform(
                    lambda x: x.fillna(x.median())
                )
            else:
                df[col] = df[col].fillna(df[col].median())

    if 'Age' in df.columns:
        df['Age'] = df['Age'].fillna(df['Age'].median())

    if 'Num_Bank_Accounts' in df.columns:
        df['Num_Bank_Accounts'] = df['Num_Bank_Accounts'].fillna(df['Num_Bank_Accounts'].median())

    # Imputa Occupation com moda
    if 'Occupation' in df.columns:
        df['Occupation'] = df['Occupation'].fillna(df['Occupation'].mode()[0])

    return df

# 3️⃣ Aplica
df_train_clean = clean_pipeline(df_train)
df_test_clean  = clean_pipeline(df_test)

print(f"✅ TRAIN CLEAN V1: {df_train_clean.shape}")
print(f"✅ TEST CLEAN V1: {df_test_clean.shape}")

print("\n🔍 Preview TRAIN CLEAN V1:")
print(df_train_clean.head(5))

print("\n🔍 Preview TEST CLEAN V1:")
print(df_test_clean.head(5))

# 4️⃣ Salva
df_train_clean.to_csv('../data/processed/train_clean_v1.csv', index=False)
df_test_clean.to_csv('../data/processed/test_clean_v1.csv', index=False)
print("\n✅ Arquivos salvos: train_clean_v1.csv & test_clean_v1.csv")


  df_train = pd.read_csv(TRAIN_RAW_PATH)


✅ RAW TRAIN shape: (100000, 28)
✅ RAW TEST shape: (50000, 27)
✅ TRAIN CLEAN V1: (100000, 24)
✅ TEST CLEAN V1: (50000, 23)

🔍 Preview TRAIN CLEAN V1:
      Month   Age Occupation  Annual_Income  Monthly_Inhand_Salary  \
0   January  23.0  Scientist       19114.12            1824.843333   
1  February  23.0  Scientist       19114.12            3260.465000   
2     March  33.0  Scientist       19114.12            3260.465000   
3     April  23.0  Scientist       19114.12            3260.465000   
4       May  23.0  Scientist       19114.12            1824.843333   

   Num_Bank_Accounts  Num_Credit_Card  Interest_Rate  Num_of_Loan  \
0                  3                4              3          4.0   
1                  3                4              3          4.0   
2                  3                4              3          4.0   
3                  3                4              3          4.0   
4                  3                4              3          4.0   

               

# ✅ STATUS FINAL — TRAIN & TEST CLEAN V1

- Todos os passos de curadoria foram reaplicados a partir dos datasets `RAW`.
- Remoção de identificadores, coerção de tipos, placeholders padronizados.
- Imputação por `Occupation` mantida, sem codificação antecipada.
- `Credit_Score` presente apenas no `TRAIN` (24 colunas); ausente no `TEST` (23 colunas) — coerente com ML supervisionado.
- Ambos versionados como `*_v1.csv`, prontos para rastreio via DVC.


In [2]:
# 🔧 ETAPA: VERSIONAMENTO VIA DVC NO JUPYTER — CLEAN V1

"""
1️⃣ Adiciona os arquivos ao DVC tracking.
2️⃣ Executa o push para o remote (ex: MinIO).
"""

import os

# Caminhos coerentes
TRAIN_CLEAN_V1 = '../data/processed/train_clean_v1.csv'
TEST_CLEAN_V1 = '../data/processed/test_clean_v1.csv'

# 1️⃣ dvc add
os.system(f'dvc add {TRAIN_CLEAN_V1}')
os.system(f'dvc add {TEST_CLEAN_V1}')

print("\n✅ dvc add concluído.")

# 2️⃣ dvc push
os.system('dvc push')

print("\n✅ dvc push concluído. Ambos os arquivos estão versionados no remote.")


[?25l⠋ Checking graph
[?25l⠋ Checking graph
[?25h


✅ dvc add concluído.
2 files pushed

✅ dvc push concluído. Ambos os arquivos estão versionados no remote.


## ETAPA CONCLUÍDA — CURADORIA RAW ➜ CLEAN V1

- Finalizamos a nova camada `CLEAN V1` usando pipeline padronizado, aplicando coerção de tipos, substituição de placeholders e imputação por grupo `Occupation`.
- O kernel anterior estourava por cardinalidade descontrolada em colunas como `Type_of_Loan`, `Payment_Behaviour`, etc.
- A partir deste ponto, a análise de cardinalidade será refeita **sobre `TRAIN_CLEAN_V1` e `TEST_CLEAN_V1`**, e não sobre a versão anterior.
- O Feature Engineering segue no notebook `feature_engineering_curadoria.ipynb` com blocos autocontidos e sem ícones, mantendo rastreabilidade PROTOCOLO V5.4.
