## Fase 5 ‚Äî EDA e Pr√©-processamento

Nesta fase iniciaremos o **Item 5 do Plano de Atividades**, respons√°vel por abrir a etapa de **An√°lise Explorat√≥ria de Dados (EDA)** do conjunto real de dados versionado.  
O objetivo √© garantir que os arquivos `train.csv` e `test.csv` estejam corretamente estruturados, analisar tipos de vari√°veis, valores ausentes, estat√≠sticas b√°sicas e poss√≠veis inconsist√™ncias.  
Todo o trabalho ser√° executado dentro do **DevContainer**, com **rastreabilidade total**, utilizando sempre caminhos relativos revisados fisicamente, em conformidade com o **PROTOCOLO V5.4**.


In [2]:
# ETAPA: CARREGAR E INSPECIONAR O DATASET REAL

import os
import pandas as pd

# Confirma diret√≥rio de trabalho do Kernel
print("CWD Kernel:", os.getcwd())

# Define caminho coerente para o dataset real
# Se o notebook estiver dentro de notebooks/, usar ../data/raw/
data_raw_dir = "../data/raw"

# Lista arquivos para validar nomes reais
print("Conte√∫do de data/raw/:", os.listdir(data_raw_dir))

# Carrega arquivos reais versionados
df_train = pd.read_csv(os.path.join(data_raw_dir, "train.csv"))
df_test = pd.read_csv(os.path.join(data_raw_dir, "test.csv"))

# Verifica estrutura inicial
print("Formato treino:", df_train.shape)
print("Formato teste:", df_test.shape)

print("\nTipos de colunas treino:")
print(df_train.dtypes)

print("\nValores nulos treino:")
print(df_train.isnull().sum())

print("\nAmostra treino:")
print(df_train.head(20))


CWD Kernel: /workspace/notebooks
Conte√∫do de data/raw/: ['test.csv', 'train.csv']


  df_train = pd.read_csv(os.path.join(data_raw_dir, "train.csv"))


Formato treino: (100000, 28)
Formato teste: (50000, 27)

Tipos de colunas treino:
ID                           object
Customer_ID                  object
Month                        object
Name                         object
Age                          object
SSN                          object
Occupation                   object
Annual_Income                object
Monthly_Inhand_Salary       float64
Num_Bank_Accounts             int64
Num_Credit_Card               int64
Interest_Rate                 int64
Num_of_Loan                  object
Type_of_Loan                 object
Delay_from_due_date           int64
Num_of_Delayed_Payment       object
Changed_Credit_Limit         object
Num_Credit_Inquiries        float64
Credit_Mix                   object
Outstanding_Debt             object
Credit_Utilization_Ratio    float64
Credit_History_Age           object
Payment_of_Min_Amount        object
Total_EMI_per_month         float64
Amount_invested_monthly      object
Payment_Behaviour 

## An√°lise da C√©lula de Carregamento e Inspe√ß√£o Inicial

A leitura dos arquivos `train.csv` e `test.csv` confirma que o dataset real est√° estruturado e coerente com o versionamento em `data/raw/`.  
O `train.csv` possui **100.000 linhas √ó 28 colunas** e o `test.csv` **50.000 linhas √ó 27 colunas**. A listagem do diret√≥rio validou os nomes dos arquivos sem depend√™ncia de heur√≠stica, alinhado ao **PROTOCOLO V5.4**.

### Principais observa√ß√µes:

- **DtypeWarning:** A leitura acusou tipos mistos em algumas colunas (ex.: coluna 26), indicando registros com strings, s√≠mbolos ou formatos inconsistentes em campos que deveriam ser num√©ricos.
- **Tipos de colunas:** Diversas vari√°veis num√©ricas (`Age`, `Outstanding_Debt`, `Amount_invested_monthly` etc.) foram lidas como `object`. Isso confirma a necessidade de convers√£o expl√≠cita para tipos num√©ricos (`int64` ou `float64`) usando coer√ß√£o.
- **Valores ausentes:** A contagem de `NaN` revelou lacunas relevantes em campos como `Name` (~10%), `Monthly_Inhand_Salary` (~15%), `Credit_History_Age` (~9%) e `Num_of_Delayed_Payment`. Ser√° necess√°rio definir pol√≠ticas de imputa√ß√£o ou descarte.
- **Amostra de registros:** Identificou anomalias claras, como `Age` negativo ou inv√°lido (`-500`, `28_`), ocupa√ß√µes `_______` e padr√µes de ru√≠do como `!@9#%8` em `Payment_Behaviour`. Estes valores precisar√£o ser tratados na fase de limpeza.

Esta an√°lise serve como base para planejar o pr√©-processamento, garantindo integridade e consist√™ncia antes de avan√ßar para treinamento e rastreio de experimentos.


---

##  Pol√≠ticas de Tratamento de Dados ‚Äî Defini√ß√£o Oficial

Com base na an√°lise explorat√≥ria inicial e nos requisitos do exerc√≠cio, definimos as seguintes diretrizes de limpeza e padroniza√ß√£o para o dataset `credit-score-classification`. Todas as etapas respeitam o **PROTOCOLO V5.4** e garantem rastreabilidade do pipeline.

### üîπ Convers√£o de Tipos
- Todas as colunas identificadas como `object` mas que representam valores num√©ricos (ex.: `Age`, `Outstanding_Debt`, `Amount_invested_monthly`) ser√£o convertidas para `float64` usando `pd.to_numeric(errors='coerce')`.  
- Valores que n√£o puderem ser convertidos se tornar√£o `NaN` de forma rastre√°vel.

### üîπ Tratamento de Anomalias Num√©ricas
- Idades negativas ou entradas n√£o num√©ricas (ex.: `-500`, `28_`) ser√£o convertidas em `NaN` e imputadas com a mediana da coluna `Age`.
- Valores absurdos ou placeholders (ex.: `__10000__`) ter√£o caracteres especiais removidos e ser√£o convertidos para n√∫mero se poss√≠vel.

### üîπ Valores Ausentes
- Vari√°veis num√©ricas cont√≠nuas com nulos (ex.: `Monthly_Inhand_Salary`, `Credit_History_Age`) ser√£o imputadas com a mediana, pois s√£o menos sens√≠veis a outliers.
- Vari√°veis categ√≥ricas com nulos (ex.: `Occupation`, `Payment_Behaviour`) receber√£o a categoria `Unknown` para manter integridade sem supor informa√ß√£o.

### üîπ Outliers
- Para colunas financeiras como `Annual_Income` e `Outstanding_Debt`, aplicaremos Winsorization limitando os extremos aos percentis 1% e 99% para reduzir impacto de valores distorcidos.

### üîπ Padroniza√ß√£o de Strings
- Placeholder como `_______` e ru√≠dos do tipo `!@9#%8` ser√£o substitu√≠dos por `Unknown`.
- Campos com `Yes/No` ser√£o convertidos para padr√£o bin√°rio se necess√°rio na fase de modelagem.

### üîπ Split e Persist√™ncia
- Ap√≥s o tratamento, o dataset limpo ser√° salvo em `data/processed/` versionado com DVC, pronto para rastreio no MLflow.
- Esta etapa encerra o pr√©-processamento, mantendo coer√™ncia para o treino e serving via API posteriormente.


In [3]:
# ETAPA: CONVERS√ÉO DE TIPOS NUM√âRICOS COM COER√á√ÉO

import pandas as pd

# Lista de colunas identificadas como num√©ricas, mas com tipo object
numeric_cols = [
    "Age",
    "Annual_Income",
    "Outstanding_Debt",
    "Amount_invested_monthly",
    "Monthly_Balance"
]

# Antes: tipos originais
print("Tipos originais:")
print(df_train[numeric_cols].dtypes)

# Aplica coer√ß√£o para float64
for col in numeric_cols:
    df_train[col] = pd.to_numeric(df_train[col], errors='coerce')

# Depois: tipos convertidos
print("\nTipos ap√≥s coer√ß√£o:")
print(df_train[numeric_cols].dtypes)

# Verifica quantos valores viraram NaN
print("\nValores NaN adicionados por coer√ß√£o:")
print(df_train[numeric_cols].isnull().sum())


Tipos originais:
Age                        object
Annual_Income              object
Outstanding_Debt           object
Amount_invested_monthly    object
Monthly_Balance            object
dtype: object

Tipos ap√≥s coer√ß√£o:
Age                        float64
Annual_Income              float64
Outstanding_Debt           float64
Amount_invested_monthly    float64
Monthly_Balance            float64
dtype: object

Valores NaN adicionados por coer√ß√£o:
Age                        4939
Annual_Income              6980
Outstanding_Debt           1009
Amount_invested_monthly    8784
Monthly_Balance            1209
dtype: int64


## Imputa√ß√£o de Valores Ausentes ‚Äî Colunas Num√©ricas

Ap√≥s converter colunas num√©ricas para tipos coerentes, aplicamos imputa√ß√£o de `NaN` usando **mediana** para vari√°veis cont√≠nuas.  
Esta abordagem √© robusta contra distor√ß√µes de valores extremos, mant√©m o vi√©s controlado e respeita o hist√≥rico real do dataset.



In [4]:
# ETAPA: IMPUTAR VALORES AUSENTES COM MEDIANA

# Define novamente as colunas num√©ricas que j√° foram convertidas
numeric_cols = [
    "Age",
    "Annual_Income",
    "Outstanding_Debt",
    "Amount_invested_monthly",
    "Monthly_Balance"
]

# Antes: mostra quantos NaN existem
print("NaN antes da imputa√ß√£o:")
print(df_train[numeric_cols].isnull().sum())

# Aplica imputa√ß√£o da mediana, coluna por coluna
for col in numeric_cols:
    median_value = df_train[col].median()
    df_train[col] = df_train[col].fillna(median_value)
    print(f"Imputado {col} com mediana = {median_value}")

# Depois: verifica se ainda restaram NaN
print("\nNaN ap√≥s imputa√ß√£o:")
print(df_train[numeric_cols].isnull().sum())


NaN antes da imputa√ß√£o:
Age                        4939
Annual_Income              6980
Outstanding_Debt           1009
Amount_invested_monthly    8784
Monthly_Balance            1209
dtype: int64
Imputado Age com mediana = 33.0
Imputado Annual_Income com mediana = 37550.74
Imputado Outstanding_Debt com mediana = 1166.37
Imputado Amount_invested_monthly com mediana = 128.95453805190283
Imputado Monthly_Balance com mediana = 336.73122455696387

NaN ap√≥s imputa√ß√£o:
Age                        0
Annual_Income              0
Outstanding_Debt           0
Amount_invested_monthly    0
Monthly_Balance            0
dtype: int64


## Limpeza de Placeholders e Ru√≠dos ‚Äî Colunas Categ√≥ricas

Ap√≥s a imputa√ß√£o num√©rica, iniciamos a padroniza√ß√£o de colunas categ√≥ricas que apresentam valores placeholders ou s√≠mbolos de ru√≠do.  
Entradas como `_______`, `______`, `__`, `!@9#%8` e varia√ß√µes similares ser√£o substitu√≠das por `Unknown` para garantir consist√™ncia e coer√™ncia nos modelos.  
Esta abordagem segue o princ√≠pio de **n√£o supor valores** quando n√£o h√° base para infer√™ncia.


In [5]:
# ETAPA: LIMPEZA DE PLACEHOLDERS E RU√çDOS EM CATEG√ìRICAS

# Lista de colunas categ√≥ricas sens√≠veis a ru√≠do (ajuste conforme necess√°rio)
categorical_cols = [
    "Occupation",
    "Payment_Behaviour",
    "Credit_Mix"
]

# Padr√µes que vamos considerar como ru√≠do ou placeholder
placeholder_patterns = ["_______", "______", "__", "!@9#%8", "_", "__10000__"]

# Substitui por 'Unknown'
for col in categorical_cols:
    original_unique = df_train[col].unique()
    df_train[col] = df_train[col].replace(placeholder_patterns, "Unknown")
    updated_unique = df_train[col].unique()
    print(f"\nColuna: {col}")
    print(f"Antes: {original_unique}")
    print(f"Depois: {updated_unique}")



Coluna: Occupation
Antes: ['Scientist' '_______' 'Teacher' 'Engineer' 'Entrepreneur' 'Developer'
 'Lawyer' 'Media_Manager' 'Doctor' 'Journalist' 'Manager' 'Accountant'
 'Musician' 'Mechanic' 'Writer' 'Architect']
Depois: ['Scientist' 'Unknown' 'Teacher' 'Engineer' 'Entrepreneur' 'Developer'
 'Lawyer' 'Media_Manager' 'Doctor' 'Journalist' 'Manager' 'Accountant'
 'Musician' 'Mechanic' 'Writer' 'Architect']

Coluna: Payment_Behaviour
Antes: ['High_spent_Small_value_payments' 'Low_spent_Large_value_payments'
 'Low_spent_Medium_value_payments' 'Low_spent_Small_value_payments'
 'High_spent_Medium_value_payments' '!@9#%8'
 'High_spent_Large_value_payments']
Depois: ['High_spent_Small_value_payments' 'Low_spent_Large_value_payments'
 'Low_spent_Medium_value_payments' 'Low_spent_Small_value_payments'
 'High_spent_Medium_value_payments' 'Unknown'
 'High_spent_Large_value_payments']

Coluna: Credit_Mix
Antes: ['_' 'Good' 'Standard' 'Bad']
Depois: ['Unknown' 'Good' 'Standard' 'Bad']


## Persist√™ncia do Dataset Limpo em `data/processed/`

Ap√≥s convers√£o de tipos, imputa√ß√£o de valores ausentes e padroniza√ß√£o de placeholders, o dataset est√° pronto para ser salvo em `data/processed/`.  
A pasta segue a estrutura **cookiecutter-data-science**, separando dados brutos (`raw/`) de dados prontos para modelagem (`processed/`).  
O artefato ser√° versionado com DVC para garantir rastreabilidade integral at√© o MLflow.


In [6]:
# ETAPA: SALVAR DATASET TRATADO EM data/processed/

import os

# Define caminho coerente
processed_dir = "../data/processed"  # se seu notebook roda em /notebooks
os.makedirs(processed_dir, exist_ok=True)

# Nome do arquivo tratado
output_path = os.path.join(processed_dir, "train_clean.csv")

# Salva CSV limpo
df_train.to_csv(output_path, index=False)

print(f"Dataset salvo em: {output_path}")


Dataset salvo em: ../data/processed/train_clean.csv


In [7]:
!dvc add ../data/processed/train_clean.csv
!dvc push
!git add ../data/processed/train_clean.csv.dvc dvc.yaml
!git commit -m "Vers√£o limpa do dataset treino persistida e versionada com DVC"


 [?25l[32m‚†ã[0m Checking graph
Adding...                                                                       
![A
Collecting files and computing hashes in ../data/processed/train_clean.csv |0.00[A
                                                                                [A
![A
  0% Checking cache in '/workspace/.dvc/cache/files/md5'| |0/? [00:00<?,    ?fil[A
                                                                                [A
![A
  0%|          |Adding ../data/processed/train_clean.c0/1 [00:00<?,     ?file/s][A
                                                                                [A
![A
  0%|          |Checking out /workspace/data/processed0/1 [00:00<?,    ?files/s][A
100% Adding...|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà|1/1 [00:00, 12.04file/s][A
Collecting                                            |4.00 [00:00,  295entry/s]
Pushing
![A
  0% Querying remo