# Pr√©-processamento

> **Fase 2 - Time 7**

Neste notebook vamos preparar, limpar e transformar os dados brutos em conjuntos de Treino e Teste padronizados para uso de todo o time.

**Metas T√©cnicas:**
1.  **Engenharia de Features:** Cria√ß√£o da vari√°vel `heart_rate_reserve` (Reserva Card√≠aca) para normalizar o esfor√ßo por idade: 
$$\text{Reserva} = \frac{\text{Thalach}}{220 - \text{Idade}}$$
2.  **Limpeza:** Remove vari√°veis irrelevantes (`fbs`) identificadas na EDA.
3.  **Codifica√ß√£o:** Transforma categorias em n√∫meros (One-Hot Encoding).
4.  **Normaliza√ß√£o:** Coloca todas as vari√°veis num√©ricas na mesma escala (StandardScaler) ‚Äî *Vital para SVM, KNN e Redes Neurais*.
5.  **Split e Exporta√ß√£o:** Divide os dados (80% Treino / 20% Teste) e salva em arquivos `.pkl` na pasta `data/processed/`.

## 1. Configura√ß√£o do Ambiente

In [5]:
# Importa√ß√µes
import pandas as pd
import numpy as np
import os
import joblib 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

# Configura√ß√£o de Reproducibilidade
SEED = 42

In [6]:
# 1. Carregamento dos Dados
caminho_arquivo = '../data/heart-disease-cleveland-uci/heart_cleveland_upload.csv'

if os.path.exists(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo)
    print(f"‚úÖ Dataset carregado! Shape original: {df.shape}")
else:
    raise FileNotFoundError("‚ùå Arquivo n√£o encontrado. Verifique o caminho!")

# Visualizar antes
df.head()

‚úÖ Dataset carregado! Shape original: (297, 14)


Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,condition
0,69,1,0,160,234,1,2,131,0,0.1,1,1,0,0
1,69,0,0,140,239,0,0,151,0,1.8,0,2,0,0
2,66,0,0,150,226,0,0,114,0,2.6,2,0,0,0
3,65,1,0,138,282,1,2,174,0,1.4,1,1,0,1
4,64,1,0,110,211,0,2,144,1,1.8,1,0,0,0


## 2. Pipeline de Transforma√ß√£o

Utilizaremos um `ColumnTransformer` para aplicar tratamentos diferentes para cada tipo de dado simultaneamente:

* üî¢ **Num√©ricas:** `StandardScaler` (Age, Trestbps, Chol, Thalach, Oldpeak, Ca).
* üî† **Categ√≥ricas:** `OneHotEncoder` (Cp, Thal, Slope, Restecg).
* ‚úÖ **Bin√°rias:** `Passthrough` (Sex, Exang) - j√° est√£o no formato correto.

In [7]:
# Engenharia de Features

# CRIANDO: 'heart_rate_reserve' (Reserva de Frequ√™ncia Card√≠aca)
# L√≥gica: Normaliza o esfor√ßo baseado na idade. (Thalach / (220 - Idade))
# Isso ajuda o modelo a entender que 150bpm num idoso √© muito mais grave que num jovem.
df['heart_rate_reserve'] = df['thalach'] / (220 - df['age'])

# REMOVENDO: 'fbs' (Glicemia)
# Motivo: P-valor de 1.0 na EDA (irrelevante para este dataset de emerg√™ncia).
df_clean = df.drop(columns=['fbs'])

print("‚úÖ Feature 'heart_rate_reserve' criada.")
print("‚úÖ Coluna 'fbs' removida.")
print(f"Shape atual: {df_clean.shape}")

‚úÖ Feature 'heart_rate_reserve' criada.
‚úÖ Coluna 'fbs' removida.
Shape atual: (297, 14)


In [8]:
# Defini√ß√£o das Transforma√ß√µes

# Separando as vari√°veis (X) do alvo (y)
X = df_clean.drop('condition', axis=1)
y = df_clean['condition']

# --- DEFINI√á√ÉO DOS GRUPOS DE VARI√ÅVEIS ---

# A. Categ√≥ricas (Precisam de One-Hot Encoding)
# cp: tipo de dor | restecg: eletro | slope: inclina√ß√£o | thal: talassemia
categorical_features = ['cp', 'restecg', 'slope', 'thal']

# B. Num√©ricas (Precisam de StandardScaler)
# Importante para SVM e KNN n√£o darem peso errado para n√∫meros grandes (como chol)
# Nota: Inclu√≠mos 'ca' aqui pois varia de 0 a 3, melhor tratar como num√©rico escalado para SVM.
numerical_features = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak', 'heart_rate_reserve', 'ca']

# C. Bin√°rias (J√° s√£o 0 ou 1, n√£o precisa fazer nada)
binary_features = ['sex', 'exang']

# --- CRIANDO O PROCESSADOR ---

# Pipeline Num√©rico
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

# Pipeline Categ√≥rico
categorical_transformer = Pipeline(steps=[
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))
])

# Juntando tudo no ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features),
        ('pass', 'passthrough', binary_features)
    ],
    verbose_feature_names_out=False 
)

print("Pipeline configurado.")

Pipeline configurado.


## 3. Divis√£o e Processamento (Split)
Realizaremos a divis√£o **antes** do processamento para evitar *Data Leakage* (vazamento de dados). O processador aprende a m√©dia e desvio padr√£o apenas do TREINO e aplica essa regra no TESTE.

* **Tamanho do Teste:** 20% (Ideal para dataset pequeno, ~60 amostras de teste).
* **Estratifica√ß√£o:** Garante a mesma propor√ß√£o de doentes em ambos os conjuntos.

In [9]:
# Train/Test Split

# Primeiro: Dividimos os dados BRUTOS (para garantir que o Teste nunca vazou no Treino)
X_train_raw, X_test_raw, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.20,    # 20% para Teste
    stratify=y,        # Mant√©m a propor√ß√£o de doentes igual no treino e teste
    random_state=SEED  # Garante que todo mundo use os mesmos dados
)

# Ajustamos o processador APENAS no Treino (.fit)
preprocessor.fit(X_train_raw)

# Transformamos os dados (.transform)
# O resultado vira um Array Numpy (matriz de n√∫meros), pronto para os modelos
X_train_processed = preprocessor.transform(X_train_raw)
X_test_processed = preprocessor.transform(X_test_raw)

# Recuperando os nomes das colunas novas (para sabermos quem √© quem depois)
# Isso √© importante para ver qual feature foi mais importante
feature_names = preprocessor.get_feature_names_out()

# Transformando de volta em DataFrame (opcional, mas ajuda na visualiza√ß√£o)
X_train_df = pd.DataFrame(X_train_processed, columns=feature_names)
X_test_df = pd.DataFrame(X_test_processed, columns=feature_names)

print(f"‚úÖ Dados processados com sucesso!")
print(f"Treino: {X_train_df.shape} (80%)")
print(f"Teste:  {X_test_df.shape} (20%)")
print("-" * 30)
print("Features finais:", feature_names)

‚úÖ Dados processados com sucesso!
Treino: (237, 22) (80%)
Teste:  (60, 22) (20%)
------------------------------
Features finais: ['age' 'trestbps' 'chol' 'thalach' 'oldpeak' 'heart_rate_reserve' 'ca'
 'cp_0' 'cp_1' 'cp_2' 'cp_3' 'restecg_0' 'restecg_1' 'restecg_2' 'slope_0'
 'slope_1' 'slope_2' 'thal_0' 'thal_1' 'thal_2' 'sex' 'exang']


## 4. Exporta√ß√£o

In [12]:
# Criando a pasta se n√£o existir
output_path = '../data/processed' 
models_path = '../models/deploy'

os.makedirs(output_path, exist_ok=True)
os.makedirs(models_path, exist_ok=True)

# Dicion√°rio com tudo que precisamos salvar
artifacts = {
    'X_train': X_train_df,
    'X_test': X_test_df,
    'y_train': y_train,
    'y_test': y_test,
    'feature_names': feature_names,
    'preprocessor': preprocessor # Salvamos o transformador caso precisemos usar em dados novos depois
}

# Salvando cada um
for name, data in artifacts.items():
    file_path = os.path.join(output_path, f'{name}.pkl')
    joblib.dump(data, file_path)
    print(f"üíæ Salvo: {file_path}")

# B. Salvando Artefatos Cr√≠ticos para o App (Deploy)
# O app precisa saber como transformar os dados (preprocessor) e a ordem das colunas
joblib.dump(preprocessor, os.path.join(models_path, 'preprocessor.pkl'))
joblib.dump(feature_names, os.path.join(models_path, 'colunas_treino.pkl'))

print("\nTUDO PRONTO!")

üíæ Salvo: ../data/processed/X_train.pkl
üíæ Salvo: ../data/processed/X_test.pkl
üíæ Salvo: ../data/processed/y_train.pkl
üíæ Salvo: ../data/processed/y_test.pkl
üíæ Salvo: ../data/processed/feature_names.pkl
üíæ Salvo: ../data/processed/preprocessor.pkl

TUDO PRONTO!
