
# Capítulo 3 — EDA e Pré-processamento de dados
**Objetivo:** realizar exploração inicial e preparar dados para modelos.
- Carregamento (Breast Cancer)
- EDA básica: dimensões, estatísticas, correlações
- *Train/Test split*
- `Pipeline` + `ColumnTransformer` (exemplo com numéricas)
- Normalização/Padronização


In [None]:

import pandas as pd
from sklearn.datasets import load_breast_cancer
import numpy as np

ds = load_breast_cancer(as_frame=True)
df = ds.frame.copy()
df.head()


In [None]:

# EDA rápida
display(df.describe(include='all'))
print("Shape:", df.shape)
corr = df.drop(columns=['target']).corr(numeric_only=True)
corr.values[:3,:3]


In [None]:

# Split + escalonamento em Pipeline
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

X = df.drop(columns=['target'])
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

pipe_scale = Pipeline([
    ('scaler', StandardScaler())
])
X_train_scaled = pipe_scale.fit_transform(X_train)
X_test_scaled = pipe_scale.transform(X_test)

X_train_scaled[:2]



**Boas práticas**  
- Use *pipelines* para evitar *data leakage*.  
- Nunca *fit* em dados de teste.  
- Padronize aleatoriedade (`random_state`) para reprodutibilidade.
