<a href="https://colab.research.google.com/github/stepsbtw/Machine-Learning/blob/main/notebooks/feature_scaling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Feature Scaling
Transformar features numéricas para ranges específicos ou para ter propriedades estatísticas específicas.

1. **Melhora a convergência do modelo**: Alguns algoritmos, especialmente aqueles baseados em otimização por gradiente (regressão logística, support vector machine, redes neurais).

2. **Features com pesos semelhantes**: Em muitos algoritmos como no k-NN, SVM, k-means clustering, as features com grandes ranges numéricas vão estar a frente nas métricas de distância, levando a resultados enviesados. Scaling assegura que todas as features contribuem igualmente ao modelo.

3. **Aumenta Acurácia do Modelo**: Algoritmos como PCA, que dependem de distâncias e covariâncias, o feature scaling assegura que o modelo não dará mais importância para features com magnitudes maiores. Pode ajudar na interpretabilidade e na acurácia.

### Técnicas:
- Min-Max Scaling (Normalization)
- Standardization (Z-score Normalization)
- Robust Scaling
- Log Transformation

## Boas Práticas do Feature Scaling

1. Ajuste o scaler apenas nos dados de **TREINO** -> Evita **data leakage**
2. Escolher o scaler certo baseado na distribuição dos dados -> Assegura as transformações apropriadas.
3. Aplique o mesmo scaler no treino e no teste -> Mantém consistência.
4. Sempre cheque o efeito do scaling com visualizações -> Detecta problemas com dados transformados.
5. Saiba quando o scaling é **desnecessário** -> Modelos baseados em árvore
6. Salve e reutilize o scaler treinado em produção -> Consistência.

In [None]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler
from numpy import log1p

### Ajuste o Scaler somente em treino
Previne data-leakage

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# treine apenas com treino
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# transforme com o mesmo scaler
X_test_scaled = scaler.transform(X_test)

### Aplique o mesmo Scaler em treino e teste


In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# features numéricas e categóricas
num_features = ['age', 'income', 'height']
cat_features = ['gender', 'city']

# criar o pipeline para mixed scaling
preprocessor = ColumnTransformer([
    ("num", StandardScaler(), num_features),
    ("cat", OneHotEncoder(), cat_features)
])

X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)  # mesma transformacao

### Nem sempre necessário
Modelos em árvores : Decision Trees, Random Forests, XGBoost.
Modelos baseados em regras: RuleFit, alguns ensembles.

Mas é **importantíssimo** para:
- Regressão Logística, SVM, k-NN, Neural Networks, PCA, Gradient Descent-based no geral.

### Salve para produção

In [None]:
import joblib

# Save the fitted scaler
joblib.dump(scaler, "scaler.pkl")

# Load and use it in production
scaler = joblib.load("scaler.pkl")
new_data_scaled = scaler.transform(new_data)

# Sumário

| **Método**      | **Fórmula**                     | **Efeito**                      | **Melhor caso de uso**                     | **Sensibilidade a Outliers** |
|-------------------------|--------------------------------|--------------------------------|--------------------------------------|-----------------------------|
| **Min-Max Scaling**     | $$x' = \frac{x - x_{min}}{x_{max} - x_{min}}$$ | Valores entre **0 e 1** | Features com **range fixa** (ex: Valor de pixel) | **ALTO** (Afetado por valores extremos) |
| **Standardization**     | $$x' = \frac{x - \mu}{\sigma}$$ | Centraliza em torno de **0** com desvio padrão **1** | Dados que seguem a **Distribuição Normal** | **Moderado** (Menos que Min-Max) |
| **Robust Scaling**      | $$x' = \frac{x - \text{median}}{\text{IQR}}$$ | Usa **média & desvio interquartílico**, robusto à outliers | Dados com **vários outliers** | **Baixo** (cuida bem de outliers) |
| **Log Transformation**  | $$x' = \log(1 + x)$$ | Reduz **assimetria à direita** | Dados com **caudas longas** (ex: Renda) | **Low** (Bom para dados assimétricos) |
