# 🧩 Guía Práctica de Feature Engineering para Ciencia de Datos

## 1. 🧠 Feature Selection (Selección de Variables)

| Técnica                     | Descripción                                          | Librerías |
|----------------------------|------------------------------------------------------|-----------|
| Univariate Selection       | Estadísticas como chi², ANOVA, mutual_info          | sklearn.feature_selection |
| Model-Based Selection      | Usa modelos (árboles, Lasso) para elegir features   | SelectFromModel |
| Recursive Feature Elimination (RFE) | Elimina recursivamente según importancia | sklearn.feature_selection |
| BorutaPy                   | Basado en Random Forest, robusto y automatizado     | boruta |
| Variance Threshold         | Elimina features con varianza baja                  | sklearn |

## 2. 🔄 Feature Transformation

| Transformación         | Descripción                          | Librerías |
|------------------------|--------------------------------------|-----------|
| Scaling                | StandardScaler, MinMaxScaler         | sklearn.preprocessing |
| Log, sqrt, Box-Cox     | Suaviza distribuciones sesgadas      | numpy, scipy.stats |
| QuantileTransformer    | Transforma a distribuciones uniformes o normales | sklearn |
| PolynomialFeatures     | Combinaciones de variables no lineales | sklearn |
| Binning                | Convertir variables numéricas a categorías (edad, salario) | pandas.cut, pd.qcut |
| OneHot Encoding        | Convierte categorías en columnas binarias | pandas.get_dummies, OneHotEncoder |
| Label Encoding         | Convierte categorías a números       | sklearn.LabelEncoder |
| Ordinal Encoding       | Codificación con orden               | category_encoders.OrdinalEncoder |

### 🎯 Ejemplos de Binning

In [None]:

import pandas as pd

# Binning por rangos manuales
df['rango_edad'] = pd.cut(df['edad'], bins=[0, 18, 35, 60, 100], labels=['Niño', 'Joven', 'Adulto', 'Mayor'])

# Binning por percentiles
df['rango_salario'] = pd.qcut(df['salario'], q=4, labels=['Bajo', 'Medio-Bajo', 'Medio-Alto', 'Alto'])
```

### 🎯 Ejemplos de Codificación

In [None]:

# OneHot Encoding
df_encoded = pd.get_dummies(df, columns=['genero', 'ciudad'])

# Label Encoding
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['genero_le'] = le.fit_transform(df['genero'])
```

## 3. 🧼 Imputación de Valores Faltantes

| Tipo de Variable | Técnicas comunes                          | Librerías |
|------------------|-------------------------------------------|-----------|
| Numéricas         | Media, mediana, KNN, regresión, ffill    | sklearn.impute, fancyimpute |
| Categóricas       | Moda, constante “Missing”                | SimpleImputer, fillna() |

## 4. 🔍 Detección y Control de Outliers

| Técnica                  | Descripción                             | Librerías |
|-------------------------|-----------------------------------------|-----------|
| Z-score / IQR           | Detecta extremos estadísticos           | scipy, numpy |
| Winsorization           | Recorta valores extremos                | scipy.stats.mstats |
| Capping by Percentile   | Corta valores por p1-p99, p5-p95        | numpy.percentile, np.clip |
| Isolation Forest        | Detecta outliers con árboles            | sklearn.ensemble |
| Local Outlier Factor    | Basado en densidad                      | sklearn.neighbors |

In [None]:

# Capping por percentil
import numpy as np
q01, q99 = np.percentile(df['columna'], [1, 99])
df['columna'] = np.clip(df['columna'], q01, q99)


## 5. 🧾 Casting de Tipos

In [None]:

df['fecha'] = pd.to_datetime(df['fecha'])
df['categoria'] = df['categoria'].astype('category')
df['valor'] = pd.to_numeric(df['valor'], errors='coerce')


## ✅ Buenas Prácticas

- Documentar cada transformación
- Usar pipelines (sklearn.Pipeline)
- No usar datos del test para imputar o escalar
- Evaluar cada paso con validación cruzada

## 📚 Librerías Recomendadas

- pandas, numpy
- scikit-learn
- imbalanced-learn
- category_encoders
- fancyimpute
- scipy.stats
- shap, eli5
