# üß© Gu√≠a Pr√°ctica de Feature Engineering para Ciencia de Datos

## 1. üß† Feature Selection (Selecci√≥n de Variables)

| T√©cnica                     | Descripci√≥n                                          | Librer√≠as |
|----------------------------|------------------------------------------------------|-----------|
| Univariate Selection       | Estad√≠sticas como chi¬≤, ANOVA, mutual_info          | sklearn.feature_selection |
| Model-Based Selection      | Usa modelos (√°rboles, Lasso) para elegir features   | SelectFromModel |
| Recursive Feature Elimination (RFE) | Elimina recursivamente seg√∫n importancia | sklearn.feature_selection |
| BorutaPy                   | Basado en Random Forest, robusto y automatizado     | boruta |
| Variance Threshold         | Elimina features con varianza baja                  | sklearn |

## 2. üîÑ Feature Transformation

| Transformaci√≥n         | Descripci√≥n                          | Librer√≠as |
|------------------------|--------------------------------------|-----------|
| Scaling                | StandardScaler, MinMaxScaler         | sklearn.preprocessing |
| Log, sqrt, Box-Cox     | Suaviza distribuciones sesgadas      | numpy, scipy.stats |
| QuantileTransformer    | Transforma a distribuciones uniformes o normales | sklearn |
| PolynomialFeatures     | Combinaciones de variables no lineales | sklearn |
| Binning                | Convertir variables num√©ricas a categor√≠as (edad, salario) | pandas.cut, pd.qcut |
| OneHot Encoding        | Convierte categor√≠as en columnas binarias | pandas.get_dummies, OneHotEncoder |
| Label Encoding         | Convierte categor√≠as a n√∫meros       | sklearn.LabelEncoder |
| Ordinal Encoding       | Codificaci√≥n con orden               | category_encoders.OrdinalEncoder |

### üéØ Ejemplos de Binning

In [None]:

import pandas as pd

# Binning por rangos manuales
df['rango_edad'] = pd.cut(df['edad'], bins=[0, 18, 35, 60, 100], labels=['Ni√±o', 'Joven', 'Adulto', 'Mayor'])

# Binning por percentiles
df['rango_salario'] = pd.qcut(df['salario'], q=4, labels=['Bajo', 'Medio-Bajo', 'Medio-Alto', 'Alto'])
```

### üéØ Ejemplos de Codificaci√≥n

In [None]:

# OneHot Encoding
df_encoded = pd.get_dummies(df, columns=['genero', 'ciudad'])

# Label Encoding
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['genero_le'] = le.fit_transform(df['genero'])
```

## 3. üßº Imputaci√≥n de Valores Faltantes

| Tipo de Variable | T√©cnicas comunes                          | Librer√≠as |
|------------------|-------------------------------------------|-----------|
| Num√©ricas         | Media, mediana, KNN, regresi√≥n, ffill    | sklearn.impute, fancyimpute |
| Categ√≥ricas       | Moda, constante ‚ÄúMissing‚Äù                | SimpleImputer, fillna() |

## 4. üîç Detecci√≥n y Control de Outliers

| T√©cnica                  | Descripci√≥n                             | Librer√≠as |
|-------------------------|-----------------------------------------|-----------|
| Z-score / IQR           | Detecta extremos estad√≠sticos           | scipy, numpy |
| Winsorization           | Recorta valores extremos                | scipy.stats.mstats |
| Capping by Percentile   | Corta valores por p1-p99, p5-p95        | numpy.percentile, np.clip |
| Isolation Forest        | Detecta outliers con √°rboles            | sklearn.ensemble |
| Local Outlier Factor    | Basado en densidad                      | sklearn.neighbors |

In [None]:

# Capping por percentil
import numpy as np
q01, q99 = np.percentile(df['columna'], [1, 99])
df['columna'] = np.clip(df['columna'], q01, q99)


## 5. üßæ Casting de Tipos

In [None]:

df['fecha'] = pd.to_datetime(df['fecha'])
df['categoria'] = df['categoria'].astype('category')
df['valor'] = pd.to_numeric(df['valor'], errors='coerce')


## ‚úÖ Buenas Pr√°cticas

- Documentar cada transformaci√≥n
- Usar pipelines (sklearn.Pipeline)
- No usar datos del test para imputar o escalar
- Evaluar cada paso con validaci√≥n cruzada

## üìö Librer√≠as Recomendadas

- pandas, numpy
- scikit-learn
- imbalanced-learn
- category_encoders
- fancyimpute
- scipy.stats
- shap, eli5
