# Feature Engineering para modelos de regresión.

Como sabemos, para poder entrear modelos predictivos, necesitamos el uso de variables numericas.
En distintas sitaciones los datos seran numericos, pero lo mas comun es que nuestros sets de datos de entrenamiento tengan todo tipo de variables. Para poder darles uso tendremos que trabajar esas variables.

In [1]:
import pandas as pd
import numpy as np

## Tipos de variables predictivas.

![Texto alternativo](img/Tipos-de-variables.png)

Estas variables(columas) pueden ser principalmente de tipo cuantitativas o cualitativas.
Las que nos interesan para los modelos de predicción son las variables cuantitativas. Por ello, tendremos que transformar las variables cualitativas necesarias a variables cuantitativas.

_____________________________________________________________

### Variables Numéricas (Cuantitativas)
- **Continuas.**

    Toman infinitos valores dentro de un rango.

    Ejemplos: altura, peso, ingresos, temperatura.

    ✅ Usadas directamente en modelos como regresión, árboles, redes neuronales.


- **Discretas.**

    Toman valores enteros específicos, normalmente resultado de conteo.

    Ejemplos: número de hijos, número de productos vendidos.

    ✅ También usadas directamente, aunque a veces se convierten en categorías (binning).

#### Metodos de feature engineering para variables numericas.


- **Binnig.**

    Recomendable para variables numericas.

In [2]:
df = pd.read_csv("data/alturas.csv")
bins = [0, 30, 50, 100]
labels = ['<30', '30-50', '>50']

df["Edad_categoria"] = pd.cut(df["Edad"], bins=bins, labels=labels)
df

Unnamed: 0,Nombre,Edad,Altura,Edad_categoria
0,Leonardo S,24,1.82,<30
1,Piero T,25,1.71,<30
2,Marta B,35,1.66,30-50
3,Silvia P,37,1.63,30-50
4,Faro Z,29,1.9,<30
5,Miguel N,27,1.8,<30
6,Alejandro M,28,1.7,<30
7,Cristina M,32,1.6,30-50
8,Francisco P,36,1.74,30-50
9,Jorge D,45,1.72,30-50


____________________________________________________

### Variables Categóricas (Cualitativas)
- **Nominales**

    No tienen orden lógico.

    Ejemplos: color, género, país.

    ⚠️ Necesitan codificación (One-Hot, Label Encoding, etc.).

- **Ordinales**

    Tienen un orden lógico.

    Ejemplos: nivel educativo, satisfacción (bajo, medio, alto).

    ⚠️ Se pueden codificar respetando el orden (Ordinal Encoding).



#### Metodos de feature engineering para variables categóricas.

- **One hot encoding**

In [3]:
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Azul', 'Rojo']
})
df

Unnamed: 0,Color
0,Rojo
1,Azul
2,Verde
3,Azul
4,Rojo


In [15]:
df_encoded = pd.get_dummies(df, columns=['Color'])
df_encoded

Unnamed: 0,Color_Azul,Color_Rojo,Color_Verde
0,False,True,False
1,True,False,False
2,False,False,True
3,True,False,False
4,False,True,False


- **Label encoding.**

In [16]:
df = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Azul', 'Rojo']
})
df

Unnamed: 0,Color
0,Rojo
1,Azul
2,Verde
3,Azul
4,Rojo


In [17]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['Color_encoded'] = le.fit_transform(df['Color'])
df

Unnamed: 0,Color,Color_encoded
0,Rojo,1
1,Azul,0
2,Verde,2
3,Azul,0
4,Rojo,1


¡IMPORTANTEEE!  No lo uses directamente con variables nominales en modelos como regresión lineal o redes neuronales, porque el modelo puede pensar que hay un orden jerárquico entre las etiquetas (cuando no lo hay).

- **Ordinal encoding.**

In [18]:
df = pd.DataFrame({
    'Educacion': ['Secundaria', 'Primaria', 'Universidad', 'Primaria', 'Secundaria']
})
df

Unnamed: 0,Educacion
0,Secundaria
1,Primaria
2,Universidad
3,Primaria
4,Secundaria


In [20]:
from sklearn.preprocessing import OrdinalEncoder

orden = [['Primaria', 'Secundaria', 'Universidad']]

encoder = OrdinalEncoder(categories=orden)
df['Educacion_encoded'] = encoder.fit_transform(df[['Educacion']])
df

Unnamed: 0,Educacion,Educacion_encoded
0,Secundaria,1.0
1,Primaria,0.0
2,Universidad,2.0
3,Primaria,0.0
4,Secundaria,1.0


_____________________________________________________

## Resumen según tipo y tratamiento.

| Tipo de Variable | Subtipo     | Transformación Común             | Modelos compatibles              |
| ---------------- | ----------- | -------------------------------- | -------------------------------- |
| Numérica         | Continua    | Escalado, log, binning           | Todos                            |
| Numérica         | Discreta    | Como enteros o categorías        | Todos                            |
| Categórica       | Nominal     | One-hot, Label Encoding          | Todos (¡cuidado con regresión!)  |
| Categórica       | Ordinal     | Ordinal Encoding                 | Todos                            |
| Temporal         | Fecha/hora  | Extracción de componentes, lags  | Series temporales, clasificación |
| Geoespacial      | Coordenadas | Distancias, agrupaciones         | Mapas, clustering                |
| Texto            | Libre       | Bag-of-words, TF-IDF, embeddings | Modelos NLP, regresión           |
| Booleana         | Binaria     | Usar como 0/1                    | Todos                            |


# Tolerancia de los modelos segun el tipo de categoria.


| Modelo                                     | Variables Recomendadas                      |
|-------------------------------------------|---------------------------------------------|
| Regresión lineal/logística                 | Numéricas, categóricas codificadas          |
| Árboles, Random Forest                     | Todos (pueden manejar categóricas)          |
| XGBoost, LightGBM                          | Todos (excelente con categóricas ordinales) |
| Redes neuronales                           | Numéricas (mejor escaladas), embeddings     |
| Modelos de NLP (BERT, etc)                 | Texto (no necesitan features manuales)      |
| Modelos de series temporales (ARIMA, LSTM) | Temporales, numéricas                       |
