# Feature Engineering

# Por qué? Cuándo?

Los datos a veces pueden ser "tuneados" para **mejorar la capacidad de expresar el problema**, para **ayudar al modelo a aprender** más fácil.

Ej: en un problema de predecir tráfico en una calle por momento del día, en lugar de dar una columna de entrada con un datetime, dar 2 columnas con día de la semana y momento del día ya extraídos.

Se puede ver como parte de la fase de **limpieza y pre procesado**, aunque muchos lo piensan como algo diferente. También es borroso el límite con técnicas de selección de features (como las cosas que vimos en el análisis exploratorio).

En qué difieren? El preprocesado y limpieza más básico deja datos "listos". Feature engineering deja datos "más expresivos".

![](files/images/ml_process.svg)

# Cómo se hace?

- No es una ciencia exacta. 
- Depende mucho del **problema** y de nuestra habilidad para descubrir cómo **expresar mejor la información**.
- En algunos modelos y problemas **no** es necesario (ej: redes neuronales con imágenes).
- Es un proceso **iterativo**: idear features, probar modelos con las features, seleccionar, volver a empezar.

Hoy vamos a ver varios ejemplos comunes de creación de features. Pero no es una "lista completa de técnicas de feature engineering".

# Técnica 1: features no lineales para modelos lineales

a.k.a. Términos de interacción

**Para qué?** Para poder seguir usando un modelo simple lineal (Linear Regression, Logistic Regression), con datos que no son lineales.

Los modelos lineales solo pueden aprender **rectas**. 

Si mis datos no son una recta (regresión) o separables por una recta (clasificación), el modelo no sirve!

Pero si nuestros datos de entrada ya están elevados a algún exponente, ahora sí **una recta puede acomodarse a mis datos**.

![](files/images/non_linear_data.svg)

![](files/images/linearized_data.svg)

- Se pueden incluso agregar features que operen entre variables! (ej: x1 * x2)
- **Super simple**.
- Me permite seguir usando modelos que son super rápidos y simples en casos que antes no podía.
- Hay que probar (qué features, a qué exponentes, etc).

# Técnica 2: crear features extrayendo info de otras features

Básicamente, encontramos columnas que contienen **información "escondida"**, y separamos esa información en **nuevas columnas**.

![](files/images/titles_before.svg)

![](files/images/titles_after.svg)

Usos típicos:

- Momento del día.
- Solo fecha / solo hora.
- Medidas o coordenadas por separado (ej: latitud y longitud como valores separados).
- Región geográfica (extraer país, continente, zona, etc).
- Clase de producto / cliente / etc.

- Evita que el modelo tenga que aprender a extraer esa información. **Aprende más rápido**.
- Depende de nuestra viveza para descubrir nuevas features.

# Técnica 3: binning / redondeo de números

Muchas veces la info numérica puede tener demasiado detalle, **facilitando sobreentrenamiento** o **complicando encontrar límites** duros (ej: cambio de precio por kilo en envío).

Redondear o convertir a rangos fijos (binning) esos números puede ayudar mucho.

![](files/images/rounding_before.svg)

![](files/images/rounding_after.svg)

- Lo que estamos haciendo es **sacar ruido** y dejar información.
- **Puede evitar que el modelo se sobreentrene** en decimales/valores aleatorios que no definen al problema.
- Evita que el modelo tenga que aprender los rangos significativos por si solo. **Aprende más rápido**.
- Depende de nuestra habilidad para determinar el nivel de precisión significativo para cada feature.

# Técnica 4: features a partir de datos pasados

Esto aplica cuando tenemos datos que se ubican en el **tiempo** (ej: ventas individuales con fechas).

Muchas veces podemos darle a cada sample un **"resumen" de datos pasados relacionados** a ese mismo sample.

![](files/images/time_grouping_before.svg)

![](files/images/time_grouping_after.svg)

- **CUIDADO!**: nunca incluir data futura!! (cuando tengamos que predecir demora de una venta, vamos a conocer solo el pasado, no tenemos bola de cristal)
- Puede aportar **mucha info nueva** al modelo, que de otra forma sería extremádamente difícil de aprender.
- Depende de nuestra habilidad para encontrar esa relaciones entre samples, no siempre es obvio.

# Y mucho más...

Como dijimos al inicio, depende mucho de nuestro **problema** y nuestra habilidad para **detectar información útil** en los datos.