# Clase 14 - Feature Engineering 📎

MDS7202: Laboratorio de Programación Científica para Ciencia de Datos
Profesor: Ignacio Meza De la jara

## Recapitulemos 🤠






    📝 Recordemos por que usamos este flujo! 

MLOps, o Operaciones de Aprendizaje Automático, es un conjunto de prácticas y herramientas que automatizan y gestionan el ciclo de vida del aprendizaje automático desde el desarrollo hasta la implementación. Mejora la eficiencia, consistencia, escalabilidad, reproducibilidad y colaboración entre los científicos de datos, los ingenieros de aprendizaje automático y otras partes interesadas. MLOps ayuda a las organizaciones a crear, implementar y administrar modelos de aprendizaje automático de manera confiable, escalable y eficiente, lo que en última instancia mejora la calidad de los modelos y facilita su implementación en producción.

![ML ops](https://camo.githubusercontent.com/4724bc1636a3fee34f87a1fac991fc4ccd270c0a3a510db04394f90b05d065eb/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f4d4453373230322f4d4453373230322f6d61696e2f7265637572736f732f323032332d30312f31332d4544412f6d65746f646f6c6f6769612e706e67)

## Objetivos de la Clase 🎯



- Comprender qué son los métodos de aprendizajes automático.
- Comprender qué son las features en el aprendizaje automático y por qué son importantes.
- Aprender técnicas de selección de características, como la eliminación de características redundantes o irrelevantes.
- Aprender técnicas de transformación de características, como la normalización o la creación de características sintéticas.
- Comprender que las características afectan el rendimiento del modelo y cómo evaluar las características seleccionadas.
- Aprender a aplicar técnicas de feature engineering utilizando Scikit-Learn.
- Aprender buenas prácticas y evitar errores comunes al aplicar técnicas de feature engineering.
- Aprender a interpretar los resultados y las limitaciones de las técnicas de feature engineering.


## ¿Que es Machine Learning? 🤔

Machine Learning es un subcampo de la inteligencia artificial (IA) que se enfoca en el desarrollo de algoritmos y modelos informáticos que permiten a las computadoras aprender y mejorar automáticamente a través de la experiencia, sin ser programadas explícitamente para realizar tareas específicas.

En lugar de ser programadas con reglas predefinidas, las máquinas de aprendizaje automático pueden aprender y adaptarse a partir de datos de entrada, identificando patrones, haciendo predicciones y tomando decisiones basadas en la información disponible. Estos modelos son entrenados utilizando datos históricos y retroalimentación, y pueden ajustarse y mejorar con el tiempo a medida que se les expone a más datos.

<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/machine_learning.png?raw=true' width=700 />

### Esquema General de Machine Learning


#### Unsupervised Learning / Aprendizaje No Supervisado

Técnicas que no requieren datos etiquetados para entrenar modelos predictivos. Dentro de estos algoritmos encontramos los siguientes grupos: 


- **Clustering:** Técnicas para agrupar observaciones por su similitud a través de métricas de distancia (como la distancia euclideana por ejemplo). Permite encontrar grupos que no son claros ante nuestro criterio. Por ejemplo, agrupar clientes según sus características.


- **Reducción de Dimensionalidad:** Conjuntos de técnicas que permiten representar datos en menos dimensiones que las originales. Su utilidad radica tanto en mejorar el rendimiento de los clasificadores como también en permitir visualizar datos. Ejemplo: Usar T-SNE para proyectar los datos del Better Life Index en dos dimensiones. 

   
### Supervised Learning / Aprendizaje Supervisado

Técnicas que requieren datos etiquetados para entrenar modelos predictivos. Dentro de estos algoritmos encontramos los siguientes grupos:


- **Clasificación:** Tarea que consiste en predecir una clase/categoría. Ejemplo: Predecir si una persona tiene caries o no a partir de una imagen.


- **Regresión:** Tarea que consiste en predecir un número real. Ejemplo: A partir del registro metereológico, elaborar un clasificador que permita predecir la temperatura de mañana.

## ¿Qué es Feature Engineering? 🧮



Feature engineering es el proceso de seleccionar y transformar características relevantes de entrada para construir un modelo de aprendizaje automático preciso y eficiente.

    ❓ ¿se necesita algún conocimiento para realizar feature engineering?

### ¿Por que es importante? 🤨

Muchos de los algoritmos de aprendizaje automatico **poseen un mejor desempeño cuando los valores de las features** (aka columnas) **se transforman a un valor facil de interpretar por los modelos**. Por otro lado, datos sucios pueden entorpecer las predicciones generadas por nuestros modelos, al igual que las escalas en que se presentan los datos. Por esto, **es relevante que las features que utilizemos se encuentren en escalas similares y con distribuciones relativamente similares a la distribución normal**.

Consideren los siguientes ejemplos:

**Ejemplo 1**

- El gráfico de la derecha se grafica una variable con respecto a otra sin escalar 
- El gráfico de la izquierda muestra ambas variables estandarizadas:

> **Pregunta ❓:** ¿Es entendible para un humano el gráfico de la derecha?¿Qué se puede interpretar de este?¿Qué efectos tendrá usar las variables no escaladas (izquierda) vs las escaladas (derecha) usando algún modelo predictivo basado en distancias?

<img src='./resources/escalamiento_2.png' width=1000 />

<div align='center'>
    Fuente: <a href='https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html'>Compare the effect of different scalers on data with outliers en el User Guide de Scikit-learn</a>.
</div>

<div align='center'>
    Los Datos son del dataset <a href='https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset'>California Housing dataset</a>. 
</div>

**Ejemplo 2**

- El gráfico de la derecha se grafica una variable un conjunto de variables en 2 dimensiones diferenciadas por la clase. 
- El gráfico de la izquierda se grafica el mismo grafico pero con el conjunto de variables transformado:

> **Pregunta ❓:** ¿Cual de los dos conjuntos de datos es mas facil de separar?¿Que efectos tendría utilizar las variables en el estado original contra el estado final para algún modelo lineal?.

<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/feature-engineering1.jpg?raw=true' width=1000 />

<div align='center'>
    Fuente: <a href='https://www.kdnuggets.com/2018/12/feature-engineering-explained.html'>Feature Engineering for Machine Learning: 10 Examples</a>.
</div>

### ¿Pero que hay del Deep Learning, no que solucionaba este problema? 😣



Si bien uno de los aspectos mas relevantes del Deep Learning es la extracción automatica de las features desde los datos, sin embargo:

- El desarrollo actual de deep learning no nos permite abstraer todas las features desde los datos.
- Muchas empresas no utilizan deep learning para generar modelos, ya sea por capacidad o simplemente porque no lo necesitan. **Recalcar, el deep learning no es la solución para todo!** [Ejemplo](https://arxiv.org/pdf/2106.03253.pdf)
- Deep learning suele tener buenos resultados en datos no estructurados, sin embargo en datos tabulares no.

### ¿Como podemos realizar este proceso? 💻



Actualmente podemos realizar feature engineering de muchas formas, especificamente no necesitamos mas que `numpy` o `Pandas` para generar features, pero hay un sin fin de herramientas que nos pueden facilitar la vida.

En aspectos generales, la extracción de caracteristicas la podemos realizar de las siguientes formas:

- **Python**: Es uno de los lenguajes de programación más populares para el aprendizaje automático y cuenta con varias bibliotecas útiles para el feature engineering, como Pandas, NumPy y Scikit-learn.

- **R**: Es otro lenguaje de programación popular para el aprendizaje automático y cuenta con bibliotecas como dplyr y tidyr para el manejo y transformación de datos.

- **SQL**: Puede ser utilizado para realizar consultas y transformaciones en bases de datos para la selección y extracción de características.

- **Big Data**: Tecnologías como Hadoop y Spark permiten el procesamiento y análisis de grandes cantidades de datos y pueden ser útiles para el feature engineering en grandes conjuntos de datos.

- **AutoML**: Herramientas como H2O.ai o DataRobot pueden automatizar parte del proceso de feature engineering, utilizando técnicas de aprendizaje automático para seleccionar y transformar automáticamente las características.

>Importante: Para efectos de este curso nos enfocaremos en el desarrollo de features utilizando `Python`, sin embargo en la industria se van a encontrar con la utilización de `SQL`, `PySpark`, `DataFlow`, entre otras para la extracción.




<img src="https://www.tecton.ai/wp-content/uploads/2020/10/whatisfeaturestore3.svg" width=400/>

## Veamos nuestra librería core: Scikit-Lern ⚒️

<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/a60ef458182c2f26af3aaf4f8e0446a8512d4f75/clases/2022-01/15_Preprocesamiento_Intro_a_Scikit-Learn/resources/scikit-learn.png" width=400/>

[`scikit-learn`](https://scikit-learn.org/stable/) es probablemente una de las librerías de Aprendizaje Automático más populares para Python. *Open-source* y construida sobre `numpy`, `scipy` y `matplotlib`, ofrece interfaces y flujos de trabajos (*frameworks*) simples y eficientes para construir aplicaciones enfocadas análisis de datos y predicción.
Sus *APIs* permite generar código limpio y está provista de una extensa documentación.

> Parentesis: API: **Application Programming Interface / Interfaz de programación de aplicaciones** - Son las interfaces comunes (funciones, objetos, métodos, etc..) que un software o librería ofrece para comunicarse con el resto. Esta define entre otras cosas: el tipo de llamadas o funciones que pueden ser hechas, como hacerlas, el tipo de datos de entrada y salida, las conveciones, etc...

Una gran ventaja de Scikit-learn consiste en su estructura transversal de clases y herencia. La mayoría de clase pertenece a alguna de estas dos categorías:

* *`transformers`*: Permite transformar datos input antes de utilizar algoritmos de aprendizaje sobre ellos. Con las clases *`transformers`*, se pueden realizar imputaciones de valores faltantes, estandrización de variables, escalamientos y seleccion de caracterísiticas por medio de algoritmos especializados. Esto comunmente se logra a través de las interfaces
    - `fit` que permite aprender los parámetros de la transformación, por ejemplo la media y varianza en la normalización.
    - `transform` que aplica la transformación a los datos.
    - `fit_transform` permite ambas operaciones al mismo tiempo.

* *`estimators`*: Proveen los algoritmos de aprendizaje automático a través de los métodos `fit` y `predict`.

El método usual de importación se basa en seleccionar un submódulo de la librería indicando (de manera opcional) el objeto que se utilizará. Por ejemplo, si se desea utilizar el escalador de datos Min-Máx del submódulo `preprocessing`, se haría de la manera usual, por medio de:

```python
from sklearn.preprocessing import StandardScaler
```

> **Nota**: No se recomienda importar la librería completa `import sklearn as sk` pues su estructura de submódulos es suficientemente grande, como para considerar cada uno como una librería. 


A lo largo del curso se estudiarán distintos componentes de esta librería. Durante esta clase nos centraremos en los módulos `preprocessing`, `compose` y `pipeline`.

## Operaciones Comunes de Feature Engineering

Debido a la importancia que posee de la etapa de Feature Engineering en los proyectos de ML, se han desarrollado muchas técnicas para agilizar el proceso. En esta sección veremos algunas de las más conocidas, entre las que se encuentran: **Missing Values**, **escalamiento de variables**, **discretización**, **codificación de características categóricas** y **la generación de las características cruzadas** y **características posicionales**.

Sin embargo, a pesar de que no forma parte de un proceso de feature Engineering tradicional, comentaremos que es el **data-drift** y porque es importante que lo midas al momento de trabajar con tus variables.

### Missing Values

In [1]:
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import norm

# El conjunto a trabajar es el de entrenamiento
df = pd.read_csv(
    "https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA//train.csv",
    index_col="Id",
)
df

Unnamed: 0_level_0,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,2,2008,WD,Normal,208500
2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,...,0,,,,0,5,2007,WD,Normal,181500
3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,...,0,,,,0,9,2008,WD,Normal,223500
4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,,0,2,2006,WD,Abnorml,140000
5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,8,2007,WD,Normal,175000
1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,Inside,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,4,2010,WD,Normal,142125


In [5]:
df[df.isna().any(axis=1)]

Unnamed: 0_level_0,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,LotConfig,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,2,2008,WD,Normal,208500
2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,FR2,...,0,,,,0,5,2007,WD,Normal,181500
3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,Inside,...,0,,,,0,9,2008,WD,Normal,223500
4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,Corner,...,0,,,,0,2,2006,WD,Abnorml,140000
5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,FR2,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,8,2007,WD,Normal,175000
1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,Inside,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,Inside,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,Inside,...,0,,,,0,4,2010,WD,Normal,142125


## Ya pero quiero aprender mas... ¿algo para leer? 🤔

- Para comenzar pueden visualizar con mayor profundidad la documentación de Scikit-Learn enfocada en la extracción de features: https://scikit-learn.org/stable/modules/feature_extraction.html
- Complementar la clase leyendo el capitulo 5 del libro [Designing Machine Learning Systems](https://www.amazon.com/Designing-Machine-Learning-Systems-Production-Ready/dp/1098107969)

- Leer capitulo 1 del libro [Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and MLOps](https://www.amazon.com/-/es/Valliappa-Lakshmanan/dp/1098115783/ref=pd_bxgy_img_sccl_1/142-9514380-0202369?pd_rd_w=JQSaa&content-id=amzn1.sym.26a5c67f-1a30-486b-bb90-b523ad38d5a0&pf_rd_p=26a5c67f-1a30-486b-bb90-b523ad38d5a0&pf_rd_r=BJE9WMJ9X1QQMYF4C3EJ&pd_rd_wg=y78Jr&pd_rd_r=6a1994c2-2734-428a-a270-ded23f892987&pd_rd_i=1098115783&psc=1)