# Clase 14 - Feature Engineering 📎

- MDS7202: Laboratorio de Programación Científica para Ciencia de Datos
- Profesor: Ignacio Meza De la jara

## Recapitulemos 🤠






    📝 Recordemos por que usamos este flujo! 

MLOps, o Operaciones de Aprendizaje Automático, es un conjunto de prácticas y herramientas que automatizan y gestionan el ciclo de vida del aprendizaje automático desde el desarrollo hasta la implementación. Mejora la eficiencia, consistencia, escalabilidad, reproducibilidad y colaboración entre los científicos de datos, los ingenieros de aprendizaje automático y otras partes interesadas. MLOps ayuda a las organizaciones a crear, implementar y administrar modelos de aprendizaje automático de manera confiable, escalable y eficiente, lo que en última instancia mejora la calidad de los modelos y facilita su implementación en producción.

![ML ops](https://camo.githubusercontent.com/4724bc1636a3fee34f87a1fac991fc4ccd270c0a3a510db04394f90b05d065eb/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f4d4453373230322f4d4453373230322f6d61696e2f7265637572736f732f323032332d30312f31332d4544412f6d65746f646f6c6f6769612e706e67)

## Objetivos de la Clase 🎯



- Comprender qué son los métodos de aprendizajes automático.
- Comprender qué son las features en el aprendizaje automático y por qué son importantes.
- Aprender técnicas de selección de características, como la eliminación de características redundantes o irrelevantes.
- Aprender técnicas de transformación de características, como la normalización o la creación de características sintéticas.
- Comprender que las características afectan el rendimiento del modelo y cómo evaluar las características seleccionadas.
- Aprender a aplicar técnicas de feature engineering utilizando Scikit-Learn.

señalar que en la segunda se van a hacer nuevas caracteristicas


## ¿Que es Machine Learning? 🤔

Machine Learning es un subcampo de la inteligencia artificial (IA) que se enfoca en el desarrollo de algoritmos y modelos informáticos que permiten a las computadoras aprender y mejorar automáticamente a través de la experiencia, sin ser programadas explícitamente para realizar tareas específicas.

En lugar de ser programadas con reglas predefinidas, las máquinas de aprendizaje automático pueden aprender y adaptarse a partir de datos de entrada, identificando patrones, haciendo predicciones y tomando decisiones basadas en la información disponible. Estos modelos son entrenados utilizando datos históricos y retroalimentación, y pueden ajustarse y mejorar con el tiempo a medida que se les expone a más datos.

<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/machine_learning.png?raw=true' width=700 />

### Esquema General de Machine Learning


#### Unsupervised Learning / Aprendizaje No Supervisado

Técnicas que no requieren datos etiquetados para entrenar modelos predictivos. Dentro de estos algoritmos encontramos los siguientes grupos: 


- **Clustering:** Técnicas para agrupar observaciones por su similitud a través de métricas de distancia (como la distancia euclideana por ejemplo). Permite encontrar grupos que no son claros ante nuestro criterio. Por ejemplo, agrupar clientes según sus características.


- **Reducción de Dimensionalidad:** Conjuntos de técnicas que permiten representar datos en menos dimensiones que las originales. Su utilidad radica tanto en mejorar el rendimiento de los clasificadores como también en permitir visualizar datos. Ejemplo: Usar T-SNE para proyectar los datos del Better Life Index en dos dimensiones. 

         
<img src='https://miro.medium.com/v2/resize:fit:809/0*tamvSiqDneDfw2Vr' width=400 />            

   
### Supervised Learning / Aprendizaje Supervisado

Técnicas que requieren datos etiquetados para entrenar modelos predictivos. Dentro de estos algoritmos encontramos los siguientes grupos:


- **Clasificación:** Tarea que consiste en predecir una clase/categoría. Ejemplo: Predecir si una persona tiene caries o no a partir de una imagen.


- **Regresión:** Tarea que consiste en predecir un número real. Ejemplo: A partir del registro metereológico, elaborar un clasificador que permita predecir la temperatura de mañana.

<img src='https://static.javatpoint.com/tutorial/machine-learning/images/supervised-machine-learning.png' width=400 />

> **Pregunta ❓:** ¿Qué necesito para desarrollar un modelo predictivo?

## ¿Qué es Feature Engineering? 🧮



Feature engineering es el proceso de seleccionar, transformar y crear características relevantes de entrada para construir un modelo de aprendizaje automático preciso y eficiente.

> **Pregunta ❓:** ¿Se necesita algún conocimiento previo para realizar Feature Engineering?

## Problema a visitar: House Pricing

![House Pricing](https://storage.googleapis.com/kaggle-competitions/kaggle/5407/media/housesbanner.png)

Fuente: https://www.kaggle.com/c/house-prices-advanced-regression-techniques

Al igual que en la clase anterior, el dataset **`house pricing`** consiste en 80 variables (79 variables explicativas más una variable objetivo) que describen aspectos fundamentales de hogares residenciales en la ciudad de *Ames, Iowa*. 

La variable objetivo es el precio final de cada hogar (regresión)

In [None]:
# Importamos librerías a utilizar en la clase
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import norm

import plotly.express as px

In [None]:
# El conjunto a trabajar es el de entrenamiento
df = pd.read_csv(
    "https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA//train.csv",
    index_col="Id",
)

> **Actividad 📎**: Imaginen que nos pasan estos datos y nos señalan que el conjunto de datos esta compuesto por:

- Terreno 🏔️
        "LotArea",  # Area del terreno
        "LandSlope",  # Pendiente del terreno
        "Neighborhood",  # Barrio
- Metadatos de la Vivienda 📆
        "BldgType",  # Tipo de vivienda
        "YearBuilt",  # Año de construcción
        "YearRemodAdd",  # Año de remodelación
        "Utilities",  # Agua, luz, etc...
- Materiales 🧱
        "Foundation",  # Fundación de la vivienda
        "RoofMatl",  # Material del techo
        "RoofStyle",  # Estilo del techo
        "Exterior1st",  # Material del Exterior
        "ExterCond",  # Condición del material exterior
- Interior de la casa 🏡
        "GrLivArea",  # Area habitable sobre el nivel del suelo.
        "1stFlrSF",  # Area primer piso
        "2ndFlrSF",  # Area segundo piso
        "FullBath",  # Baños completos
        "HalfBath",  # Baños de visita?
        "BedroomAbvGr",  # Piezas
        "KitchenAbvGr",  # Cocinas
        "KitchenQual",  # Calidad de la cocina
- Sótano 🪨
        "TotalBsmtSF",  # Total sótano
        "BsmtCond",  # Condición del sótano
- Garaje 🚗
        "GarageType",  # Tipo de garaje
        "GarageCars",  # Cantidad de autos por garaje
- Piscina 🤽‍♂️
        "PoolArea",  # Area de la piscina
        "PoolQC",  # Calidad de la piscina
- Calefacción y Aire 🌦️
        "Heating",  # Calefacción
        "HeatingQC",  # Calidad de la Calefacción
        "CentralAir",  # Aire Acondicionado Central
- Calidad y Condición 🌟
        "OverallQual",  # Calidad general
        "OverallCond",  # Condición general actual
- Datos de la venta  💵
        "SaleType",  # Tipo de venta
        "SaleCondition",  # Condición de la vivienda en la venta
        "SalePrice",  # Precio de la venta

In [None]:
df.head(5)

### ¿Por que es importante? 🤨

Muchos de los algoritmos de aprendizaje automatico **poseen un mejor desempeño cuando los valores de las features** (aka columnas) **se transforman a un valor facil de interpretar por los modelos**. Por otro lado, datos sucios pueden entorpecer las predicciones generadas por nuestros modelos, al igual que las escalas en que se presentan los datos. Por esto, **es relevante que las features que utilizemos se encuentren en escalas similares y con distribuciones relativamente similares a la distribución normal**.

> Importante ❗: Gran parte de los modelos que se generan en la industria son centrados en datos, a diferencia de la academia el trabajo no se centra en el desarrollo de modelos ultra complejos, sino en modelos completamente estandarizados y por ello se necesita un mayor tiempo en la extracción de features desde los datos. Fuente interesante: [Data-Centric Approach vs Model-Centric Approach in Machine Learning](https://neptune.ai/blog/data-centric-vs-model-centric-machine-learning).

Consideren los siguientes ejemplos:

**Ejemplo 1**

- El gráfico de la derecha se grafica una variable con respecto a otra sin escalar 
- El gráfico de la izquierda muestra ambas variables estandarizadas:

> **Pregunta ❓:** ¿Es entendible para un humano el gráfico de la derecha?¿Qué se puede interpretar de este?¿Qué efectos tendrá usar las variables no escaladas (izquierda) vs las escaladas (derecha) usando algún modelo predictivo basado en distancias?

<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/escalamiento_2.png?raw=true' width=1000 />

<div align='center'>
    Fuente: <a href='https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html'>Compare the effect of different scalers on data with outliers en el User Guide de Scikit-learn</a>.
</div>

<div align='center'>
    Los Datos son del dataset <a href='https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset'>California Housing dataset</a>. 
</div>

**Ejemplo 2**

- El gráfico de la derecha se grafica una variable un conjunto de variables en 2 dimensiones diferenciadas por la clase. 
- El gráfico de la izquierda se grafica el mismo grafico pero con el conjunto de variables transformado:

> **Pregunta ❓:** ¿Cual de los dos conjuntos de datos es mas facil de separar?¿Que efectos tendría utilizar las variables en el estado original contra el estado final para algún modelo lineal?.

<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/feature-engineering1.jpg?raw=true' width=1000 />

<div align='center'>
    Fuente: <a href='https://www.kdnuggets.com/2018/12/feature-engineering-explained.html'>Feature Engineering for Machine Learning: 10 Examples</a>.
</div>

### ¿Pero que hay del Deep Learning, no que solucionaba este problema? 😣

Si bien uno de los aspectos más relevantes del Deep Learning es la extracción automática de las features desde los datos, sin embargo:

- El desarrollo actual de deep learning no nos permite abstraer todas las features desde los datos.
- Muchas empresas no utilizan deep learning para generar modelos, ya sea por capacidad o simplemente porque no lo necesitan. **Recalcar, el deep learning no es la solución para todo!** [Ejemplo](https://arxiv.org/pdf/2106.03253.pdf)
- Deep learning suele tener buenos resultados en datos no estructurados, sin embargo, en datos tabulares no.

### ¿Como podemos realizar este proceso? 💻



Actualmente podemos realizar feature engineering de muchas formas, especificamente no necesitamos mas que `numpy` o `Pandas` para generar features, pero hay un sin fin de herramientas que nos pueden facilitar la vida.

En aspectos generales, la extracción de caracteristicas la podemos realizar de las siguientes formas:

- **Python**: Es uno de los lenguajes de programación más populares para el aprendizaje automático y cuenta con varias bibliotecas útiles para el feature engineering, como Pandas, NumPy y Scikit-learn.

- **R**: Es otro lenguaje de programación popular para el aprendizaje automático y cuenta con bibliotecas como dplyr y tidyr para el manejo y transformación de datos.

- **SQL**: Puede ser utilizado para realizar consultas y transformaciones en bases de datos para la selección y extracción de características.

- **Big Data**: Tecnologías como Hadoop y Spark permiten el procesamiento y análisis de grandes cantidades de datos y pueden ser útiles para el feature engineering en grandes conjuntos de datos.

- **AutoML**: Herramientas como H2O.ai o DataRobot pueden automatizar parte del proceso de feature engineering, utilizando técnicas de aprendizaje automático para seleccionar y transformar automáticamente las características.

>Importante: Para efectos de este curso nos enfocaremos en el desarrollo de features utilizando `Python`, sin embargo en la industria se van a encontrar con la utilización de `SQL`, `PySpark`, `DataFlow`, entre otras para la extracción.




<img src="https://www.tecton.ai/wp-content/uploads/2020/10/whatisfeaturestore3.svg" width=400/>

## Veamos nuestra librería core: Scikit-Lern ⚒️

<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/a60ef458182c2f26af3aaf4f8e0446a8512d4f75/clases/2022-01/15_Preprocesamiento_Intro_a_Scikit-Learn/resources/scikit-learn.png" width=400/>

[`scikit-learn`](https://scikit-learn.org/stable/) es probablemente una de las librerías de Aprendizaje Automático más populares para Python. *Open-source* y construida sobre `numpy`, `scipy` y `matplotlib`, ofrece interfaces y flujos de trabajos (*frameworks*) simples y eficientes para construir aplicaciones enfocadas análisis de datos y predicción.
Sus *APIs* permite generar código limpio y está provista de una extensa documentación.

> Parentesis: API: **Application Programming Interface / Interfaz de programación de aplicaciones** - Son las interfaces comunes (funciones, objetos, métodos, etc..) que un software o librería ofrece para comunicarse con el resto. Esta define entre otras cosas: el tipo de llamadas o funciones que pueden ser hechas, como hacerlas, el tipo de datos de entrada y salida, las conveciones, etc...

Una gran ventaja de Scikit-learn consiste en su estructura transversal de clases y herencia. La mayoría de clase pertenece a alguna de estas dos categorías:

* *`transformers`*: Permite transformar datos input antes de utilizar algoritmos de aprendizaje sobre ellos. Con las clases *`transformers`*, se pueden realizar imputaciones de valores faltantes, estandrización de variables, escalamientos y seleccion de caracterísiticas por medio de algoritmos especializados. Esto comunmente se logra a través de las interfaces
    - `fit` que permite aprender los parámetros de la transformación, por ejemplo la media y varianza en la normalización.
    - `transform` que aplica la transformación a los datos.
    - `fit_transform` permite ambas operaciones al mismo tiempo.

* *`estimators`*: Proveen los algoritmos de aprendizaje automático a través de los métodos `fit` y `predict`.

El método usual de importación se basa en seleccionar un submódulo de la librería indicando (de manera opcional) el objeto que se utilizará. Por ejemplo, si se desea utilizar el escalador de datos Min-Máx del submódulo `preprocessing`, se haría de la manera usual, por medio de:

```python
from sklearn.preprocessing import StandardScaler
```

> **Nota**: No se recomienda importar la librería completa `import sklearn as sk` pues su estructura de submódulos es suficientemente grande, como para considerar cada uno como una librería. 


A lo largo del curso se estudiarán distintos componentes de esta librería. Durante esta clase nos centraremos en los módulos `preprocessing`, `compose` y `pipeline`.

## Operaciones Comunes de Feature Engineering

Debido a la importancia que posee de la etapa de Feature Engineering en los proyectos de ML, se han desarrollado muchas técnicas para agilizar el proceso. 

Este proceso incluye:

- Creación de nuevas Features a partir de operaciones usando los datos disponibles.
- Transformaciones como las vistas en la clase de preprocesamiento (escalamiento, normalización, one hot encoding para variables categóricas etc...).
- Reducción de Características en la que se combinan/reducen características redundantes (usando por ejemplo, PCA).
- Selección de Características en la que a partir de diversos criterios se seleccionan las características que más aportan al modelo.

El proceso de generar y preprocesar las features requiere mucha creatividad y al mismo conocimiento del dominio del problema.

Para efectos de esta clase revisaremos las siguientes: 

- **Missing Values**
- **Escalamiento de variables**
- **Discretización** 
- **Codificación de características categóricas**

Sin embargo, a pesar de que no forma parte de un proceso de feature Engineering tradicional, comentaremos que es el **data-drift** y porque es importante que lo midas al momento de trabajar con tus variables.

## Escalamiento

Un paso importante antes de introducir features en los modelos, es el escalamiento de las variables. El objetivo de esto es que el dominio de las variables sea similar y de esta forma obtener mejores resultados. Este proceso es una de las cosas más sencillas que se pueden hacer y que (por lo general) se traduce en un aumento del rendimiento del modelo. Ojo que no hacer esto puede hacer que su modelo no tenga sentido como es el caso de algoritmos clásicos.

Tomar en consideración que muchos de los algoritmos modernos como **XGBoost** señalan que no necesitan escalamiento para el entrenamiento, sin embargo, escalar las variables de entrada puede impactar positivamente en el poder predictivo del modelo.

Para realizar el escalamiento utilizaremos el módulo `sklearn.preprocessing`, este entrega diversas técnicas de escalamiento, normalización y estandarización de datos a través de clases `Transformers` (no confundir con los transformers de Deep Learning).

### Estandarización

La estándarización es una de las transformaciones mas relevantes a tener presente durante el modelamiento. esto debido a que un gran cantidad de algoritmos de aprendizaje automático / estadístico, asumen que los datos a operar se encuentran **distribuidos de manera normal**. **Si los datos no se distribuyen normalmente y contienen valores atípicos**, **es posible que la media y la desviación típica no reflejen con exactitud la tendencia central y la variabilidad de los datos**.

En la práctica, se ignora la forma de la distribución a trabajar y simplemente e transforma removiendo la media y escalando por la desviación estándar.


El objeto `StandarScaler` permite estandarizar datos.

**Ejemplo**

In [None]:
import plotly.express as px

px.histogram(df, x='OverallQual')

In [None]:
px.histogram(df, x='OverallCond')

In [None]:
px.histogram(df, x='GarageCars')

In [None]:
px.histogram(df, x='GarageArea')

In [None]:
px.histogram(df, x='GrLivArea')

In [None]:
cols_to_estandarize = [
    'OverallQual',
    'OverallCond',
    'GarageCars',
    'GarageArea',
    'GrLivArea'
]
fig1 = px.histogram(df[cols_to_estandarize].melt(),
             x='value',
             color='variable',
             barmode='group')

fig1.show()

La transformación a aplicar es mover todos los datos a una distribución normal con media 0 y varianza 1.

Para esto, por cada dato: 
    
$$ z = \frac{x - \mu}{\sigma}$$

En donde $\mu$ es la media de la columna y $\sigma$ es la desviación estándar.

Para esto, importamos escalador, lo inicializamos y luego ejecutamos `fit_transform` sobre los datos.
Notese que esto retorna un arreglo numpy con los datos escalados:

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

standard_scaler = StandardScaler()

estandarized_df = standard_scaler.fit_transform(df.loc[:, cols_to_estandarize])

estandarized_df

Por comodidad, convertimos los datos escalados a un Dataframe:

In [None]:
estandarized_df = pd.DataFrame(estandarized_df, columns=cols_to_estandarize)
estandarized_df

In [None]:
estandarized_df.describe()

Veamos ahora como se muestran las distribuciones de los datos estandarizados


Al aplicar `.fit_transform()` se obtienen los parámetros de media `.mean_` y desviación estándar `.scale_` para cada columna del dataframe operado. Observe que tales atributos del objeto tipo `StandardScaler` son públicos.

In [None]:
standard_scaler

In [None]:
standard_scaler.mean_

In [None]:
standard_scaler.scale_

In [None]:
px.histogram(estandarized_df[cols_to_estandarize].melt(),
             x='value',
             color='variable',
             barmode='group')

In [None]:
estandarized_df.plot.kde(figsize=(16,9), bw_method=0.5)

> **Pregunta ❓**: ¿Qué sucede con las variables que se alejan mucho de ser normales?

In [None]:
px.histogram(df, x='BsmtUnfSF')

### Escalamiento mínimo-máximo

Una buena alternativa al método anterior, es el escalamiento por rango, este tiene la forma:

\begin{equation}
\frac{x_{i} - \min(x)}{\max (x)-\min (x)}
\end{equation}

para $x$ columna a tratar, $x_i$ elemento a transformar. Esta transformación permite hacer que los datos se muevan entre 0 y 1 y puede ser utilizado y la distribución de los datos no normales. 

> **Nota:** este transformador se ve afectado por la presencia de outliers. 

In [None]:
px.histogram(df, 'Fireplaces')

In [None]:
cols_to_scale = ['BsmtUnfSF', 'Fireplaces']

# BsmtUnfSF = Unfinished square feet of basement area
df.loc[:, 'BsmtUnfSF'].plot.hist(backend='plotly')

In [None]:
from sklearn.preprocessing import MinMaxScaler

minmax_scaler = MinMaxScaler()

scaled_data = minmax_scaler.fit_transform(df.loc[:, cols_to_scale])
scaled_data = pd.DataFrame(scaled_data, columns=cols_to_scale)

In [None]:
scaled_data.describe()

In [None]:
scaled_data.plot.hist(backend='plotly', barmode='overlay')

Comprobamos minimos y máximos:

In [None]:
scaled_data.min()

In [None]:
scaled_data.max()

Si se desea escalar por rango, la mejor práctica es comprender los mínimos y máximos *absolutos* para cada columna. Esto se refiere, a las cotas superiores e inferiores que posee la columna **por definición**, a modo de ejemplo, considere un dataframe con las notas de una asginatura donde se enzeña análisis de datos, se sabe que la nota máxima en cierto ítem se codifica en una columna y su máximo es en efecto es 7.0, sin embargo el mínimo en dicha columna es 1.5, que es distinto al mínimo natural para dicho item que es 1.0. Esto puede acarrear problemas con datos nuevos, sobretodo si aparece una nota inferior a 1.5. 

> **Ejercicios 📝**

1. Investigue los parámetros que se deben usar para proporcionar escalamiento por rango con valores máximos y mínimos proporcionados explícitamente. 

2. Estudie el transformador `MaxAbsScaler`.

### Outliers

Un outlier es un atípicos que están fuera del rango comun del resto de los datos.

In [None]:
px.histogram(df, x='LotArea', marginal='box')

In [None]:
minmax_scaler = MinMaxScaler()
scaled_data = minmax_scaler.fit_transform(df.loc[:, ['LotArea']])
scaled_data = pd.DataFrame(scaled_data, columns=['LotArea'])
scaled_data.plot.hist(backend='plotly', barmode='overlay')

> **Pregunta:** ¿Qué pasa cuando queremos estandarizar pero tenemos outliers?

Respuesta: La gran mayoría de los datos tienen a quedar en un rango muy acotado. En el caso anterior, hacia la izquierda. 

In [None]:
# media con los todos los datos de LotArea
original = round(df['LotArea'].describe(), 3)
original.name = 'LotArea Original'

# datos presentes solo en el rango intercuantílico
q1 = df['LotArea'].quantile(.25)
q3 = df['LotArea'].quantile(.75)
mask = df['LotArea'].between(q1, q3, inclusive='both')
iqr = df.loc[mask, 'LotArea']
iqr.name ='LotArea Filtro IQR'
iqr = round(iqr.describe(), 3)

Observen las diferencias entre las medias y las desviaciones estándar:

In [None]:
desc = pd.concat([original, iqr], axis=1)
desc

Si normalizamos usando estandarización original, cada dato va a ser dividido por 9981, 9 veces más grande que la usando la versión sin outliers usando IQR!

Esto en términos prácticos hará que los datos tiendan a concentrarse mucho más cercanos a la media.

### Transformación Logaritmica

La transformación logarítmica es un método de transformación de datos en el que **se sustituye cada variable x por un log(x + c)**, utilizando un base logaritmica y constante **c** escogida por el analista. Con **este tipo de transformación se reduce o elimina la asimetría de nuestros datos originales**, PERO, para poder utilizar esta transformación es importante que los datos originales deben tener una distribución logarítmica normal. De lo contrario, la transformación logarítmica no funcionará.

$$log(X+c), \, c \in R$$

Si bien esta transformación suele ser una de las más útiles, transformar las variables genera una perdide da interpretabilidad directa en los datos, por esta razón se deben realizar transformaciones para visualizar el impacto de x en su dominio original. Para más información revisar el siguiente [artículo](https://medium.com/@kyawsawhtoon/log-transformation-purpose-and-interpretation-9444b4b049c9).

In [None]:
def log_transform(x):
    return np.log(x + 1)

In [None]:
px.histogram(df['BsmtUnfSF'], marginal='box', barmode='overlay')

In [None]:
log_transformer = log_transform(df['LotArea'])

px.histogram(log_transformer, marginal='box', barmode='overlay')

### Transformación Robusta

Cuando se trabaja con columnas que poseen valores fuera de rango (outliers) las transformaciones anteriores pueden fallar. En este caso, se recomienda utilizar una transformación similar a la estandarización, pero que trabaje sobre la mediana como media y el rango intercuantílico como desviación estándar:

\begin{equation}
\frac{x_i - Q_2(x)}{Q_3(x) - Q_1(x)}
\end{equation}

Donde $IQR = Q_3(x) - Q_1(x)$ es el rango intercuartílico de la columna $x$. 

En otras palabras, por cada ejemplo se sustrae la mediana y se divide por el rango intercuartil 75%- 25%

In [None]:
# Ejemplo para obtener IQR
data = np.array([1, 14, 19, 20, 22, 24, 26, 47])

# Calculamos rango intercurtil
q3, q1 = np.percentile(data, [75 ,25])
q3 - q1

**Ejemplo**

Se importa el objeto `RobustScaler` y se aplica

In [None]:
px.histogram(df['LotArea'])

In [None]:
from sklearn.preprocessing import RobustScaler

robust_scaler = RobustScaler()

lot_area_standarized = standard_scaler.fit_transform(df[['LotArea']])
robust_scaled_lot_area = robust_scaler.fit_transform(df[['LotArea']])

In [None]:
comparacion = np.concatenate([lot_area_standarized, robust_scaled_lot_area], axis=1)
comparacion = pd.DataFrame(comparacion, columns=['Estandarizacion Común', 'Estandarización Robusta'])

In [None]:
px.histogram(comparacion, marginal='box', barmode='overlay')

Podemos observar como los datos en la estandarización robusta se distribuyen de forma mas amplia que en caso de la estandarización normal.


### Mapeo a distribuciones gaussianas 

Como se mencionó anteriormente, no siempre se cumple la hipótesis de normalidad en las columnas de un dataset, en tal caso, no es una buena idea estandarizar los datos pues puede llevar a problemas al momento de operar con algoritmos que requieren normalidad en su formulación. Existe una familia de transformaciones paramétrica que busca aproximar una distribución arbitraria a una gaussiana, se accede a este tipo de transformaciones por medio de la clase `PowerTransformer`, en esta clase se encuentran 2 transformaciones:

* Box-Cox: Solo puede ser utilizada en datos extrictamente positivos. Viene dada por:

\begin{equation}
x_{i}^{(\lambda)} =
\begin{cases}
\frac{x_{i}^{\lambda}-1}{\lambda} & \text { si } \lambda \neq 0 \\
\ln \left(x_{i}\right) & \text { si } \lambda=0
\end{cases}.
\end{equation}

* Yeo-Johnson dada por: 

\begin{equation}
x_{i}^{(\lambda)}=
\begin{cases}
\left[\left(x_{i} + 1\right)^{\lambda}-1 \right] / \lambda & \text { si } \lambda \neq 0, x_{i} \geq 0 \\
\ln \left(x_{i}+1\right) & \text { si } \lambda=0, x_{i} \geq 0 \\
-\left[\left(-x_{i}+1\right)^{2-\lambda}-1\right] /(2-\lambda) & \text { si } \lambda \neq 2, x_{i}<0 \\
-\ln \left(-x_{i}+1\right) & \text { si } \lambda=2, x_{i}<0
\end{cases}
\end{equation}

En ambos casos, el parámetro $\lambda$ es estimado por máxima verosimilitud.


**BsmtUnfSF** = Metros cuadrados no construidos en el subterraneo.

In [None]:
from sklearn.preprocessing import PowerTransformer

In [None]:
bsmtUnfSF_solo_num = df.loc[df['BsmtUnfSF'] > 0, ['BsmtUnfSF']]

In [None]:
px.histogram(bsmtUnfSF_solo_num)

#### Box - Cox

In [None]:
# transformación box-cox

transformer_bc = PowerTransformer(method='box-cox')

df_bc = transformer_bc.fit_transform(bsmtUnfSF_solo_num)
df_bc = pd.DataFrame(df_bc, columns=['BsmtUnfSF'])


px.histogram(df_bc)

#### Yeo-Johnson

In [None]:
# transformación yeo-johnson
transformer_yj = PowerTransformer(method='yeo-johnson')

df_yj = transformer_yj.fit_transform(bsmtUnfSF_solo_num)
df_yj = pd.DataFrame(df_yj, columns=['BsmtUnfSF'])

px.histogram(df_yj)

> **Ejercicio 📝**

1. Obtenga los valores de lambda para cada uno de los de métodos revisados.

2. El preprocesamiento por transformación de cuantiles es un método robusto que permite transformar una distribución de datos en una variable uniforme o normal. Permite el reducir el impacto de outliers. Investigue su formulación, ventajas y desventajas, aplique el transformer `QuantileTransformer` en los datos recientemente generados para observar su comportamiento.

### Normalización

Otro método de transformación de datos es la normalización de estos. Esto conisite en un mapeo a la bola cerrada según una norma a elección. Consiste simplemente en dividir los datos por su norma euclidiana l2. En el caso de 3 dimensiones se ve de esta manera:

\begin{equation}
\frac{x_{i}}{\sqrt{x_{i}^{2}+y_{i}^{2}+z_{i}^{2}}}
\end{equation}

El escalado de las entradas a normas unitarias es una operación habitual en la clasificación de textos o la agrupación por clústeres.

**Ejemplo** 

Se estudia como opera este transformador de datos en una visualización:

In [None]:
fig = px.scatter_3d(
    df,
    x='LotArea',
    y='GrLivArea',
    z='GarageArea',
)
fig.show()

Se estudia el impacto de la transformación

In [None]:
from sklearn.preprocessing import Normalizer
cols_to_normalize = ['LotArea','GrLivArea','GarageArea']

normalizer = Normalizer()

normalized_data = normalizer.fit_transform(df.loc[:, cols_to_normalize])
normalized_data = pd.DataFrame(normalized_data, columns=cols_to_normalize)

Finalmente se visualiza

In [None]:
fig = px.scatter_3d(
    normalized_data,
    x='LotArea',
    y='GrLivArea',
    z='GarageArea',
)
fig.show()

### ¿Qué aspectos deberíamos considerar al momento de realizar escalamientos? 😅

Al momento de realizar escalamiento de cualquier tipo deben considerar los siguientes puntos:

- **El escalamiento es una fuente de data leakeage**. ¿Qué es data leakage?, data leakage se produce cuando se utiliza información ajena al conjunto de datos de entrenamiento para crear el modelo.
- **Necesidad de entrenamiento ante variaciones de los datos de entrada**. Muchos de los escalamientos necesitan el cálculo de un estadístico para realizar la transformación, esto implica que si los datos vistos durante el entrenamiento cambian en producción las transformaciones no serán las mejores y necesitarán un reentrenamiento de los datos.

👀 **Spoiler**: Mas tarde en este curso aprenderemos una forma simple para evitar el data-leakage utilizando pipelines.

---

## Codificación de Variables Ordinales

Para el manejo de adecuado de variables ordinales,  se recomienda expresar sus valores en función de códigos númericos. El transformer `OrdinalEncoder` permite transformar características categóricas en códigos enteros (números enteros)

Se entrena el codificador

BsmtQual: Evaluates the height of the basement

       Ex	Excellent (100+ inches)	
       Gd	Good (90-99 inches)
       TA	Typical (80-89 inches)
       Fa	Fair (70-79 inches)
       Po	Poor (<70 inches
       NA	No Basement
		
BsmtCond: Evaluates the general condition of the basement

       Ex	Excellent
       Gd	Good
       TA	Typical - slight dampness allowed
       Fa	Fair - dampness or some cracking or settling
       Po	Poor - Severe cracking, settling, or wetness
       NA	No Basement
	
       
HeatingQC: Heating quality and condition

       Ex	Excellent
       Gd	Good
       TA	Average/Typical
       Fa	Fair
       Po	Poor

In [None]:
df['BsmtQual']

In [None]:
from sklearn.preprocessing import OrdinalEncoder

enc = OrdinalEncoder()

variables_ordinal = df[['BsmtCond', 'BsmtQual','HeatingQC']]

# Se entrena el codificador
ordinales = enc.fit_transform(variables_ordinal.dropna())
pd.DataFrame(ordinales, columns = ['BsmtCond', 'BsmtQual','HeatingQC'])

In [None]:
variables_ordinal

Se obtienen las categorías

In [None]:
df.loc[:, ['BsmtCond']]

In [None]:
enc.categories_

> **Pregunta ❓**: ¿Existe algún problema en estas codificaciones?

In [None]:
categories_order = [
    ["Po", "Fa", "TA", "Gd", "Ex"],
    ["Po", "Fa", "TA", "Gd", "Ex"],
    ["Po", "Fa", "TA", "Gd", "Ex"]
]

In [None]:
enc_2 = OrdinalEncoder(categories=categories_order)

ordinales = enc_2.fit_transform(variables_ordinal.dropna())

pd.DataFrame(ordinales, columns = ['BsmtCond', 'BsmtQual','HeatingQC'])

> **Pregunta ❓**: ¿Codificamos estas variables con `variables_ordinal.dropna()`. Por qué tuvimos que botar los valores faltantes y que se puede hacer en este caso ?

> **Pregunta ❓**: ¿Cómo codificamos las variables que no tienen orden?

## Codificación de Variables Categoricas

Un problema común con la códificación ordinal es que las variables pasan a ser consideradas continuas por algoritmos de machine learning (en especial por la API *estimators* de scikit-learn). Para evitar esto es posible convertir cada categoría en una columna por si sola y asignar un 1 cuando esté presente. 

![One Hot Encoding](https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/ohe.png)
<center>Fuente: https://morioh.com/p/811a5d22bbca </center>

Esto se puede llevar a cabo por medio del transformador ` OneHotEncoder`.

In [None]:
df['Foundation'].unique()

In [None]:
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()

cod = ohe.fit_transform(df.loc[:, ['Foundation']])

In [None]:
ohe.categories_

In [None]:
pd.DataFrame(cod.toarray(), columns=ohe.categories_)

In [None]:
df.loc[:, 'Neighborhood'].unique()

In [None]:
# Ahora, con los barrios
ohe.fit_transform(df.loc[:, ['Neighborhood']])

### Sparse Matrix

Son matrices que contienen muy pocos valores distintos de 0 y estos se encuentran muy dispersos en la matriz.

![](https://www.kdnuggets.com/wp-content/uploads/sparse-matrix.jpg)

In [None]:
import numpy as np
from scipy import sparse

X = np.random.uniform(size=(10000, 10000))  # 100.000.000
X[X < 0.99] = 0
X_csr = sparse.csr_matrix(X)

print(f"Size in bytes of original matrix: {X.nbytes}")
print(
    f"Size in bytes of compressed sparse row matrix: {X_csr.data.nbytes + X_csr.indptr.nbytes + X_csr.indices.nbytes}"
)
print(
    f'Relación: { (X_csr.data.nbytes + X_csr.indptr.nbytes + X_csr.indices.nbytes)/ X.nbytes }'
)

> **Ejercicio 📝**

1. Utilice este transformador en los datos categóricos anteriores. Los resultados serán entregados en formato *sparse* por  lo que tendrá que hacer uso del método `.toarray()` de los arreglos de NumPy.

2. Compare con la función `get_dummies` de pandas.

## Ya pero quiero aprender mas... ¿algo para leer? 🤔

- Para comenzar pueden visualizar con mayor profundidad la documentación de Scikit-Learn enfocada en la extracción de features: https://scikit-learn.org/stable/modules/feature_extraction.html
- Complementar la clase leyendo el capitulo 5 del libro [Designing Machine Learning Systems](https://www.amazon.com/Designing-Machine-Learning-Systems-Production-Ready/dp/1098107969)

- Leer capitulo 1 del libro [Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and MLOps](https://www.amazon.com/-/es/Valliappa-Lakshmanan/dp/1098115783/ref=pd_bxgy_img_sccl_1/142-9514380-0202369?pd_rd_w=JQSaa&content-id=amzn1.sym.26a5c67f-1a30-486b-bb90-b523ad38d5a0&pf_rd_p=26a5c67f-1a30-486b-bb90-b523ad38d5a0&pf_rd_r=BJE9WMJ9X1QQMYF4C3EJ&pd_rd_wg=y78Jr&pd_rd_r=6a1994c2-2734-428a-a270-ded23f892987&pd_rd_i=1098115783&psc=1)