# Clase 15: Feature Engineering II

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesor: Ignacio Meza**


## Roadmap


![ML ops](https://camo.githubusercontent.com/4724bc1636a3fee34f87a1fac991fc4ccd270c0a3a510db04394f90b05d065eb/68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f4d4453373230322f4d4453373230322f6d61696e2f7265637572736f732f323032332d30312f31332d4544412f6d65746f646f6c6f6769612e706e67)


## Objetivos de la Clase

- Comprender que es un pipeline.
- Entender la complejidad de tener datos faltantes para los modelos.
- Entender los distintos tipos de datos faltantes.
- Explorar las opciones para solucionar el problema de datos faltantes.
- Integrar los conocimientos adquiridos al pipeline.

---

## Antes de comenzar la clase...

![HmmQuestioningGIF (2).gif](attachment:edc72817-8f4b-48e7-af7c-62c125ad9444.gif)

> **Pregunta 1❓**: ¿Cuál es nuestro objetivo realizando Feature Engineering?

> **Pregunta 2❓**: ¿Qué se necesita para realizar Feature Engineering?

> **Pregunta 3❓**: ¿Ejemplos de algunos procesos que se realizan en el Feature Engineering?

> **Pregunta 4❓**: ¿Qué problemas podrían causar algunos métodos de Feature Engineering vistos en la clase pasada?

---

## Dataset - House Pricing

![House Pricing](https://storage.googleapis.com/kaggle-competitions/kaggle/5407/media/housesbanner.png)

Fuente: https://www.kaggle.com/c/house-prices-advanced-regression-techniques

El dataset **`house pricing`** consiste en 80 variables (79 variables explicativas más una variable objetivo) que describen aspectos fundamentales de hogares residenciales en la ciudad de *Ames, Iowa*. 

La variable objetivo es el precio final de cada hogar (regresión)

In [None]:
import pandas as pd

# El conjunto a trabajar es el de entrenamiento
df = pd.read_csv(
    "https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA//train.csv",
    index_col="Id",
)
df.head()

In [None]:
cat_cols = [
    "MSZoning",
    "Street",
    "Alley",
    "LandContour",
    "LotConfig",
    "Neighborhood",
    "Condition1",
    "Condition2",
    "BldgType",
    "HouseStyle",
    "RoofStyle",
    "RoofMatl",
    "Exterior1st",
    "Exterior2nd",
    "MasVnrType",
    "Foundation",
    "Heating",
    "CentralAir",
    "Electrical",
    "GarageType",
    "PavedDrive",
    "MiscFeature",
    "SaleType",
    "SaleCondition",
]

ordinal_cols = [
    "LotShape",
    "Utilities",
    "LandSlope",
    "ExterQual",
    "ExterCond",
    "BsmtQual",
    "BsmtCond",
    "BsmtExposure",
    "BsmtFinType1",
    "BsmtFinType2",
    "HeatingQC",
    "KitchenQual",
    "Functional",
    "FireplaceQu",
    "GarageFinish",
    "GarageQual",
    "GarageCond",
    "PoolQC",
    "Fence",
]

# Adquieren las categorias de cada variable
ordinal_cat = [
    ["Reg", "IR1", "IR2", "IR3"],
    ["AllPub", "NoSewr", "NoSeWa", "ELO"],
    ["Gtl", "Mod", "Sev"],
    ["Po", "Fa", "TA", "Gd", "Ex"],
    ["Po", "Fa", "TA", "Gd", "Ex"],
    ["NA", "Po", "Fa", "TA", "Gd", "Ex"],
    ["NA", "Po", "Fa", "TA", "Gd", "Ex"],
    ["NA", "No", "Mn", "Av", "Gd"],
    ["NA", "Unf", "LwQ", "Rec", "BLQ", "ALQ", "GLQ"],
    ["NA", "Unf", "LwQ", "Rec", "BLQ", "ALQ", "GLQ"],
    ["Po", "Fa", "TA", "Gd", "Ex"],
    ["Po", "Fa", "TA", "Gd", "Ex"],
    ["Sal", "Sev", "Maj2", "Maj1", "Mod", "Min2", "Min1", "Typ"],
    ["NA", "Po", "Fa", "TA", "Gd", "Ex"],
    ["NA", "Unf", "RFn", "Fin"],
    ["NA", "Po", "Fa", "TA", "Gd", "Ex"],
    ["NA", "Po", "Fa", "TA", "Gd", "Ex"],
    ["NA", "Fa", "TA", "Gd", "Ex"],
    ["NA", "MnWw", "GdWo", "MnPrv", "GdPrv"],
]

num_cols = [
    "MSSubClass",
    "LotFrontage",
    "LotArea",
    "OverallQual",
    "OverallCond",
    "YearBuilt",
    "YearRemodAdd",
    "MasVnrArea",
    "BsmtFinSF1",
    "BsmtFinSF2",
    "BsmtUnfSF",
    "TotalBsmtSF",
    "1stFlrSF",
    "2ndFlrSF",
    "LowQualFinSF",
    "GrLivArea",
    "BsmtFullBath",
    "BsmtHalfBath",
    "FullBath",
    "HalfBath",
    "BedroomAbvGr",
    "KitchenAbvGr",
    "TotRmsAbvGrd",
    "Fireplaces",
    "GarageYrBlt",
    "GarageCars",
    "GarageArea",
    "WoodDeckSF",
    "OpenPorchSF",
    "EnclosedPorch",
    "3SsnPorch",
    "ScreenPorch",
    "PoolArea",
    "MiscVal",
    "MoSold",
    "YrSold",
]

## Flujos de transformación con Pipelines

La manera anterior es bastante clara de comprender, sin embargo, es redundante y repite muchos patrones de asiganción tediosos. Los `Pipelines` están diseñados para resolver este problema.


Las transformaciones en un dataset son combinadas entre si, hasta obtener una versión ordenada de los datos, posteriormente, estas se combinan con estimadores para formar un flujo de trabajo *input-output*. En Sckit-Learn el flujo antes nombrado de denomina *composite estimator* y se construye por medio de objetos tipo `Pipeline`.


### Como Definimos un Pipeline

Un pipeline es una lista de tuplas. 

- La lista contiene todos los pasos que se efectuan desde la entrada hasta la salida del pipeline
- Cata tupla de la lista representa un subproceso del pipeline. Este debe estar compuesto por un nombre u la clase que corresponda.

![Pipeline](https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/14-Feature-Engineering/pipeline.png?raw=true)

Por ejemplo, para la imágen anterior, el pipeline sería: 

```python
pipe = Pipeline([('scaling', Scaler()),
                 ('dimensionality_reduction', DimReductor()),
                 ('predictive_model', Model())])
```

#### ¿Por qué debería usar pipelines? 🤨

1. **Simplificación del proceso de aprendizaje automático**: Los Pipelines permiten combinar múltiples pasos en el proceso de aprendizaje automático, como el preprocesamiento de datos, la selección de características y el entrenamiento del modelo, en una única entidad. Esto simplifica el flujo de trabajo general y reduce las posibilidades de errores.

2. **Procesamiento de datos consistente**: Los Pipelines aseguran que los mismos pasos de preprocesamiento de datos se apliquen de manera consistente tanto a los datos de entrenamiento como a los de prueba. Esto reduce el riesgo de sobreajuste (producto de un data-leakage) y facilita la comparación del rendimiento de diferentes modelos.

3. **Ajuste de hiperparámetros fácil**: Los Pipelines permiten ajustar los hiperparámetros de varios pasos en el proceso de aprendizaje automático simultáneamente utilizando la búsqueda en cuadrícula o la búsqueda aleatoria. Esto puede ayudar a encontrar la combinación óptima de hiperparámetros y mejorar el rendimiento del modelo.

4. **Legibilidad y reutilización de código**: Los Pipelines proporcionan una forma clara y concisa de organizar el código, lo que facilita su lectura y mantenimiento. También permiten reutilizar la misma tubería para diferentes conjuntos de datos y modelos, ahorrando tiempo y esfuerzo.

5. **Mejora del rendimiento**: Al reducir la cantidad de manipulación de datos y cálculo requerido, los pipelines pueden llevar a tiempos de entrenamiento e inferencia de modelos más rápidos. Esto puede ser especialmente útil al trabajar con conjuntos de datos grandes o modelos complejos.

En este caso, observamos que las transformaciones numéricas corresponden a un reshape, luego a escalar los datos y finalmente a transformarlos según el método de Yeo-Johnson.

> **Ejercicio 📝**

1. Genere un trasformador personalizado que permita transformar los datos de una pipeline diseñada sobre arreglos unidimensionales en series de Pandas. La función a implementar debe recibir un arreglo y un nombre de columna, debe entregar una serie con los datos transformados cuyo nombre es el nombre de la columna procesada. Añada este último transformador a las pipelines `cat_pipe` y `num_pipe`.

### ColumnTransformer

Es muy frecuente, es que los datos sea heterogéneos por ejemplo, es normal encontrar datasets con variables ordinales, categoricas, y numéricas. 

Para utilizar *pipelines* en este contexto, se necesitaria definir una por cada variable, repitiendo varios componentes de código entre variables que son del mismo tipo, esto resulta en una redundancia excesiva que se puede atacar por medio de objetos tipo `ColumnTransformer`. Estos objetos permite separar flujos de preprocesamiento, permitiendo seleccionar por columna o grupos de columna dentro de una *pipeline*.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, MinMaxScaler, PowerTransformer

In [None]:
LotArea_pipe = Pipeline([('scaler', MinMaxScaler()),
                        ('yeo-johnson', PowerTransformer(method='yeo-johnson'))
                        ])

preprocessing_transformer = ColumnTransformer(
    transformers=[
        ('OneHotEncoder', OneHotEncoder(),  ['Neighborhood', 'Utilities', 'Foundation']),
        ('StandardScaler', StandardScaler(),['OverallQual', 'OverallCond', 'GarageCars', 'GarageArea']), 
        ('PowerTransform', LotArea_pipe, ['LotArea'])])

> **Pregunta ❓**: ¿Estos Pipeline y ColumnTransformer solo aceptan transformaciones que nos ofrece Scikit-Learn?

In [None]:
housing_pipeline = Pipeline([
    ('Preprocessing', preprocessing_transformer)
])

Finalmente se aplican los procedimientos planificados en la variable `prep`

In [None]:
df_preprocesado = housing_pipeline.fit_transform(df)
df_preprocesado

In [None]:
df_preprocesado = pd.DataFrame(df_preprocesado.toarray())
df_preprocesado

> **Pregunta ❓**: ¿Qué sucedio con el resto de las columnas?

Nota que en este momento el Pipeline solo cuenta con una etapa de preprocesado. Sin embargo, la idea es que a futuro tenga el resto de los pasos de nuestro proyecto.


```python
housing_pipeline = Pipeline([
    ('Imputación', Imputador()),
    ('Preprocessing', Preprocesador()),
    ('Selector de Variables', SelectorDeVariables()),
    ('Reduccion de Dimensionalidad', ReduccionDeDimensionalidad()),
    ('Modelo', Modelo())

])
```

In [None]:
housing_pipeline['Imputación'].transform()

### En resumen... un Pipeline... 🧪


Un pipeline es una lista de tuplas. 

- La lista contiene todos los pasos que se efectuan desde la entrada hasta la salida del pipeline
- Cata tupla de la lista representa un subproceso del pipeline. Este debe estar compuesto por un nombre u la clase que corresponda.

Por ejemplo, para la imágen anterior, el pipeline sería: 

```python
pipe = Pipeline([('scaling', Scaler()),
                 ('dimensionality_reduction', DimReductor()),
                 ('predictive_model', Model())])
```

In [None]:
# Preprocesador Compuesto
preprocessing = ColumnTransformer(
    transformers=[
        ("standard_scaler", StandardScaler(), num_cols),
        (
            "category_one_hot",
            OneHotEncoder(sparse=False, handle_unknown="ignore"),
            cat_cols,
        ),
        ("ordinal_encoder", OrdinalEncoder(categories=ordinal_cat), ordinal_cols),
    ]
)

In [None]:
preprocessing.transformers[0][1]

In [None]:
pipe = Pipeline([("Preprocessing", preprocessing)])
pipe

## Exploración de Datos Faltantes



In [None]:
# Instalamos el paquete usando conda o pip
import sys

import matplotlib.pyplot as plt

try:
    import missingno as msno
except ImportError as e: 
    !{sys.executable} -m pip install --upgrade missingno # descomentar si se usa pip
    
import missingno as msno

### Conteo de Datos no Nulos

In [None]:
import plotly.express as px

conteo_nulos = (
    (len(df) - df.isna().sum())
    .to_frame("Obs")
    .reset_index()
    .rename(columns={"index": "Col"})
)

px.bar(
    conteo_nulos.sort_values("Obs"),
    x="Obs",
    y="Col",
    height=800,
    title="Cantidad de Datos no Nulos por Columna",
)

### Nullity Matrix

Permite visualizar los datos faltantes a traves de barras. 
Cada espacio en gris representa una observación y cada espacio en blanco simboliza un dato faltante.

In [None]:
msno.matrix(df.iloc[:, :40])

In [None]:
msno.matrix(df.iloc[:, 40:])

In [None]:
df.loc[:, ["Fireplaces", "FireplaceQu"]]

> **Pregunta ❓**: ¿Qué representan las variables con mayor falta de información?




### Mapa de Calor


El mapa de calor se utiliza para identificar las correlaciones de nulidad (relación en la presencia de valores) entre las columnas. 

- Los valores cercanos a 1 indican que la presencia de valores nulos en una columna está correlacionada con la presencia de valores nulos en otra columna.

- Los valores cercanos a -1 indican que la presencia de valores nulos en una columna está inversamente correlacionada con la presencia de valores nulos en otra columna. En otras palabras, cuando los valores nulos están presentes en una columna, hay valores de datos presentes en la otra columna, y viceversa.

- Los valores cercanos a 0, indican que hay poca o ninguna relación entre la presencia de valores nulos en una columna en comparación con otra.

In [None]:
import matplotlib.pyplot as plt

msno.heatmap(df)

## Manejo de valores faltantes

Por lo general, existen razones prácticas y conceptuales a tener en cuenta cuando se trabaja con valores faltantes. 

### Conceptual

**La falta de información introduce sesgos en los modelos de datos**, pues hace que las muestras obtenidas no sean representativas del fenómeno que se desea estudiar. Esto puede generar conclusiones sesgadas y puede llevar a tomar malas decisiones. 

### Práctica

**Los valores faltantes son incompatibles con algunos modelos de aprendizaje automático**, debido a que estos modelos son parte de la razón fundamental de analizar un fenómeno por medio de datos,es que se necesita comprender bien los mecanismos de manejo de este tipo de valores. 


### Tipos de datos Faltantes

Para el ejemplo, supongamos que efectuamos una encuesta a una población acerca de datos demográficos y de salarios.

|  | MCAR | MAR | MNAR |
|---|---|---|---|
| **Nombre** | Missing completely at random | Missing at Random | Missing not at Random |
| **Descripción** | Es el caso en que los datos faltantes son aleatorios y que esta falta no puede ser explicada por ninguna otra variable del dataset. <br>En este caso es util pensar que cualquier observación tiene una probabilidad de perderse y las que no están, simplemente se perdieron por azar. | Es el caso en que la perdida de datos está relacionado con alguna otra variable (no con si misma), pero la falta de información es aleatoria.<br>En este caso, la falta de información no es al azar.  | Es el caso en que los datos faltantes están relacionados con la variable en si. Es el peor tipo de dato faltante ya que lleva a calcular estadísticas descriptivas sesgadas. |
| **Ejemplo** | Una de las preguntas en la encuesta era la altura, cuya respuesta era opcional. Al revisar los resultados de la encuesta, notas que falta el 37% de los valores `altura`.<br><br>En este caso, no hay ningún patrón de perdida, es simplemente aleatorio.  | A partir de los 50 años, las personas tienden a dejar de entregar información respecto a su sueldo.<br><br>El patrón de perdida en este caso es la edad: desde los 50 años, la información sobre el sueldo tiende a faltar aleatoriamente. | Personas con sueldos mayores a los 1.250.000$ tienden a no informar su sueldo.<br><br>El patrón de perdida de información en este caso es el sueldo en si y no se relaciona con ninguna otra variable. |
| **Solución** | Eliminar las filas que no contengan los datos o imputar valores (por ejemplo, reemplazar los faltantes por la media, moda o mediana). | Imputar (en el ejemplo podría ser una regresión edad-sueldo) | Intentar recuperar esos datos de la fuente original del dataset, cruzar con otros datasets. |

### Análisis de Algunas Variables Según Tipo

In [None]:
msno.matrix(df.iloc[:, :40])

In [None]:
df.loc[:, ["Alley"]]

In [None]:
df.loc[:, "Alley"].value_counts(dropna=False)

In [None]:
# Existirá relación con alguna otra variable?
df.loc[:, ["Street", "Alley"]]

In [None]:
# Eliminamos los nulos para ver si hay alguna relación
df.loc[:, ["Street", "Alley"]].dropna()

> **Pregunta ❓:** ¿Qué tipo de dato faltante es?

#### Alley (Callejón de Entrada)

Type of alley access to property

       Grvl	Gravel
       Pave	Paved
       NA 	No alley access

### LotFrontage

LotFrontage: Linear feet of street connected to property

In [None]:
df.loc[:, ["LotFrontage"]]

In [None]:
df.loc[df["LotFrontage"].isna(), :]

In [None]:
msno.matrix(df.iloc[:, :40])

In [None]:
msno.matrix(df.iloc[:, 40:])

### FireplaceQu

In [None]:
df.loc[:, ["FireplaceQu"]]

In [None]:
df.loc[:, ["Fireplaces", "FireplaceQu"]]

## Tratamiento de Datos Faltantes: Deletion & Imputation ☠️

### Eliminación/Deletion 🪄 (caso MCAR)

Es el método más sencillo, se conoce tambien como **list-wise deletion** y consiste en eliminar filas o columnas de un dataset que presenten datos faltantes. Se puede acceder a este tipo de tratamiento por medio de `.dropna()` objetos de Pandas.

En casos distintos (MAR o MNAR) su uso es contraindicado. Se recomiendan cuando el patrón de perdida de información observada (por ejemplo por medio de `mssingno`) es claramente aleatorio, y si además las variables con información faltante son 'pocas' y con 'pocos' valores faltantes. La definición de 'poco' varia en función del problema, pero una buena huerística puede ser inferior al 15% en variables de poca importancia. Estos métodos generan una pérdida de datos y potencialmente aumento en el sesgo de los modelos (👀 OJO: esto depende mucho del caso de estudio)

In [None]:
df.dropna(subset=["LotFrontage"])

In [None]:
df.drop(columns='Alley')

Con las metodologías señaladas, **¿Qué otras características/estadístico sería relevante para considerar para eliminar una featute?** 🤔

#### Respuesta

Una buena forma es revisar que las variables no se mantengan estáticas en todo el conjunto de datos (o sea, **es importante que las variables tengan variabilidad**). Una forma fácil de revisar esto es calculando la desviación estándar en las variables numéricas y revisando la cantidad de valores únicos en las variables categóricas.

In [None]:
# Caso Categorico
df['MSZoning'].value_counts()

In [None]:
# Caso Númerico
std_an = df.std(axis=0, numeric_only=True)
std_an = std_an[(std_an<1)]
std_an


### Imputación (caso MCAR-MAR) 🧩

Corresponde a las téncincas que permiten rellenar de información faltante por medio de estimaciones. Es usada comunmente cuando los datos faltantes son de caracter MAR.

> **Pregunta ❓:** ¿Se les ocurren ejemplos de casos de mala imputación?.

La imputación al igual que la eliminación de columnas y/o filas conlleva problemas. Entre los problemas de este método podemos encontrar: añadir ruido a nuestros datos, añadir sesgo y data leakage (¿Por qué?).

#### Imputación Simple

Por lo general este tipo de imputación presenta un buen rendimiento empírico en tareas de ciencia de datos y es ampliamente recomendado. 

> **Nota:** aplicar este tipo de métodos puede afectar el calculo de varianzas y covarianzas. 

En `pandas` podemos aplicar este tipo de imputación por medio del método `.fillna()` ya sea entregando un valor precalculado (media, mediana, moda, etc...) o utilizando los argumentos `ffill` (usar el valor anterior)  y `bfill` (usar el valor siguiente). 
En `scikit-learn` por otra parte, podemos utilizar [`SimpleImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer), el cual es una transformación, lo que hace este método compatible con los `Pipelines`.

Existen directrices a tener en cuenta al momento de tratar valores faltantes:

**1. Variables categóricas**:

    * Transformar valores faltantes en una nueva categoría.
    * Utilizar códificación Dummy en variables categóricas

In [None]:
df["GarageType"]

In [None]:
df["GarageType"].value_counts(dropna=False)

In [None]:
df["GarageType"].isna()

In [None]:
df[df["GarageType"].isna()]["GarageType"]

In [None]:
garage_type = df["GarageType"].fillna("NoGarage")
garage_type.value_counts()

**2. Valores Ordinales**

    * Agregar la categoría de valor faltante como orden inicial o final en categorias ordinales.


In [None]:
# ['Po', 'Fa', 'TA', 'Gd', 'Ex'],
df["GarageCond"]

In [None]:
df["GarageCond"].value_counts(dropna=False)

In [None]:
garage_cond = df["GarageCond"].fillna("NoGarage")
# Agregar después al Encoder NoGarage ['NoGarage', 'Po', 'Fa', 'TA', 'Gd', 'Ex'],
garage_cond.value_counts()

**3 Valores continuos**:

    * En MAR notar que imputar los datos puede cambiar la distribución original y por ende, llevar a malos resultados.

In [None]:
df[df["LotFrontage"].isna()]

In [None]:
df["LotFrontage"].describe()

En este caso, usaremos `SimpleImputer`.

La estrategia se define por el parámetro:

`strategy`, default=’mean’

    The imputation strategy.

        If “mean”, then replace missing values using the mean along each column. Can only be used with numeric data.

        If “median”, then replace missing values using the median along each column. Can only be used with numeric data.

        If “most_frequent”, then replace missing using the most frequent value along each column. Can be used with strings or numeric data. If there is more than one such value, only the smallest is returned.

        If “constant”, then replace missing values with fill_value. Can be used with strings or numeric data.


In [None]:
from sklearn.impute import SimpleImputer

si = SimpleImputer(strategy="median")

imputed_lotfrontage = si.fit_transform(df.loc[:, ["LotFrontage"]])

imputed_lotfrontage = pd.DataFrame(imputed_lotfrontage, columns=["ImputedLotFrontage"])

imputed_lotfrontage

In [None]:
imputed_lotfrontage.describe()

In [None]:
import plotly.express as px

lf = pd.concat((df.loc[:, ["LotFrontage"]], imputed_lotfrontage))
px.histogram(lf, barmode="group")

#### Imputación Multivariada

Un problema de la imputación singular es que modela los datos como uno completo, sin considerar la incertidumbre inherente a todos los otros datos. Una solución para esto son los métodos de imputación múltiple.

Un método de inmputación multiple estima los valores faltantes a partir de otros. Puede ser tanto univariada (solo considerando la variable objetivo) como multivariada.

##### `IterativeImputer`

Un enfoque sofisticado es el que plantea `IterativeImputer`, el cuál intenta modelar los valores faltantes a partir como función de los otros valores. El algoritmo que ocupa es el siguiente:

En la primera iteración:
- Por cada columna con datos faltantes:
   - Se entrena un regresor que intenta predecir los valores de esa columna a partir de todas las otras. El regresor usa como target los valores no faltantes de la columna objetivo.
   - Se reemplazan los valores faltantes por los predichos por el regresor.
   
Luego, se repite `max_iter` cantidad de veces el mismo procedimiento, usando los valores originales y también los valores predichos en la etapa anterior. La idea de esto es que este procedimiento iterativo vaya "actualizando" hasta que los valores predichos convergan.

Su uso es experimental y se activa siguiendo la sintaxis:

```python
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
```

**Ejemplo**

Se utiliza el imputador iterativo para los estimadores de Random Forest y KNN.

**NOTA IMPORTANTE**: El siguiente código es solo de ejemplo y se asume que todas las variables son MAR, puede que no sea correcto imputar estas features.

In [None]:
import numpy as np

only_numeric = df.select_dtypes(include=np.number).drop(
    columns=[
        "YearBuilt",
        "YearRemodAdd",
        "YrSold",
        "GarageYrBlt",
        "SalePrice",
        "MoSold",
        "MSSubClass",
    ]
)
only_numeric

##### IterativeImputer 

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

In [None]:
msno.matrix(only_numeric)

In [None]:
imputer = IterativeImputer(skip_complete=True, verbose=1, random_state=1)

RF_imputed = imputer.fit_transform(only_numeric)
RF_imputed = pd.DataFrame(RF_imputed, columns=only_numeric.columns)
RF_imputed

In [None]:
msno.matrix(RF_imputed)

In [None]:
lf_imputed = RF_imputed.loc[:, ["LotFrontage"]]
lf_imputed.columns = ["LotFrontageImputed"]

lf = pd.concat((df.loc[:, ["LotFrontage"]], lf_imputed))
px.histogram(lf, barmode="group", nbins=50)

In [None]:
px.histogram(lf, barmode="group", nbins=50, histnorm="probability")

##### KNNImputer

Imputa usando k-Nearest Neighbors.

Los valores imputados se calculan según el parámetro `weights`:

- Si `weights=uniform`, se promedian los valores de los vecinos cercanos.
- Si `weights=distance`, se ponderan los valores de los vecinos cercanos según la distancia al punto.

<img src='https://github.com/MDS7202/MDS7202/blob/main/recursos/2023-01/15-Feature-Engineering-Parte-II/knn.png' width=400/> 

In [None]:
from sklearn.impute import KNNImputer

# en este caso, simplemente se promedian los valores cercanos.
KNNimputer = KNNImputer(n_neighbors=2, weights="uniform")
KNN_imputed_data = KNNimputer.fit_transform(only_numeric)
KNN_imputed_data = pd.DataFrame(KNN_imputed_data, columns=only_numeric.columns)

In [None]:
lf_imputed = KNN_imputed_data.loc[:, ["LotFrontage"]]
lf_imputed.columns = ["LotFrontageImputed"]

lf = pd.concat((df.loc[:, ["LotFrontage"]], lf_imputed))
px.histogram(lf, barmode="group", nbins=50)

### Incluyendo la imputación en nuestra Pipeline

Nota que ambos métodos pueden ser usados en un Pipeline.

In [None]:
cat_cols = [
    "MSZoning",
    "Street",
    "Alley",
    "LandContour",
    "LotConfig",
    "Neighborhood",
    "Condition1",
    "Condition2",
    "BldgType",
    "HouseStyle",
    "RoofStyle",
    "RoofMatl",
    "Exterior1st",
    "Exterior2nd",
    "MasVnrType",
    "Foundation",
    "Heating",
    "CentralAir",
    "Electrical",
    "GarageType",
    "PavedDrive",
    "MiscFeature",
    "SaleType",
    "SaleCondition",
]

In [None]:
# Preprocesador Compuesto: Inputación + Escalamiento/Codificación.

# Pipeline Numerica
num_pipe = Pipeline(
    steps=[
        ("imputer_num", KNNImputer(n_neighbors=2, weights="uniform")),
        ("scaler", StandardScaler()),
    ]
)

# Pipeline categorica
cat_pipe = Pipeline(
    steps=[
        ("imputer_cat", SimpleImputer(strategy="constant", fill_value="missing")),
        ("onehot", OneHotEncoder(sparse=False, handle_unknown="ignore")),
    ]
)

# Pipeline Ordinal
ord_pipe = Pipeline(
    steps=[
        ("imputer_ord", SimpleImputer(strategy="constant", fill_value="NA")),
        ("ordinal", OrdinalEncoder(categories=ordinal_cat)),
    ]
)

# Preprocesador Compuesto
prep = ColumnTransformer(
    transformers=[
        ("num", num_pipe, num_cols),
        ("cat", cat_pipe, cat_cols),
        ("ord", ord_pipe, ordinal_cols),
    ]
)

prep

## Ya pero quiero aprender mas... ¿algo para leer? 🤔

- Para comenzar pueden visualizar con mayor profundidad la documentación de Scikit-Learn enfocada en la extracción de features: https://scikit-learn.org/stable/modules/feature_extraction.html
- Complementar la clase leyendo el capitulo 5 del libro [Designing Machine Learning Systems](https://www.amazon.com/Designing-Machine-Learning-Systems-Production-Ready/dp/1098107969)

- Leer capitulo 1 del libro [Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, and MLOps](https://www.amazon.com/-/es/Valliappa-Lakshmanan/dp/1098115783/ref=pd_bxgy_img_sccl_1/142-9514380-0202369?pd_rd_w=JQSaa&content-id=amzn1.sym.26a5c67f-1a30-486b-bb90-b523ad38d5a0&pf_rd_p=26a5c67f-1a30-486b-bb90-b523ad38d5a0&pf_rd_r=BJE9WMJ9X1QQMYF4C3EJ&pd_rd_wg=y78Jr&pd_rd_r=6a1994c2-2734-428a-a270-ded23f892987&pd_rd_i=1098115783&psc=1)