# Laboratorio 11

La finalidad de este laboratorio es tener un mejor manejo de las herramientas que nos ofrece Scikit-Learn, como los _transformers_ y _pipelines_.  Usaremos el dataset [The Current Population Survey (CPS)](https://www.openml.org/d/534) que consiste en predecir el salario de una persona en función de atributos como la educación, experiencia o edad.

In [None]:
import numpy as np
import scipy as sp
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

%matplotlib inline

Como siempre, un pequeño análisis descriptivo

In [None]:
survey = fetch_openml(data_id=534, as_frame=True)

In [None]:
X = survey.data[survey.feature_names]
X.head()

In [None]:
X.describe(include="all").T.fillna("")

In [None]:
y = survey.target
y.head()

Y la posterior partición _train/test_.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=42
)

## Ejercicio 1

(1 pto)

_One-Hot Encode_ es una técnica que a partir de una _feature_ categórica generar múltiples columnas, una por categoría.

* Define el transformador `ohe_sex` utilizando `OneHotEncoder` con atributos `drop="if_binary"` y `sparse=False`, luego ajusta y transforma el dataframe `X` solo con la columna `SEX`.
* Define el transformador `ohe_race` utilizando `OneHotEncoder` con atributos `drop="if_binary"` y `sparse=False`, luego ajusta y transforma el dataframe `X` solo con la columna `RACE`.

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
ohe_sex = OneHotEncoder(## FIX ME PLEASE ##)
ohe_sex.## FIX ME PLEASE ##

In [None]:
ohe_race = ## FIX ME PLEASE ##
ohe_race.## FIX ME PLEASE ##

__Pregunta:__ ¿Por qué las transformaciones resultantes tiene diferente cantidad de columnas?

__Respuesta:__ ## FIX ME PLEASE ##

## Ejercicio 2

(1 pto)

Realizar _One-Hot-Encoding_ para cada una de las columnas categóricas y luego unirlas en un nuevo array o dataframe es tedioso, poco escablable y probablemente conlleve a errores. La función `make_column_transformer` permite automatizar este proceso en base a aplicar transformadores a distintas columnas.

* `categorical_columns` debe ser una lista con todos los nombres de columnas categóricas del dataframe `X`.
* `numerical_columns` debe ser una lista con todos los nombres de columnas numéricas del dataframe `X`.
* Define `preprocessor` utilizando `make_column_transformer` tal que:
    - A las columnas categóricas se les aplique `OneHotEncoder` con el argumento `drop="if_binary"`
    - El resto de las columnas se mantena igual. Hint: Revisar la documentación del argumento `remainder`.
* Finalmente define  `X_processed` al ajustar y transformar el dataframe `X` utilizando `preprocessor` 

In [None]:
from sklearn.compose import make_column_transformer

categorical_columns = [## FIX ME PLEASE ##]
numerical_columns = [## FIX ME PLEASE ##]

preprocessor = make_column_transformer(
    (## FIX ME PLEASE ##, ## FIX ME PLEASE ##),
    remainder=## FIX ME PLEASE ##
)

X_processed = ## FIX ME PLEASE ##
print(X_processed)

In [None]:
print(f"X_processed tiene {X_processed.shape[0]} filas y {X_processed.shape[1]} columnas.")

## Ejercicio 3

(1 pto)

Sucede un fenómeno similar al aplicar transformaciones al vector de respuesta. En ocasiones es necesario transformarlo pero que las predicciones sean en la misma escala original. `TransformedTargetRegressor` juega un rol clave, pues los insumos necesarios son: un estimador, la función y la inversa para aplicar al vector de respuesta.

Define `ttr` como un `TransformedTargetRegressor` tal que:
* El regresor sea un modelo de regresión Ridge y parámetro de regularización `1e-10`.
* La función para transformar sea logaritmo base 10. Hint: `NumPy` es tu amigo.
* La función inversa sea aplicar `10**x`. Hint: Revisa el módulo `special` de `SciPy` en la sección de _Convenience functions_.

In [None]:
from sklearn.compose import TransformedTargetRegressor
from sklearn.linear_model import Ridge

In [None]:
ttr = TransformedTargetRegressor(
        ## FIX ME PLEASE ##
    )

Ajusta el modelo con los datos de entrenamiento

In [None]:
ttr.fit(X_train, y_train)

Lamentablemente lanza un error :(

Prueba lo siguiente:

In [None]:
ttr.fit(X_train.select_dtypes(include="number"), y_train)

__Pregunta:__ ¿Por qué falló el primer ajusto? ¿Qué tiene de diferente el segundo?

__Respuesta:__ ## FIX ME PLEASE ##

## Ejercicio 4

(1 pto)

Ahora agreguemos todos los ingredientes a la juguera.

* Define `model` utilizando `make_pipeline` con los insumos `preprocessor` y `ttr`.
* Ajusta `model` con los datos de entrenamiento.
* Calcula el error absoluto medio con los datos de test.

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.metrics import median_absolute_error

model = make_pipeline(
   ## FIX ME PLEASE ##
)

model.## FIX ME PLEASE ##

y_pred = ## FIX ME PLEASE ##
mae = median_absolute_error(## FIX ME PLEASE ##)

print(f"El error absoluto medio obtenido es {mae}")