#Feature engineering

En esta sección vamos a ver un conjunto de técnicas que podemos aplicar a nuestros datos para prepararlos y transformarlos para poder ser utilizados por nuestros modelos más adelante. 

Para que nuestros modelos funcionen bien sobre nuevos datos, a veces es necesario diseñar nuevas variables de entrada basadas en las que ya disponemos para poder mejorar la capacidad predictiva de nuestros modelos. 


Vamos a ver un ejemplo muy sencillo para visualizar lo que queremos decir a la hora de diseñar nuevas variables de entrada. 

En la siguiente tabla vemos los precios de casas en una determinada ciudad. La tabla contiene la superficie de las casas y el precio de la casa

| Superficie (m2) | Precio |
|------------|--------|
| 240        | 90000  |
| 320        | 150000 |
| 250        | 100000 |
| 210        | 120000 |
| 250        | 135000 |


Podemos añadir una nueva columna que nos muestre el precio por metro cuadrado. 

| Superficie (m2) | Precio | Precio por m2 |
|-----------------|--------|---------------|
| 240             | 90000  | 375           |
| 320             | 150000 | 468,75        |
| 250             | 100000 | 400           |
| 210             | 120000 | 571,43        |
| 250             | 135000 | 540           |

Este es un ejemplo muy básico de feature engineering puesto que hemos creado una nueva variable de entrada en nuestro set de datos que nos permite pasarle más información a nuestro modelo y conseguir que tenga un mejor desempeño. 

## Técnicas para feature engineering

Vamos a ver algunas de las técnicas que podemos aplicar a nuestros datos para transformarlos y añadir valor que haga que las predicciones de nuestro modelo sean mejores. Hay que tener en cuenta que no hay una única forma de hacer feature engineering y cada set de datos requiere unas transformaciones diferentes, por lo que esto debe ser tomado como una introducción a estas técnicas y queda en manos del alumno identificar cuáles son las que se debe aplicar en cada momento.

### Imputación 
Se trata de rellenar aquellos valores que se encuentran vacíos. Estos valores vacíos pueden deberse a errores humanos a la hora de registrar los datos, interrupciones en la transmisión de datos, datos que se han eliminado para mantener la privacidad etc... 
Estos valores vacíos afectan negativamente al desempeño de los modelos y debemos tratarlos para evitar su impacto. 

Hay dos formas de imputación: 
- **Imputación numérica**: Rellenamos los valores que se han quedado vacíos en variables numéricas. Se pueden rellenar estos valores vacíos con un valor en concreto si tenemos un contexto que nos permita decidir cuál es ese valor o bien con el valor medio de la variable. 

- **Imputación categórica**: Rellenamos los valores que se han quedado vacíos en variables categóricas. Se puede rellenar con el valor más repetido de esa categoría o si tenemos información sobre la distribución de los valores de la variable podemos escoger el valor que mejor le venga a esos valores vacíos. 

### Identificar y tratar valores extremos (outliers)

Los valores extremos (outliers) suelen afectar de forma negativa al desempeño de los modelos de machine learning. Por eso es muy importante identificarlos con el análisis de EDA y tratarlos. Hay varias estrategias para tratar los valores extremos (outliers):
- **Borrar los valores extremos (outliers)**: Si los valores extremos se encuentran concentrados en unas pocas variables, podemos borrar esos registros para evitar el impacto que pueden tener en el desempeño del modelo. Si los valores extremos se encuentran en varias variables de nuestros datos esta estrategia puede llevarnos a borrar una cantidad significativa de datos y no ser la más adecuada. 
- **Reemplazar sus valores**: Podemos tratar los valores extremos (outliers) como valores vacíos y aplicar las estrategias de imputación que hemos visto en la sección anterior
- **Poner un límite**: Si tenemos contexto que nos permita reemplazar los valores extremos (outliers) por un límite que consideramos que es el valor máximo que pueden asumir nuestros datos. 

### Cambiar a una escala logarítmica
Una estrategia muy utilizada en situaciones donde los datos presentan grandes variaciones es aplicar un logaritmo sobre los datos y reemplazar el valor original por el valor logarítmico. Esto nos permite transformar variables con grandes variaciones a variables con una distribución cercana a normal. 

### One-hot encoding
Es una técnica que podemos utilizar para transformar nuestras variables categóricas en variables numéricas. Al aplicar one-hot encoding sobre una variable categórica identificamos los valores distintos que tiene la variable categórica y creamos nuevas columnas para esos valores de la variable categórica. Estas nuevas columnas tendrán un 1 si el valor de la variable categórica original coincide con el valor de la columna y 0 en caso contrario. Vamos a ver un ejemplo: 

Tenemos la siguiente variable categórica: 

| Animales |
|----------|
| Perro    |
| Gato     |
| Pez      |
| Perro    |
| Pez      |
| Gato     |

Al aplicar la estrategia de one-hot encoding, acabamos con estas nuevas columnas:

| Animales | Perro | Gato | Pez |
|----------|-------|------|-----|
| Perro    | 1     | 0    | 0   |
| Gato     | 0     | 1    | 0   |
| Pez      | 0     | 0    | 1   |
| Perro    | 1     | 0    | 0   |
| Pez      | 0     | 0    | 1   |
| Gato     | 0     | 1    | 0   |


### Escalado de las variables

El escalado de las variables numéricas es una de las transformaciones más importantes para algunos de los modelos de machine learning para que su funcionamiento sea el esperado, especialmente aquellos que se basan en calcular distancias entre nuestros datos. 

Hay dos estrategias muy comunes para escalar nuestras variables numéricas:

- **Normalización**: Se escalan todos los valores para tener acabar en un rango entre 0 y 1. Este escalado no influye en la distribución de las variables pero destaca mucho el efecto de los valores extremos (outliers), por lo que se recomienda tratar los valores extremos (outliers) antes de aplicar el escalado con normalización. 

- **Estandarización**: El proceso de estandarización es un proceso de escalado donde tenemos en cuenta la desviación típica de las variables. Si la desviación típica de las variables son diferentes,los rangos de las variables también serán diferentes. En este tipo de escalado el efecto de los valores extremos (outliers) es mucho más reducido al tener en cuenta la desviación típica de las variables. 

## Crear y utilizar Pipelines

Los pipelines son estructuras que nos ofrecen la oportunidad de repetir fácilmente los pasos que apliquemos a nuestros datos del set de entrenamiento a los datos del set de pruebas. Esto es muy importante porque cualquier transformación que hagamos en los datos de entrenamiento del modelo tenemos que aplicarlos a los datos del set de pruebas para que sean comparables y así evitar que el modelo nos de resultados erroneos. Dado que las transformaciones que hacemos en el set de datos de entrenamiento se hacen al principio de nuestro trabajo con el modelo y el set de pruebas se utiliza una vez hemos hecho el entrenamiento del modelo, podemos olvidarnos de alguna de las transformaciones que tenemos que aplicar a nuestros datos del set de pruebas y tardar bastante en encontrar la razón por la que los resultados del modelo para los datos del set de pruebas son tan diferentes de los resultados del set de entrenamiento. 

Para evitar estas situaciones, es una buena práctica utilizar los pipelines que nos permiten definir las transformaciones que queremos aplicar a nuestros datos y luego aplicarlas tanto a los datos de entrenamiento como a los de pruebas. 

La libreria scikit-learn nos ofrece unos objetos de tipo Pipeline que nos permite ir definiendo las transformaciones que queremos aplicar a nuestros datos y el modelo que vamos a crear y aplicar dichas transformaciones a sets de datos y utilizar el modelo de forma muy fácil. 


Los objetos pipeline que nos ofrece la libreria scikit-learn tienen la siguiente estructura:



```puython
Pipeline(steps=[('nombre_del_preprocesamiento', preprocessor),
                ('nombre_del_modelo', ml_model())])
```

Por lo tanto debemos definir el preprocesamiento que queremos aplicar y el modelo que vamos a aplicar en nuestro pipeline.



Vamos a ver un ejemplo:




In [15]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestRegressor

In [3]:
# Cargamos unos datos que vamos a utilizar para demostrar el valor de los pipelines
data = pd.read_csv('https://raw.githubusercontent.com/MicrosoftDocs/ml-basics/master/data/daily-bike-share.csv')

In [4]:
# vamos a ver los tipos de datos que tenemos en las distintas variables
data.dtypes

instant         int64
dteday         object
season          int64
yr              int64
mnth            int64
holiday         int64
weekday         int64
workingday      int64
weathersit      int64
temp          float64
atemp         float64
hum           float64
windspeed     float64
rentals         int64
dtype: object

In [6]:
# vamos a ver si hay algún valor vacío
data.isnull().sum()

instant       0
dteday        0
season        0
yr            0
mnth          0
holiday       0
weekday       0
workingday    0
weathersit    0
temp          0
atemp         0
hum           0
windspeed     0
rentals       0
dtype: int64

In [9]:
data.head()

Unnamed: 0,instant,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,rentals
0,1,1/1/2011,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331
1,2,1/2/2011,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131
2,3,1/3/2011,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120
3,4,1/4/2011,1,0,1,0,2,1,1,0.2,0.212122,0.590435,0.160296,108
4,5,1/5/2011,1,0,1,0,3,1,1,0.226957,0.22927,0.436957,0.1869,82


No hay ninguna variable que tenga valores vacíos en este data set pero tenemos que ocuparnos de las variables que son categóricas para poder transformarlas antes de meterlas en nuestro modelo. 

In [10]:
# Vamos a quedarnos con las columnas más interesantes
data = data[['season', 'mnth','holiday', 'weekday','workingday', 'weathersit','temp','atemp','hum', 'windspeed', 'rentals']]

In [11]:
# Antes de empezar a crear nuestro pipeline, vamos a crear los sets de entrenamiento y de pruebas
X = data.drop('rentals', axis=1)
y = data['rentals']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

In [12]:
# Como hemos visto para poder crear nuestro pipeline tenemos que definir el preprocesamiento que queremos aplicar a nuestros datos
# Vamos a definir los pasos que queremos seguir para las variables numéricas y para las variables categóricas 

# Para las variables numéricas vamos a aplicar un SimpleInputer que rellene los valores vacíos con la media de los valores de esa variable
# y luego vamos a escalar la variable utilizando un StandardScaler

numeric_transformer = Pipeline(steps=[('imputer', SimpleImputer(strategy='mean')), 
                                      ('scaler', StandardScaler())])

# Para las variables categóricas vamos a aplicar un SimpleInputer que rellene los valores vacíos con un valor constante
# y luego vamos a utilizar un OrdinalEncoder para transformar esas variables categóricas en numéricas

categorical_transformer = Pipeline(steps=[('imputer', SimpleImputer(strategy='constant')), 
                                          ('encoder', OrdinalEncoder())])

In [14]:
# Ahora vamos a definir el grupo de variables a las que vamos a aplicar el preprocesamiento numérico y el grupo de variables que va recibir el preprocesamiento categórico

variables_numericas = ['temp','atemp','hum','windspeed']
variables_categoricas = ['season', 'mnth', 'holiday', 'weekday','workingday','weathersit']

preprocessor = ColumnTransformer(transformers=[('numerico', numeric_transformer, variables_numericas), 
                                               ('categorico',categorical_transformer, variables_categoricas)])

In [16]:
# Ahora que tenemos definido el preprocesamiento que queremos hacer a nuestros datos, vamos a definir el modelo que queremos utilizar con nuestro pipeline
# En este caso vamos a utilizar un Random Forest. No te preocupes, porque veremos cómo funcionan más adelante

pipeline = Pipeline(steps=[('preprocesamiento', preprocessor),
                           ('modelo', RandomForestRegressor())])

In [17]:
# Hasta ahora solamente hemos estado definiendo los pasos que queremos aplicar a nuestros datos
# vamos a utilizar el pipeline utilizando el método fit que ofrecen todos los modelos de la libreria scikit-learn

rf_model = pipeline.fit(X_train, y_train)

In [20]:
# Podemos aplicar las transformaciones y generar predicciones utilizando el método predict del pipeline
predictions = pipeline.predict(X_test)
predictions

array([ 711.98,  535.76,  662.52,  350.71, 1018.92, 1980.71,  496.59,
        770.69,  904.62,  301.3 ,  613.65, 1484.9 , 2512.31, 1212.4 ,
        303.65,  884.42, 1317.48, 2179.43,  776.57,  634.47, 2442.55,
       2136.05,   52.75,  893.96,  778.24,  224.87,  750.63,   64.76,
        783.72,  576.08, 1171.99,  710.03, 1168.16, 1157.08, 1236.06,
       1073.16,  894.1 ,  724.72,  723.23,  224.78,  770.79,   95.64,
        289.82,  592.65,  547.03,  678.88,  757.31,  846.64,  270.41,
        138.13,  491.79,  335.17,  828.18,  355.53,  725.04,  792.34,
       1322.71,  832.68,  775.14, 1128.1 ,  999.33,  195.86,  667.39,
       2036.22, 1482.3 ,  135.04,   61.78,  483.8 ,  325.4 , 1790.12,
        717.64,  313.79,  929.4 ,  802.47,  126.69,  696.36,  142.75,
        495.85, 1175.44,  254.35,  598.1 ,  698.21,  775.  ,  795.94,
       1288.95,  856.93,  301.44, 1136.96, 1033.22,  214.84,  886.8 ,
       2233.42,  566.37,  486.19,  377.01, 2232.41,  246.96,  740.2 ,
        678.27,  555