 # Hyperparameter Tuning - Feature engineering 

![nohayjupytersingif](https://media.giphy.com/media/jeDM590qtCP9C/giphy.gif)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Feature-engineering" data-toc-modified-id="Feature-engineering-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Feature engineering</a></span></li><li><span><a href="#Pequeña-exploración-de-los-datos" data-toc-modified-id="Pequeña-exploración-de-los-datos-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Pequeña exploración de los datos</a></span><ul class="toc-item"><li><span><a href="#Nos-fijamos-en-la-feature-&quot;Cabin&quot;" data-toc-modified-id="Nos-fijamos-en-la-feature-&quot;Cabin&quot;-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Nos fijamos en la feature "Cabin"</a></span></li><li><span><a href="#Analizamos-los-nombres-de-los-pasajeros" data-toc-modified-id="Analizamos-los-nombres-de-los-pasajeros-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Analizamos los nombres de los pasajeros</a></span></li></ul></li><li><span><a href="#Categorical-encoding" data-toc-modified-id="Categorical-encoding-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Categorical encoding</a></span><ul class="toc-item"><li><span><a href="#One-Hot-Encoder" data-toc-modified-id="One-Hot-Encoder-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>One Hot Encoder</a></span></li><li><span><a href="#Label-Encoder" data-toc-modified-id="Label-Encoder-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Label Encoder</a></span></li><li><span><a href="#A-mano-con-un-diccionario-💡" data-toc-modified-id="A-mano-con-un-diccionario-💡-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>A mano con un diccionario 💡</a></span></li></ul></li><li><span><a href="#Feature-Scaling" data-toc-modified-id="Feature-Scaling-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Feature Scaling</a></span><ul class="toc-item"><li><span><a href="#Estandarización" data-toc-modified-id="Estandarización-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Estandarización</a></span></li><li><span><a href="#Normalización-min-max" data-toc-modified-id="Normalización-min-max-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Normalización min-max</a></span></li><li><span><a href="#Cito-a-Andriy-Burkov:" data-toc-modified-id="Cito-a-Andriy-Burkov:-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Cito a Andriy Burkov:</a></span></li></ul></li><li><span><a href="#Repasamos-Train-Test-Split" data-toc-modified-id="Repasamos-Train-Test-Split-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Repasamos Train Test Split</a></span></li><li><span><a href="#Ajuste-de-hiperparámetros" data-toc-modified-id="Ajuste-de-hiperparámetros-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Ajuste de hiperparámetros</a></span><ul class="toc-item"><li><span><a href="#--Muestreo-aleatorio" data-toc-modified-id="--Muestreo-aleatorio-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>- Muestreo aleatorio</a></span></li><li><span><a href="#--Muestreo-de-cuadrícula" data-toc-modified-id="--Muestreo-de-cuadrícula-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>- Muestreo de cuadrícula</a></span></li><li><span><a href="#--Muestreo-bayesiano" data-toc-modified-id="--Muestreo-bayesiano-6.3"><span class="toc-item-num">6.3&nbsp;&nbsp;</span>- Muestreo bayesiano</a></span></li><li><span><a href="#GridSearchCV-de-sklearn,-¡saludad-a-vuestro-nuevo-amigo!" data-toc-modified-id="GridSearchCV-de-sklearn,-¡saludad-a-vuestro-nuevo-amigo!-6.4"><span class="toc-item-num">6.4&nbsp;&nbsp;</span>GridSearchCV de sklearn, ¡saludad a vuestro nuevo amigo!</a></span></li><li><span><a href="#Entrenaríamos-el-modelo-con-los-mejores-parámetros" data-toc-modified-id="Entrenaríamos-el-modelo-con-los-mejores-parámetros-6.5"><span class="toc-item-num">6.5&nbsp;&nbsp;</span>Entrenaríamos el modelo con los mejores parámetros</a></span></li></ul></li><li><span><a href="#Salvar-/-Exprotar-el-modelo" data-toc-modified-id="Salvar-/-Exprotar-el-modelo-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Salvar / Exprotar el modelo</a></span></li></ul></div>

## Feature engineering

Es el proceso de utilizar el conocimiento del dominio para extraer características de los datos brutos.  
Estas características pueden utilizarse para mejorar el rendimiento de los algoritmos de aprendizaje automático.

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv("../datasets/titanic.csv")
data.head()

## Pequeña exploración de los datos

In [None]:
data.dtypes

In [None]:
data.isnull().sum()

In [None]:
# Vemos el porcentaje de nulos en cada columna
round(data.isnull().sum().sort_values(ascending=False)/len(data)*100,2)

### Nos fijamos en la feature "Cabin"

In [None]:
data.Cabin.unique()

Hay muchos valores que faltan, pero debemos utilizar la variable del camarote porque puede ser un predictor importante. Como se puede ver en la siguiente imagen, la primera clase tenía los camarotes en la cubierta A, B o C, una mezcla estaba en la D o la E y la tercera clase estaba principalmente en la f o la g. Podemos identificar la cubierta por la primera letra.

![laimagendelbarco](../images/barco.png)

In [None]:
# Creamos una nueva columna "Cubierta" basándonos en la letra del camarote
data["Deck"] = data["Cabin"].apply(lambda x: x[0] if pd.notnull(x) else "M")

In [None]:
data.head()

### Analizamos los nombres de los pasajeros

El nombre podríaa aportarnos información importante sobre el estatus socioeconómico de un pasajero. Y en función del estatus socioeconómico han podido comprar un billete más caro o más barato, que indica un camarote situado en uno u otro lugar del barco. Podemos responder a la pregunta de si alguien está casado o no o si tiene un título formal y extraer esa información para generar una nueva variable.

In [None]:
def limpianame(x):
    x = x.split(",")
    x = x[1].split(".")
    return x[0].strip()

In [None]:
data["Title"] = data["Name"].apply(limpianame)

In [None]:
data.head()

In [None]:
data.Title.unique()

In [None]:
# Para no tener muchas categorías con los títulos, vamos a quedarnos con los que tienen más de 10  

In [None]:
varios = (data.Title.value_counts() < 10)

In [None]:
varios

In [None]:
# Hacemos un loc de la columna y si es true, porque es menos de 10, lo identificamos como misceláneo
data["Title"] = data["Title"].apply(lambda x: "Misc" if varios.loc[x] == True else x)

In [None]:
# Hemos agrupado los títulos con menos de 10 registros en una categoría nueva
data.Title.value_counts()

In [None]:
# Borramos las columnas que vamos a querer despreciar porque ya hemos trabajado con ellas o no nos aportan información.
borrar = ["Name", "PassengerId", "Cabin", "Ticket"]

In [None]:
data = data.drop(borrar, axis=1)

In [None]:
data.head()

Solo nos queda la columna Age con nulos ... Vamos a rellenarlos, pero explorando los datos.... ¿tienen la misma edad de media los hombres que las mujeres?

In [None]:
data.isnull().sum()

In [None]:
# Agrupamos por sexo y edad para ver las medianas de ambas agrupaciones
display(data.groupby(["Sex"])["Age"].mean())

In [None]:
# Agrupamos además por cubierta para tener en cuenta también el estatus socioeconómico
display(data.groupby(["Sex", "Deck"])["Age"].median())

Por ajustarnos un poco más, vamos a rellenar los NaN de la edad con la mediana pero en función de su sexo y también en función de la cubierta.

In [None]:
data["Age"] = data.groupby(["Sex", "Deck"])["Age"].apply(lambda x: x.fillna(x.median()))

In [None]:
data.head()

## Categorical encoding

Transformar columnas categóricas en numéricas

### One Hot Encoder

Ahora bien, como ya hemos comentado, dependiendo de los datos que tengamos, podríamos encontrarnos con situaciones en las que, tras la codificación de las etiquetas, podríamos confundir a nuestro modelo haciéndole creer que una columna tiene datos con algún tipo de orden o jerarquía, cuando claramente no lo tenemos. Para evitar esto, "OneHotEncode" esa columna.
Lo que hace una codificación en caliente es que toma una columna que tiene datos categóricos, que ha sido codificada con etiquetas, y luego divide la columna en múltiples columnas. Los números son reemplazados por 1s y 0s, dependiendo de qué columna tiene qué valor.

In [None]:
# Vamos a hacer lo mismo con los títulos pero con OneHotEncoder, que nos creará diferentes columnas
data.Title.unique()

In [None]:
#Creamos una lista con lo que van a ser los nombres de las columnas
labels = ["Title_" + str(a) for a in list(data.Title.unique())]
labels

In [None]:
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()

In [None]:
#Hacemos el fit transform y nos guardamos los array de datos en una variable
title = onehotencoder.fit_transform(data["Title"].values.reshape(-1,1)).toarray()

In [None]:
#Añadimos al dataframe todas las columnas a la vez
data[labels] = pd.DataFrame(title,index = data.index)

In [None]:
data.head()

In [None]:
# La columna Title ya no nos hace falta.
data.drop("Title", axis=1, inplace=True)

### Label Encoder

In [None]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

In [None]:
# Creamos una columna nueva que es "embarked_n" con la transformación a numérica de las categorías 
data["Embarked_n"] = le.fit_transform(data["Embarked"])

In [None]:
# Hacemos lo mismo con sex, a través de LabelEncoder
data["Sex_n"] = le.fit_transform(data["Sex"])

In [None]:
#Recordemos que labelencoder nos pone números donde tenemos categorías empezando por 0 e incrementando
data.head()

In [None]:
data.drop(["Embarked", "Sex"], axis=1, inplace=True)

In [None]:
data.head()

### A mano con un diccionario 💡
Podremos otorgarle un valor numérico a cada categoría y decidimos su importancia

In [None]:
data.Deck.unique()

In [None]:
"""
Creamos las categorías a mano, podríamos darle un orden de importancia a las letras y poner
mayor puntuación o menor en función de la relación que tenga esa variable con la variable target.
"""
dic_para_hot = { "M": 1,
                "C": 2,
                "E": 3,
                "G":4,
                "D":5,
                "A":6,
                "B":7,
                "F": 8,
                "T":9
}

In [None]:
# Con un map reemplazamos todas las strings de la columna Deck por el valor asignado en el diccionario
data.Deck = data.Deck.map(dic_para_hot)

In [None]:
data.head()

## Feature Scaling

Algunos algoritmos, especialmente los que se basan en cálculos de distancia, darán más peso a las características que muestren grandes cambios de valor, interpretando estas características como artificialmente más importantes. Para estos algoritmos, es importante que escalemos nuestros rasgos, o que pongamos en la misma escala rasgos con escalas naturalmente diferentes, para que los rasgos sean utilizados por el algoritmo sin una sobreponderación artificial, y permita comparar dos rasgos con escalas diferentes.      
Hay dos tipos diferentes de escalamiento de características que vamos a explorar:

### Estandarización   
En la estandarización, imponemos varias propiedades estadísticas a la variable: el valor medio se fija en 0, y la desviación estándar se fija en 1. Esto se consigue restando la media de cada valor de la característica y dividiendo por la desviación estándar. Esto también se llama a veces "normalización de la puntuación z". 

Entonces, ¿qué significa esto, en la práctica, sobre los datos estandarizados? Como podemos ver a continuación, ahora tenemos las distribuciones de ambas variables centradas alrededor de la media cero, con una desviación estándar de 1. Como estamos imponiendo esta desviación estándar, la normalización reduce los efectos de los valores atípicos en la característica. Además, permite comparar dos características con escalas o unidades diferentes. Las diferentes escalas de las características se reflejarían estadísticamente en diferencias tanto en la media como en la desviación estándar. La estandarización de estos dos números entre características elimina la influencia de estas diferencias de escala.

La estandarización es especialmente importante en situaciones en las que utilizamos algoritmos que asumen que las características de nuestros datos se distribuyen en una 'curva de campana' o una distribución gaussiana, como la regresión lineal y logística. 

In [None]:
"""
En este dataset no nos enfrentamos a un problema de regresión si no de clasificación,
pero vamos a hacer un ejemplo de estandarización en una columna para ver el código
"""
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()

In [None]:
data["Fare"] = scaler.fit_transform(data["Fare"].values.reshape(-1,1))

In [None]:
data.head()

### Normalización min-max

En la otra forma de escalado de características, llamada normalización, la característica se reescala a un rango entre 0 y 1, sin ningún cambio en su distribución original dentro de ese rango. Matemáticamente, esto se consigue restando el valor mínimo de la característica a cada valor de la misma, y dividiendo por la diferencia entre el valor mayor y el valor mínimo. 

Dado que calculamos el valor normalizado utilizando los valores máximo y mínimo de la característica, esta técnica se denomina a veces "normalización min-max".      
La normalización es más útil en los casos en que sus datos tienen pocos valores atípicos pero rangos muy variables, usted no sabe cómo se distribuyen sus datos, o sabe que no se distribuyen en una curva de campana (gaussiana). Generalmente se aplica con algoritmos que no hacen suposiciones sobre las distribuciones de las características.  


In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
min_max = MinMaxScaler()

In [None]:
data["Age"] = min_max.fit_transform(data["Age"].values.reshape(-1,1))

In [None]:
data.head()

In [None]:
data.Age.min()

In [None]:
data.Age.max()

### Cito a Andriy Burkov:
Te estarás preguntando cuándo se debe utilizar la normalización y cuándo la estandarización. No hay una respuesta definitiva a esta pregunta. Por lo general, si su conjunto de datos no es demasiado grande y tiene tiempo, puede probar ambos y ver cuál de ellos se adapta mejor a su tarea.
Si no tiene tiempo para realizar varios experimentos, como regla general:

- Los algoritmos de aprendizaje no supervisado, en la práctica, se benefician más de la estandarización que de la normalización.      
- La estandarización también es preferible para una característica si los valores que ésta toma se distribuyen cerca de una distribución normal (la llamada curva de campana).     
- Una vez más, la normalización es preferible para una característica si a veces puede tener valores extremadamente altos o bajos (valores atípicos); esto se debe a que la normalización "exprimirá" los valores normales en un rango muy pequeño.       
- En todos los demás casos, es preferible la normalización min-max.      

El reescalado de características suele ser beneficioso para la mayoría de los algoritmos de aprendizaje. Sin embargo, las implementaciones modernas de los algoritmos de aprendizaje, que se pueden encontrar en bibliotecas populares, son robustas a las características que se encuentran en diferentes rangos.

**NOTA**: a los modelos de tipo árbol (DecisionTree, RandomForest, GradientBoosting) les da igual la normalización. No les importa la magnitud exacta de una variable, si no la ordenación de los valores (sólo hacen preguntas < o > qué)

## Repasamos Train Test Split 

In [None]:
# Vamos a preparar los datos (X, y) antes de entrenar el modelo y ajustar los hiperparámetros

In [None]:
# Lista de columnas que voy a usar en la X
columnas_x = [a for a in list(data.columns) if a != "Survived"]
columnas_x

In [None]:
# Me guardo la variable X con todos los datos 
X = data[columnas_x]

In [None]:
# Variable target solo la columna que voy a predecir
y = data.Survived

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Asigno las variables train test split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size= 0.2, random_state = None)

## Ajuste de hiperparámetros

¿Qué es el ajuste de hiperparámetros?
Los hiperparámetros son parámetros ajustables que permiten controlar el proceso de entrenamiento de un modelo. Por ejemplo, con redes neuronales, puede decidir el número de capas ocultas y el número de nodos de cada capa. El rendimiento de un modelo depende en gran medida de los hiperparámetros.
El ajuste de hiperparámetros, también denominado optimización de hiperparámetros es el proceso de encontrar la configuración de hiperparámetros que produzca el mejor rendimiento. Normalmente, el proceso es manual y costoso desde el punto de vista computacional.

Hay diferentes técnicas para elegir este ajuste de hiperparámetros:     
    
### - Muestreo aleatorio    
El muestreo aleatorio admite hiperparámetros discretos y continuos. Admite la terminación anticipada de las series de bajo rendimiento. Algunos usuarios realizan una búsqueda inicial con muestreo aleatorio y luego restringen el espacio de búsqueda para mejorar los resultados.
En el muestreo aleatorio, los valores de hiperparámetro se seleccionan aleatoriamente del espacio de búsqueda definido.

### - Muestreo de cuadrícula
El muestreo de cuadrícula admite hiperparámetros discretos. Use el muestreo de cuadrícula si su presupuesto le permite buscar en el espacio de búsqueda de manera exhaustiva. Admite la terminación anticipada de las series de bajo rendimiento.

### - Muestreo bayesiano   
El muestreo bayesiano se basa en el algoritmo de optimización bayesiano. Escoge las muestras en función de cómo lo hicieron las anteriores, para que las nuevas muestras mejoren la métrica principal.
 Para obtener los mejores resultados, se recomienda que el número máximo de series sea mayor o igual que 20 veces el número de hiperparámetros que se está optimizando.
El número de series simultáneas afecta a la eficacia del proceso de ajuste. Un menor número de series simultáneas puede provocar una mejor convergencia de muestreo, dado que el menor grado de paralelismo aumenta el número de series que se benefician de las series completadas previamente.

Vamos a ver el ajuste de hiperparámetros en cuadrícula con GridSearchCV pero os dejo que investiguéis el muestreo bayesiano con [HyperOpt](https://towardsdatascience.com/hyperopt-hyperparameter-tuning-based-on-bayesian-optimization-7fa32dffaf29)

### GridSearchCV de sklearn, ¡saludad a vuestro nuevo amigo!
Y leed la [documentación](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

In [None]:
#Hiperparámetros tuneables de RandomForest
parameters = {'bootstrap': [True, False],
 'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, None],
 'max_features': ['auto', 'sqrt'],
 'min_samples_leaf': [1, 2, 4],
 'min_samples_split': [2, 5, 10],
 'n_estimators': [200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000]}

In [None]:
#Reducimos para hacer la prueba con diferentes n_estimators
params = {
     'n_estimators': [400, 600,800]
}

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Guaardo en una variable raandom forest
rfc = RandomForestClassifier()

In [None]:
help(rfc)

In [None]:
# Guardo el grid search con el algoritmo, los parámetros y verbose paraa que muestre info del proceso
grid = GridSearchCV(rfc, params, verbose=1)
# entreno el grid con los datos de train
grid.fit(X_train,y_train)

In [None]:
# Imprimo los mejores parámetros que me ha dado el modelo
print(grid.best_params_)

### Entrenaríamos el modelo con los mejores parámetros

Si en GridSearchCV() se indica refit=True, tras identificar los mejores hiperparámetros, se reentrena el modelo con ellos y se almacena en .best_estimator_.

In [None]:
# Entrenon
rfc_params = RandomForestClassifier(n_estimators =  800)

In [None]:
rfc_params.fit(X_train,y_train)

In [None]:
y_pred = rfc_params.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score, precision_score, f1_score, recall_score

In [None]:
print ("Accuracy", round(accuracy_score(y_test,y_pred),3))
print("Precission",round(precision_score(y_test,y_pred, average = "weighted"),3))
print("Recall", round(recall_score(y_test,y_pred, average = "weighted"),3))
print("F1_score", round(f1_score(y_test,y_pred,average= "weighted"),3))

## Salvar / Exprotar el modelo
https://machinelearningmastery.com/save-load-machine-learning-models-python-scikit-learn/

In [None]:
import pickle

In [None]:
# save the model to disk
pickle.dump(rfc_params, open("mi_mejor_modelo", 'wb'))

In [None]:
# load the model from disk
loaded_model = pickle.load(open("mi_mejor_modelo", 'rb'))

In [None]:
loaded_model.predict(X_test)

In [None]:
rfc_params.predict(X_test)