<h2><font color="#004D7F" size=6>Módulo 6. Fase de optimización y forecasting</font></h2>



<h1><font color="#004D7F" size=5>1. Pipelines</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Manuel Castillo-Cara</font><br>
<font color="#004D7F" size=3>Machine Learning con Python</font><br>

---

<h2><font color="#004D7F" size=5>Índice</font></h2>
<a id="indice"></a>

* [1. Introducción](#section1)
    * [1.1. Librerías](#section11)
    * [1.2. CSV](#section12)
* [2. `Pipeline`](#section2)
* [3. `FeatureUnion`](#section3)

In [1]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

Un Pipeline consiste en una combinación de estimadores que se ejecutan como si fuesen uno. Más concretamente se trata de una secuencia de transformaciones y el último es un estimador de cualquier tipo (transformador, clasificador, etc.). 

Pipeline se encarga de ir llamando a las funciones `fit` y `transform` de cada uno de los transformadores hasta que llega al último de ellos, siendo la entrada de la función `fit` el resultado del `transform` anterior. Pipeline tendrá aquellas funciones correspondientes a su último estimador, es decir, si al final hay un clasificador, el Pipeline tendrá las funciones `fit`, `predict` y `score`, si es un transformador, `fit` y `transform`. Se trata de una herramienta muy útil que permite reducir el tamaño del código y ayuda a la reproducibilidad de diferentes experimentos.

<a id="section11"></a>
## <font color="#004D7F"> 1.1. Librerías</font>

Vamos a declarar algunas librerías generales que ya hemos estado trabajando y que usaremos a lo largo de la sección.

In [1]:
#importing libraries
import pandas as pd
import numpy as np
# Metrics
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
# Preprocessing
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest
#Algorithms
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.linear_model import LogisticRegression
# Pipeline library
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion

<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Puede obtener más información sobre Pipelines en scikit-learn leyendo la sección [`Pipeline`](https://scikit-learn.org/stable/modules/compose.html). También puede revisar la documentación de la API para las clases `Pipeline` y `FeatureUnion` y el módulo de [`pipeline`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.pipeline).
</div> 

<a id="section12"></a>
## <font color="#004D7F"> 1.2. CSV</font>

En esta lección, se muestran varias métricas de evaluación de algoritmos diferentes para problemas de Machine Learning de clasificación y regresión. En cada código, el conjunto de datos se descarga directamente del repositorio de UCI Machine Learning.

Se utilizará el conjunto de datos de Pima Indians Diabetes con una validación cruzada 10-folds para demostrar cómo verificar cada algoritmo de ML y se utilizan medidas de precisión promedio para indicar el rendimiento del algoritmo.

In [3]:
# load data
filename = 'data/pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. `Pipeline`</font>

El pipeline se define con dos pasos:
1. Estandarizar los datos.
2. Aprender un modelo LDA.

Observe cómo creamos una lista de pasos de Python que se proporcionan a Pipeline para procesar los datos. Observe también cómo el Pipeline en sí misma se trata como un estimador y se evalúa en su totalidad mediante el procedimiento de validación cruzada _k-fold_. Ejecutar el ejemplo proporciona un resumen del Accuracy de la configuración en el conjunto de datos. 

In [4]:
# Create a pipeline that standardizes the data then creates a model
# create pipeline
???
# evaluate pipeline
???

Accuracy: 77.35% (5.16%)




<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section3"></a>
# <font color="#004D7F"> 3. `FeatureUnion`</font>

El Pipeline proporciona una herramienta práctica llamada `FeatureUnion` que permite combinar los resultados de múltiples procedimientos de selección y extracción de características en un conjunto de datos más grande en el que se puede entrenar un modelo. Es importante destacar que toda la extracción de características y la unión de características se produce dentro de cada _fold_ del procedimiento de validación cruzada. El siguiente ejemplo muestra el Pipeline definida con cuatro pasos:
1. Extracción de características con PCA (3 características). 
2. Extracción de características con selección estadística (6 características).
3. Unión de características.
4. Evaluación con un modelo LoR.

Observe cómo `FeatureUnion` es un Pipeline propio que, a su vez, es un solo paso en el Pipeline final utilizado para alimentar a LoR; en resumidas cuentas "es un Pipeline dentro de otro".

In [5]:
# Create a pipeline that extracts features from the data then creates a model
# create feature union
???
# create pipeline
???
# evaluate pipeline
???



Accuracy: 77.60% (5.16%)


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>