<h2><font color="#004D7F" size=6>Módulo 5. Fase de modelado</font></h2>



<h1><font color="#004D7F" size=5>3. Algoritmos de conjunto</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Manuel Castillo-Cara</font><br>
<font color="#004D7F" size=3>Machine Learning con Python</font><br>

---

<h2><font color="#004D7F" size=5>Índice</font></h2>
<a id="indice"></a>

* [1. Introducción](#section1)
    * [1.1. Librerías](#section11)
    * [1.2. CSV](#section12)
* [2.Algoritmos Bagging](#section2)
    * [2.1. Bagged Decision Trees](#section21)
    * [2.2. Random Forest](#section22)
    * [2.3. Extra Trees](#section23)
* [3. Algoritmos Boosting](#section3)
    * [3.1. AdaBoost](#section31)
    * [3.2. Stochastic Gradient Boosting](#section32)
* [4. Algoritmo Voting](#section4)

In [1]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

  from IPython.core.display import display, HTML


---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

Los algoritmos de conjunto pueden aumentar la precisión de su conjunto de datos. Los tres métodos más populares para combinar las predicciones de diferentes modelos son:
* __Bagging__. Creación de modelos múltiples (generalmente del mismo tipo) a partir de diferentes submuestras del conjunto de datos de entrenamiento.
* __Boosting__. Construir múltiples modelos (típicamente del mismo tipo), cada uno de los cuales aprende a corregir los errores de predicción de un modelo anterior en la secuencia de modelos.
* __Voting__. La construcción de modelos múltiples (generalmente de diferentes tipos) y estadísticas simples (como calcular la media) se utilizan para combinar predicciones.

<a id="section11"></a>
## <font color="#004D7F"> 1.1. Librerías</font>

Vamos a declarar algunas librerías generales que ya hemos estado trabajando y que usaremos a lo largo de la sección.

In [2]:
#importing libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

<a id="section12"></a>
## <font color="#004D7F"> 1.2. CSV</font>

En esta lección, se muestran varias métricas de evaluación de algoritmos diferentes para problemas de Machine Learning de clasificación y regresión. En cada código, el conjunto de datos se descarga directamente del repositorio de UCI Machine Learning.

Se utilizará el conjunto de datos de Pima Indians Diabetes con una validación cruzada 10-folds para demostrar cómo verificar cada algoritmo de ML y se utilizan medidas de precisión promedio para indicar el rendimiento del algoritmo.



In [3]:
# load data
filename = 'data/pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. Algoritmos Bagging</font>

Bootstrap Aggregation (o Bagging) implica tomar múltiples muestras de su conjunto de datos de entrenamiento (con reemplazo) y entrenar un modelo para cada muestra. La predicción de salida final se promedia a través de las predicciones de todos los submodelos. Estudiaremos tres modelos:
* Bagged Decision Trees. 
* Random Forest.
* Extra Trees.

<a id="section21"></a>
## <font color="#004D7F"> 2.1. Bagged Decision Trees</font>

Bagging funciona mejor con algoritmos que tienen una alta varianza. Un ejemplo popular son los árboles de decisión, a menudo construidos sin poda. En el ejemplo a continuación, se muestra un ejemplo del uso del `BaggingClassifier` con CART (`DecisionTreeClassifier`). Se crean un total de 100 árboles.

In [6]:
# Bagged Decision Trees for Classification
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

seed = 7
kfold = KFold(n_splits=100, random_state=seed, shuffle=True)
cart = DecisionTreeClassifier()
num_trees = 100
model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Accuracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f})")







Accuracy: 75.95% (15.61)


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`BaggingClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html).
</div> 

<a id="section22"></a>
## <font color="#004D7F"> 2.2. Random Forest</font>

Random Forests es una extensión de los Bagged Decision Trees. Las muestras del conjunto de datos de entrenamiento se toman con reemplazo, pero los árboles se construyen de una manera que reduce la correlación entre clasificadores individuales. Específicamente, en lugar de elegir con avidez el mejor punto de división en la construcción de cada árbol, solo se considera un subconjunto aleatorio de características para cada división. Puede construir un modelo de Random Forest para la clasificación utilizando la clase `RandomForestClassifier`. El siguiente ejemplo demuestra el uso de Random Forest para la clasificación con 100 árboles y puntos divididos elegidos de una selección aleatoria de 3 características.

In [7]:
# Random Forest Classification
from sklearn.ensemble import RandomForestClassifier

seed = 7
num_trees = 100
max_features = 3
kfold = KFold(n_splits=100, random_state=seed, shuffle=True)
model = RandomForestClassifier( n_estimators=num_trees, max_features=max_features, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Accuracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f})")

Accuracy: 75.57% (16.30)


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`RandomForestClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html).
</div> 

<a id="section23"></a>
## <font color="#004D7F"> 2.3. Extra Trees</font>

Extra Trees son otra modificación del ensacado donde se construyen árboles aleatorios a partir de muestras del conjunto de datos de entrenamiento. Puede construir un modelo Extra Trees para clasificación usando la clase `ExtraTreesClassifier`. El siguiente ejemplo proporciona una demostración de árboles adicionales con el número de árboles establecido en 100 y las divisiones elegidas entre 7 características aleatorias.

In [8]:
# Extra Trees Regression
from sklearn.ensemble import ExtraTreesClassifier

seed = 7
num_trees = 100
max_features = 3
kfold = KFold(n_splits=100, random_state=seed, shuffle=True)
model = ExtraTreesClassifier( n_estimators=num_trees, max_features=max_features, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Accuracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f})")

Accuracy: 75.29% (14.83)


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`ExtraTreesClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html).
</div> 

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section3"></a>
# <font color="#004D7F"> 3. Algoritmos Boosting</font>

Los algoritmos de conjunto Boosting crean una secuencia de modelos que intentan corregir los errores de los modelos anteriores a ellos en la secuencia. Una vez creados, los modelos hacen predicciones que pueden ser ponderadas por su precisión demostrada y los resultados se combinan para crear una predicción de salida final. Los dos algoritmos de ML Boosting más comunes son:
* AdaBoost
* Stochastic Gradient Boosting

<a id="section31"></a>
## <font color="#004D7F"> 3.1. AdaBoost</font>

AdaBoost fue quizás el primer algoritmo de conjunto Boosting exitoso. Generalmente funciona ponderando las instancias en el conjunto de datos según lo fácil o difícil que es clasificarlas, lo que permite que el algoritmo les preste más o menos atención en la construcción de modelos posteriores. Puede construir un modelo AdaBoost para clasificación utilizando la clase `AdaBoostClassifier`. El siguiente ejemplo demuestra la construcción de 30 árboles de decisión en secuencia utilizando el algoritmo AdaBoost.

In [10]:
# AdaBoost for Classification
from sklearn.ensemble import AdaBoostClassifier

num_trees = 30
seed = 7
kfold = KFold(n_splits=10, random_state=seed, shuffle=True)
model = AdaBoostClassifier(n_estimators = num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Accuracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f})")

Accuracy: 75.53% (3.71)


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`AdaBoostClassifier`](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html).
</div> 

<a id="section32"></a>
## <font color="#004D7F"> 3.2. Stochastic Gradient Boosting</font>

Stochastic Gradient Boosting (también llamado Gradient Boosting Machines) es una de las técnicas de conjunto más sofisticadas. También es una técnica que está demostrando ser quizás una de las mejores técnicas disponibles para mejorar el rendimiento a través de conjuntos. Puede construir un modelo de Gradient Boosting para la clasificación utilizando la clase `GradientBoostingClassifier`. El siguiente ejemplo demuestra el Stochastic Gradient Boosting para la clasificación con 100 árboles.

In [12]:
# Gradient Boosting Machine for Classification
from sklearn.ensemble import GradientBoostingClassifier

num_trees = 100
seed = 7
kfold = KFold(n_splits=10, random_state=seed, shuffle=True)
model = GradientBoostingClassifier(n_estimators = num_trees, learning_rate=0.3, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(f"Accuracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f})")

Accuracy: 75.01% (5.58)


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`GradientBoostingClassifier`](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html).
</div> 

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section4"></a>
# <font color="#004D7F"> 4. Algoritmo Voting</font>

Voting es una de las formas más simples de combinar las predicciones de múltiples algoritmos. Funciona creando primero dos o más modelos independientes a partir de su conjunto de datos de entrenamiento. Un clasificador Voting se puede usar para ajustar sus modelos y promediar las predicciones de los submodelos cuando se le pide que haga predicciones para nuevos datos. Las predicciones de los submodelos se pueden ponderar, pero es difícil especificar los pesos de los clasificadores de forma manual o incluso heurísticamente. Los métodos más avanzados pueden aprender cómo ponderar mejor las predicciones de los submodelos, pero esto se llama apilamiento (stacked aggregation) y actualmente no se proporciona en scikit-learn.

Puede crear un modelo de conjunto Voting para la clasificación utilizando la clase `VotingClassifier`. El siguiente código proporciona un ejemplo de combinación de predicciones de LoR, NB y LDA juntas para un problema de clasificación.

In [14]:
# Voting for Classification
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.cv import SVC
from sklearn.ensemble import VotingClassifier

kfold = KFold(n_splits=10, random_state=7, shuffle=True)

#crear los submodelos
estimator = []
model1 = LogisticRegression(solver='lbfgs', max_iter=1000)
estimator.append(('LoR', model1))
model2 = LinearDiscriminantAnalysis()
estimator.append(('LDA', model2))
model3 = GaussianNB()
estimator.append(('NB', model3))
model3 = SVC()
estimator.append(('NB', model3))
# Crear el algoritmo de conjunto

ensemble = VotingClassifier(estimator)
results =cross_val_score(ensemble, X, Y, cv=kfold)
print(f"Accuracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f})")

Accuracy: 76.83% (4.67)


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`VotingClassifier`](http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.VotingClassifier.html).
</div> 

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>