#### Vanessa Navarro Coronado e Iván Sánchez Castellanos

# Práctica 3: Multiclasificadores y selección de variables

En esta práctica vamos a implementar un ensemble genérico, y comparar sus resultados con los obtenidos con los ensembles de la librería de scikit, además del clasificador base DecisionTree.

Además, también utilizaremos distintas técnicas de selección de variables, y las intentaremos aplicar en nuestro ensemble para comprobar si los resultados mejoran.

In [1]:
# Always load all scipy stack packages
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib as mpl
import matplotlib.pyplot as plt
# Cargamos el arbol de decision
from sklearn import tree, base
from sklearn.model_selection import cross_val_score, StratifiedKFold, train_test_split
import random

import seaborn as sns
sns.set(color_codes=True)

In [2]:
# This code configures matplotlib for proper rendering
%matplotlib inline
mpl.rcParams["figure.figsize"] = "8, 4"
import warnings
warnings.simplefilter("ignore")

In [3]:
seed=6342
np.random.seed(seed)

## Carga de datos

Cargamos el dataset Wisconsin de la librería scikit.

In [4]:
from sklearn.datasets import load_breast_cancer
wisconsin = load_breast_cancer()

Separamos en dataset en atributos y clase, pero esta vez utilizaremos las versiones numéricas de los datos.

In [5]:
attributesWisc = wisconsin.data
labelWisc = wisconsin.target

Para el dataset Pima, no podemos usar el que proporciona scikit porque es para un problema de regresión, por lo que no lo incluiremos. Sin embargo, si hubiera que incluirlo, lo cargaríamos desde un csv.

# 1. Implementación básica de un ensemble de manera manual

Para implementar un ensemble de forma similar a los ensembles de la librería Scikit, debemos crear una clase que herede de base.BaseEstimator, la cual ya presenta algunas funciones básicas como get_params y set_params, que son necesarias para su correcto funcionamiento.

Una vez hecho esto, debemos inicializar los atributos de nuestro ensemble. Estos son:
* estim: Estimador para el ensemble.
* nEstim: Número de estimadores que usaremos en nuestro ensemble.
* replace: Atributo booleano para indicar si el muestreo de los casos se realzará con reemplazo (True) o sin reemplazo (False). Por defecto, este atributo está inicializado a False.
* attSample: Atributo booleano para indicar si se va a realizar muestreo de atributos (True) o no (False). Por defecto, este atributo está inicializado a False.
* dataFrac: Fracción de los casos que tendremos en cuenta a la hora de realizar el muestreo. Por defecto, estará a un 60%.
* attFrac: Fracción de los atributos que tendremos en cuenta a la hora de realizar el muestreo. Por defecto, estará a un 80%.
* randomState: Semilla que usaremos para los muestreos.
* models: Vector de modelos del ensemble.
* atts: Vector de atributos a tener en cuenta.
* predictions: Vector de predicciones realizadas.

La siguiente función a implementar es la función fit, que se encarga del entrenamiento de los estimadores de nuestro ensemble. Como resultado de dicho entrenamiento, cada modelo entrenado será almacenado en un vector de modelos. Esta función también se encarga de realizar los correspondientes muestreos tanto de casos como de atributos, previos al entrenamiento en sí de los modelos.

La función predict se encarga de realizar una predicción con cada uno de los modelos aprendidos en la fase anterior. Cada una de las predicciones será almacenada en el vector de predicciones del ensemble, y posteriormente deberá realizar un voto por mayoría para devolver la clase mayoritaria en cada uno de los casos del dataset.


Como vemos, nuestro ensemble es genérico, y similar al Bagging, ya que en cada iteración, realiza un muestreo de los casos, entrena un modelo con él, y por último genera una predicción.

In [117]:
class OurEnsemble(base.BaseEstimator):
    
    def __init__(self, estim, nEstim, randomState, dataFrac=0.6, replace=False, attSample=False, attFrac=0.8):
        self.estim=estim #estimador
        self.nEstim=nEstim #numero de estimadores
        self.replace=replace #para indicar si el muestreo sera con reemplazo o sin reemplazo (sin reemplazo por defecto)
        self.attSample=attSample #para indicar si haremos muestreo de atributos (por defecto esta desactivado)
        self.dataFrac = dataFrac #porcentaje de casos para el muestreo (60% por defecto)
        self.randomState=randomState #semilla para el muestreo
        self.attFrac=attFrac #porcentaje de atributos que tendremos en cuenta (80% por defecto)
        
    def fit(self,trainAtts,trainLab): #funcion para entrenar los modelos
        self.models=[] #vector de modelos
        self.atts=[] #vector de atributos
        
        np.random.seed(self.randomState) #establecemos la semilla
        
        #convertir el dataset a un dataframe de pandas para que sea mas facil de manejar
        trainAtts=pd.DataFrame(trainAtts) 
        trainLab=pd.DataFrame(trainLab)
        
        for n in range(0,self.nEstim):  
            #hacer muestreo de los casos
            trainAttsSample=trainAtts.sample(frac=self.dataFrac,replace=self.replace)
            
            #si esta activo el muestreo de atributos...
            if self.attSample:
                #almacenamos en una lista las columnas o atributos del dataset
                #multiplicamos el procentaje de atributos a tener en cuenta por el numero total de atributos
                #obtenemos una muestra de los atributos con la funcion random.choice
                attMuestreo=np.random.choice(list(trainAtts.columns.values), 
                                             size=int(self.attFrac*len(trainAtts.columns)), 
                                             replace=False)
                #añadimos los atributos resultantes del muestreo a nuestro vector de atributos
                self.atts.append(attMuestreo)
                
                #nos quedamos con los casos del dataset cuyas columnas o atributos han sido elegidas en el muestreo de atributos
                trainAttsSample=trainAttsSample[attMuestreo]
                
            #continuamos con el muestreo de los casos:
            #ahora debemos coger los indices de los casos seleccionados en el muestreo, 
            #para poder coger esos mismos casos en las labels del dataset
            trainLabelSample=trainLab.loc[trainAttsSample.index.values]
            
            #clonamos el estimador para que el objeto no sufra cambios al ir añadiendo el modelo aprendido al vector de modelos
            e=base.clone(self.estim)
            
            #entrenamos el estimador con los muestreos de casos y de atributos realizados
            e.fit(trainAttsSample,trainLabelSample)
            
            #añadimos el modelo entrenado al vector de modelos
            self.models.append(e)
            
        
    def predict(self,testAtts):
        self.predictions=[] #vector de predicciones de cada modelo
        
        for n in range(0,self.nEstim):
            #guardamos los atributos del test en una variable para no modificar el original
            testAttsSample = testAtts
            
            #si el muestreo de atributos esta activado...
            if self.attSample:
                #seleccionamos todos los casos del test, pero solo cogemos los atributos obtenidos tras el muestreo correspondiente
                testAttsSample=testAttsSample[:,self.atts[n]]
            
            #realizamos la prediccion con el modelo entrenado
            pred=self.models[n].predict(testAttsSample)
            #añadimos la prediccion a nuestro vector de predicciones
            self.predictions.append(pred)
        
        #Para realizar la prediccion general, realizaremos un voto por mayoria de todas las prediciones, por eso usamos la moda
        moda=stats.mode(self.predictions)
        #devolvemos el resultado de aplicar la moda a las predicciones
        return moda.mode[0]
        
        

Una vez creado nuestro ensemble genérico, lo probamos.

In [122]:
ens = OurEnsemble(tree.DecisionTreeClassifier(random_state=seed), nEstim = 10, randomState=seed, attSample=True)

In [131]:
scores_ens = cross_val_score(ens, attributesWisc, labelWisc, cv=3, scoring="accuracy")
print("Accuracy Our Ensemble: %0.2f (+/- %0.2f)" % (scores_ens.mean(), scores_ens.std() * 2))

Accuracy Our Ensemble: 0.94 (+/- 0.05)


## 1.1. Árbol de decisión como referencia

In [125]:
dt = tree.DecisionTreeClassifier()
scores_dt = cross_val_score(estimator=dt, X=attributesWisc, y=labelWisc, scoring="accuracy", cv=3)
print("Accuracy Tree: %0.2f (+/- %0.2f)" % (scores_dt.mean(), scores_dt.std() * 2))

Accuracy Tree: 0.91 (+/- 0.04)


## 1.2. Bagging

In [127]:
from sklearn.ensemble import BaggingClassifier

bagg = BaggingClassifier(tree.DecisionTreeClassifier(), n_estimators = 30, random_state=seed)

In [128]:
scores_bagg = cross_val_score(bagg, attributesWisc, labelWisc, cv=3, scoring="accuracy")
print("Accuracy Bagging: %0.2f (+/- %0.2f)" % (scores_bagg.mean(), scores_bagg.std() * 2))

Accuracy Bagging: 0.93 (+/- 0.04)


## 1.3. Random Forest

In [129]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=30, random_state=seed)

In [130]:
scores_rf = cross_val_score(rf, attributesWisc, labelWisc, cv=3, scoring="accuracy")
print("Accuracy Random Forest: %0.2f (+/- %0.2f)" % (scores_rf.mean(), scores_rf.std() * 2))

Accuracy Random Forest: 0.95 (+/- 0.03)


## 1.4. Boosting

In [133]:
from sklearn.ensemble import AdaBoostClassifier
#boost = AdaBoostClassifier(base_estimator=tree.DecisionTreeClassifier(), n_estimators=30, random_state=seed) #accuracy: 0.90 (+/- 0.08)
boost = AdaBoostClassifier(base_estimator=tree.DecisionTreeClassifier(max_depth=3), n_estimators=30, random_state=seed)

In [134]:
scores_boost = cross_val_score(boost, attributesWisc, labelWisc, cv=3, scoring="accuracy")
print("Accuracy Boosting: %0.2f (+/- %0.2f)" % (scores_boost.mean(), scores_boost.std() * 2))

Accuracy Boosting: 0.97 (+/- 0.03)


## 1.5. Gradient Boosting

In [135]:
from sklearn.ensemble import GradientBoostingClassifier
gboost = GradientBoostingClassifier(n_estimators=30, random_state=seed)

In [136]:
scores_gboost = cross_val_score(gboost, attributesWisc, labelWisc, cv=5, scoring="accuracy")
print("Accuracy Gradient Boosting: %0.2f (+/- %0.2f)" % (scores_gboost.mean(), scores_gboost.std() * 2))

Accuracy Gradient Boosting: 0.95 (+/- 0.03)


## Comparación
Ahora vamos a mostrar una comparativa de  los resultados obtenidos con nuestro ensemble, y los demás ensembles de scikit.

In [137]:
# How to make a HTML table!
from IPython.display import display, HTML

def printTable(list):
    table = """<table>%s</table>"""
    row = """<tr>%s</tr>"""
    cell = """<td>%s</td>"""
    report =  table % ''.join([row % (cell % x[0] + cell % x[1]) for x in results])
    display(HTML(report))
    

In [138]:
results = (("Decision Tree", scores_dt.mean()), 
           ("Bagging", scores_bagg.mean()), 
           ("Random Forest", scores_rf.mean()),
           ("Boosting", scores_boost.mean()),
           ("Gradient Boosting", scores_gboost.mean()),
            ("Our Ensemble", scores_ens.mean()))

printTable(results)

0,1
Decision Tree,0.910359231412
Bagging,0.934939199851
Random Forest,0.954311705189
Boosting,0.971864847303
Gradient Boosting,0.95444401693
Our Ensemble,0.942003156038


Como vemos, el algoritmo Boosting sigue siendo el mejor, pero nuestro ensemble genérico supera al clasificador base, y también al Bagging.

# 2. Selección de variables

## 2.1. Utilizar un método filter basado en rankings y la importancia de las variables para evaluar distintos subconjuntos

Para realizar esta selección de variables, vamos usar una función de la librería de scikit llamada SelectKBest, que se encarga de seleccionar, de acuerdo a diferentes criterios, los K mejores atributos de un dataset determinado. Entre los criterios de selección que utiliza este algoritmo, están f_classif, que realiza un test F o ANOVA estadístico, chi2, que realiza el test de chi cuadrado, o mutual_info_classif, que selecciona las variables de acuerdo a su información mutua respecto a la clase. 

Para probarlo, vamos a llamar a la función con el criterio de Información Mutua, y vamos a decirle que nos devuelva un ranking de las 10 mejores variables. Una vez seleccionados los atributos, debemos llamar a la función fit_transform, para entrenar con los datos, y después seleccionar solo los K atributos elegidos con mayor score.

In [139]:
from sklearn.feature_selection import SelectKBest,f_classif, mutual_info_classif, chi2

In [140]:
a=SelectKBest(score_func=mutual_info_classif, k=10)
bestAttributesWisc = a.fit_transform(attributesWisc, labelWisc)

Ahora vamos a usar un GridSearch para comprobar cuál es el criterio de selección que mejor score presentará. Para ello, vamos a crear un Pipeline, donde el primer paso será la selección de variables, y el segundo paso será nuestro ensemble. 

In [141]:
from sklearn.pipeline import Pipeline

In [142]:
estimatorENS = Pipeline([("Ranker", SelectKBest()),
                      ("Ensemble", OurEnsemble(
                          tree.DecisionTreeClassifier(random_state=seed), 
                          nEstim = 10, 
                          randomState=seed ) )])

In [143]:
estimatorENS2 = Pipeline([("Ranker", SelectKBest()),
                      ("Ensemble", BaggingClassifier(tree.DecisionTreeClassifier(), n_estimators = 30, random_state=seed) )])

Después creamos un objeto de la clase GridSearchCV, donde el estimador será nuestro pipeline, y su param_grid estará formado por los criterios de selección de variables f_classif, chi2 y mutual_info_classif, explicados anteriormente.

In [144]:
from sklearn.model_selection import GridSearchCV

skb = GridSearchCV(
    estimator = estimatorENS,
    param_grid = 
        { 'Ranker__score_func' : [f_classif, chi2, mutual_info_classif], 'Ranker__k': [5,10] },
    scoring = 'accuracy',
    cv = StratifiedKFold(n_splits=10, shuffle=False, random_state=seed), 
    iid=False
)

Para llamar a las funciones fit y predict, primero debemos realizar la separación de nuestro dataset en Train y Test.

In [145]:
train_attsWisc, test_attsWisc, train_labelWisc, test_labelWisc = train_test_split( 
    attributesWisc,
    labelWisc,
    test_size=0.2,
    random_state=seed,
    stratify=labelWisc)

Entrenamos y realizamos las predicciones, obteniendo el accuracy. Como vemos, ha mejorado considerablemente con respecto al comienzo de la práctica.

In [146]:
import sklearn.metrics as metrics

fitted=skb.fit(train_attsWisc, train_labelWisc)
pred=skb.predict(test_attsWisc)
print('Accuracy OurEnsemble + Ranker:')
metrics.accuracy_score(test_labelWisc, pred)

Accuracy OurEnsemble + Ranker:


0.97368421052631582

A continuación mostramos la mejor configuración de parámetros obtenida para el Ranker usando el GridSearch creado previamente. Esta es usar un número de variables k=10, y usar la función del test F como criterio de selección de variables.

In [147]:
print('Mejor configuración de parámetros Ranker:')
fitted.best_params_

Mejor configuración de parámetros Ranker:


{'Ranker__k': 10,
 'Ranker__score_func': <function sklearn.feature_selection.univariate_selection.f_classif>}

## 2.2. Implementar al menos un algoritmo de búsqueda recursiva wrapper

Para implementar el Wrapper, debemos tener en cuenta que los subconjuntos de atributos que vamos a utilizar serán aleatorios, por lo que necesitaremos un atributo que nos diga cuándo parar de hacer iteraciones. Para ello, vamos a crear una clase que tendrá como atributos:
* estim: Estimador que usaremos para aprender modelos y evaluar así los subconjuntos de variables.
* nIter: Número de iteraciones que vamos a realizar. En cada iteración evaluaremos un subconjunto de variables distinto.
* randomState: Semilla para la selección de atributos.
* nAtts: Número de atributos que tendrán nuestros subconjuntos.
* bestAtts: lista con los mejores atributos seleccionados.
* maxScore: mejor score obtenido en la validación cruzada.

Una vez inicializados los atributos, vamos a definir una función findBestAtts que se encargará de hacer la selección de variables. Primero realizamos un bucle for para realizar el muestreo de los atributos. El segundo bucle for es para obtener los scores de la validación cruzada realizada con nuestro estimador y el conjunto de atributos seleccionado. De esta validación cruzada, nos quedaremos con el subconjunto de variables que mejor score obtenga.

In [154]:
class OurWrapper(object):
    def __init__(self, estim, nIter, randomState, nAtts):
        self.estim=estim #estimador
        self.nIter=nIter #numero de iteraciones a realizar o numero de subconjuntos de variables a analizar
        self.randomState=randomState #semilla
        self.nAtts=nAtts #numero de variables en el subconjunto
        
    def findBestAtts(self, trainAtts, trainLab):
        self.bestAtts=[] #vector de mejores atributos encontrados
        self.maxScore=0 #para ir guardando el mejor score obtenido
        attMuestreo=[] #vector auxiliar para ir guardando los subconjuntos de variables obtenidos
        
        np.random.seed(self.randomState) #establecemos la semilla
        
        #bucle para realizar los subconjuntos aleatorios de atributos
        for i in range(0,self.nIter):
            attMuestreo.append(np.random.choice(range(0,trainAtts.shape[1]), 
                                                size=self.nAtts, 
                                                replace=False))
            #print(attMuestreo[i])
        
        #bucle para realizar la validacion cruzada con nuestro estimador y los atributos seleccionados
        for i in range(0,self.nIter):
            #el conjunto de train estara formado por todos los casos, pero solo analizando las variables elegidas
            trainAttsSample=trainAtts[:,attMuestreo[i]]
            
            #realizamos una 5 validacion cruzada con el estimador y los datos con las variables seleccionadas
            score=cross_val_score(self.estim, trainAttsSample, trainLab, cv=5, scoring="accuracy")
            
            #nos quedamos con el subconjunto de atributos que mayor score haya obtenido
            if score.mean()>self.maxScore:
                self.maxScore=score.mean()
                self.bestAtts=attMuestreo[i]
            
            
        

Ahora lo probamos usando nuestro ensemble y 10 subconjuntos de 10 atributos cada uno.

In [159]:
w=OurWrapper(OurEnsemble(tree.DecisionTreeClassifier(random_state=seed), 
                          nEstim = 10, 
                          randomState=seed ),
            10,seed,10)
w.findBestAtts(train_attsWisc,train_labelWisc)

Mostramos el mejor subconjunto de atributos de nuestro dataset. En este caso los mejores atributos han sido aquellos que se encuentran en las columnas 21,  4,  5,  7, 20, 18, 24, 15, 17 y 19.


In [160]:
w.bestAtts

array([21,  4,  5,  7, 20, 18, 24, 15, 17, 19])

Por último, mostramos el mejor score obtenido con la mejor combinación de atributos. En este caso, mejora muy poco con respecto al comienzo de la práctica, por lo que podemos concluir que lo mejor sería usar el ranker del apartado anterior.

In [158]:
w.maxScore

0.94725274725274722