# TÉCNICAS AVANZADAS DE CLASIFICACIÓN

En la sesión de hoy vamos a trabajar con metodologías basadas en boosting y svm para clasificación.

Vamos a trabajar con el problema de clasificación que hemos estado trabajando en las sesiones pasadas (de forma que se puedan comparar resultados).


### TÉCNICAS DE BOOSTING PARA CLASIFICACIÓN

Los métodos de boosting que vamos a probar son adaboost y las implementaciones (ligeramente) diferentes de gradient boosting que hemos visto en clase, xgboost, catboost y lightgbm.


Puede que tengas que instalar las librerías. Si es el caso, descomenta la línea que está relacionada con la librería que no tienes instalada en tu portátil.

Tanto xgboost como lightgbm están instaladas por defecto en Colab.

In [1]:
#! pip install --trusted-host pypi.org --trusted-host pypi.python.org --trusted-host files.pythonhosted.org xgboost 
#! pip install --trusted-host pypi.org --trusted-host pypi.python.org --trusted-host files.pythonhosted.org catboost 
#! pip install --trusted-host pypi.org --trusted-host pypi.python.org --trusted-host files.pythonhosted.org lightgbm

In [2]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Como hemos dicho, para el problema de clasificación vamos a utilizar el conjunto de datos de diabetes que ya utilizamos en una sesión anterior.

In [17]:
current_dir = os.getcwd()
file_name='Diabetes.csv'
path_file = os.path.join(current_dir, f"../data/{file_name}")
df_diabetes=pd.read_csv(path_file, sep=';')

Como hicimos en la clase anterior, tenemos que rellenar los valores no válidos de las siguientes columnas 'GLUCOSE','BLOODPRESS','SKINTHICKNESS','INSULIN','BODYMASSINDEX','PEDIGREEFUNC' o 'AGE'.


Vamos a dividir el dataset general en un conjunto de datos de entrenamiento (con un 70% de los datos) y un conjunto de datos de test. Asegúrese de que tanto el conjunto de datos de entrenamiento como el de prueba están estratificados en función del valor de la variable objetivo.

In [None]:
from sklearn.model_selection import train_test_split
x=df_diabetes.iloc[:,:-1]
y=df_diabetes.iloc[:,-1]
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=0,shuffle=True,stratify=y)

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
from sklearn.metrics import confusion_matrix
import seaborn as sns
def Metrics(y_true,y_pred,data='train'):
    print('The metrics for the {} dataset are:'.format(data))
    print('Precision: %.3f' % precision_score(y_true, y_pred))
    print('Recall: %.3f' % recall_score(y_true, y_pred))
    print('Accuracy: %.3f' % accuracy_score(y_true, y_pred))
    print('F1 Score: %.3f' % f1_score(y_true, y_pred))
    print()
    print()
    print()

def plot_cm(test_y,predicted):
    
    cm=confusion_matrix(y_true=test_y,y_pred=predicted)
    plt.figure(figsize=(9,9))
    sns.heatmap(cm, annot=True, fmt=".3f", linewidths=.5, square = True, cmap = 'Blues_r',cbar=False);
    plt.ylabel('Actual label');
    plt.xlabel('Predicted label');
    plt.show()  

#### ADABOOST
El primer método de boosting que vamos a probar es un enfoque adaboost. En este caso, definiremos un árbol de decisión con 5 capas, un mínimo de 10 muestras por nodo y un máximo de 15 nodos por hoja como estimador base. Defina un modelo global con 50 estimadores.

Compruebe las métricas de los conjuntos de datos de entrenamiento y prueba

¿Cree que su modelo está infra-ajustado o sobreajustado? 

Realice un ajuste de hiperparámetros para definir el conjunto de hiperparámetros que mejor se ajuste a su problema. Utilice un esquema de validación cruzada de 5 folds.

- 'n_estimators':[25,50]

Y defina un estimador individual que intente superar el problema (o sobre o infra ajuste) que crea que presenta su modelo.

Una vez que haya entrenado su modelo, compruebe las características del mejor estimador y analice su rendimiento con los conjuntos de datos de entrenamiento y de prueba.

Dibuje una figura que evalúe la "importancia" de cada característica dentro de este mejor estimador.

#### XGBOOST

La siguiente técnica que vamos a probar es gradient boosting. La primera implementación que vamos a probar será XGBOOST. En este caso, el primer modelo xgboost que vamos a evaluar tendrá 150 rondas, un eta de 0.5, una profundidad máxima de 5, un lambda de 1.5 y un alpha de 0.5. Deberá definir un objetivo que se ajuste a nuestro problema específico.

Tras analizar los resultados obtenidos, ¿cree que su modelo está infra o sobreajustado? 

Realice un ajuste de hiperparámetros para definir el conjunto de hiperparámetros que mejor se ajustan a su problema. Utilice un esquema de validación cruzada de 5 pliegues teniendo en cuenta los resultados que acaba de obtener.

- n_estimators':[100,150]
- reg_alpha':[0.5,1.5,5]
- reg_lambda':[1,1.5,3]
- max_depth':[3,5,7]


Una vez entrenado el modelo, compruebe las características del mejor estimador y analiza su rendimiento con los conjuntos de datos de entrenamiento y de prueba.

#### CatBoost

La segunda implementación de gradient boosting que vamos a probar será catboost. En este caso, el primer modelo catboost que vamos a evaluar tendrá 100 iteraciones, un eta de 0,5, una profundidad máxima de 3 y un lambda de 3.

Compruebe su rendimiento y analice si considera que puede estar sobreajustándose al problema.

Realice un ajuste de hiperparámetros para definir el conjunto de hiperparámetros que mejor se adapte a su problema. Utilice un esquema de validación cruzada de 5 folds teniendo en cuenta los resultados que acabas de obtener.

- 'iterations':[50,100,150]
- 'depth':[3,5,7,10]
- 'min_data_in_leaf':[5,10,15]
- eta':[0,0.5,0.7,1.5]

Una vez entrenado el modelo, compruebe las características del mejor estimador y analice su rendimiento con los conjuntos de datos de entrenamiento y de prueba.

#### Lightgbm
Ahora vamos a definir un modelo lightgbm con 100 estimadores con una max_profundidad de 5 capas y 35 como máximo de hojas del árbol.

Realice un ajuste de hiperparámetros para definir el conjunto de hiperparámetros que mejor se adapte a su problema. Utilice un esquema de validación cruzada de 5 pliegues.

- 'iterations':[50,100,150]
- 'depth':[3,5,7]
- 'alpha':[0,1.5,3]


Una vez que hayas entrenado tu modelo, comprueba las características del mejor estimador y analiza su rendimiento tanto con el conjunto de datos de entrenamiento como con el de prueba

#### Máquina de soporte vector
Por último, vamos a probar varios clasificadores de máquina de soporte vector. El primero tendrá un kernel de base radial con C igual a 4. No olvides normalizar previamente el conjunto de entrenamiento (y aplicar la misma operación al conjunto de prueba)

Compruebe ahora si se comporta mejor un kernel polinomial con 3,4 ó 5 grados o una base radial con una gamma aut o scale o con una C igual a 1, 5 ó 10. Utilice un CV de 5 folds 