# Práctica de medidas de rendimiento en problemas de clasificación

En esta práctica vamos a probar diversas métricas para evaluar problemas de clasificación binarios (dos clases) y multi-clase. Además, veremos cómo se puede tratar de mejorar el rendimiento de los clasificadores, en problemas de clasificación binarios, mediante el cambio del umbral de decisión.

In [None]:
# %load ../../standard_import.txt
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
import seaborn as sns

from test_helper import Test

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 150)
pd.set_option('display.max_seq_items', None)
 
#%config InlineBackend.figure_formats = {'pdf',}
%matplotlib inline

# Métricas para problemas de clasificación binarios <a class="anchor" id="1"></a>

Para mostrar la importancia de realizar una elección correcta de la métrica de rendimiento, vamos a crear un dataset sintético utilizando la función [*make_blobs*](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs) de la librería *datasets*.

En concreto, para generar el dataset se debe:
* Crear un primer cluster (1 centro) de 900 ejemplos cuya desviación estándar es 0.8 y el center_box se debe establecer a (5.0, 5.0)
* Crear un segundo cluster (1 centro) de 50 ejemplos cuya desviación estándar es 0.5 y el center_box se debe establecer a (3.0, 3.0)
* Crear un tercer cluster (1 centro) de 50 ejemplos cuya desviación estándar es 0.3 y el center_box se debe establecer a (5.0, 3.0)

En todos los clusters se debe utilizar el valor 0 como semilla. En todos los casos se generan conjuntos de ejemplos de dos variables de entrada y una de salida (todos los ejemplos se etiquetan con clase 0).

Para formar un dataset a partir de los 3 clusters generados anteriormente se deben:
* Concatenar los valores de las variables de entrada (método *concatenate* de Numpy). A partir de estos datos se debe generar un DataFrame cuyos nombres de variables sean *a1* y *a2*.
* Concatenar los valores de las variables de salida. En este caso los valores de la primera variable de salida se mantienen (0, clase negativa) pero los de los otros dos clusters se cambian al valor 1 (los 100 ejemplos que conforman los dos clusteres forman la clase positiva, 1).

In [None]:
from sklearn.datasets import make_blobs

# Generamos en total 900 ejemplos de la clase negativa y 100 de la positiva (generados en dos clusters) y posteriormente los unimos
# X1, y1 = <RELLENAR>
# X2, y2 = <RELLENAR>
# X3, y3 = <RELLENAR>
# X =  <RELLENAR>
# y =  <RELLENAR>

A continuación vamos a mostrar gráficamente los ejemplos generados. Para ello, utilizad para ello la función [*scatterplot*](https://seaborn.pydata.org/generated/seaborn.scatterplot.html) de la librería *seaborn*. Para que los ejemplos se muestren en color diferente en función de la clase se debe utilizar el parámetro *hue* al que se le asignará la variable apropiada.

In [None]:
sns.scatterplot(data=X, x='a1', y='a2', hue=y);

A continuación vamos a dividir los ejemplos en train, validación y test utilizando Hold-out (*train_test_split*) con estratificación (parámetro *stratify*), el valor 42 como semilla. 

Obtener el conjunto de test (10% de los ejemplos), de entrenamiento (80% de los ejemplos restantes) y de validación (el resto de ejemplos).

In [None]:
# X_resto, X_test, y_resto, y_test =  <RELLENAR>
# X_train, X_val, y_train, y_val = <RELLENAR>

En primer lugar, vamos a crear un 'clasificador' que siempre dice clase negativa y obtenemos su rendimiento con el [*accuracy_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score), el porcentaje de ejemplos correctamente clasificados.

In [None]:
# El clasificador que nos dice siempre negativo es tan sencillo como generar una lista con tantos 0's como ejemplos
# prediccionClasificadorSiempreNegativa_train = <RELLENAR>
# Calculamos y mostramos el porcentaje de acierto en train
# accuracy_train_sc = <RELLENAR>

# Calculamos y mostramos el porcentaje de acierto en validacion
# prediccionClasificadorSiempreNegativa_val = <RELLENAR>
# accuracy_val_sc = <RELLENAR>

In [None]:
Test.assertEquals(round(accuracy_train_sc, 2), 90.0, 'Valor de accuracy en train incorrecto')
Test.assertEquals(round(accuracy_val_sc, 2), 90.0, 'Valor de accuracy en test incorrecto')

Ahora vamos a aplicar clasificadores para abordar este problema. En concreto, vamos a utilizar dos:
* El clasificador de los K vecinos más cercanos que hemos visto en clase de teoría y aplicado en prácticas anteriores.
* La regresión logística: este clasificador está compuesto por tantos parámetros como variables de entrada más uno para el término independiente. El aprendizaje consiste en aprender los mejores valores de dichos parámetros, normalmente aplicando el descenso por gradiente. Para clasificar nuevos ejemplos, lo que hace es multiplicar cada parámetro por el valor de su variable asociada y suma el resultado de todos los productos realizados. Esto da un valor entre menos infinito e infinito que traslada al rango $[0, 1]$ aplicando la función sigmoide. Por ello, para determinar la clase final del ejemplo lo que hace es comparar este valor con un umbral de clasificación que, por defecto, es 0.5. La clase de este clasificador es [*LogisticRegression*](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).

En ambos casos se debe crear una Pipeline que antes del clasificador realice una estadarización de datos con el método de la media y la desvicación estándar (*StandardScaler*).

Vamos a comenzar aplicando KNN utilizando los valores por defecto de todos sus híper-parámetros. Se debe entrenar KNN y obtener su accuracy en train y validación.

In [None]:
# p_knn = <RELLENAR>
# accuracy_train_knn = <RELLENAR>
# accuracy_val_knn = <RELLENAR>

In [None]:
Test.assertEquals(round(accuracy_train_knn, 2), 97.78, 'Valor de accuracy en train incorrecto')
Test.assertEquals(round(accuracy_val_knn, 2), 95.56, 'Valor de accuracy en validacion incorrecto')

Ahora aplicamos la regresión logística con todos los valores por defecto de sus híper-parámetros.

In [None]:
# p_LR = <RELLENAR>
# accuracy_train_LR = <RELLENAR>
# accuracy_val_LR = <RELLENAR>

In [None]:
Test.assertEquals(round(accuracy_train_LR, 2), 96.94, 'Valor de accuracy en train incorrecto')
Test.assertEquals(round(accuracy_val_LR, 2), 96.11, 'Valor de accuracy en validación incorrecto')

Podemos observar que tenemos unos porcentajes de acierto mayores al 90% y por tanto, podemos llegar a la conclusión de que tenemos buenos clasificadores cuando realmente no tiene porque ser así. Por este motivo, debemos utilizar otras métricas para evaluar la calidad de los clasificadores en este ámbito.

## Matriz de confusión <a class="anchor" id="1.2"></a>

Como vimos en clase de teoría, muchas de las métricas de rendimiento se obtienen a partir de la matriz de confusión. Scikit-learn nos ofrece la función [*confusion_matrix*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix) de la librería [*metrics*](https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics) mediante la que obtenemos dicha matriz. A esta función se le debe pasar como argumentos de entrada las clases reales de los ejemplos y las clases predichas de los mismos. Es importante que el orden sea el anterior puesto que sino la matriz sería la transpuesta. Además, la función tiene un parámetro llamado *labels* mediante el que se puede determinar el orden de aparición de las clases en la matriz de confusión (para ello se le pasa una lista con los nombres de las clases en el orden deseado).

En primer lugar, vamos a mostrar las matrices de confusión del clasificador que siempre dice clase negativa tanto para el conjunto de entrenamiento como para el de validación.

In [None]:
# matrizConfusion_train_sc = <RELLENAR>
# matrizConfusion_val_sc = <RELLENAR>

In [None]:
Test.assertEquals(list(matrizConfusion_train_sc.ravel()), [0, 72, 0, 648], 'Matriz de confusión de train incorrecta')
Test.assertEquals(list(matrizConfusion_val_sc.ravel()), [0, 18, 0, 162], 'Matriz de confusión de validación incorrecta')

Ahora vamos a definir una función que obtenga la matriz de confusión para un clasificador entrenado previamente sobre unos datos determinados. La función debe llamarse *obtenerMatrizConfusion* y debe recibir como argumentos de entrada el clasificador entrenado previamente, los datos a partir de los que obtener la matriz de confusión (X e y) y una lista con el orden de las clases de la matriz de confusión. Esta función debe devolver la matriz de confusión obtenida.

In [None]:
# <RELLENAR>

Utilizamos la función anterior para obtener las matrices de confusión de la Pipeline con el clasificador KNN aprendida previamente con los datos de entrenamiento y con los de validación (utilizando el mismo orden de las clases que el usado previamente).

In [None]:
# matrizConfusion_train_KNN = <RELLENAR>
# matrizConfusion_val_KNN = <RELLENAR>

In [None]:
Test.assertEquals(list(matrizConfusion_train_KNN.ravel()), [65, 7, 9, 639], 'Matriz de confusión de train incorrecta')
Test.assertEquals(list(matrizConfusion_val_KNN.ravel()), [16, 2, 6, 156], 'Matriz de confusión de test incorrecta')

Realizamos lo mismo para la regresión logística.

In [None]:
# matrizConfusion_train_LR = <RELLENAR>
# matrizConfusion_val_LR = <RELLENAR>

In [None]:
Test.assertEquals(list(matrizConfusion_train_LR.ravel()), [57, 15, 7, 641], 'Matriz de confusión de train incorrecta')
Test.assertEquals(list(matrizConfusion_val_LR.ravel()), [14, 4, 3, 159], 'Matriz de confusión de test incorrecta')

## Medidas de rendimiento por clases <a class="anchor" id="1.3"></a>

A partir de la matriz de confusión se pueden obtener varias medidas de rendimiento que miden la calidad para las diferentes clases del problema:
* True positive rate (TPR), también llamada Recall o sensibilidad: es el porcentaje de ejemplos de la clase positiva clasificados correctamente.
    * Scikit-learn la implementa en la clase [*recall_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score)
* True negative rate (TNR), también llamada especificidad: es el porcentaje de ejemplos de la clase negativa clasificados correctamente.
    * Se puede obtener aplicando *recall_score* y especificando la etiqueta apropiada de la clase (parámetro *pos_label*)
* Precision: es el porcentaje de ejemplos predichos como clase positiva que realmente son de la clase positiva.
    * Scikit-learn la implementa en la clase [*precision_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html#sklearn.metrics.precision_score)
    
Del mismo modo, se pueden obtener los ratios de ejemplos fallados por cada clase:

* *False positive rate (FPR)*: es el porcentaje de ejemplos de la clase negativa que han sido clasificados como clase positiva.
* *False negative rate (FNR)*: es el porcentaje de ejemplos de la clase positiva que han sido clasificados como clase negativa.

Vamos a definir una función para obtener los rendimientos de un clasificador para unos ejemplos con todas las mátricas citadas en la celda anterior. La función se debe llamar *evalua_clasificador_metricas_individuales* y debe recibir el clasificador a evaluar así como los ejemplos y sus clases (X e y) sobre los que se desea evaluar el clasificador. La función debe devolver el rendimiento del clasificador medido en base a las 5 métricas mencionadas en la celda anterior (en el orden en el que han sido descritas).

In [None]:
# <RELLENAR>

Aplicamos la función anterior para obtener el rendimiento en validación de las Pipelines con KNN y la regresión logística.

In [None]:
# tpr_knn, tnr_knn, precision_knn, fpr_knn, fnr_knn = <RELLENAR>
# tpr_lr, tnr_lr, precision_lr, fpr_lr, fnr_lr = <RELLENAR>

In [None]:
Test.assertEquals(round(tpr_knn, 2), 88.89, 'Valor de TPR de KNN en validación incorrecto')
Test.assertEquals(round(tnr_knn, 2), 96.30, 'Valor de TNR de KNN en validación incorrecto')
Test.assertEquals(round(precision_knn, 2), 72.73, 'Valor de precision de KNN en validación incorrecto')
Test.assertEquals(round(fpr_knn, 2), 3.70, 'Valor de FPR de KNN en validación incorrecto')
Test.assertEquals(round(fnr_knn, 2), 11.11, 'Valor de FNR de KNN en validación incorrecto')
Test.assertEquals(round(tpr_lr, 2), 77.78, 'Valor de TPR de LR en validación incorrecto')
Test.assertEquals(round(tnr_lr, 2), 98.15, 'Valor de TNR de LR en validación incorrecto')
Test.assertEquals(round(precision_lr, 2), 82.35, 'Valor de precision de LR en validación incorrecto')
Test.assertEquals(round(fpr_lr, 2), 1.85, 'Valor de FPR de LR en validación incorrecto')
Test.assertEquals(round(fnr_lr, 2), 22.22, 'Valor de FNR de LR en validación incorrecto')

## Medidas de rendimiento globales <a class="anchor" id="1.4"></a>

Para poder evaluar la calidad del modelo teniendo en cuenta varias métricas de las anteriores, existen 3 métricas que se utilizan habitualmente:
* *Recall medio por clases*: es la media aritmética entre TPR y TNR. En Scikit-learn se calcula con la función [*roc_auc_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html#sklearn.metrics.roc_auc_score) pasando las clases reales de los ejemplos y sus clases predichas.
* *Media geométrica*: media geométrica entre TPR y TNR.
* *Fscore*: media armónica entre precision y recall (TPR). En Scikit-learn se calcula con la función [*f1_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score) pasando las clases reales de los ejemplos y sus clases predichas..

Vamos a definir una función que evalue el rendimiento de un clasificador con un conjunto de ejemplos determinado de acuerdo a las 3 métricas anteriores. La función debe recibir como argumentos de entrada el clasificador a evaluar así como los ejemplos con sus clases (X e y) a utilizar para evaluarlo. La función debe devolver el rendimiento obtenido con las 3 métricas anteriores (en orden de aparición).

In [None]:
# <RELLENAR>

Vamos a utilizar la función anterior para evaluar el rendimiento en validación de las Pipelines con tanto KNN como la regresión logística entrenadas anteriormente.

In [None]:
# recall_medio_knn, gm_knn, fscore_knn = <RELLENAR>
# recall_medio_lr, gm_lr, fscore_lr = <RELLENAR>

In [None]:
Test.assertEquals(round(recall_medio_knn, 2), 92.59, 'Valor de recall medio de KNN en validación incorrecto')
Test.assertEquals(round(gm_knn, 2), 92.52, 'Valor de GM de KNN en validación incorrecto')
Test.assertEquals(round(fscore_knn, 2), 80.00, 'Valor de Fscore de KNN en validación incorrecto')
Test.assertEquals(round(recall_medio_lr, 2), 87.96, 'Valor de recall medio de LR en validación incorrecto')
Test.assertEquals(round(gm_lr, 2), 87.37, 'Valor de GM de LR en validación incorrecto')
Test.assertEquals(round(fscore_lr, 2), 80.00, 'Valor de Fscore de LR en validación incorrecto')

Un resumen de varias medidas de rendimiento se puede visualizar con [*classification_report*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report)

Además, algunos de los valores de las métricas de rendimiento que aparecen en el informe son medidas que tienen más sentido para problemas multi-clase:
* *support*: número de ejemplos para la clase de la fila (o el total de ejemplos en las 3 últimas filas)
* *macro avg*: media aritmética de la métrica mostrada en cada columna.
* *weighted avg*: media ponderada por el porcentaje de ejemplos de cada clase de la métrica mostrada en la columna.

Mostrad el resumen de las métricas de rendimiento en validación de las Pipelines con KNN y regresión logística.

In [None]:
# Resumen para KNN
# <RELLENAR>

In [None]:
# Resumen para LR
# <RELLENAR>

## Curvas ROC y Precision-Recall (PR) <a class="anchor" id="1.5"></a>

Al utilizar las métricas anteriores se ha definido previamente un umbral de clasificación. Es decir, el valor utilizado para decidir si el ejemplo se clasifica como clase positiva o negativa (por defecto se suele utilizar el valor 0.5). Si se modificara el umbral el resultado de las métricas cambiaría puesto que el número de ejemplos clasificados en cada clase podría variar. De este modo, podemos cambiar el umbral en busca de balances diferentes entre precision y recall (o TPR y TNR). Como consecuencia, muchas veces lo más útil es utilizar métricas independientes del umbral, que realmente representan mejor cómo se comporta un modelo en general en un problema concreto.

Dos métricas que son independientes del umbral son las basadas en las curvas ROC y en las curvas Precision-Recall (PR).

La **curva ROC** muestra la relación entre el recall (TPR) y el false positive rate (FPR=1-TNR). En concreto, muestra el FPR en el eje X y el recall en el eje Y.

Para poder dibujar la curva ROC, Scikit-learn nos ofrece el método [*roc_curve*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html). Este método devuelve todos los pares (FPR, TNR) de todos los umbrales (también los devuelve en el tercer argumento de salida). Para visualizar la curva ROC simplemente habría que mostrar todos los pares en una figura.

Además, para medir el área bajo una curva, Scikit-learn ofrece la función [*auc*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html). De este modo, una vez construida la curva con el método anterior (todos los pares), se puede usar *auc* para obtener el rendimiento del clasificador.

Vamos a definir una función para mostrar las curvas ROC de una lista de clasificadores para unos ejemplos cualquiera y obtener el área bajo sus curvas ROC. Para poder implementarla es necesario saber que los métodos de predicción permiten no sólo predecir la clase para un ejemplo sino también obtener las probabilidades de que el ejemplo sea predicho en cada clase (luego eligen como clase predicha la de mayor probabilidad). En función del clasificador, las probabilidades para la clase positiva se pueden obtener llamando a los métodos:
* *predict_proba*: para cada ejemplo devuelve tantos valores como clases. Cada valor es la probabilidad predicha para la clase. Para obtener la probabilidad de la clase positiva debemos seleccionar el valor de probabilidad que ocupe la posición de dicha clase.
* *decision_function*: para cada ejemplo devuelve la "probabilidad" de la clase positiva.

In [None]:
# Función que muestra la curva ROC para una lista de clasificadores (listaClfs) y unos datos de entrada (X) y salida (y)
    # labels son los nombres de los clasificadores utilizados
def muestra_ROC_courve(listaClfs, X, y, labels):
    # generamos una predicción sin calidad para la clase positiva (1): todas las predicciones con probabilidad 0
#     ns_probs = <RELLENAR>
    # calculamos el área bajo la curva ROC (método roc_auc_score pasando las clases reales y las probabilidades de la clase positiva)
        # En tanto por 100
#     ns_auc = <RELLENAR>
    # calculamos todos los pares de puntos (fpr, tpr) para dibujar la curva ROC (método roc_curve pasando las clases reales y las probabilidades de la clase positiva)
#     ns_fpr, ns_tpr, _ = <RELLENAR>
    
    # Lista para almacenar los AUC bajo la curva ROC de los clasificadores
    listaAUCs = []
    plt.figure(figsize=(10,6))
    # Para cada clasificador de la lista
    for i,clf in enumerate(listaClfs):
        # predecimos las probabilidades de predecir cada ejemplo en cada clase en base al método que implemente el clasificador
        if hasattr(clf, 'predict_proba'):
            # Si el clasificador implementa predict_proba nos quedamos con las predicciones de la clase positiva (1)
#             model_probs = <RELLENAR>
        else:
            # Si el clasificador implementa decision_function nos quedamos directamente con lo que devuelve
#             model_probs = <RELLENAR>

        # calculamos todos los pares de puntos (fpr, tpr) para dibujar la curva ROC (método roc_curve pasando las clases reales y las probabilidades de la clase positiva)
#         model_fpr, model_tpr, _ = <RELLENAR>
        # calculamos el área bajo la curva ROC, y lo añadimos a la lista de rendimiento, en tanto por 100
#         model_auc = <RELLENAR>
        
        # Mostramos visualmente la curva ROC (lineplot mostrando fpr en el eje x y tpr en el eje y) poniendo como etiqueta el nombre del clasificador
            # Usad marker='o' para mostrar los pares obtenidos
            # Usad errorbar=None para eliminar los intervalos de confianza
            # Poned la etiqueta apropiada a cada método (label=strigApropiado)
            # Almacenad el manejador de la figura para poner su título y nombres de los ejes a posteriori
        # <RELLENAR>
        
    # mostramos la curva del modelo sin calidad y añadimos el título de la figura así como los nombres de los ejes
    # <RELLENAR>
    # Devolvemos la lista con los AUC de los diferentes clasificadores
    # <RELLENAR>

Utilizamos la función anterior para mostrar las curvas ROC con los ejemplos de validación de las Pipelines con KNN y la regresión logística entrenadas previamente.

In [None]:
# listaAUCs = <RELLENAR>

In [None]:
Test.assertEquals(list(map(lambda x: round(x, 2), listaAUCs)), [95.87,98.70], 'Valores de AUC ROC en validación incorrectos')

La curva Precision-Recall (PR) muestra la relación entre el recall (TPR) y la precision. En concreto, muestra el recall en el eje X y la precision en el eje Y. 

Para dibujar la curva PR, Scikit-learn nos ofrece el método [*precision_recall_curve*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html). Este método devuelve todos los pares (recall, precision) de todos los umbrales (también los devuelve como tercer argumento de salida).

Vamos a definir una función similar a la anterior pero para dibujar las curvas PR de una lista de clasificadores y devolver sus correspondientes áreas bajo la curva PR.

In [None]:
# Función que muestra la curva PR para una lista de clasificadores (listaClfs) y unos datos de entrada (X) y salida (y)
    # labels son los nombres de los clasificadores utilizados
def muestra_PR_courve(listaClfs, X, y, labels):
    # Calculamos lo necesario para mostrar la curva PR y sus valores de rendimiento
        # Predicción sin calidad para todos los ejemplos (proporción de ejemplos de la clase positiva, 1) 
#     no_skill = <RELLENAR>
    
    # Para cada clasificador de la lista
    # <RELLENAR>

Utilizamos la función anterior para mostrar las curvas PR en validación de las Pipelines con KNN y la regresión logística entrenadas previamente.

In [None]:
# listaAUCs_PR =  <RELLENAR>

In [None]:
Test.assertEquals(list(map(lambda x: round(x, 2), listaAUCs_PR)), [85.34, 89.01], 'Valores de AUC PR en validación incorrectos')

## Selección del umbral de decisión <a class="anchor" id="2"></a>

Si seleccionamos modelos con métricas que no dependen del umbral, como las dos anteriores, luego tenemos que seleccionar el umbral de clasificación que se utilizará en producción para tratar de obtener el mejor rendimiento del modelo ya que el valor de 0.5 (el usado por defecto) puede que no sea la mejor opción para realizar la clasificación.

Para mostrar el efecto del umbral vamos a crear una función que muestre el balance entre precision y recall para todos los posibles umbrales generados por un clasificador al clasificar unos ejemplos en concreto.

In [None]:
# Función que muestra el compromiso entre precision y recall para un clasificador (clf) y unos datos de entrada (X) y salida (y)
def muestra_balance_PR(clf, X, y):
    # Obtenemos las probabilidades de la clase positiva
#     model_probs = <RELLENAR>
    
    # Obtenemos los umbrales que se generan y que caracterizan la curva PR (usar método precision_recall_curve)
#     model_precision, model_recall, umbrales = <RELLENAR>
    # Añadimos 1 como umbral para que la gráfica vaya hasta dicho punto (el par PR ya está calculado)
    umbrales = np.insert(umbrales, umbrales.size, 1., axis=0)
    # Mostramos la figura
    # <RELLENAR>

Utilizamos la función anterior para mostrar el balance entre precision y recall con los ejemplos de validación. A partir de este momento, nos vamos a centrar en la Pipeline con la regresión logística puesto que tenía mejor área bajo las curvas ROC y PR. Analizad si el efecto del umbral tiene sentido.

In [None]:
# <RELLENAR>

Para poner en producción un sistema de clasificación debemos:
* Obtener el mejor modelo utilizando una metodología de evaluación de modelos y medir el rendimiento con métricas independientes del umbral (área bajo la curva ROC o PR).
* Seleccionar el valor del umbral en base a un conjunto de ejemplos de validación.
    * Maximizar la métrica de rendimiento que sea apropiada para el problema.
    
Para poder aplicar el método *GridSearchCV* utilizando el área bajo la curva ROC o PR, debemos utilizar el método [*make_scorer*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html). Este método consigue que todas las métricas de rendimiento de Scikit-learn (que no acaben en _score o _error) e incluso métricas de rendimiento definidas por el usuario puedan ser utilizadas para evaluar clasificadores con *GridSearchCV* . Los parámetros del método son:
* score_func: métrica de rendimiento a utilizar
* greater_is_better: valor booleano que determina si el resultado de la métrica de rendimiento es mejor cuanto más grande (True, valor por defecto) o no (False).
* response_method: valor que determina el método de predicción del clasificador (*predict_proba*, *decision_function* o *predict*). Se le puede pasar una lista por orden de preferencia.

Vamos a ver dos ejemplos de dicho proceso. 

En primer lugar vamos a utilizar el área bajo la curva PR, [*average_precision_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html#sklearn.metrics.average_precision_score), como medida de rendimiento independiente del umbral para seleccionar el modelo y el Fscore, [*f1_score*](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score),  para seleccionar el mejor umbral. 

Creamos un objeto de *make_scorer* en base al área bajo la curva PR con los valores apropiados para sus parámetros (asignar *response_method* a la lista formada por los 3 métodos de predicción mencionados anteriormente y en ese orden).

In [None]:
# score_PR = <RELLENAR>

Vamos a definir una función que realice la elección de los mejores valores de los híper-parámetros de un clasificador aplicando la validación cruzada de 5 particiones. La función debe llamarse *tunearClasificador* y debe recibir como parámetros de entrada:
* El clasificador a tunear
* El diccionario con los valores de sus híper-parámetros a tunear
* La métrica de rendimiento (o el objeto de *make_scorer*)
* Los datos a utilizar (X, y). 

La función debe establecer la semilla de Numpy al valor 12 antes de aplicar el proceso de validación cruzada y debe mostrar los resultados de todas las combinaciones de los valores de los híper-parámetros del clasificador. La función debe devolver:
* El mejor clasificador (*best_estimator_*)
* Su rendimiento en validación (*best_score_*)
* Los mejores valores de sus híper-parámetros (*best_params_*)

In [None]:
# <RELLENAR>

Aplicad la función anterior para obtener la mejor configuración de la Pipeline con la regresión logística de acuerdo al área bajo la curva PR. Debéis elegir el mejor de los valores 0.1, 1, 3, 6, 10 para el híper-parámetro *C* de la regresión logística.

In [None]:
# p_LR = <RELLENAR>
# grid_LR = <RELLENAR>
# bestLR_PR, best_val, best_hipPar =  <RELLENAR>

In [None]:
Test.assertEquals(round(best_val, 2), 0.93, 'Mejor resultado en validación incorrecto')
Test.assertEquals(sorted(best_hipPar.items()), [('modelo__C', 0.1)], 'Mejor valores de los híper-parámetros incorrectos')

Utilizamos el mejor modelo obtenido anteriormente y calculamos su Fscore en test (en tanto por 100) con el umbral de decisión por defecto.

In [None]:
# fscore_test_PR_LR = <RELLENAR>

In [None]:
Test.assertEquals(round(fscore_test_PR_LR, 2), 75.00, 'Fscore en test del mejor modelo incorrecto')

Para poder modificar el umbral de decisión, lo primero que tenemos que hacer es crear una función que devuelva las clases predichas en base a un umbral determinado. Es decir, si la probabilidad de que un ejemplo sea de la clase positiva es mayor o igual que el umbral se devolverá 1 y en caso contrario se devolverá 0.

In [None]:
# Función para realizar la clasificación en base a un umbral y las probabilidades de que los ejemplos sean de la clase positiva
def clasificacion_umbral(probs_clase_positiva, umbral=0.5):
    # <RELLENAR>

Finalmente vamos a crear una función en la que:
* Se obtienen los posibles umbrales mediante los ejemplos de entrenamiento.
* Se evalúa la calidad de cada umbral con los ejemplos de validación de acuerdo al Fscore.
    * Se escoge el mejor que es lo que devuelve la función.

In [None]:
# función para calcular el mejor umbral de un modelo (model) de acuerdo al Fscore
    # y los ejemplos de train (X_train, y_train) y validación (X_val, y_val)
def calcular_mejor_umbral_fscore(model, X_train, y_train, X_val, y_val):    
    # predecimos las probabilidades de predecir cada ejemplo de train y de validación en la clase positiva
#     model_probs = <RELLENAR>
#     model_probs_val = <RELLENAR>
    
    # calculamos todos los pares de puntos (recall, precision) y sus umbrales (método precision_recall_curve)
#     model_precision, model_recall, umbrales = <RELLENAR>
    # Evaluamos el Fscore (método f1_score) de cada umbral 
#     rendimiento_umbrales = <RELLENAR>
    # Se consigue el índice del umbral que da mayor rendimiento
#     indiceMejorUmbral = <RELLENAR>
    # Se consigue el valor del mejor umbral
#     mejorUmbral = <RELLENAR>
    print('Mejor umbral={:.3f}, Fscore en validacion={:.2f}'.format(mejorUmbral, rendimiento_umbrales[indiceMejorUmbral]))
    # Se devuelve el mejor umbral
    # <RELLENAR>

Vamos a definir una función que obtenga el Fscore obtenido en unos datos para un clasificador y un umbral de decisión concreto.

In [None]:
# función para evaluar el mejor umbral (umbral) de un modelo (model) de acuerdo al Fscore en tanto por 100
    # en unos ejemplos (X, y)
def evaluar_mejor_umbral_fscore(model, umbral, X, y):
    # Evaluamos la calidad del mejor umbral con los ejemplos
#     model_probs = <RELLENAR>
#     fscore = <RELLENAR>
    return fscore

Finalmente, vamos a utilizar las funciones anteriores para realizar el proceso de selección del umbral y aplicarlo para obtener su Fscore en los datos de test. ¿Mejora con respecto al obtenido utilizando el umbral por defecto?

In [None]:
# mejorUmbral = <RELLENAR>
# Fscore_PR_LR_mejorUmbral = <RELLENAR>

In [None]:
Test.assertEquals(round(mejorUmbral, 3), 0.292, 'Mejor umbral incorrecto')
Test.assertEquals(round(Fscore_PR_LR_mejorUmbral, 2), 90.00, 'Fscore en test tras cambiar el umbral incorrecto')

Realizamos el mismo proceso pero utilizando el área bajo la curva ROC como medida de rendimiento independiente del umbral para seleccionar el modelo y recall medio por clases (*roc_auc_score* pasando las clases reales y las predichas) para seleccionar el mejor umbral. 

Para ello, en primer lugar debemos crear un función similar a la implementada para calcular el mejor umbral de acuerdo al Fscore pero que utilice el recall medio por clases. La función debe llamarse *calcular_mejor_umbral_recall_medio*.

In [None]:
# <RELLENAR>

Del mismo modo, vamos a crear un función similar a la implementada para evaluar el mejor umbral de acuerdo al Fscore pero que utilice el recall medio por clases. La función debe llamarse *evaluar_mejor_umbral_recall_medio*.

In [None]:
# <RELLENAR>

Además, debéis crear un objeto de *make_scorer* para poder utilizar el área bajo la curva ROC (*roc_auc_score*) como métrica de rendimiento a utilizar para obtener la mejor combinación de valores de los híper-parámetros del clasificador. 

Finalmente debéis utilizar las funciones definidas anteriormente para obtener la mejor configuración de la Pipeline con la regresión logística de acuerdo al área bajo la curva ROC, mostrar su recall medio por clases con el umbral por defecto, obtener el mejor umbral de acuerdo a dicha métrica y evaluar el rendimiento del clasificador con el mejor umbral obtenido.

In [None]:
# score_auc = <RELLENAR>
# bestLR_auc, best_val_auc, best_hipPar_auc =  <RELLENAR>
# recall_medio_test = <RELLENAR>
# mejorUmbral_auc = <RELLENAR>
# recall_medio_mejor_umbral = <RELLENAR>

In [None]:
Test.assertEquals(round(best_val_auc, 2), 0.99, 'Mejor resultado en validación incorrecto')
Test.assertEquals(sorted(best_hipPar_auc.items()), [('modelo__C', 0.1)], 'Mejores valores de los híper-parámetros incorrectos')
Test.assertEquals(round(recall_medio_test, 2), 80.00, 'Recall medio por clases test del mejor modelo incorrecto')
Test.assertEquals(round(mejorUmbral_auc, 3), 0.122, 'Mejor umbral incorrecto')
Test.assertEquals(round(recall_medio_mejor_umbral, 2), 96.11, 'Recall medio por clases del mejor umbral incorrecto')

# Métricas para problemas de clasificación multi-clase <a class="anchor" id="3"></a>

Finalmente, vamos a utilizar métricas para problemas de clasificación multi-clase. Para ello, vamos a utilizar un problema en el que se debe clasificar, a partir de un vino, [la clase de vino](http://archive.ics.uci.edu/ml/datasets/Wine) que es (3 posibles clases). Los datos de dicho problema están almacenados en el fichero *wine.csv*. Leed dicho fichero y cread dos variables para almacenar la información de entrada (X) y de salida (y) sabiendo que la variable que contiene las clases del problema se llama *Class*.

NOTA: las clases están codificadas como 1, 2 y 3. Para que las métricas de rendimiento se utilicen de forma intuitiva debéis codificarlas en 0, 1 y 2 (restad 1 a la clase original).

In [None]:
# wine = <RELLENAR>
# X = <RELLENAR>
# y = <RELLENAR>

A continuación vamos a dividir los ejemplos en train, validación y test utilizando Hold-out con estratificación, el valor 1234 como semilla.

Obtener el conjunto de test (10% de los ejemplos), de entrenamiento (80% de los ejemplos restantes) y de validación (el resto de ejemplos).

In [None]:
# X_resto, X_test, y_resto, y_test =  <RELLENAR>
# X_train, X_val, y_train, y_val = <RELLENAR>

Lo primero que vamos a hacer es entrenar una Pipeline que haga la estadarización de datos con el método de la media y la desviación estándar y KNN como clasificador con todos los valores por defecto de sus híper-parámetros y obtener el *accuracy* en entrenamiento y en validación.

In [None]:
# p_knn = <RELLENAR>
# accuracy_train_knn = <RELLENAR>
# accuracy_val_knn = <RELLENAR>

In [None]:
Test.assertEquals(round(accuracy_train_knn, 2), 98.44, 'Accuracy en train incorrecto')
Test.assertEquals(round(accuracy_val_knn, 2), 96.88, 'Accuracy en validación incorrecto')

Mostramos las matriz de confusión en validación.

In [None]:
# matrizConfusion_val_KNN = <RELLENAR>

In [None]:
Test.assertEquals(list(matrizConfusion_val_KNN.ravel()), [10, 0, 0, 0, 12, 1, 0, 0, 9], 'Matriz de confusión en validación incorrecta')

Y mostramos el informe del resumen de resultados con las diferentes medidas de rendimiento en validación.

In [None]:
# Resumen de medidas de rendimiento para KNN
# <RELLENAR>

A continuación, lo que vamos a hacer es obtener la mejor combinación de los valores de los híper-parámetros de KNN (clasificador de la Pipeline) utilizando una validación cruzada de 5 particiones y el accuracy como medida de rendimiento. Utilizad los siguientes valores de los híper-parámetros (los usados en la práctica anterior):
* Número de vecinos: 1, 3, 5 y 7
* Forma de votar: mayoría e inversa de la distancia al cuadrado
* Valor del exponente de la distancia: 1, 2, 1.5 y 3

Para determinar la métrica de rendimiento podéis escribir el string *accuracy*. 

Debéis utilizar la función que hemos creado anteriormente (*tunearClasificador*) para realizar este proceso.

In [None]:
# bestKNN_acc, best_val_acc, best_hipPar_acc = <RELLENAR>

In [None]:
Test.assertEquals(round(best_val_acc, 2), 0.98, 'Mejor resultado en validación incorrecto')
Test.assertEquals(sorted(best_hipPar_acc.items()), [('modelo__n_neighbors', 3),('modelo__p', 1.5),('modelo__weights', 'uniform')], 'Mejores valores de los híper-parámetros incorrectos')

Calculad el accuracy con los datos de test así como la matriz de confusión del mejor modelo obtenido.

In [None]:
# acc_test_mejorKNN_acc =  <RELLENAR>
# matrizConfusion_mejorKNN_acc = <RELLENAR>

In [None]:
Test.assertEquals(round(acc_test_mejorKNN_acc, 2), 94.44, 'Accuracy en test incorrecto')
Test.assertEquals(list(matrizConfusion_mejorKNN_acc.ravel()), [6, 0, 0, 0, 6, 1, 0, 0, 5], 'Matriz de confusión en test incorrecta')

El cliente que nos ha planteado el problema nos comenta que es muy importante clasificar correctamente la clase 1. Por ello, debemos obtener la mejor configuración del clasificador para dicha clase.

Por este motivo, lo primero que vamos a hacer es crear una función que calcule el área bajo la curva PR de una determinada clase. Esta función recibe como parámetros de entrada las clases de los ejemplos con los que medir el rendimiento, las probabilidades predichas por el modelo para todas las clases del problema (matriz de dimensiones $numeroEjemplos$ x $numeroClases$) y la clase para la que calcular el área bajo la curva PR (por defecto debe ser 1). La función debe devovler el área bajo la curva PR de la clase deseada.

In [None]:
def AUC_curvaPR_clase(y, model_probs, clase=1):
    # Nos quedamos con las probabilidades predichas para la clase de interés
#     probsClase = <RELLENAR>
    # Creamos un array de 1's y 0's (True y False) de tantos elementos como ejemplos
        # Contendrá 1 para los ejemplos de la clase y 0 en caso contrario
        # De este modo estamos transformando el problema multi-clase en binario y podemos aplicar precision_recall_curve como antes
#     yClase = <RELLENAR>
    # Calculamos todos los pares de puntos (precision, recall) que componen la curva PR (método precision_recall_curve pasando las clases transformadas y las probabilidades de la clase)
#     model_precision, model_recall, _ = <RELLENAR>
    # Calculamos y devolvemos el área bajo la curva PR (método auc) en tanto por 100
#     model_auc_PR = <RELLENAR>

Creamos un objeto de *make_scorer* para hacer que la función anterior pueda ser utilizada en *GridSearchCV*. Como la función anterior utiliza probabilidades debéis establecer el parámetro *needs_proba* a *True*.

In [None]:
# score_AUC_PR_C1 = <RELLENAR>

Obtenemos los mejores valores de los híper-parámetros de KNN de acuerdo al área bajo la curva PR de la clase 1.

In [None]:
# bestKNN_AUC_PR_C1, best_val_AUC_PR_C1, best_hipPar_AUC_PR_C1 = <RELLENAR>

In [None]:
Test.assertEquals(round(best_val_AUC_PR_C1, 2),100.00, 'Mejor resultado en validación incorrecto')
Test.assertEquals(sorted(best_hipPar_AUC_PR_C1.items()), [('modelo__n_neighbors', 7),('modelo__p', 1.5),('modelo__weights', 'distance')], 'Mejores valores de los híper-parámetros incorrectos')

Utilizamos la mejor configuración encontrada para obtener la matriz de confusión de los datos de test. ¿Estará contento el cliente con el nuevo clasificador utilizado?

In [None]:
# matrizConfusion_mejorKNN_AUC_PR_C1 = <RELLENAR>

In [None]:
Test.assertEquals(list(matrizConfusion_mejorKNN_AUC_PR_C1.ravel()), [6, 0, 0, 0, 7, 0, 0, 0, 5], 'Matriz de confusión en test incorrecta')

Finalmente, vamos a crear una función para crear una figura en la que mostremos la curva PR para cada una de las clases de un problema multi-clase. De este modo, podremos observar las diferencias entre distintos clasificadores para las diferentes clases del problema.

In [None]:
# Función que muestra la curva PR para cada clase del problema para un clasificador (clf) y unos datos de entrada (X) y salida (y)
def muestra_PR_courve_clases(clf, X, y):
    # Obtenemos la lista de clases diferentes (únicas)
#     clasesUnicas = <RELLENAR>
    
    # Para cada clase única
    for i,clase in enumerate(clasesUnicas):
        # predecimos las probabilidades de predecir cada ejemplo en la clase del bucle
#         model_probs = <RELLENAR>
        
        # calculamos todos los pares de puntos (precision, recall) que componen la curva PR de esa clase
            # (método precision_recall_curve pasando las clases reales, las probabilidades de la clase y la clase en concreto, pos_label)
#         model_precision, model_recall, _ = <RELLENAR>
        # Calculamos el área bajo la curva PR (método auc) para la clase del bucle en tanto por 100
#         model_auc_PR_clase = <RELLENAR>

        # Creamos la etiqueta para poner como leyenda de la figura a cada clase
        etiqueta = 'Clase '+ str(clase) + ', área: ' + str(round(model_auc_PR_clase, 2))
        # Mostramos la curva en la figura (lineplot) y le ponemos la etiqueta
        # <RELLENAR>
        
    # Mostramos la figura
    plt.show()

Finalmente, mostramos las curvas de las diferentes clases para los datos de test para la mejor configuración de la Pipeline con KNN obtenida tanto al optimizar el *accuracy* como el área bajo la curva PR de la clase 1. ¿Hemos conseguido lo que quiere el cliente?

In [None]:
# <RELLENAR>