# Intro to ML
## Métricas
---

En la sesión anterior vimos cómo elegir modelos y afinar nuestros modelos de forma que encuentren el mejor compromiso entre el bies y la varizana, es decir evitar que nuestro modelo sobre-entrene (overfit) los datos que usamos durante la fase de entreno y generalice de la mejor forma posible.

En la sesión de hoy hablaremos de que métricas nos permiten discriminar los modelos y cómo calcularlas con especial enfasis en métricas de clasificación
<div class="panel panel-success">
    <div class='panel-heading'>
    <h4>Empecemos</h4>
    </div>
    <div class='panel-body'>
    <ol type="A">
    <li>Métricas Regresión</li>
    <li>Métricas Clasificación</li>
</ol>

---

# 1. Métricas

## 1.1 Metricas para problemas de regression

Las métricas más comunes en los problemas de regresión son el **error cuadrático** y el **error absoluto**, y sus distintas modificaciones.

### 1.1.2 Errores cuadráticos

El **error cuadrático (Squared Error)** de un valor predicho con respecto al valor real, se calcula cómo:

$$ SE = \sum_j\left[f(X_{j}) - y_j\right]^2$$


**Error cuadrático medio (Mean Squared Error)** Da una idea del error de nuestras predicciones dando más peso a los errores grandes.

$$ MSE = \frac{1}{m}\sum_j^m \left[f(X_{j \cdot}) - y_j\right]^2 $$

**Raiz del error cuadrático medio (Root Mean Square Error)** La raíz cuadrada del MSE produce el error de la raíz cuadrada de la media o la desviación de la raíz cuadrada media (RMSE o RMSD). Tiene las mismas unidades que la cantidad que estima. Para un estimador sin sesgo (bies), el RMSE es la raíz cuadrada de la varianza, es decir la desviación estandar.

$$ RMSE = \sqrt{\frac{1}{m}\sum_j^m \left[f(X_{j \cdot}) - y_j\right]^2} $$

A pesar de ser una de las métricas más utilizadas, tiene el inconveniente de ser sensible a los valores extremos (outliers). Cuando este comportamiento pueda suponer un problema, los ** errores absolutos** pueden darnos una mejor medida de rendimiento.

In [None]:
## Escribe una función que devuelva el MSE y el RMSE dados dos arrays de numpy


In [None]:
## Utiliza la función del error cuadrático en las métricas de sklearn para crear la funcion de RMSE


### 1.1.3 Errores absolutos

El **error absoluto** (Absolute Error) se define cómo:

$$ AE = \sum_j \left|f(X_{j \cdot}) - y_j\right| $$

**Error absoluto medio (Mean Absolute Error)** Es más robusto a los valores extremos y su interpretabilidad es más alta que la del RMSE ya que también está en las unidades de la variable a predecir con la ventaja de que el dato no ha sufrido ninguna transformación.

$$ MAE = \frac{1}{m} \sum_j^m \left|f(X_{j \cdot}) - y_j\right| $$

**Error absoluto medio porcentual (Mean Average Percentage Error)**
A pesar de su simpleza, presenta varios inconvenientes a la hora de usarlo de forma práctica. Por ejemplo, no puede usarse cuando el valor de referencia es 0. Además, si se usa para elegir métodos predictivos seleccionará de forma sistemática un metodo que prediga valores bajos.
[wiki](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)

$$ MAPE = \frac{1}{m} \sum_j^m \left|\frac{f(X_{j \cdot}) - y_j}{y_j}\right| $$


In [None]:
## Escribe una función que devuelva el MAE y el MAPE dados dos arrays de numpy


In [None]:
## Compara los resultados con el metodo implementado en sklearn

### 1.1.4 A considerar...

Notese que las dos métricas expuestas anteriormente pueden considerarse como distancias entre el vector de valores reales y el predicho. De hecho, el RMSE corresponde a la **distancia euclidiana**, también conocida como norma $l_2$ o $\lVert{v}\rVert_2$.
Por otro lado, el MAE corresponde a la norma $l_1$ o $\lVert{v}\rVert_1$. A esta distancia se la conoce como **distancia de manhattan**, porque sólo se puede viajar de un bloque a otro de la ciudad a traves de calles ortogonales.

De forma general, una norma $l_k$ o $\lVert{v}\rVert_k$ se calcula:

$$\lVert{v}\rVert_k = \left(|v_0|^k + ...+ |v_m|^k \right)^\frac{1}{k}$$


### 1.1.5 Coeficiente de determinación ($R^2$)

El coeficiente determina la calidad del modelo para replicar los resultados, y la proporción de variación de los resultados que puede explicarse por el modelo. El valor más alto obtenible será 1, aunque hay casos en los que puede presentar valores negativos. De forma intuitiva, $R^2$ compara el "fit" de nuestro modelo al de una linea recta horizontal. Dada una regresión lineal simple, un $R^2$ negativo sólo es posible cuando la ordenada en el origen o la pendiente están restringidas de forma que el mejor modelo es peor que una linea horizontal.

Si representamos la **varianza de la variable dependiente** por $\sigma^{2}$ y la **varianza residual** por $\sigma _{r}^{2}$, el coeficiente de determinación viene dado por la siguiente ecuación:

$$ R^{2}=1- \frac{\sigma_{r}^{2}}{\sigma ^{2}}$$


Siendo $\hat{y}_i$ el valor predicho de la muestra i y $y_i$ el valor real, el $R^2$ estimado sobre $n_{\text{muestras}}$ se define como:

$$ R^2(y, \hat{y}) = 1 - \frac{\sum_{i=0}^{n_{\text{samples}} - 1} (y_i - \hat{y}_i)^2}{\sum_{i=0}^{n_\text{samples} - 1} (y_i - \bar{y})^2}$$
donde $$ \bar{y} =  \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}} - 1} y_i.$$


In [None]:
### Crea una función que dados dos vectores calcule la función de R²


In [None]:
### Utiliza la función implementada en sklearn y compara los resultados

#### 1.1.5.1 Consideraciones R²

1. R² no puede determinar si los coeficientes y las predicciones tienen bies --> Graficar los residuales!

1. Cada vez que añadimos un predictor a un modelo, el R² aumenta aunque sea por suerte, pero nunca decrece. Por consiguiente, un modelo con muchos terminos puede parecer mejor simplemente por el hecho de tener más terminos. Para prevenir este efecto, podemos usar el **adjusted R²**, una versión modificada que se ajusta al número de predictores en el modelo. De ésta forma, el R² solo aumenta si el nuevo término mejora el modelo más que por mera suerte. Siempre es más bajo que el R²

$$\bar{R}^2 = 1 - \frac{N-1}{N-k-1}(1-R^2)$$


n – numero de observaciones

k – numero de parametros

In [None]:
### crea una función que devuelva el R² ajustado.
### Acuerdate que podemos acceder al número de parametros de un modelo: model.coef_

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

## load linear regression ML model
from ... import ...

## load the tool to construct polynomial features
from sklearn.preprocessing import ...

from sklearn.datasets import ...

# instancia el dataset y crea variables polinómicas de hasta grado 2
data = 
poly = 
X_poly =
y =

## Instancia la regresión lineal
LR = LinearRegression()

## Para cada grupo de columnas (1, 1-2, 1-2-3, ..., 1-2-...-m) evalua el modelo con la r2 y la r2 ajustada

r2 = 
r2_adj = 
for ... in range(1, ...):
    X =
    y_pred = 
    r2.append()
    r2_adj.append()

plt.plot(r2, label='r2')
plt.plot(r2_adj, label='r2_adj')
plt.legend(loc='best')
plt.show()

## 1.2 Metricas para problemas de clasificación

Cuando hablamos de problemas de clasificación, existe una gran variedad de métricas que nos permiten determinar cómo de bueno es nuestro clasificador. La elección de la métrica vendrá determinada por:

1. El tipo de predicción: si es una clase o la **probabilidad** de pertenecer a una clase
2. Si se trata de un problema balanceado o no

### 1.2.1 Matriz de confusión

Antes de empezar, consideremos el caso básico de una clasificación binaria en el que intentamos predecir una clase. Imagina que hemos entrenado un modelo y realizado una serie de predicciones. Es fácil entonces crear una tabla que contenga la siguiente información.

|                      | Observación: Perro                | Observación: Gato                 |
|--------------------- |:---------------------------------:|:---------------------------------:|
| **Predicción Perro** |<span style='color:green'>25</span>|<span style='color:red'>3</span>   |
| **Predicción Gato**  |<span style='color:red'>9</span>   |<span style='color:green'>19</span>|

Esta tabla se conoce cómo matriz de confusión (en ingles, confusion matrix) y es facilmente extendible a problemas de clasificación de varias categorías.

Lo que nos dice esta matriz de forma simplificada es:

1. En total tenemos 25+3+9+19 = 56 muestras sobre las que hemos realizado predicciones
1. De las 56, 25 + 9 = 34 pertenecen a la clase *perro* y 3+19 = 21 pertenecen a la clase *gato*
1. De los 34 *perros*, hemos predicho bien la categoría en 25 casos y mal en 9.
1. De los 21 *gatos*, hemos predicho bien la categoría gato en 19 casos y mal en 3

|                         | Observation Positive     | Observation Negative    |
|-------------------------|:------------------------:|:-----------------------:|
| **Prediction Positive** |     True Positive        | False Positive (Type I) |
| **Prediction Negative** | False Negative (Type II) |     True Negative       |

A partir de esta matriz, se construyen la mayoría de métricas asociadas con los problemas de clasificación.

### 1.2.2 Métricas según clase predicha
**Accuracy**

De forma general, ¿cuantas veces predigo la clase correcta? La más común y muchas veces, la más susceptible a darnos un clasificador erroneo, sobre todo en sets de datos no balanceados.

$$Accuracy = \frac{TP+TN}{total} = \frac{25+19}{56} \sim 0.786$$

**Error Rate**

De similar modo, ¿Cuántas veces me equivoco?

$$ Error Rate = 1 - Accuracy = \frac{FP+FN}{total} = \frac{9+3}{56} \sim 0.214 $$

**Recall (sensitivity)**

Cuando es *perro*, ¿cuantas veces predecimos *perro*?

$$ Recall = \frac{TP}{actual Trues} = \frac{TP}{TP + FN} = \frac{25}{25 + 9} \sim 0.735 $$

**Specificity**

Cuando es *gato*, ¿cuántas veces predecimos *gato*?

$$ Specificity = \frac{TN}{actual Falses} = \frac{TN}{TN + FP} = \frac{21}{19 + 9} \sim 0.75 $$

** Precision **

Cuando predecimos *perro*, cuantas veces es correcto?

$$ Precision = \frac{TP}{predicted Trues} = \frac{TP}{TP + FP} = \frac{25}{25 + 3} \sim 0.892 $$

**F1-score**

A menudo es conveniente **combinar la precision y el recall en una sola métrica** para comparar de forma sencilla dos clasificadores. En vez de calcular una media de la precisión y el recall, se calcula su **media harmónica**. De esta forma se da más peso a los valores bajos por lo que sólo se conseguirá un F1-score alto si ambas, Precision y Recall, son altas.

$$F_1= \frac{1}{\frac{1}{precision} + \frac{1}{recall}} = 2 \times \frac{precision \times recall}{precision + recall} = \frac{TP}{TP + \frac{FN + FP}{2}} $$


Vamos a ver un ejemplo de estas métricas. Para ello, usaremos los datos de vinos que vienen por defecto en la libreria de sklearn.

In [None]:
## Cargamos los datos de vinos y lo necesario para hacer analisis de datos


data = 
df = pd.DataFrame(data.data)
df.columns = data.feature_names
df['y'] = data.target

# Vamos a forzar solo que distinga entre la clase 0 y las demas
# Asigna a la variable 'y' la clase 0 cuando sea 0 y 1 en caso contrario
df['y'] = 

# importa el modulo de regresión logística

# importa el modulo de StratifiedKfold

# importa el modulo de cross_val_predict

#importa el modulo necesario para realizar la partición entre train y test

# divide el dataset en train y test con un tamaño de test del 20% de los datos

# usa el StratifiedKFold para dividir el X_train en 5 partes. Usa el random_state = 1234

# instancia una regresión logistica

# usa la función de cross_val_predict para entrenar y evaluar la regresión logística usando el StratifiedKFold


Una vez hemos realizado las predicciones, veamos cómo se comporta calculando las métricas comentadas anteriormente

In [None]:
from sklearn.metrics import confusion_matrix
print(confusion_matrix(...))

In [None]:
from sklearn.metrics import ..., ..., ..., ...

print("Accuracy:", accuracy_score(...))
print("Precision:", precision_score(...))
print("Recall:", recall_score(...))
print("F1:", f1_score(...))

Otra funcionalidad que nos da una visión panorámica de nuestro clasificador es...

In [None]:
from sklearn.metrics import ...
print(classification_report(...))

### 1.2.3 Metricas para predicciones probabilisticas

Muchas veces no solo nos conformaremos con predecir una clase, si no que tendremos que predecir la *probabilidad* de pertenecer a una clase.

Varios métodos de clasificación de ML son aptos para este tipo de tarea. En sklear, además del método `clf.predict()` de algunos estimadores, tendremos el método `clf.predict_proba()`, que nos devolverá la probabilidad de pertenecer a cada una de las clases.

En realidad, un clasificador calcula la probabilidad y, en base a un umbral, decide la clase a la que pertenece.
Por defecto, los algoritmos de ML de sklearn tienen un umbral de 0.5. Es decir, si la probabilidad de pertenecer a una clase es mayor que 0.5, le asigna la etiqueta de esa clase.

**¿Qué implica esto?**

Básicamente, implica que si jugamos con el umbral de decisión para un predictor probabilístico, podemos alterar las métricas de performance a nuestra voluntad...

### Precision vs recall

In [None]:
from ipywidgets import interact

x = np.r_[0:1:1000j]
y = np.random.binomial(1, x)

def plot_threshold(threshold=0.5):
    true_pos = (x > threshold) * (y > 0)
    plt.plot(x[true_pos], y[true_pos], '.', label="True Positive")
    false_pos = (x > threshold) * (y == 0)
    plt.plot(x[false_pos], y[false_pos], '.', label="False Positive")
    true_neg = (x <= threshold) * (y == 0)
    plt.plot(x[true_neg], y[true_neg], '.', label="True Negative")
    false_neg = (x <= threshold) * (y > 0)
    plt.plot(x[false_neg], y[false_neg], '.', label="False Negative")
    plt.axvline(threshold, c='k')
    plt.ylim(-0.5, 1.5)
    plt.legend()
    
    try:
        precision = 1.0 * sum(true_pos) / (sum(true_pos) + sum(false_pos))
    except ZeroDivisionError:
        precision = 1
    recall = 1.0 * sum(true_pos) / (sum(true_pos) + sum(false_neg))
    plt.title('Precision: %0.2f, Recall: %0.2f' % (precision, recall))
    plt.show()

interact(plot_threshold, threshold=(0, 1, 0.1))

No tiene sentido hablar de éstas métricas de forma independiente, ya que podemos alterar virtualmente su valor al modificar el umbral de decisión. Por ejemplo, si seteamos el umbral de decision muy alto de forma que el clasificador nos devuelva siempre la clase 0, nuestro clasificador tendrá una precision del 100% y un recall nulo.

En el caso contrario, si el umbral lo ponemos de forma que facilmente prediga la clase positiva, nuestro clasificador tendrá un recall del 100% a expensas de la precisión.

Este comportamiento no tiene por que ser negativo per se. Dependerá del tipo de problema que estemos tratando. 

Por ejemplo, en un caso de detección de cancer...que es mejor? Una precision alta o un recall alto?

In [None]:
# vamos a predecir las probabilidades del ejercicio anterior


In [None]:
# importa el metodo que nos permite encontrar la curva de precisión y recall
from sklearn.metrics import ...

# calcula la precision, el recall y los umbrales
prec, rec, thre = ...

# haz un plot de la precision y el recall en función de los umbrales


In [None]:
# plotea la precisión en funcion del recall


### ROC Curve

De forma similar a la curva de precision-recall, la curva ROC (*Receiver Operating Characteristic*) es otra herramienta típica usada en clasificadores binarios.

A diferencia de la curva PR, la curva ROC compara el True Positive Rate (Recall) y el False Positive Rate (1 - specifity). Recuerda que la *specifity* es el True Negative Rate, el ratio de veces que la clase negativa se clasifica correctamente.

Otra forma de comparar clasificadores es comparando el area bajo la curva ROC (Area Under the Curve, AUC). Éste parametro tiene cómo límite superior 1, mientras que un valor de 0.5 corresponde a un clasificador completamente aleatorio.

In [None]:
## Repite el ejercicio anterior pero con la curva ROC
from sklearn.metrics import ...

fpr, tpr, thre = ...
roc_auc = ...

# plotea los resultados

Debido a que la curva ROC y la Prec vs Recall son muy parecidas, uno puede tener dudas al tener que elegir una de ellas. Cómo guía no exhaustiva, uno puede decantarse en función del problema que tenga. Concretamente, en casos no balanceados o cuando una clase nos importa más que la otra, la curva PR nos aportará más información que la curva ROC.


In [None]:
## Carga el set de datos 'data/creditcard.csv'
df_fraud = 

## Separa el set de datos en train y test

## crea un stratified kfold

In [None]:
## usa una regresión logística

In [None]:
### predice las clases
y_pred_imb = 

### predice la probabilidad de las clases
y_proba_imb = 

In [None]:
print("Accuracy:", accuracy_score())
print("Precision:", precision_score())
print("Recall:", recall_score())
print("F1:", f1_score())

In [None]:
print(confusion_matrix())

In [None]:
fpr, tpr, thre_roc = 
auc_roc = 


In [None]:
## busca la funcionalidad que permite calcular un area bajo la curva
from sklearn.metrics import ...

# calcula la precision, el recall y los umbrales
prec, rec, thre = 
#calcula el AUC de la curva PR
auc_pr = 

In [None]:
## haz un plot de la precisión -vs- el recall