# Evaluación de Pérformance: Metricas

# Por qué? Cuándo?

Porque necesitamos saber cuándo algo **anda**, y cuándo una cosa (experimento, modelo, set de datos, etc) **anda mejor o peor que otra**.

Definir al **inicio**, con el cliente.

Usar todo el tiempo.

![](files/images/ml_process.svg)

# Métricas, métricas y métricas...

![](files/images/spyderman_meme.png)

# Métricas, métricas y métricas...

* **Offline** vs Online
* **Desarrollo** vs Produccion vs KPIs: 

    * distintas audiencias, distintos niveles
    * KPIs son métricas muy específicas del proceso de negocio: dinero ganado, productos vendidos, horas requeridas, tiempo ahorrado, etc


 

# ¿Qué datos usamos para medir?

Medir solo sobre los mismos datos que usamos para armar el modelo nos da info falsa. Nos **miente**.

# Algunas técnicas utilizadas para medir

* Resubstitution: nombre para el error común de medir sobre los datos de entrenamiento. **Esto nos miente**
* Hold out
* K Fold Cross validation
* Leave one out cross validation

## Resubstitution
<img src="files/images/resubstitution.jpg" alt="Drawing" style="height: 500px;"/>

## Hold out

<!-- ![](files/images/train_validation_test.png) -->
<img src="files/images/train_validation_test.png" alt="Drawing" style="height: 500px;"/>

## K-Fold Cross Validation

![](files/images/cross_validation.png)

## Leave One Out Cross Validation

![](files/images/loocv.png)

# Desbalance de clases y estratificación

* Desbalance == La cantidad de ejemplos de cada clase clase son muy distintos

* Estratificación o "stratified sampling": asegura que una muestra aleatoria represente la distribución original de los datos. 


# Overfitting

El modelo se **memoriza** los datos de entrenamiento.

![](files/images/overfitting.jpeg)

# Baseline

Necesitamos superar lo que "ya se puede hacer fácil".

Un **piso contra el que comparar** si realmente nuestro modelo está haciendo algo útil.

Puede ser una solución que conlleve muy poco tiempo hacerla, o un proceso existente que compita contra el modelo a desarrollar.

Ejemplo: predecir las ventas del mes próximo.

```
def next_month_sales_prediction_baseline(df):
    return df.groupby('month').sales.mean()
```

![](files/images/baseline.svg)

![](files/images/baseline_vs_experiments.svg)

# Regresión: Mean Squared Error y similares

**Por cuánto le erramos en promedio?**

Pero cada error al cuadrado, para evitar que errores negativos cancelen errores positivos.

MSE = $\frac{1}{n} \Sigma_{i=1}^n({y}-\hat{y})^2$

donde $y$ es el valor real, $\hat{y}$ es la predicción del modelo.

Hay muchas variantes, dependiendo el problema puede ser conveniente usar una u otra.

![](files/images/mse_regression.svg)

# Clasificación

## Matriz de confusión

Es una tabla que permite ver el rendimiento de un determinado modelo. Es útil para problemas con dos o más etiquetas posibles.

![](files/images/confusion_matrix.png)

## Accuracy

**En qué porcentaje de casos acertamos la predicción?**

Accuracy = (TP + TN) / (TP + FN + FP + TN)

El color de cada punto representa la etiqueta, mientras que la línea punteada son los casos que el modelo dijo "rojo".

![](files/images/accuracy.svg)

**cantidad bien / cantidad total = accuracy**

22 / 25 = 0.88

### Problemas de Accuracy

* **Desbalanceo** en los datos, es decir, distinta cantidad de etiquetas de cada clase.
* Si errar por sí o por no tiene **diferente impacto**.


Entonces? Usamos otras métricas.

## Precision

**De lo que clasificamos como rojo, qué porcentaje era realmente rojo?**

Útil si quiero asegurarme de **solo encontrar ejemplos de rojo, no equivocarme al decir "esto es rojo"**.

Precision = (TP) / (TP + FP)

![](files/images/accuracy.svg)

**cantidad clasificada como rojo que era realmente rojo / cantidad clasificada como rojo = precision**

**Rojo**: 7 / 8 = 0.875

**Verde**: 15 / 17 = 0.882

## Recall

**De todos los rojos que había, cuántos encontramos?**

Útil si quiero asegurarme de **que no se me escape ninguno**.

Recall = TP / (TP + FN)

![](files/images/accuracy.svg)

**cantidad clasificada como rojo que era realmente rojo / cantidad real de rojos que había = recall**

**Rojo**: 7 / 9 = 0.777

**Verde**: 15 / 16 = 0.937

## F-Score

**Combina precision y recall.**

Solo un promedio nos escondería si uno anda muy mal. F-Score cae mucho si alguno de los dos cae mucho.

## AuROC

**Qué tan bien diferenciamos entre verdaderos y falsos. Útil cuando queremos evaluar el comportamiento de un clasificador para distintos umbrales. ** 
Cada punto en la curva se construye utilizando un valor de corte, y calculando un par de métricas de los resultados obtenidos para dicho valor.

![](files/images/roc_curve.png)

# Curva de aprendizaje

Nos ayuda a observar el **progreso del aprendizaje**.

Es observar alguna métrica definida, a lo largo del loop de entrenamiento o a medida que aumentamos el porcentaje de datos que utilizamos para entrenar.

Útil para ir comparando entre distintos modelos.

Útil por ejemplo para saber cuándo dejamos de aprender, para evaluar si necesitamos buscar más datos, cuándo está overfiteando, etc.

![](files/images/learning_curve.svg)

![](files/images/learning_curves_models.svg)

![](files/images/learning_curves_sets.svg)