# Evaluación de Modelos

En los 4 ejemplos previos sobre  [clasificación](05_Aprendizaje_Supervizado_Clasificacion.ipynb) y [regresión](06_Aprendizaje_Supervizado_Regresion.ipynb) se usaron algunas funciones para estimar Regresiones Logísticas y Random Foreet para Clasificación, Regresiones Lineales y Random Forest para Regresión, también en los ejercicios se pide usar la máquina de soporte vectorial o árboles de decisión, etc.

En cada uno de los ejemplos se estimó el modelo y se midió su calidad  usando alguna función. En los casos de clasificación se midió la *precisión* y para los modelos regresivos *el error cuadrado medio*.

La evaluación del modelo es fundamental, ya que más de un modelo  puede ser viable, pero entre los criterios para elegir nuestro modelo es la calidad obtenida en la "métrica" que se define. La métrica en esta caso es la medida estadística que se elige para calificar al modelo.


## Para Clasificación

En los ejemplos solo se uso la función `accuracy_score` para medir la calidad de las clasificaciones. Al estimar el model y predecir los resultados, se compara el resultado contra los datos de prueba. Denotando la salida del modelo como **$ \hat{y}$** y lo valores reales **$y$**.


### Precisión

La precisión se define como:$$ Precision=\frac{\#Correctos}{\#Total\quad de\quad casos}$$. El máximo valor que se puede obtener es 1, por lo tanto cuanto más proximo a 1 sea el resultado podemos considerar como mejor modelo de clasificación.

### Matriz de Confusión
 
Las filas son las clases de los valores reales $y$ y las columnas las de $\hat{y}$.

|  | Categoría 1|Categoría 2|
|--|------------|-----------|
|Categoría 1|Verdadoros Positivos(VP)|Falsos Negativos(FN)|
|Categoría 2|Falsos Positivos(FP)| Verdaderos Negativos(VN)|

La precisión y la matriz de confusión están relacionadas, los elementos de la diagonal de la matriz de confusión corresponden a todas las clasificaciones correctas. La presicion se puede escribir como: $$Precision=\frac{VP+VN}{VP+FN+FP+VN}$$

Mediante la revisión de estos dos se puede calificar a los modelos, pero en algunos casos es importante distinguir entre las prediciones de la Categoría 1 vs Categoría 2. Ejemplo, si la categoría 1 = Normal y Categoría 2 = Fraude, resulta importante poder calificar con cuidado las predicciones por categoría.

Una medida sensible para la correcta clasificación por clase se puede usar AUC o la curva de [ROC](https://es.wikipedia.org/wiki/Curva_ROC). En otro casos resulta conveniente medir la calidad por medio de la función [log loss](https://en.wikipedia.org/wiki/Loss_functions_for_classification) o función de perdida.

La elección de la métrica depende del problema que se aborda con la clasificación.


## Ejemplo de Clasificación

In [5]:
from sklearn.datasets import load_breast_cancer
import numpy as np
Cancer=load_breast_cancer()
np.unique(Cancer.target)

array([0, 1])

Construimos un vector del mismo tamaño que el *target* pero con solo valores 1 y medimos la precisión, la matriz de confusión y el área bajo la curva.

In [6]:
from sklearn.metrics import accuracy_score,roc_auc_score,confusion_matrix
y=np.ones(len(Cancer.target))

In [7]:
print("Precisión")
accuracy_score(Cancer.target,y)

Precisión


0.62741652021089633

In [8]:
#Matriz de Confusión
print("Matriz de Confusión")
confusion_matrix(Cancer.target,y)

Matriz de Confusión


array([[  0, 212],
       [  0, 357]])

In [9]:
#Estimación de la curva bajo la curva
print("Área bajo la curva")
roc_auc_score(Cancer.target,y)

Área bajo la curva


0.5

El valor máximo que se puede tener en la curva de ROC o el valor de AUC es de 1, por lo tanto cuanto más proximo a 1 sea el valor del modelo se considera mejor.

# Para regresión

En los ejemplos solo se uso la función `mean_squared_error` para medir la calidad de las regresiones. Al estimar el model y predecir los resultados, se compara el resultado contra los datos de prueba. Denotando la salida del modelo como **$ \hat{y}$** y lo valores reales **$y$**.

## Error Cuadrado Medio

El valor se obtiene de la sigueinte expresión:$$MSE=\frac{1}{n}\sum\limits_{i=1}^n(y_i-\hat{y_i})^2$$

### Raiz Cuadra de Error Cuadrado Media

El valor es igual a :$$RMSE=\sqrt MSE$$

Lo que se busca es que cualquier de las dos métricas sea pequeña, lo cual implica que los valores predichos con respectos a los reales son muy cercanos. El problema con estas dos medidas  es que son sensibles a contar con un solo valor muy grande entre la diferencia $y_i-\hat{y_i}$, por lo cual es importante considerar aquellos valores que son "anómalos" o extraños.

### Otro estadístico usual

En los problemas de regresión suele usarse para valorar la calidad del modelo el estadístico descriptivo $R^2$. Éste es una buena guía pero no es un estadístico fundamental, debido a varios problemas que se pueden presentar. Para aclarar como se define primero se considera $\tilde{y}$ como la média de los valores $y$. Entonces $$\sum (y_i-\tilde{y})^2=\sum(y_i-\hat{y})^2+\sum(\hat{y_i}-\tilde{y})^2$$ el primer termino es la variación total de la variable $y$ y suele denotarse como TSS. El segundo término se llama variación residual(ESS) y el último es la variación explicada(RSS). 

Entonces la definición es:$$R^2=\frac{RSS}{TSS}$$

En resumen $R^2$ informa el procentaje de varianza explicada por el modelo, siempre toma valores entre 0 y 1. 

## Ejemplo de Regresión

In [12]:
from sklearn.datasets import load_diabetes
import numpy as np

Diabetes=load_diabetes()
print("La media del Target es:")
Diabetes.target.mean()

La media del Target es:


152.13348416289594

Se genera una variable distribución uniformé para simular nuestra $\hat{y}$.

In [54]:
# Se crea una variable con información del mismo target
y_salida=Diabetes.target+np.random.normal(20,5,size=len(Diabetes.target))

Se estima los estadisticos de $y$ vs $\hat{y}$.

In [55]:
from sklearn.metrics import mean_squared_error,r2_score

print("RMSE: %f"%mean_squared_error(Diabetes.target,y_salida))
print(" R Cuadrada: %f" %r2_score(Diabetes.target,y_salida))

RMSE: 426.049540
 R Cuadrada: 0.928152
