# Evaluación de un modelo de clasificación
Creado por [Data School](http://www.dataschool.io/). Notebook modificado de [GitHub](https://github.com/justmarkham/scikit-learn-videos).


## Lo que vamos a ver

- Cuál es el objetivo de  la **evaluación de un modelo**, y cuáles son los procedimientos más comunes?
- Qué es el **accuracy score** de un modelo de clasificación, y cuáles son sus limilaciones?
- Cómo describe la **matriz de confusión** la performance de un clasificador?
- Qué **métricas** se pueden computar de una matriz de confusión?


## Repaso de la evaluación de modelos
- Se necesita elegir entre distintos modelos: distinto tipo de modelos, ajustar los parámetros, y atributos
- Se usa **un procedimiento de evaluación de modelos** para estimar cuán bien generaliza con datos que nunca vio
- Requiere una **métrica de evaluación del modelo** para cuantificar la perfomance del modelo

### Procedimiento para Evaluar modelos

1. **Entrenamiento y testeo con los mismos datos**
    - Los modelos demasiado complejos que "sobreajustan" los datos de entrenamiento no necesariamente generalizarán
2. **Train/test split**
    - Separa los datos en dos grupos, de forma tal que el modelo puede ser entrenado y testeado en distintos datos
    - Mejora la estimación de la performance de muestras no vistas, pero todavía es una estimación con    varianza alta
    - Útil debido a su rapidez, simplicidad y flexibilidad
3. **K-fold cross-validation**
    - Crea "K" train/test separaciones y promediar los resultados
    - Mejora la estimacion de la performance de datos no vistos
    - Corre "K" veces más lento que el train/test split

### Métricas de evaluación

- **Problemas de Regresión:** Mean Absolute Error, Mean Squared Error, Root Mean Squared Error
- **Problemas de Clasificación:** Classification accuracy

## Classification accuracy

[Pima Indians Diabetes dataset](https://www.kaggle.com/uciml/pima-indians-diabetes-database) originally from the UCI Machine Learning Repository

In [1]:
# cargar el dataset
import pandas as pd
path = 'pima-indians-diabetes.data'
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv(path, header=None, names=col_names)

FileNotFoundError: [Errno 2] File b'pima-indians-diabetes.data' does not exist: b'pima-indians-diabetes.data'

In [2]:
# leer las primeras 5 filas
pima.head()

Unnamed: 0,pregnant,glucose,bp,skin,insulin,bmi,pedigree,age,label
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


**Pregunta:** Podemos predecir el estado de diabetes de un paciente dadas las mediciones de su salud?

In [3]:
# definir X e y
feature_cols = ['pregnant', 'insulin', 'bmi', 'age']
X = pima[feature_cols]
y = pima.label

In [4]:
# Separar X e y en sets de entrenamiento y testeo into training and testing sets
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [5]:
# Entrenar un árbol de decisión sobre los datos de entrenamiento

from sklearn.tree import DecisionTreeClassifier
tree = DecisionTreeClassifier(max_depth=2).fit(X_train, y_train)



In [6]:
# hacer una predicción con los datos de testeo 
y_pred_class = tree.predict(X_test)

**Classification accuracy:** porcentaje de predicciones correctas

In [7]:
# calcular el accuracy
from sklearn import metrics
print(metrics.accuracy_score(y_test, y_pred_class))

0.640625


**Null accuracy:** accuracy que podría haberse alcanzado haciendo una predicción con la clase más frecuente 

In [8]:
# ecaminar la distribución de clases del set de testo
y_test.value_counts()

0    130
1     62
Name: label, dtype: int64

In [9]:
# calcular el porcentaje dde unos
y_test.mean()

0.3229166666666667

In [10]:
# calcular el porcentaje de ceros
1 - y_test.mean()

0.6770833333333333

Comparar los valores **verdaderos** y los **predichos* 

In [11]:
# imprimir los primeros 25 
print('True:', y_test.values[0:25])
print('Pred:', y_pred_class[0:25])

True: [1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0]
Pred: [0 0 0 0 0 0 1 1 0 1 0 1 0 0 1 1 1 0 1 1 1 0 0 1 0]


**Conclusión:**

- Classification accuracy es la  **métrica más fácil de entender**
- No nos dice nada de la **distribución subyacente** de los valores
- No nos dice nada de los **"tipos" de errores** que el clasificador está cometiendo

## Matriz de confusión

Tabla que describe la performance del modelo de clasificación

In [12]:
# IMPORTANTE:  el primer argumentos es valores verdaderos, el segundo argumento es valores predichos
print(metrics.confusion_matrix(y_test, y_pred_class))

[[88 42]
 [27 35]]


- Cada observación en el set de testeo es representado en exactamente una caja 
- Es una matriz de 2x2 matrix porque hay **2 clases de respuestas**
- El formato que se muestra acá **no** es universal

**Terminología básica**

- **True Positives (TP):** predijimos *correctamente* que *si* tienen diabetes
- **True Negatives (TN):** predijimos *correctamente* que *no* tienen diabetes
- **False Positives (FP):** predijimos *incorrectamente* que *si* tienen diabetes ("Type I error")
- **False Negatives (FN):** predijimos *incorrectamente* que *no* tienen diabetes (a "Type II error")

In [13]:
# imprimir los primeros 25 valores verdaderos y predichos
print('True:', y_test.values[0:25])
print('Pred:', y_pred_class[0:25])

True: [1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0]
Pred: [0 0 0 0 0 0 1 1 0 1 0 1 0 0 1 1 1 0 1 1 1 0 0 1 0]


In [14]:
# guardar la matriz de confusión y separar los cuatro elementos
confusion = metrics.confusion_matrix(y_test, y_pred_class)
TP = confusion[1, 1]
TN = confusion[0, 0]
FP = confusion[0, 1]
FN = confusion[1, 0]

print(TP, TN, FP, FN)

35 88 42 27


## Métricas computas de la matriz de confusión

**Classification Accuracy:**

In [15]:
print((TP + TN) / float(TP + TN + FP + FN))
print(metrics.accuracy_score(y_test, y_pred_class))

0.640625
0.640625


**Classification Error:** 

In [16]:
print((FP + FN) / float(TP + TN + FP + FN))
print(1 - metrics.accuracy_score(y_test, y_pred_class))

0.359375
0.359375


**Sensibilidad:** Cuando el valor vedaderp es positivo, cuán seguido es la predicción correcta?

- Cuán sensible es el clasificador para detectar instancias positivas?
- También conocida como "True Positive Rate" o "Recall"

In [17]:
print(TP / float(TP + FN))
print(metrics.recall_score(y_test, y_pred_class))

0.5645161290322581
0.5645161290322581


**Especificidad:** Cuando el valor verdadero es negativo, cuán seguido es la predicción correcta?

- Cuán específico es el clasificador en predecir nuevas instancias?

In [18]:
print(TN / float(TN + FP))

0.676923076923077


**False Positive Rate:**  Cuando el valor verdadero es negativo, cuán seguido es la predicción incorrecta?

In [None]:
print(FP / float(TN + FP))

**Precisión:** Cuando el valor positivo es predicho, cuán seguido es esta predicción correcta?

- Cuán "preciso" es el clasificados cuando se predicen nuevas instancias positivas?

In [19]:
print(TP / float(TP + FP))
print(metrics.precision_score(y_test, y_pred_class))

0.45454545454545453
0.45454545454545453


Se pueden computar otras métricas como F1 score

In [20]:
print(metrics.f1_score(y_test, y_pred_class))

0.5035971223021583


**Conclusión:**

- La matriz de confusión da una idea **más completa** de cómo es la performance del clasificador
- Permite calcular varias **méticas de clasificación** que pueden ayudaren la selección del mejor modelo

**En qué métrica hay que enfocarse?**

La elección de la métrica depende del objetivo
- **Filtro Spam** ("spam" es la clase positiva): Optimizar **precisión o especificidad** porque los falsos negativos(spam en el inbox) son más aceptables que falsos positivos (no-spam en la bandeja de spam)
- **Detector de fraudes** (la clase positiva es el fraude): Optimizar **sensitividad** porque falsos positivos (transacciones que se etiquetan como posibles fraudes) son más aceptables que falsos negativos ( transacciones fraudulentas que no se detectaron)

**DESAFÍO:** Repetir todo el procedimiento para el modelo KNN y comparar