## Introducción a Aprendizaje Automatico
Recopilado y Traducido por Luis Martinez para Diplomado de Inteligencia Artificial en ITLA. Referencia de:  [Kevin Markham](https://github.com/mpfrush/Python-Scikit-Learn-Exercises/blob/master/09_classification_metrics.ipynb) 

## Requerimientos
- Acceso a los cuadernos

### Jupyter Notebook
- Instalar Jupyter en PC o
- Correr Colab en Google Drive

### Instalación de Jupyter en PC
- Instalar Anaconda
- Si instaló Anaconda, debe tener ya Jupyter.
- Usar pip install. 
  - "python3 -m pip install jupyter" para Python 3
  - "python -m pip install jupyter" para Python 2
Pueden acceder a: https://jupyter.org/install

### Uso de Google Colab
- Tener cuenta de Google
- Acceder a su Google Drive y crear un cuaderno

# Evaluando modelos de Clasificación

## Agenda

- ¿Cuál es el propósito de **evaluación de modelo**, y cuáles son algunos procedimientos de evaluación comunes?
- ¿Cuál es el uso de **precisión de clasificación** y cuáles son sus limitaciones?
- ¿Cómo describe una **matriz de confusión** el rendimiento de un clasificador?
- ¿Qué **métricas** se pueden calcular a partir de una matriz de confusión?

## Revisión de la evaluación del modelo

- Necesita una forma de elegir entre modelos: diferentes tipos de modelos, parámetros de ajuste y características
- Utilice un **procedimiento de evaluación del modelo** para estimar qué tan bien se generalizará un modelo a los datos fuera de la muestra
- Requiere una **métrica de evaluación del modelo** para cuantificar el rendimiento del modelo

 ### Procedimientos de evaluación del modelo

1. **Entrenamiento y pruebas en los mismos datos**
     - Recompensa modelos demasiado complejos que "sobreajustan" los datos de entrenamiento y no necesariamente generalizan
2. **Tren / prueba dividida**
     - Divida el conjunto de datos en dos partes, para que el modelo pueda ser entrenado y probado en diferentes datos
     - Mejor estimación del rendimiento fuera de la muestra, pero sigue siendo una estimación de "alta varianza"
     - Útil debido a su velocidad, simplicidad y flexibilidad.
3. **Validación cruzada K-fold**
     - Cree sistemáticamente divisiones de tren / prueba "K" y promedie los resultados juntos
     - Mejor estimación del rendimiento fuera de la muestra.
     - Corre "K" más lento que la división de tren / prueba

### Métricas de evaluación del modelo

- **Problemas de regresión:** Error absoluto medio, error cuadrado medio, error cuadrado medio raíz
- **Problemas de clasificación:** Precisión de clasificación

## Precisión de Clasificación

[Pima Indian Diabetes dataset](https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes) del  UCI Machine Learning Repository

In [7]:
# Leer datos a Pandas
import pandas as pd
url = 'http://www.sharecsv.com/dl/72b2985c5ba652e174816867ea99abce/pima-indians-diabetes.csv'
col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
pima = pd.read_csv(url, header=None, names=col_names)

In [15]:
# TODO: Imprimir los primeros 5 objetos
pima.head()

Unnamed: 0,pregnant,glucose,bp,skin,insulin,bmi,pedigree,age,label
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


**Pregunta:** ¿Podemos predecir el estado de diabetes de un paciente dadas sus mediciones de salud?

In [32]:
# TODO: Define X & y
feature_cols = ['pregnant', 'insulin', 'bmi', 'age']
X = pima[feature_cols]
y = pima.label

In [33]:
# TODO: Divide X & y en conjuntos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [34]:
# TODO: Importa el modelo a usar (LogisticRegression), validar a que modulo pertenece de sklearn
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

# TODO: Entrena un modelo de regresión logística en el conjunto de entrenamiento
logreg.fit(X_train, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [39]:
# TODO: Hacer predicciones de clase para el conjunto de pruebas
y_pred_class = logreg.predict(X_test)

**Precisión de clasificación:** porcentaje de predicciones correctas

In [40]:
# Calcular precisión
# TODO: Importar clase de métricas de sklearn
from sklearn import metrics
print(metrics.accuracy_score(y_test, y_pred_class))

0.6927083333333334


**Precisión nula:** precisión que podría lograrse prediciendo siempre la clase más frecuente

In [41]:
# Examinar la distribución de clase del conjunto de pruebas (usando un método de la serie Pandas)
y_test.value_counts()

0    130
1     62
Name: label, dtype: int64

In [42]:
# Calcular porcentaje de unos
y_test.mean()

0.3229166666666667

In [43]:
# Calcular porcentaje de ceros
1 - y_test.mean()

0.6770833333333333

In [44]:
# Calcular precisión nula (para problemas de clasificación binaria codificados como 0/1)
max(y_test.mean(), 1 - y_test.mean())

0.6770833333333333

In [45]:
# Calcular la precisión nula (para problemas de clasificación de varias clases)
y_test.value_counts().head(1) / len(y_test)

0    0.677083
Name: label, dtype: float64

Comparando los valores de respuesta/clases **verdadero** y **pronosticado**

In [46]:
# Imprime las primeras 25 respuestas verdaderas y pronosticadas
print('True:', y_test.values[0:25])
print('Pred:', y_pred_class[0:25])

True: [1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0]
Pred: [0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]


**Conclusión:**

- La precisión de clasificación es la **métrica de clasificación más fácil de entender**
- Pero, no le dice la **distribución subyacente** de los valores de respuesta
- Y, no le dice qué **tipos de errores** está haciendo su clasificador

## Matriz de Confusión

Tabla que describe el rendimiento de un modelo de clasificación.

In [47]:
# IMPORTANTE: el primer argumento son valores verdaderos, el segundo argumento son valores predichos

# TODO: Especificar metodo para obtener la Matriz de Confusión
print(metrics.confusion_matrix(y_test, y_pred_class))

[[118  12]
 [ 47  15]]


![Small confusion matrix](https://github.com/mpfrush/Python-Scikit-Learn-Exercises/raw/0e26828604b503f0d66a5966de1dce57e5e88c2a/images/09_confusion_matrix_1.png)

- Cada observación en el conjunto de prueba se representa en **exactamente un cuadro**
- Es una matriz de 2x2 porque hay **2 clases de respuesta**
- El formato que se muestra aquí **no** es universal

**Basic terminology**

- **True Positives (TP):** we *correctly* predicted that they *do* have diabetes
- **True Negatives (TN):** we *correctly* predicted that they *don't* have diabetes
- **False Positives (FP):** we *incorrectly* predicted that they *do* have diabetes (a "Type I error")
- **False Negatives (FN):** we *incorrectly* predicted that they *don't* have diabetes (a "Type II error")

**Terminología básica**

- **Positivos verdaderos (TP):** nosotros *correctamente* predijimos que *tienen* diabetes
- **Verdaderos negativos (TN):** nosotros *correctamente* predijimos que *no* tienen diabetes
- **Positivos falsos (FP):** nosotros *incorrectamente* predijimos que *tienen* diabetes (un "error tipo I")
- **Falsos negativos (FN):** nosotros *incorrectamente* predijimos que *no* tienen diabetes (un "error tipo II")

In [48]:
# Imprime las primeras 25 respuestas verdaderas y pronosticadas
print('True:', y_test.values[0:25])
print('Pred:', y_pred_class[0:25])

True: [1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 0 0 0]
Pred: [0 0 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]


In [49]:
# Salvar matriz y separar en cuatro valores
# TODO: Especificar método para obtener la Matriz de Confusión
confusion = metrics.confusion_matrix(y_test, y_pred_class)
TP = confusion[1, 1]
TN = confusion[0, 0]
FP = confusion[0, 1]
FN = confusion[1, 0]

![Large confusion matrix](https://github.com/mpfrush/Python-Scikit-Learn-Exercises/raw/0e26828604b503f0d66a5966de1dce57e5e88c2a/images/09_confusion_matrix_2.png)

## Métricas computadas desde una matriz de confusión

**Precisión de clasificación:** En general, ¿con qué frecuencia es correcto el clasificador?

In [50]:
print((TP + TN) / float(TP + TN + FP + FN))

# TODO: Especificar el método para calcular precisión de clasificación de Sklearn 
print(metrics.accuracy_score(y_test, y_pred_class))

0.6927083333333334
0.6927083333333334


**Error de clasificación:** En general, ¿con qué frecuencia es incorrecto el clasificador?

- También conocido como "Tasa de clasificación errónea o Misclassification Rate"

In [51]:
print((FP + FN) / float(TP + TN + FP + FN))

# TODO: Especificar el método para calcular precisión de clasificación de Sklearn 
print(1 - metrics.accuracy_score(y_test, y_pred_class))

0.3072916666666667
0.30729166666666663


**Sensibilidad:** Cuando el valor real es positivo, ¿con qué frecuencia es correcta la predicción?

- ¿Cuán "sensible" es el clasificador para detectar instancias positivas?
- También conocido como "Tasa Positiva Verdadera" o "Recuperación" o "True Positive Rate" o "Recall"

In [52]:
print(TP / float(TP + FN))
print(metrics.recall_score(y_test, y_pred_class))

0.24193548387096775
0.24193548387096775


**Especificidad:** Cuando el valor real es negativo, ¿con qué frecuencia es correcta la predicción?

- ¿Cuán "específico" (o "selectivo") es el clasificador al predecir instancias positivas?

In [53]:
print(TN / float(TN + FP))

0.9076923076923077


**Tasa de falso positivo:** Cuando el valor real es negativo, ¿con qué frecuencia es incorrecta la predicción?

In [54]:
print(FP / float(TN + FP))

0.09230769230769231


**Precision (en ingles):** Cuando se predice un valor positivo, ¿con qué frecuencia es correcta la predicción?

- ¿Cuán "preciso" es el clasificador al predecir instancias positivas?

In [55]:
print(TP / float(TP + FP))
print(metrics.precision_score(y_test, y_pred_class))

0.5555555555555556
0.5555555555555556


Se pueden calcular muchas otras métricas: puntaje F1, coeficiente de correlación Matthews, etc.

**Conclusión:**

- La matriz de confusión le brinda una **imagen más completa** del rendimiento de su clasificador
- También le permite calcular varias **métricas de clasificación**, y estas métricas pueden guiar su selección de modelo

** ¿En qué métricas debes concentrarte? **

- La elección de la métrica depende de su **objetivo comercial**
- **Filtro de spam** (la clase positiva es "spam"): optimice para **precision (ingles) o especificidad** porque los falsos negativos (el spam va a la bandeja de entrada) son más aceptables que los falsos positivos (el spam captura el no spam) filtrar
- **Detector de transacciones fraudulentas** (la clase positiva es "fraude"): Optimice para **sensibilidad** porque los falsos positivos (transacciones normales que se marcan como posibles fraudes) son más aceptables que los falsos negativos (transacciones fraudulentas que no se detectan )