In [1]:
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score, train_test_split
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.metrics import confusion_matrix, classification_report

# Introducción

Las métricas usadas a la hora de evaluar un algoritmo son muy importantes. La elección de las métricas influye en el rendimiento de nuestro algoritmo, en la ponderación de las diferentes característcias y en la elección final de que algoritmo usaremos.

# Métricas para problemas de clasificación

Los problemas de clasificación son quizás el tipo de problema más común en el aprendizaje automático. Tenemos una gran cantidad de métricas que pueden usarse para evaluar las predicciones de estos problemas:

* **Classification accuracy**

* **Logarithmic Loss**

* **Area Under ROC Curve**

* ** Confusion Matrix**

* **Classification Report**

## Classification Accuracy

La precisión (accuracy) se define como el número de predicciones realizadas de forma adecuada entre el número total de predicciones realizadas. Esta es la métrica evaluación más usada, sin embargo, se trata de una de las métricas que más erroneamente es usada. Realmente solo es adecuada cuadno el número de observaciones de cada clase es la misma y todas las predicciones y todos los errores de predicción son igual de importantes.

In [2]:
#Cargamos los datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = df.values[:, 0:8]
Y = df.values[:,8]

#Preparamos el modelo
kFold = KFold(n_splits=10, random_state=7)
model = LogisticRegression()
scoring = 'accuracy'
results = cross_val_score(model, X, Y, cv = kFold, scoring = scoring)
print('Accuracy: %.3f (%.3f)' % (results.mean(), results.std()))

Accuracy: 0.770 (0.048)


## Logarithmic Loss

Logarithmic Loss (logloss) es una métrica de rendimiento que lo que hace es penalizar aquellas clasificaciones realizadas de forma incorrecta. Para calcular esta métrica, el clasificador debe asignar una probabilidad a cada clase en lugar de proporcionar la clase más probable. Un clasificador perfecto debería de tener un logloss nulo.

La métrica logloss penaliza en gran medida a los clasificadores que confían en una clasificación incorrecta. Por ejemplo, si para un observación particular, el clasificador asigna una probabilidad muy pequeña a la clase correcta, entonces esta métrica penaliza de forma considerable.

In [5]:
#Cargamos los datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = df.values[:, 0:8]
Y = df.values[:,8]

#Preparamos el modelo
kFold = KFold(n_splits=10, random_state=7)
model = LogisticRegression()
scoring = 'neg_log_loss'
results = cross_val_score(model, X, Y, cv = kFold, scoring = scoring)
print('Accuracy: %.3f (%.3f)' % (results.mean(), results.std()))

Accuracy: -0.493 (0.047)


## Area bajo la curva ROC

El área bajo la curva ROC (AUC) es una métrica de rendimiento para problemas de tipo binario. El AUC representa la abilidad de un modelo de discriminar entre clases positivas y negativas. Un área de 1.0 representa un modelo que hace todas las predicciones perfectas. Un área de 0.5 representa un modelo completamente aleatorio. La curva ROC puede ser descompuesta en sensibilidad (sensitivity) y especificidad (specifity).

* **Sensitivity:** es el ratio de verdaderos positivos (tru positive) también llamado recall. Es el número de instancias de la clase positiva que se predijeron de forma correcta.

* **Specifity:** también llamado como ratio de verdaderos negativos. Es el número de instancias de la clase negativa que se predijeron de forma adecuada.

In [6]:
#Cargamos los datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = df.values[:, 0:8]
Y = df.values[:,8]

#Preparamos el modelo
kFold = KFold(n_splits=10, random_state=7)
model = LogisticRegression()
scoring = 'roc_auc'
results = cross_val_score(model, X, Y, cv = kFold, scoring = scoring)
print('Accuracy: %.3f (%.3f)' % (results.mean(), results.std()))

Accuracy: 0.824 (0.041)


## Matriz de Confusión

La matriz de confusión es una representación práctica de la precisión de un modelo con dos o más clases. La tabla representa predicciones en el eje X y resultados de precisión en el eje Y. Las celdas de la tabla son el número de predicciones realizadas por nuestro algoritmo.

In [10]:
#Cargamos los datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = df.values[:, 0:8]
Y = df.values[:,8]
test_size = 0.3

#Preparamos el modelo
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = test_size, random_state = 7)
model = LogisticRegression()
model.fit(X_train, y_train)
predicted = model.predict(X_test)
matrix = confusion_matrix(y_test, predicted)
print(matrix)

[[130  17]
 [ 38  46]]


Esto nos indica que de aquellas predicciones que eran 0, realmente se han clasificado como cero un total de 130 observaciones, mientras que un total de 17 que eran 0 se han clasificado como 1. También nos indica que un total de 46 observaciones que eran 1 se clasificaron como 1, mientras que un total de 38 que eran 1 fueron clasificadas como 0.

## Classification Report

In [12]:
#Cargamos los datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' , 'class']
df = pd.read_csv(filename, names=names)

#Separamos entre los predictores y la variable a predecir
X = df.values[:, 0:8]
Y = df.values[:,8]
test_size = 0.3

#Preparamos el modelo
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = test_size, random_state = 7)
model = LogisticRegression()
model.fit(X_train, y_train)
predicted = model.predict(X_test)
matrix = classification_report(y_test, predicted)
print(matrix)

             precision    recall  f1-score   support

        0.0       0.77      0.88      0.83       147
        1.0       0.73      0.55      0.63        84

avg / total       0.76      0.76      0.75       231



# Métricas para problemas de regresión

A continuación veremos tres de las métricas más usadas en los problemas de regresión:

* **Mean Absolute Error (MAE)**

* **Mean Squared Error (MSE)**

* **R2**

## Mean Absolute Error (MAE)

El error media absoluto es la suma de las diferencias absolutas entre las predicciones y el valor real. Esta métrica nos da una idea de la magnitud del error, pero no nos da una idea de la dirección del error.

In [9]:
dataframe[dataframe.PTRATIO == '19.20396.90']

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
500,0.22438,0.0,9.69,0,0.585,6.027,79.7,2.4982,6,391.0,19.20396.90,14.33,16.8,


In [2]:
#Cargamos los datos
names = ['CRIM' , 'ZN' , 'INDUS' , 'CHAS' , 'NOX' , 'RM' , 'AGE' , 'DIS' , 'RAD' , 'TAX' , 'PTRATIO', 'B', 
         'LSTAT', 'MEDV']
dataframe = pd.read_csv('boston.csv', delim_whitespace=True, names=names)

#Separamos entre variables predictoras y variable a predecir
X = dataframe.values[:, 0:13]
Y = dataframe.values[:, 13]

#Fijamos el modelo
kFold = KFold(n_splits=10, random_state = 7)
model = LinearRegression()
scoring = 'neg_mean_absolute_error'
results = cross_val_score(model, X, Y, cv = kFold, scoring = scoring)
print("MAE: %.3f (%.3f)" % (results.mean(), results.std()))

MAE: -4.017 (2.089)


# Mean Squared Error

El error cuadrático medio tiene un significado parecido al MAE, en el sentido que nos indica la dimensión del error. Se calcula como la suma de las diferencias al cuadrado entre los valores predichos y el real, de esta forma esta métrico penaliza en mayor medida los errores grandes. Si tomamos la raíz cuadrada de esta métrica obtenemos la métrica conocida como RMSE, que se encuentran en las unidades originales.

In [3]:
#Cargamos los datos
names = ['CRIM' , 'ZN' , 'INDUS' , 'CHAS' , 'NOX' , 'RM' , 'AGE' , 'DIS' , 'RAD' , 'TAX' , 'PTRATIO', 'B', 
         'LSTAT', 'MEDV']
dataframe = pd.read_csv('boston.csv', delim_whitespace=True, names=names)

#Separamos entre variables predictoras y variable a predecir
X = dataframe.values[:, 0:13]
Y = dataframe.values[:, 13]

#Fijamos el modelo
kFold = KFold(n_splits=10, random_state = 7)
model = LinearRegression()
scoring = 'neg_mean_squared_error'
results = cross_val_score(model, X, Y, cv = kFold, scoring = scoring)
print("MSE: %.3f (%.3f)" % (results.mean(), results.std()))

MAE: -34.846 (45.551)


# Métrica R2

La métrica R2 nos indica lo bien que se están ajustando las predicciones a los valores reales. EN estadística esta métrica es conocida como coeficiente de determinación. Es un valor que va entre 0 y 1, donde 0 indica ajuste nulo y 1 indica ajuste perfecto.

In [4]:
#Cargamos los datos
names = ['CRIM' , 'ZN' , 'INDUS' , 'CHAS' , 'NOX' , 'RM' , 'AGE' , 'DIS' , 'RAD' , 'TAX' , 'PTRATIO', 'B', 
         'LSTAT', 'MEDV']
dataframe = pd.read_csv('boston.csv', delim_whitespace=True, names=names)

#Separamos entre variables predictoras y variable a predecir
X = dataframe.values[:, 0:13]
Y = dataframe.values[:, 13]

#Fijamos el modelo
kFold = KFold(n_splits=10, random_state = 7)
model = LinearRegression()
scoring = 'r2'
results = cross_val_score(model, X, Y, cv = kFold, scoring = scoring)
print("R2: %.3f (%.3f)" % (results.mean(), results.std()))

R2: 0.193 (0.614)
