In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split, KFold, cross_val_score, LeaveOneOut, ShuffleSplit
from sklearn.linear_model import LogisticRegression

# Introducción 

Para poder evaluar el rendimiento de un algoritmo necesitamos conocer como se comporta dicho alogoritmo ante datos no vistos. La mejor forma de evaluar el rendimiento de un algoritmo sería haciendo predicciones para datos nuevos para los cuales conocemos cuá debería ser el resultado. La segunda mejor forma es hacer uso de técnicas estadísticas llamadas métodos de remuestreo, que permiten hacer estimaciones precisas de como de bien se comportará nuestro algoritmo antes nuevos datos. 

# Evaluando algoritmos de aprendizaje automático

Debemos evaluar nuestro algoritmo con datos que no fueron usados en el entrenamiento de nuestro algoritmo. La evaluaciń es una estimación de como de bien se podría comportar nuestro algoritmo en la práctica. No es una garantía de rendimiento. Una vez hemos estimado el rendimiento de nuestro algoritmo, podemos reentrenar nuestro algoritmo final con todo el conjunto de datos. Entre las cuatro técnicas más usadas a la hora de entrenar un algoritmo a partir de un conjunto de datos tenemos:

* **Train and Test Sets**

* **k-fold Cross-Validation**

* **Leave One Out Cross-Validation**

* **Repeated Random Test-Train Splits**

# Train-Test Split

La forma más simple que tenemos a la hora de evaluar el rendimiento de un algoritmo de aprendizaje automático es haciendo uso de dos conjuntos de datos: uno para entrenar y otro para evaluar. Podemos coger nuestro conjunto de datos original y dividirlo en dos partes. Una primera parte para entrenar nuestro algoritmo y una segunda parte para testear nuestro algoritmo. El tamaño de cada una de las partes depende de las dimensiones de nuestro conjunto de datos original, una división muy común es tomar el 67% para entrenamiento y 33% para testear.

Esta técnica tiene la ventaja de que es muy rápida. Es ideal para conjuntos de datos muy grandes, donde tenemos evidencia de que ambas divisiones son representativas del problema subyacente.

La principal desventaja de esta técnica es que puede tener una elevada varianza. Esto significa que diferentes divisiones pueden dar lugar a que nuestro algoritmo tenga diferente precisón.

In [7]:
#Cargamos el conjunto de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' ,  'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos en variables predictoras y variable a predecir
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

#Fijamos el tamaño del conjunto de test y aplicamos train_test_split
test_size = 0.3
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = test_size, random_state = 7)

#FIjamos el modelo
model = LogisticRegression()
model.fit(X_train, y_train)
result = model.score(X_test, y_test)

print('Precision: %.3f%%' % (result*100))

Precision: 76.190%


# K-fold Cross-Validation

Cross-Validation es un enfoque para estimar el rendimiento de una algoritmo de aprendizaje automático con una varianza menor que la técnica train-test split. Esta técnica lo que hace es dividir nuestro conjunto de datos en k partes (k=5, k=10, ...). Cada una de las divisiones de datos es llamada fold. Tras dividir el dataset, lo que se hace es que cada una de las partes es usada como test y el resto como train. Por ejemplo para un caso que tenemos un dataset **df**, y un cross-validation con k=3. En este caso df es dividido en tres partes (df1, df2, df3) de forma que tendríamos tres iteraciones:

* En la primera iteración df1 y df2 son usadas para entrenar nuestro algoritmo y df3 para evaluarlo

* En la segunda iteración df2 y df3 son usadas para entrenar nuestro algoritmo y df1 para evaluarlo

* En la primera iteración df1 y df3 son usadas para entrenar nuestro algoritmo y df2 para evaluarlo

Tras aplicar cross-validation tendremos k resultados de precisión, estos resultados pueden resumirse a partir de la media y de la desviación estándar. Esta forma es más fiable, ya que el algoritmo es entrenado22 y evaluado múltiples veces con diferentes datos. El valor de k-elegido debe ser un valor acorde con la dimensión de nuestros datos.

In [11]:
#Cargamos el conjunto de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' ,  'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos en variables predictoras y variable a predecir
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

#Hacemos uso del k-fold cross validation
kfold = KFold(n_splits = 10, random_state=7)
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv = kfold)

print("Accuracy: %.3f%% (%.3f%%)" % (results.mean()*100.0, results.std()*100.0))

Accuracy: 76.951% (4.841%)


# Leave One Out Cross-Validation

Podemos configurar la técnica cross-validation para que el tamaño del fold sea 1 (es decir nuestro valor de k será igual al número de observaciones de nuestro conjunto de datos). Esta variación de cross-validation es llamada leave-one-out cross-validation. El resultado es un gran número de medidas que puede ser resumidas para ofrecer una estimación más razonable de la precisión de nuestro modelo. Su gran desventaja es que computacionalmente es muy costoso.

In [14]:
#Cargamos el conjunto de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' ,  'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos en variables predictoras y variable a predecir
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

#Hacemos uso de la técnica LeaveOneOut
loocv = LeaveOneOut()
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv = loocv)
print('Accuracy: %.3f%% (%.3f%%)' % (results.mean()*100, results.std()*100))

Accuracy: 76.823% (42.196%)


# Shuffle Split

Otra variación de la técnica k-fold cross-validation es crear un split aleatorio de datos, de igual que el train-test split, pero repitiendo el proceso k veces. Es decir, la idea es hacer un train-test 67-33 pero k veces, de forma que tengamos k evaluaciones distintas.

In [18]:
#Cargamos el conjunto de datos
filename = 'pima-indians-diabetes.data.csv'
names = ['preg' , 'plas' , 'pres' , 'skin' , 'test' , 'mass' , 'pedi' , 'age' ,  'class']
dataframe = pd.read_csv(filename, names=names)

#Separamos en variables predictoras y variable a predecir
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

#Hacemos uso de ShuffleSplit
n_splits = 10
test_size = 0.33
seed = 7
kfold = ShuffleSplit(n_splits = n_splits, test_size=test_size, random_state=seed)

#Fijamos el modelo
model = LogisticRegression()
results = cross_val_score(model, X, Y, cv = kfold)
print('Accuracy: %.3f%% (%.3f%%)' % (results.mean()*100, results.std()*100))

Accuracy: 76.496% (1.698%)
