In [None]:
import numpy as np
from sklearn import datasets
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import KFold
import sklearn.metrics as metrics
from sklearn.model_selection import train_test_split

In [None]:
# Carga de datos.
datos = datasets.load_iris()
# print(datos)
print(np.shape(datos.data))

In [None]:
# Partición EXTERNA. Test: hold-out split 80-20%.
X_train, X_test, y_train, y_test = train_test_split(datos.data, datos.target, test_size=0.2, random_state=42)
print('Train dimensions: ', np.shape(X_train))
print('Test dimensions:  ', np.shape(X_test))

In [None]:
# Algoritmo de aprendizaje.
clf = DummyClassifier(strategy='stratified', random_state=42)

In [None]:
# Validación y obtención de las predicciones del modelo.
# en "cv=KFold(n_splits=5)" se hace el cross-validation INTERNO!!
# el comando "cross_val_predict" nos permite extraer directamente las predicciones de las 5 bolsas de validación
y_pred = cross_val_predict(clf, X_train, y_train, cv = KFold(n_splits=5, shuffle=True, random_state=42))
print(y_pred)

In [None]:
# Presentación de los resultados de la evaluación.
print("Exactitud: %.3f" % (metrics.accuracy_score(y_train, y_pred))) # accuracy
print("Precisión: %.3f" % (metrics.precision_score(y_train, y_pred, average="macro"))) # precision
print("Sensibilidad: %.3f" % (metrics.recall_score(y_train, y_pred, average="macro"))) # sensibilidad
print("F1-score: %.3f" % (metrics.f1_score(y_train, y_pred, average="macro"))) # F-score


In [None]:
# Extraemos la matriz de confusión
print("Matriz de confusión:\n", metrics.confusion_matrix(y_train, y_pred))

In [None]:
print("Tabla de métricas:\n", metrics.classification_report(y_train, y_pred))

In [None]:
# Una vez analizado lo que ocurre en el conjunto de datos de validación, utilizamos todos los datos de "train" y "val"
# para construir un modelo definitivo
clf = clf.fit(X_train, y_train) # Entrenamos el modelo

# Y posteriormente evaluar el resultado del modelo entrenado con el conjunto de test
test_results = clf.score(X_test, y_test) # Evaluamos el test
print('Exactitud en test: ', np.round(test_results*100,4), '%')

In [None]:
# También podemos obtener las predicciones del test para extraer el resto de métricas de interés sobre el test
y_pred_test = clf.predict(X_test)
print(metrics.classification_report(y_test, y_pred_test))
print(metrics.confusion_matrix(y_test, y_pred_test))

In [None]:
# Veamos qué ocurre con un algoritmo más complejo que "dummyclassifier"

# Hacemos el cross-validation INTERNO para seleccionar los mejores hiperparámetros
from sklearn.svm import SVC
svc = SVC(C=0.5)
y_pred = cross_val_predict(svc, X_train, y_train, cv = KFold(n_splits=5, shuffle=True, random_state=42))

print(metrics.classification_report(y_train, y_pred))
print(metrics.confusion_matrix(y_train, y_pred))

In [None]:
# Una vez hemos optimizado los hiperparámetros con el conjunto de validación, utilizamos todos los datos de 
# "train" y "validation" para entrenar un modelo definitivo con esos hiperparámetros ajustados
svc = SVC(C=0.5) # Definimos el modelo con los hiperparámetros óptimos
svc = svc.fit(X_train, y_train) # Entrenamos el modelo con todos los datos de "train" + "val"

# y finalmente evaluamos el test
test_results = svc.score(X_test, y_test) # Evaluamos la exactitud del test
print('Exactitud en test: ', np.round(test_results*100,4), '%')

In [None]:
# obtenemos las predicciones del test para extraer el resto de métricas de interés
y_pred_test = svc.predict(X_test)
print(metrics.classification_report(y_test, y_pred_test))
print(metrics.confusion_matrix(y_test, y_pred_test))