## Ejemplo 2

En el Programa a continuación mostramos un ejemplo de aplicación de la validación cruzada en el problema de clasificación del conjunto “iris” mediante el clasificador `DummyClassifier` introducido anteriormente.

In [None]:
import numpy as np
from sklearn import datasets
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split

In [None]:
# Carga de datos.
iris = datasets.load_iris()
print(iris.target_names)

In [None]:
# Mostrar características de la tabla de datos.
print("Tabla de datos: %d instancias y %d atributos" % (iris.data.shape[0], iris.data.shape[1]))
print("Valores de la clase:", set(iris.target))

In [None]:
# Test: hold-out split 80-20%. PARTICIÓN EXTERNA
X_train, X_test, y_train, y_test = train_test_split(iris.data, 
                                                    iris.target, 
                                                    test_size=0.2, 
                                                    random_state=42)

valores_test, ocur_test = np.unique(y_test, return_counts=True)
print('Test: ', 'clases:', valores_test, ' ocurrencias: ', ocur_test)

valores_train, ocur_train = np.unique(y_train, return_counts=True)
print('Entrenamiento: ', ' clases:', valores_train, '  ocurrencias:', ocur_train)

In [None]:
print(X_train.shape)

In [None]:
# Construcción del objeto que contiene el algoritmo de aprendizaje.
clf = DummyClassifier(strategy='prior', random_state=42)

Para realizar la validación cruzada de un algoritmo de aprendizaje supervisado, hemos usado en el Programa la función `cross_val_score()` del paquete `model_selection` de `scikit-learn`. Para ello, le indicamos a la función el objeto que implementa el algoritmo de predicción (en este caso `DummyClassifier`), la matriz de atributos de entrenamiento (iris.data), el vector de clases de entrenamiento (iris.target) y el objeto que implementa el algoritmo de validación (`KFold`, el mismo que hemos usado anteriormente en el Programa anterior). En este caso, hemos usado `K = 5` bolsas para la validación cruzada.

In [None]:
# Validación, entrenamiento y evaluación del algoritmo de aprendizaje.
# en "cv = KFold(n_splits=5)" estamos haciendo un cross-validation INTERNO!

"""
En results se hace la validación cruzada
"""

results = cross_val_score(clf, 
                          X_train, 
                          y_train, 
                          cv = KFold(n_splits=5, shuffle = True, random_state = 42))

print("Resultados por bolsa: ", results)
print("Accuracy (media +/- desv.): %0.4f +/- %0.4f" % (results.mean(), results.std()))

In [None]:
# Una vez entrenado y validado el modelo, utilizamos todos los datos 
# de "train" y "val" para entrenar el modelo definitivo

clf = clf.fit(X_train, y_train) # Entrenamiento
test_results = clf.score(X_test, y_test) # Evaluación en test
print('Exactitud en test: ', test_results*100, '%')

## Ejemplo 3 con SVC

In [None]:
# Veamos qué ocurre con un modelo más complejo que "dummyclassifier"
# Hacemos el cross-validation interno para seleccionar los mejores hiperparámetros
from sklearn.svm import SVC
svc = SVC(C=0.5)
results = cross_val_score(svc, 
                          X_train, 
                          y_train, 
                          cv = KFold(n_splits=5))

print("Resultados por bolsa: ", results)
print("Accuracy (media +/- desv.): %0.4f +/- %0.4f" % (results.mean(), results.std()))

In [None]:
# Una vez entrenado y validado el modelo para seleccionar los mejores hyperparameters, 
# utilizamos todos los datos de "train" y "val" para entrenar el modelo definitivo

svc = svc.fit(X_train, y_train) # Entrenamiento
test_results = svc.score(X_test, y_test) # Evaluación en test
print('Exactitud en test: ', test_results*100, '%')

# También podemos extraer las predicciones, en lugar de directamente la accuracy
y_pred = svc.predict(X_test)
print('Predicciones:     ', y_pred)
print('Etiquetas reales: ', y_test)