## Dígitos

Se cargan imágenes de dígitos escritos a mano ya etiquetadas con el dígito al que corresponde cada imagen.

Carga y clasificación con el clasificador SVC. Se muestra la matriz de confusión al entrenar y predecir con todo el conjunto


In [2]:
from sklearn import svm, datasets, metrics

digitos = datasets.load_digits()   
X = digitos.data  
y = digitos.target  
clasificador = svm.SVC(gamma=0.001)  
clasificador.fit(X, y)

observados = digitos.target
predichos = clasificador.predict(X)
print("Informe de rendimiento del clasificador:\n%s\n"% 
           (metrics.classification_report(observados, predichos)))
print("Matriz de confusión:\n%s" % 
           metrics.confusion_matrix(observados, predichos))


Informe de rendimiento del clasificador:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       178
           1       1.00      1.00      1.00       182
           2       1.00      1.00      1.00       177
           3       0.99      1.00      1.00       183
           4       1.00      1.00      1.00       181
           5       1.00      0.99      1.00       182
           6       1.00      1.00      1.00       181
           7       1.00      1.00      1.00       179
           8       1.00      1.00      1.00       174
           9       0.99      0.99      0.99       180

    accuracy                           1.00      1797
   macro avg       1.00      1.00      1.00      1797
weighted avg       1.00      1.00      1.00      1797


Matriz de confusión:
[[178   0   0   0   0   0   0   0   0   0]
 [  0 182   0   0   0   0   0   0   0   0]
 [  0   0 177   0   0   0   0   0   0   0]
 [  0   0   0 183   0   0   0   0   0   0]
 [  0 

Obsérvese que el rendimiento del clasificador sobre la muestra de entrenamiento es casi perfecto, alcanzando valores de precisión y exhaustividad iguales o muy cercanos a 1, y disponiendo la mayoría de ejemplos clasificados en la diagonal de la matriz de confusión. 

Sin embargo esto no es un caso real; estamos prediciendo justo los valores con los que ya hemos entrenado. En un caso práctico:

1.- Entrenariamos con unos valores que incluyen la etiqueta, el valor a predecir, para que el sistema aprenda a inferir la relación entre la imagen y el valor esperado, y 

2.- Trataríamos de predecir el resultado para nuevas imágenes, no utilizadas al entrenar. 


Para simular este caso más próximo al real, a continuación se dividirá aleatoriamente el conjunto de ejemplos en dos muestras, una para entrenamiento y otra para test, esta última con un 40% de los casos (test_size=0.4). Para esto, se importa del módulo sklearn.model_selection las funciones train_test_split y cross_val_score (esta última se usará luego para realizar validación cruzada), y se ejecutan las siguientes sentencias

In [4]:
from sklearn.model_selection import train_test_split, cross_val_score

X_entrenamiento, X_test, y_entrenamiento, y_test = train_test_split(X , y, test_size=0.4, random_state=1)

clasificador.fit(X_entrenamiento, y_entrenamiento)
observados = y_test
predichos = clasificador.predict(X_test)

print("Informe de rendimiento del clasificador:\n%s\n" %
	 (metrics.classification_report(observados, predichos)))
print("Matriz de confusión:\n%s" % 
         metrics.confusion_matrix(observados, predichos))


Informe de rendimiento del clasificador:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        74
           1       1.00      0.99      0.99        68
           2       0.99      1.00      0.99        68
           3       0.99      0.98      0.98        83
           4       1.00      1.00      1.00        79
           5       0.97      0.97      0.97        65
           6       0.99      1.00      0.99        70
           7       0.99      0.99      0.99        74
           8       0.97      0.98      0.98        62
           9       0.96      0.95      0.95        76

    accuracy                           0.98       719
   macro avg       0.98      0.98      0.98       719
weighted avg       0.98      0.98      0.98       719


Matriz de confusión:
[[74  0  0  0  0  0  0  0  0  0]
 [ 0 67  0  0  0  0  0  0  1  0]
 [ 0  0 68  0  0  0  0  0  0  0]
 [ 0  0  1 81  0  0  0  1  0  0]
 [ 0  0  0  0 79  0  0  0  0  0]
 [ 0  0  0  0

El clasificador obtiene sobre la muestra de test un rendimiento algo más bajo que en el entrenamiento, con diversos ejemplos que no se clasifican adecuadamente.

Para aplicar un marco de validación cruzada con 5 iteraciones (cv=5), se puede utilizar el siguiente código, donde se importa la librería de funciones matemáticas numpy para poder requerir, en la última sentencia, el cálculo de la media (mean) y desviación típica (std) de los resultados obtenidos en test en cada iteración de la validación cruzada:


In [5]:
import numpy as np
val_cruzada = cross_val_score(clasificador, X, y, cv=5)
print("Tasas de acierto en test por iteración de validación cruzada:",
val_cruzada)
print("Tasa de acierto media en la validación cruzada: ", 
     val_cruzada.mean())
print("Desviación típica de las tasas de acierto: ", 
     val_cruzada.std())


Tasas de acierto en test por iteración de validación cruzada: [0.975      0.95       0.98328691 0.99164345 0.96100279]
Tasa de acierto media en la validación cruzada:  0.9721866295264624
Desviación típica de las tasas de acierto:  0.015013488295959767
