## Intoducción

En este ejercicio haremos una ejecución muy simple de SVM con reconocimiento de imágenes.

Para ello vamos a usar un conjunto de datos preexistentes  que vienen con la instalación de Scikit-Learn.

Uno de los conjuntos de datos son los dígitos, contiene un conjunto de muestras ya estructuradas y etiquetadas que contiene información de píxeles para números que podemos usar para entrenamiento y pruebas.

## Importanto Bibliotecas

Utilizaremos las siguientes bibliotecas (recuerda que previamente debes tener disponible tu biblioteca de scikit-learn).

Esto, con la instrucción: **pip install scikit-learn**



In [1]:
import numpy
import scipy
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn import svm

digits = datasets.load_digits()


## Revisemos los datos

digits.data es un matriz de datos que posee 10 clases, números del 0 al 9, con app 180 muestras por cada clase. Las muestras totales son exactamente 1797. Cada número se representa con 64 atributos que varían entre 0 y 16.




In [None]:
print(digits.data)

In [None]:
print(digits.data.shape)

Cada número es, en realidad una matriz 2D. 

Así, para cada número se guarda una imagen en una matriz de 8x8...

In [None]:
digits.images[11]

La imagen la podemos ver con ...

In [None]:
plt.gray()
>>> plt.matshow(digits.images[4])

digits.target es la etiqueta que corresponde al número de cada imagen (número entre 0 y 9)

In [None]:
print(digits.target[4])

## Clasificación

En este caso, la tarea es predecir, dada una imagen, qué dígito representa. 

Definiremos los hiperparámetros para el SVM.





In [14]:
clf = svm.SVC(gamma=0.001, C=100)

## Entrenamiento

Luego entrenamos el modelo

In [None]:
#X,y = digits.data[:-10], digits.target[:-10]
X,y = digits.data, digits.target
clf.fit(X,y)

Y ahora haremos la Predicción.

La siguiente instrucción predicirá lo que es la imagen de la posición 28 en el último elemento.

In [None]:
print('Predicción: ',clf.predict([digits.data[-28]]))
#print('Predicción: ',clf.predict([digits.data[1769]]))

Desplegamos la imagen y verificamos.

In [None]:
plt.imshow(digits.images[-28], cmap=plt.cm.gray_r, interpolation='nearest')
#plt.imshow(digits.images[1769], cmap=plt.cm.gray_r, interpolation='nearest')
plt.show()

Hagan más pruebas.

Debes notar que la velocidad sube con gamma más grande, pero la precisión disminuye. 

Qué Ocurrirá si disminuye el valor de gamma (hagan esto por factores de 10)?

# Revisemos el modelo completo

In [70]:
from sklearn.model_selection import train_test_split
# División de los datos en train y test
# ==============================================================================
X = digits.data
y = digits.target

X_train, X_test, y_train, y_test = train_test_split(
                                        X,
                                        y,
                                        train_size   = 0.8,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

In [None]:
clf = svm.SVC(gamma=0.001, C=100)
clf.fit(X,y)

In [None]:
# Predicciones test
# ==============================================================================
predicciones = clf.predict(X_test)
predicciones

In [None]:
from sklearn.metrics import accuracy_score
# Accuracy de test del modelo 
# ==============================================================================
accuracy = accuracy_score(
            y_true    = y_test,
            y_pred    = predicciones,
            normalize = True
           )
print("")
print(f"El accuracy de test es: {100*accuracy}%")

In [None]:
import pandas as pd
# Matriz de confusión de las predicciones de test
# ==============================================================================
confusion_matrix = pd.crosstab(
    y_test.ravel(),
    predicciones,
    rownames=['Real'],
    colnames=['Predicción']
)
confusion_matrix