# Clasificación de digitos escritos a mano

In [None]:
# Librerias que usaremos
import numpy as np 
import matplotlib.pyplot as plt
from sklearn.datasets import load_digits


** Exploración inicial**

In [None]:
# Cargamos el dataset y realizamos una exploración inicial
digits = load_digits() 
print("* Nuestro conjunto de datos nos proporciona la siguiente información: ")
print(list(digits.keys()))
print("* Tenemos " , digits.data.shape[0], " imagenes, con ", digits.data.shape[1], " pixeles en cada una")

In [None]:
# Vamos a enseñar un número aleatorio de nuestro dataset.
#Probaremos a ejecutar esta celda múltiples veces.

rnd = np.random.randint(0, digits.data.shape[0]) #generam un nombre aleatori dins el rang
numero = digits.target[rnd] # consultam la columna d'objectius

#Generación de la imagen
plt.figure()

image = digits.data[rnd,:] #cogemos una fila del conjunto y la transformamos en una matriz 8x8
fila_2_matrix = np.reshape(image, (8,8))

plt.imshow(fila_2_matrix, cmap=plt.cm.gray)
plt.title(numero)
plt.show()

In [None]:
# Visualización de los diferentes ejemplos que podemos encontrar dels exemples que podem trobar 
plt.figure(figsize=(20,4))
plt.clf()

for index, (image, label) in enumerate(zip(digits.data[0:5], digits.target[0:5])):
    plt.subplot(1, 5, index + 1)
    plt.imshow(np.reshape(image, (8,8)), cmap=plt.cm.gray)
    plt.title('%i\n' % label, fontsize = 20)
plt.show()

Vamos a descubrir cuantas muestras de cada número tenemos en nuestro conjunto de datos, así sabremos si este está equilibrado

In [None]:
contadors = np.zeros(10, dtype = np.uint8)

for i in range(0,10):
    llista = digits.target[digits.target == i]
    contadors[i] = len(llista)

# Función ad-hoc  de la libreria Numyp
#unique, counts = np.unique(digits.target, return_counts=True)
#dict(zip(unique, counts))

plt.bar(range(10), contadors)
plt.title("Número de elementos por clase")
plt.show()
print(contadors)


### **Clasificación automática**

Para usar poder testear como bueno es nuestro clasificador dividimos nuestro conjunto de
datos con dos subconjuntos: ** entrenamiento y test. **

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.33, random_state=50)

print(x_train.shape)
print(x_test.shape)

# Comprovam que la suma dels dos subconjunts fa el conjunt total

suma = x_train.shape[0] + x_test.shape[0]

print(suma == digits.data.shape[0])

En este caso aplicaremos una técnica de aprendizaje supervisado, es decir que cada ejemplo
le diremos a qué clase pertenece. Utilizaremos Random Forest, que básicamente es un conjunto de árboles binarios de clasificación.

[Más información](http://scikit-learn.org/stable/modules/ensemble.html#forest)

In [None]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=10)
# La función fit hace que el clasificador se modele en base a los ejemplos que pasamos y su clase
rfc.fit(x_train, y_train)
# La funcion predict nos da la predicción de nuestro clasificador a nuevos ejemplos
# En este caso, el subconjunto de test
y_out = rfc.predict(x_test)


Análisis de los resultados

In [None]:
# Podemos comparar y_out con y_test para saber com de bo és els nostre classificador

def medidas(y_actual, y_comp):
    positius = 0
    negatius = 0

    for i in range(len(y_comp)): 
        if y_actual[i]==y_comp[i]:
            positius += 1
        else:
            negatius += 1

    return positius, negatius



In [None]:
p, n = medidas(y_test, y_out)

ratio_ = p / len(y_test)
print("El nuestro ratio de aciertos es: ", ratio *  100, "%")

In [None]:
# Otra manera de hacerlo es con la matriz de confusión que nos da una visión más general de lo que está pasando.

from sklearn.metrics import confusion_matrix
conf = confusion_matrix(y_test, y_out)

conf

![Caption for the picture.](https://i.stack.imgur.com/AuTKP.png)

Puede ser interesante ver ejemplos de las malas clasificaciones de nuestro modelo

In [None]:
diferencias = np.where(y_test != y_out)

plt.figure()

idx = diferencias[0][10]

image = digits.data[idx, :] #agafam una fila del dataset i la transformam en imatge
fila_2_matrix = np.reshape(image, (8,8))

plt.imshow(fila_2_matrix, cmap=plt.cm.gray)
plt.title("La imagen es un " + str(y_test[idx]) + " y lo clasifica como " + str(y_out[idx]))
plt.show()