# Clasificación de dígitos escritos a mano

La base de datos MNIST contiene imágenes de números escritos a mano, donde cada imagen está etiquetada con un número entero. Esta base de datos es usada para medir el rendimiento de los algoritmos de *machine learning*, y  contiene 60.000 imágenes de
entrenamiento las cuales fueron tomadas por los empleados de la oficina de censo de Estados Unidos y 10.000 imágenes de prueba recuperadas de estudiantes de secundaria del mismo país. En la siguiente imagen puedes ver algunos ejemplos de la base de datos.

![MNIST](https://corochann.com/wp-content/uploads/2017/02/mnist_plot.png)

Si quieres conocer una descripción más completa de esta base de datos y los algoritmos que se han utilizado para su clasificación, puedes ingresar al link http://yann.lecun.com/exdb/mnist/

** Actividad 1**

Construye tres clasificadores (1 de ellos con una red neuronal) para la tarea de clasificación de la base de datos MNIST. Reporta el error de clasificación y compara los resultados. Sigue el procedimiento estándar para el entrenamiento y validación de los mismos.

In [3]:
#para la instalación de la base de datos, debes ejecutar el siguiente comando en el Anaconda prompt: pip install python-mnist
#una vez instalada puedes continuar con los siguientes comandos para su lectura. Recuerda mantener los archivos de la DB en la
#misma carpeta del código

from mnist import MNIST #librería de la base de datos
import random #librería para construir secuencias aleatorias
import numpy as np

mndata = MNIST('Data') #lectura de los datos
X_train_new, y_train_new = mndata.load_training() #separación del conjunto de entrenamiento con sus etiquetas
X_test_new, y_test_new = mndata.load_testing() #separación del conjunto de validación con sus etiquetas

#si quieres graficar en ascii un dígito aleatorio
index = random.randrange(0, len(X_train_new))  #genera el índice aleatorio
print(mndata.display(X_train_new[index])) #muestras en ascii el dígito seleccionado

#debido a que la base de datos es demasiado grande para su procesamiento, vamos a seleccionar un 10% aleatorio de cada uno
#de los conjuntos con el fin de construir los clasificadores

index = list(range(0, 60000)) #genera un vector del número de observaciones en el conjunto de entrenamiento
new_index = random.sample(index, 600) #toma 600 datos del vector de forma aleatoria
X_train_lista = [X_train_new[i] for i in new_index] #construye el nuevo conjunto de entrenamiento
y_train_lista = [y_train_new[i] for i in new_index] #construye las etiquetas correspondientes

index = list(range(0, 10000)) #genera un vector del número de observaciones en el conjunto de validación
new_index = random.sample(index, 100) #toma 100 datos del vector de forma aleatoria
X_test_lista = [X_test_new[i] for i in new_index] #construye el nuevo conjunto de validación
y_test_lista = [y_test_new[i] for i in new_index] #construye las etiquetas correspondientes

X_train = np.array(X_train_lista)
y_train = np.array(y_train_lista)
X_test = np.array(X_test_lista)
y_test = np.array(y_test_lista)
print(np.shape(X_train), y_train)


............................
............................
............................
............................
...............@@...........
.............@@..@..........
...........@@....@..........
..........@......@..........
.........@.....@@...........
..............@@............
............@@@.............
...........@...@............
................@...........
.................@..........
.................@@.........
..................@.........
..................@.........
..................@.........
...........@.....@@.........
..........@......@..........
.........@......@@..........
.........@.....@@...........
.........@@..@@@............
..........@@@@..............
............................
............................
............................
............................
(600, 784) [4 7 4 5 1 8 3 3 1 0 9 5 0 5 6 1 3 9 2 0 7 4 2 4 3 4 7 2 8 1 0 5 1 4 6 6 6
 4 0 8 1 7 7 7 7 1 9 9 6 5 8 2 1 7 4 7 7 4 0 2 2 5 5 0 0 7 6 9 9 7 8 9 2 9
 0 0 5 9 4 8 7 4 6 9 1 6 1

In [3]:
from sklearn import neighbors, datasets
NN = 9 #definimos el número de vecinos (en lo posible elegir números impares)
clasificador_KNN = neighbors.KNeighborsClassifier(NN, weights = 'distance') #instanciamos el clasificador
clasificador_KNN.fit(X_train,y_train) #entrenamos el clasificador
#Validamos el acierto de clasificación del clasificador KNN
y_pred_KNN = clasificador_KNN.predict(X_test) #realizamos la predicción de la etiqueta para el conjunto de validación
acc_KNN = 100.0*(y_test == y_pred_KNN).sum()/len(X_test) #calculamos el acierto de clasificación
print('El acierto de clasificación del clasificador KNN (python) es del ',acc_KNN , '%') #imprimimos el acierto de clasificacion
print('Las muestras mal clasificadas del clasificador KNN fueron %d' % (y_test != y_pred_KNN).sum())

El acierto de clasificación del clasificador KNN (python) es del  80.0 %
Las muestras mal clasificadas del clasificador KNN fueron 20


In [4]:
from sklearn.naive_bayes import GaussianNB #importamos la librería que contiene el clasificador de Bayes
#Clasificador Gaussiano
clasificador_gaussiano = GaussianNB() #instanciamos el clasificador
clasificador_gaussiano.fit(X_train,y_train) #entrenamos el clasificador con la matriz de entranamiento pre-procesada
y_pred_gaussiano = clasificador_gaussiano.predict(X_test) #validamos el clasificador sobre el conjunto de entrenamiento
acc_gaussiano = 100.0*(y_test == y_pred_gaussiano).sum()/len(X_test) #calculamos el acierto de clasificación
print('El acierto de clasificación del clasificador gaussiano es del ',acc_gaussiano , '%') #imprimimos el acierto de clasificacion
print('Las muestras mal clasificadas del clasificador gaussiano fueron %d' % (y_test != y_pred_gaussiano).sum())

El acierto de clasificación del clasificador gaussiano es del  64.0 %
Las muestras mal clasificadas del clasificador gaussiano fueron 36


In [5]:
def minimo_y_maximo(train,test):
    minimo = train.min()
    if minimo > test.min():
        minimo = test.min()
    maximo = train.max()
    if maximo < test.max():
        maximo = test.max()
    #print(minimo,maximo)
    return minimo, maximo

def minimo_y_maximo_matriz(train,test):
    columnas = np.shape(train)[1]
    dimensiones = np.zeros((columnas,2))
    for i in range(columnas):
        minimo, maximo = minimo_y_maximo(train[:,i],test[:,i])
#         dimensiones[i,0] = minimo
#         dimensiones[i,1] = maximo
        dimensiones[i] = [minimo,maximo]
    print(np.shape(dimensiones))
    return dimensiones

def convertir_a_binario(numero, longitud): #Método para convertir una un número en un vector con su valor binario
    vector_binario = np.zeros([longitud]) #Vector de las posiciones deseadas que guardará el valor en binario
    binario = bin(numero)[2:] #Método para obtener el valor binario de un número
    for i in range(longitud-len(binario)): #En caso que el valor en binario tenga longitud menor a  la deseada
        binario = '0' + binario   #Se le agregan ceros a la izquierda
#     print (etiqueta ," en binario es ", binario)
    for i in range(longitud):
        vector_binario[i] = binario[i] #Guardar el valor en binario en la posición correspondiente, cada posición del vector es un caracter del numero en binario
    return vector_binario.astype(int) #Devuelvo el vector como entero

# temp = convertir_a_binario(0,1)
# print(temp)

def etiquetas_a_binario(vector): #Método para convertir un vector de números a un vector de vectores con su valor binario
    filas = len(vector) #Numero de filas en el vector
    maximo = vector.max().astype(int) #Numero máximo del vector
    maximo_binario = bin(maximo)[2:] #Su equivalente en binario
    longitud = len(maximo_binario) #Su longitud, determina la longitud de cada posición del vector final
#     longitud = len(bin((vector.max()).astype(int))[2:]) #La longitud del valor en binario basado en el número mayor del vector, determina la longitud del vector final
    etiquetas_binarias = np.zeros((filas,longitud)) #Matriz que se llenará con las etiquetas convertidas a binario
    for i in range(filas): #Para cada fila en el vector
        etiqueta = vector[i] #Obtengo la etiqueta que quiero convertir a binario
        etiquetas_binarias[i] = convertir_a_binario(int(etiqueta),longitud) #La convierto en binario
    return etiquetas_binarias 
    
def eliminar_columnas(matriz, maximos_y_minimos):
    columnas = np.shape(matriz)[1]
    indices = []
    matriz_procesada = matriz
    for i in range(columnas):
        maximo_y_minimo = maximos_y_minimos[i]
        if (maximo_y_minimo[1] > 0):
            indices.append(i)
#     print(indices)
    return indices

In [6]:
from numpy import genfromtxt
from sklearn.model_selection import train_test_split
import math
import matplotlib.pyplot as plt 
import neurolab as nl

y_train = np.vstack(y_train)
y_test = np.vstack(y_test) 

#definiremos una red neuronal multicapa
# dim1_min, dim1_max = minimo_y_maximo(X_train,X_test)
dimensiones = minimo_y_maximo_matriz(X_train,X_test)
# dim1 = [dim1_min, dim1_max]

columnas_sin_cero = eliminar_columnas(X_train,dimensiones)
print(np.shape(X_train),np.shape(X_test),len(y_train),len(y_test), len(dimensiones))
X_train = X_train[:,columnas_sin_cero]
X_test = X_test[:,columnas_sin_cero]
dimensiones = dimensiones[columnas_sin_cero]
print(np.shape(X_train),np.shape(X_test),len(y_train),len(y_test), len(dimensiones))
# y_train = y_train[columnas_sin_cero]
# y_test = y_test[columnas_sin_cero]
y_train_binario = etiquetas_a_binario(y_train)
y_test_binario = etiquetas_a_binario(y_test)

nn = nl.net.newff(dimensiones, [107, 58, 4])
#establecemos el algoritmo de entrenamiento como gradiente descendiente, es el algoritmo que minimizará la función objetivo 
#que representa el error
nn.trainf = nl.train.train_gd
#entrenamos la red neuronal con los datos generados
progreso_error = nn.train(X_train, y_train_binario, epochs = 200, show =100, goal = 0.01)

#Validamos la red neuronal sobre los mismos datos de entrenamiento para calcular la regresión
output = nn.sim(X_test)
# print(output)
# y_pred = output.reshape(y)
y_pred = output
print(np.shape(y_pred), y_pred, y_test_binario)

# y_pred = np.round(y_pred)
print('El acierto de clasificación es: ', (y_test_binario==y_pred).sum()/len(y_test_binario)*100, '%')

(784, 2)
(600, 784) (100, 784) 600 100 784
(600, 586) (100, 586) 600 100 586
Epoch: 100; Error: 962.5;
Epoch: 200; Error: 962.5;
The maximum number of train epochs is reached
(100, 4) [[-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]
 [-1.  1.  1.  1.]

In [23]:
def eliminar_columnas(matriz, maximos_y_minimos):
    columnas = np.shape(matriz)[1]
    indices = []
    matriz_procesada = matriz
    for i in range(columnas):
        maximo_y_minimo = maximos_y_minimos[i]
        if (maximo_y_minimo[1] > 0):
            indices.append(i)
    print(indices)
    return indices
temp = eliminar_columnas(X_train,dimensiones)
print(np.shape(temp))
temp2 = X_train[:,temp]
print(np.shape(X_train),np.shape(temp2))

[12, 13, 14, 15, 38, 39, 40, 41, 42, 43, 44, 45, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 226, 227, 228, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 29

In [16]:
# print(np.shape(y_train))
# print(y_test)
# print(y_pred)
print(y_train)
temp = etiquetas_a_binario(y_train)
print(temp)

[[6]
 [3]
 [8]
 [8]
 [7]
 [6]
 [9]
 [1]
 [6]
 [9]
 [9]
 [0]
 [3]
 [2]
 [8]
 [8]
 [9]
 [1]
 [9]
 [5]
 [0]
 [6]
 [8]
 [6]
 [8]
 [7]
 [4]
 [0]
 [4]
 [9]
 [2]
 [6]
 [5]
 [8]
 [7]
 [4]
 [0]
 [9]
 [9]
 [1]
 [7]
 [8]
 [4]
 [9]
 [9]
 [3]
 [5]
 [2]
 [7]
 [7]
 [8]
 [4]
 [7]
 [8]
 [4]
 [7]
 [9]
 [4]
 [7]
 [5]
 [8]
 [4]
 [8]
 [1]
 [1]
 [8]
 [7]
 [1]
 [3]
 [3]
 [3]
 [0]
 [7]
 [5]
 [7]
 [2]
 [6]
 [6]
 [2]
 [8]
 [8]
 [5]
 [2]
 [0]
 [7]
 [1]
 [9]
 [2]
 [8]
 [8]
 [3]
 [9]
 [6]
 [1]
 [0]
 [6]
 [7]
 [1]
 [4]
 [1]
 [2]
 [5]
 [8]
 [5]
 [5]
 [1]
 [7]
 [9]
 [6]
 [9]
 [4]
 [2]
 [1]
 [4]
 [0]
 [0]
 [4]
 [1]
 [3]
 [0]
 [3]
 [6]
 [6]
 [4]
 [5]
 [4]
 [4]
 [9]
 [0]
 [3]
 [3]
 [8]
 [2]
 [3]
 [2]
 [6]
 [1]
 [1]
 [0]
 [0]
 [7]
 [6]
 [0]
 [5]
 [7]
 [2]
 [3]
 [6]
 [0]
 [1]
 [2]
 [1]
 [6]
 [1]
 [3]
 [7]
 [4]
 [2]
 [5]
 [8]
 [0]
 [3]
 [9]
 [8]
 [2]
 [0]
 [4]
 [1]
 [1]
 [0]
 [2]
 [2]
 [8]
 [8]
 [9]
 [4]
 [5]
 [4]
 [5]
 [8]
 [2]
 [5]
 [9]
 [0]
 [3]
 [4]
 [6]
 [9]
 [1]
 [2]
 [1]
 [3]
 [9]
 [1]
 [4]
 [4]
 [8]
 [4]
 [9]
 [7]
