# Reconocimiento de dígitos manual

A continuación se realizará un modelo para predecir cuando un caracter escrito a mano es 4, y otro modelo para predecir cuando es 6. Se utilizará el dataset de dígitos de sklearn para este proposito.

Para inciar, ralizamos los imports necesarios: en este caso, el dataset de digitos, metricas de sklearn (con el fin de validar las métricas que se calcularán), y numpy para manipular los datos.

In [5]:
from sklearn.datasets import load_digits
from sklearn.metrics import accuracy_score
import numpy as np

Luego, cargamos los dígitos y construimos las salidas para el modelo predictivo de 4 y de 6 (y4 y y6 respectivamente). Las entradas x serán iguales en ambos casos por lo que no es necesario realizar ninguna preparación. Las salidas se llevaran a una forma binaria, uno si corresponde al número que se va a predecir, cero en caso contrario.

In [34]:
# Obtener todos los digitos
digits = load_digits()
# Obtener las entradas
x = digits.images
# Obtener las salidas
y = digits.target
y4 = []
y6 = []
for i in range(0,len(x)):
    if(y[i]==4):
        y4.append(1)
        y6.append(0)
    elif(y[i]==6):
        y4.append(0)
        y6.append(1)
    else:
        y4.append(0)
        y6.append(0)
print('Se han construido las salidas...')

0 40.0 11.0
1 56.0 17.0
2 39.0 7.0
3 75.0 11.0
4 77.0 21.0
5 78.0 32.0
6 75.0 33.0
7 62.0 22.0
Se han construido las salidas...


Posteriormente, construimos las funciones para:

1. Verificar si es un cuatro
2. Verificar si es un seis
3. Calcular el accuracy

Las entradas son matrices de 8 x 8. Los dígitos escritos a mano estan expresados en estas matrices en valores numericos. Para analizar el número que tienen las matrices se sumará en cada entrada las filas de la matriz, por lo que se obtendra un vector de 8 x 1, donde cada posición representa la suma de la fila. Luego se añadiran ciertas condiciones sobre cada posición del vector para determinar si es un 4, o un 6, para cada modelo.

In [39]:
# Retorna boolean indicando si la matriz que se recibio como parametro contiene un cuatro
def is_four(matrix):
    # Suma de las filas de la matriz
    vector = np.sum(matrix,axis=1)
    # verificar las condiciones
    if( vector[0] >= 10.0 and vector[0]  <= 40.0 and
        vector[1] >= 15.0 and vector[3]  <= 48.0 and
        vector[2] >= 18.0 and vector[4]  <= 62.0 and
        vector[3] >= 20.0 and vector[0]  <= 82.0 and
        vector[4] >= 23.0 and vector[3]  <= 87.0 and
        vector[5] >= 20.0 and vector[4]  <= 85.0 and
        vector[5] >= 14.0 and vector[4]  <= 85.0 and
        vector[6] >= 12.0 and vector[7]  <= 31.0):
        return True
    else:
        return False

# Retorna boolean indicando si la matriz que se recibio como parametro contiene un seis
def is_six(matrix):
    # Suma de las filas de la matriz
    vector = np.sum(matrix,axis=1)
    # verificar las condiciones
    if( vector[0] >= 11.0 and vector[0]  <= 40.0 and
        vector[1] >= 17.0 and vector[3]  <= 56.0 and
        vector[2] >= 7.0 and vector[4]  <= 39.0 and
        vector[3] >= 11.0 and vector[0]  <= 75.0 and
        vector[4] >= 21.0 and vector[3]  <= 77.0 and
        vector[5] >= 32.0 and vector[4]  <= 78.0 and
        vector[5] >= 33.0 and vector[4]  <= 75.0 and
        vector[6] >= 22.0 and vector[7]  <= 62.0):
        return True
    else:
        return False
        
# Retorna accuracy con respecto a las predicciones
def get_accuracy(y_true, y_pred):
    TP,FN,TN,FP = 0.,0.,0.,0.
    for i in range(len(y_true)):
        if(y_true[i] == y_pred[i] and y_true[i]==1):
            TP+=1.0
        elif(y_true[i] != y_pred[i] and y_true[i]==1):
            FN+=1.0
        elif(y_true[i] == y_pred[i] and y_true[i]==0):
            TN+=1.0
        elif(y_true[i] != y_pred[i] and y_true[i]==0):
            FP+=1.0
    accuracy = (TP+TN) / (TP+TN+FP+FN)
    return accuracy

Luego, verificamos como desempeña el modelo predictivo para el número cuatro

In [41]:
# Inicializamos el arreglo para guardar las predicciones
y4_pred = []
# Iteramos sobre las entradas
for i in range(len(x)):
    # Obtenemos las predicciones
    y4_pred.append(is_four(x[i]))
    
# Calculamos el accuracy
print('Accuracy:           '+ str(get_accuracy(y4,y4_pred)))
# Verificamos que el accuracy esté bien calculado
print('Sklearn accuracy:   '+ str(accuracy_score(y4,y4_pred)))

Accuracy:           0.8686700055648303
Sklearn accuracy:   0.8686700055648303


Finalmente, verificamos como desempeña el modelo predictivo para el número seis.

In [40]:
# Inicializamos el arreglo para guardar las predicciones
y6_pred = []
# Iteramos sobre las entradas
for i in range(len(x)):
    # Obtenemos las predicciones
    y6_pred.append(is_six(x[i]))
    
# Calculamos el accuracy
print('Accuracy:           '+ str(get_accuracy(y6,y6_pred)))
# Verificamos que el accuracy esté bien calculado
print('Sklearn accuracy:   '+ str(accuracy_score(y6,y6_pred)))

Accuracy:           0.8041179744017808
Sklearn accuracy:   0.8041179744017808
