In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from time import time
# Herramientas de SVM
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix


In [None]:
# Leer el set de datos y consultar información básica
df = pd.read_csv('/content/digitos.csv')
df.info()

In [None]:
# Consultar los primeros datos
df.head()

In [None]:
df['label'].value_counts()

In [None]:
df['label'].hist()

In [None]:
# Obtener una sección de DataFrame usando los números de columna
pixeles = df.iloc[:,1:785] # X
digitos = df.iloc[:,0:1] # Y

In [None]:
# Separar datos para entrenar y para probar
X_train, X_test, y_train, y_test = train_test_split(pixeles, digitos, test_size=0.5)

In [None]:
# Consultar información de la muestra de entrenamiento
X_train.shape

In [None]:
X_train.head()

In [None]:
def mostrar_num(in_data):
  """Genera un gráfico que muestra un registro
    del set de datos.
    Para ello, convierte el array de 1 dimensión en
    una matriz de 28x28.
  """
  matriz = np.array(in_data.values)
  plt.imshow(matriz.reshape(28, 28))

In [None]:
mostrar_num(X_test.iloc[100])

In [None]:
# Creación del modelo
modelo = SVC(kernel='linear')

In [None]:
# Entrenamiento del modelo
hora_inicio = time()
modelo.fit(X_train.values, y_train.values.ravel())
print('Entrenamiento terminado en {}'.format(time() - hora_inicio))

In [None]:
# Crear predicción de datos
hora_inicio = time()

y_pred = modelo.predict(X_test.values)
print('Predicción terminada en {}'.format(time() - hora_inicio))
print(y_pred.shape)

In [None]:
precision = accuracy_score(y_test, y_pred)
print(f'Precisión: {precision}')

In [None]:
prueba = X_test.iloc[100]
print(f'El resultado era: {y_test.iloc[100]}')
mostrar_num(prueba)
prediccion = modelo.predict([prueba])
print(f'El digito es: {prediccion}')

In [None]:
# Prueba con la matriz de confusión
conf = confusion_matrix(y_test, y_pred)

In [None]:
# Mostrar los resultados
conf

In [None]:
def plot_cm(cm, classes):
    """Esta función se encarga de generar un gráfico con nuestra matriz de confusión.
    cm es la matriz generada por confusion_matrix
    classes es una lista que contiene las posibles clases que puede predecir nuestro modelo
    """
    plt.imshow(cm, cmap=plt.cm.Blues)
    plt.title('Matriz de confusión')
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)
    thresh = cm.max() / 2.
    for indice_fila, fila in enumerate(cm):
        for indice_columna, columna in enumerate(fila):
            if cm[indice_fila, indice_columna] > thresh:
                color = "white"
            else:
                color = "black"
            plt.text(
                indice_columna,
                indice_fila,
                cm[indice_fila, indice_columna],
                color=color,
                horizontalalignment="center"
            )
    plt.ylabel("Valores reales")
    plt.xlabel("Valores calculados")
    plt.show()

In [None]:
plot_cm(conf, [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])