# 1. Clasificación de dígitos MNIST con Gaussian Naive Bayes

Este notebook muestra cómo entrenar y evaluar un clasificador GNB sobre el dataset MNIST usando bibliotecas de Python.

## 2. Importar bibliotecas necesarias

Importamos pandas, numpy, time y el clasificador Gaussian Naive Bayes de scikit-learn.

In [1]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import time
from sklearn.naive_bayes import GaussianNB

## 3. Definir parámetros globales

Establecemos el número de muestras para entrenamiento y prueba.

In [2]:
# Definir parámetros globales
muestras_entrenamiento = 50000  # Número de muestras de entrenamiento
muestras_prueba = 10000         # Número de muestras de prueba

## 4. Inicializar variables para medir tiempos

Estas variables nos permitirán medir el tiempo de entrenamiento y prueba.

In [3]:
# Inicializar variables para medir tiempos
inicio_tiempo_entrenamiento = 0
fin_tiempo_entrenamiento = 0
tiempo_entrenamiento = 0

inicio_tiempo_prueba = 0
fin_tiempo_prueba = 0
tiempo_prueba = 0

## 5. Función para cargar el dataset

Esta función lee un archivo CSV y devuelve los datos normalizados y las etiquetas.

In [4]:
def cargar_dataset(nombre_archivo, muestras):
    """
    Carga un dataset CSV y devuelve los datos normalizados y las etiquetas.
    """
    x = []  # Datos de entrada
    y = []  # Etiquetas
    datos = pd.read_csv(nombre_archivo)
    y = np.array(datos.iloc[0:muestras, 0])  # Primera columna: etiquetas
    x = np.array(datos.iloc[0:muestras, 1:]) / 255  # Normalización
    return x, y

## 6. Cargar los datos de entrenamiento y prueba

Usamos la función definida para cargar los datos.

In [5]:
# Cargar los datos de entrenamiento y prueba
x_entrenamiento, y_entrenamiento = cargar_dataset("../../datasets/mnist/mnist_train.csv", muestras_entrenamiento)
x_prueba, y_prueba = cargar_dataset("../../datasets/mnist/mnist_test.csv", muestras_prueba)

## 7. Crear y entrenar el modelo GNB

Entrenamos el modelo y medimos el tiempo de entrenamiento.

In [6]:
# Crear y entrenar el modelo GNB
gnb = GaussianNB()
inicio_tiempo_entrenamiento = time.time()
gnb.fit(x_entrenamiento, y_entrenamiento)
fin_tiempo_entrenamiento = time.time()
tiempo_entrenamiento = fin_tiempo_entrenamiento - inicio_tiempo_entrenamiento
print(f"Tiempo de entrenamiento: {tiempo_entrenamiento:.2f} s")

Tiempo de entrenamiento: 0.88 s


## 8. Evaluación global rápida del modelo

Calculamos la precisión del modelo sobre todo el conjunto de prueba de una sola vez usando `gnb.score` y medimos el tiempo de inferencia total.

In [7]:
# Evaluación simple sobre todo el conjunto de prueba y cálculo del tiempo de inferencia
import time
inicio_inferencia = time.time()
precision = gnb.score(x_prueba, y_prueba)
fin_inferencia = time.time()
tiempo_inferencia = fin_inferencia - inicio_inferencia
print(f"Precisión global (score): {precision:.4f}")
print(f"Tiempo de inferencia sobre todo el conjunto de prueba: {tiempo_inferencia:.4f} s")

Precisión global (score): 0.5544
Tiempo de inferencia sobre todo el conjunto de prueba: 0.5514 s


## 9. Evaluar el modelo sobre el dataset de prueba

Calculamos la precisión y mostramos resultados para cada muestra.

In [8]:
# Evaluar el modelo sobre el dataset de prueba
resultados_validos = 0
inicio_tiempo_prueba = time.time()
for i in range(len(y_prueba)):
    resultado_esperado = int(y_prueba[int(i)])
    resultado_obtenido =  gnb.predict(x_prueba[int(i)].reshape(1, -1)).item()
    resultado_texto = "Falló"
    if resultado_obtenido == resultado_esperado:
        resultados_validos += 1
        resultado_texto = " OK "
    # Imprimir solo los primeros 20 resultados
    print("Nº ", i + 1, " | Resultado esperado: ", resultado_esperado, " | Resultado obtenido: ", resultado_obtenido, " | ", resultado_texto,
              " | Precisión: ", round((resultados_validos / (i + 1)) * 100, 2), "%")
fin_tiempo_prueba = time.time()
tiempo_prueba = fin_tiempo_prueba - inicio_tiempo_prueba

Nº  1  | Resultado esperado:  7  | Resultado obtenido:  9  |  Falló  | Precisión:  0.0 %
Nº  2  | Resultado esperado:  2  | Resultado obtenido:  2  |   OK   | Precisión:  50.0 %
Nº  3  | Resultado esperado:  1  | Resultado obtenido:  1  |   OK   | Precisión:  66.67 %
Nº  4  | Resultado esperado:  0  | Resultado obtenido:  0  |   OK   | Precisión:  75.0 %
Nº  5  | Resultado esperado:  4  | Resultado obtenido:  9  |  Falló  | Precisión:  60.0 %
Nº  6  | Resultado esperado:  1  | Resultado obtenido:  1  |   OK   | Precisión:  66.67 %
Nº  7  | Resultado esperado:  4  | Resultado obtenido:  8  |  Falló  | Precisión:  57.14 %
Nº  8  | Resultado esperado:  9  | Resultado obtenido:  9  |   OK   | Precisión:  62.5 %
Nº  9  | Resultado esperado:  5  | Resultado obtenido:  4  |  Falló  | Precisión:  55.56 %
Nº  10  | Resultado esperado:  9  | Resultado obtenido:  9  |   OK   | Precisión:  60.0 %
Nº  11  | Resultado esperado:  0  | Resultado obtenido:  0  |   OK   | Precisión:  63.64 %
Nº  12  | R

## 10. Resultados finales

Mostramos el resumen de tiempos y precisión.

In [9]:
# Mostrar resultados finales
print("-------------------------------")
print("Resultados")
print("-------------------------------")
print("Muestras de entrenamiento: ", muestras_entrenamiento)
print("Tiempo de entrenamiento: ", round(tiempo_entrenamiento, 2), " s")
print("Muestras de prueba: ", muestras_prueba)
print("Tiempo de prueba: ", round(tiempo_prueba, 2), " s")
print("Precisión en prueba: ", round((resultados_validos / muestras_prueba) * 100, 2), "%")

-------------------------------
Resultados
-------------------------------
Muestras de entrenamiento:  50000
Tiempo de entrenamiento:  0.88  s
Muestras de prueba:  10000
Tiempo de prueba:  2.57  s
Precisión en prueba:  55.44 %
