# 1. Clasificación de dígitos MNIST con KNeighborsClassifier

Este notebook muestra cómo entrenar y evaluar un clasificador KNN sobre el dataset MNIST usando bibliotecas de Python.

## 2. Importar bibliotecas necesarias

Importamos pandas, numpy, time y el clasificador KNeighborsClassifier de scikit-learn.

In [1]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import time
from sklearn.neighbors import KNeighborsClassifier

## 3. Definir parámetros globales

Establecemos el número de muestras para entrenamiento y prueba.

In [None]:
# Definir parámetros globales
muestras_entrenamiento = 50000  # Número de muestras de entrenamiento
muestras_prueba = 10000         # Número de muestras de prueba

: 

: 

## 4. Inicializar variables para medir tiempos

Estas variables nos permitirán medir el tiempo de entrenamiento y prueba.

In [None]:
# Inicializar variables para medir tiempos
inicio_tiempo_entrenamiento = 0
fin_tiempo_entrenamiento = 0
tiempo_entrenamiento = 0

inicio_tiempo_prueba = 0
fin_tiempo_prueba = 0
tiempo_prueba = 0

: 

: 

## 5. Función para cargar el dataset

Esta función lee un archivo CSV y devuelve los datos normalizados y las etiquetas.

In [None]:
def cargar_dataset(nombre_archivo, muestras):
    """
    Carga un dataset CSV y devuelve los datos normalizados y las etiquetas.
    """
    x = []  # Datos de entrada
    y = []  # Etiquetas
    datos = pd.read_csv(nombre_archivo)
    y = np.array(datos.iloc[0:muestras, 0])  # Primera columna: etiquetas
    x = np.array(datos.iloc[0:muestras, 1:]) / 255  # Normalización
    return x, y

: 

: 

## 6. Cargar los datos de entrenamiento y prueba

Usamos la función definida para cargar los datos.

In [None]:
# Cargar los datos de entrenamiento y prueba
x_entrenamiento, y_entrenamiento = cargar_dataset("../../datasets/mnist/mnist_train.csv", muestras_entrenamiento)
x_prueba, y_prueba = cargar_dataset("../../datasets/mnist/mnist_test.csv", muestras_prueba)

: 

: 

## 7. Crear y entrenar el modelo KNN

Entrenamos el modelo y medimos el tiempo de entrenamiento.

In [None]:
# Crear y entrenar el modelo KNN
knn = KNeighborsClassifier(n_neighbors=3)
inicio_tiempo_entrenamiento = time.time()
knn.fit(x_entrenamiento, y_entrenamiento)
fin_tiempo_entrenamiento = time.time()
tiempo_entrenamiento = fin_tiempo_entrenamiento - inicio_tiempo_entrenamiento
print(f"Tiempo de entrenamiento: {tiempo_entrenamiento:.2f} s")

: 

: 

## 8. Evaluación global rápida del modelo

Calculamos la precisión del modelo sobre todo el conjunto de prueba de una sola vez usando `knn.score` y medimos el tiempo de inferencia total.

In [None]:
# Evaluación simple sobre todo el conjunto de prueba y cálculo del tiempo de inferencia
import time
inicio_inferencia = time.time()
precision = knn.score(x_prueba, y_prueba)
fin_inferencia = time.time()
tiempo_inferencia = fin_inferencia - inicio_inferencia
print(f"Precisión global (score): {precision:.4f}")
print(f"Tiempo de inferencia sobre todo el conjunto de prueba: {tiempo_inferencia:.4f} s")

: 

: 

## 9. Evaluar el modelo sobre el dataset de prueba

Calculamos la precisión y mostramos resultados para cada muestra.

## 10. Resultados finales

Mostramos el resumen de tiempos y precisión.

In [None]:
# Mostrar resultados finales
print("-------------------------------")
print("Resultados")
print("-------------------------------")
print("Muestras de entrenamiento: ", muestras_entrenamiento)
print("Tiempo de entrenamiento: ", round(tiempo_entrenamiento, 2), " s")
print("Muestras de prueba: ", muestras_prueba)
print("Tiempo de prueba: ", round(tiempo_prueba, 2), " s")
print("Precisión en prueba: ", round((resultados_validos / muestras_prueba) * 100, 2), "%")

: 

: 