# Optimización de Árbol de Decisión para Reconocimiento de Dígitos
Este notebook carga el dataset `datos_imagenes.csv`, realiza una muestra para reducir memoria, entrena un árbol de decisión con GridSearchCV y muestra los mejores parámetros y resultados.

Se usan 784 características (píxeles 28x28) y la etiqueta de dígito.

In [1]:

import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Cargar datos optimizados
df = pd.read_csv('datos_imagenes.csv', dtype='uint8')
print("Datos cargados:", df.shape)

# Tomar muestra para evitar problemas de memoria (por ejemplo 5000 muestras)
df_sample = df.sample(n=5000, random_state=42)
print("Muestra tomada:", df_sample.shape)

X = df_sample.drop('label', axis=1).values
y = df_sample['label'].values

# División estratificada en entrenamiento/prueba 80/20
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

print(f"Entrenamiento: {X_train.shape}, Prueba: {X_test.shape}")

# Definir parámetros para GridSearch con menos combinaciones
param_grid = {
    'max_depth': [10, 15],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 5],
    'criterion': ['gini', 'entropy'],
    'max_features': [None, 'sqrt']
}

clf = DecisionTreeClassifier(random_state=42)

grid_search = GridSearchCV(clf, param_grid, cv=3, scoring='accuracy', n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)

print("Mejores parámetros encontrados:", grid_search.best_params_)
print(f"Mejor precisión en validación (cv): {grid_search.best_score_:.4f}")

# Evaluar el mejor modelo en el conjunto de prueba
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
accuracy_test = accuracy_score(y_test, y_pred)
print(f"Precisión en conjunto de prueba: {accuracy_test:.4f}")


Datos cargados: (21555, 785)
Muestra tomada: (5000, 785)
Entrenamiento: (4000, 784), Prueba: (1000, 784)
Fitting 3 folds for each of 32 candidates, totalling 96 fits
Mejores parámetros encontrados: {'criterion': 'entropy', 'max_depth': 10, 'max_features': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
Mejor precisión en validación (cv): 0.3640
Precisión en conjunto de prueba: 0.3820
