## Clasificación de imágenes
Para este ejemplo vas a montar un clasificador de imágenes del 0 al 9.

In [None]:
# Importamos numpy para operaciones numéricas (comentado porque se carga automáticamente)
# import numpy as np

In [None]:
import seaborn as sns

In [None]:
# Cargamos el dataset de dígitos manuscritos de scikit-learn
# Es un dataset limpio de imágenes 8x8 (64 píxeles) con dígitos del 0 al 9
from sklearn.datasets import load_digits
digits = load_digits() # 8x8 = 64 pixels  -- Very clean Dataset 

#### Now that you have the dataset loaded you can use the commands below

In [None]:
# Exploramos qué contiene el objeto dataset
# Muestra las claves disponibles como 'data', 'target', 'images', etc.
digits.keys()

In [None]:
# Mostramos la descripción completa del dataset
# Incluye información sobre el origen, características y estructura de los datos
print(digits['DESCR'])

In [None]:
# Verificamos las dimensiones de los datos
# digits.data: matriz de 1797 imágenes x 64 características (8x8 píxeles aplanados)
# digits.target: vector de 1797 etiquetas (números del 0 al 9)
print("Image Data Shape" , digits.data.shape)
print("Label Data Shape", digits.target.shape)

In [None]:
# Examinamos los datos de la segunda imagen (índice 1) en formato aplanado
# Cada valor representa la intensidad de un píxel (0-16)
digits['data'][1]

In [None]:
# Reorganizamos los datos aplanados de vuelta a una matriz 8x8
# Esto nos permite visualizar la imagen como se vería originalmente
digits['data'][1].reshape(8,8)

In [None]:
# Verificamos la etiqueta (clase) de la segunda imagen
# Debería mostrar el dígito que representa esta imagen
digits['target'][1]

In [None]:
# Obtenemos el conjunto único de todas las clases en el dataset
# Confirma que tenemos dígitos del 0 al 9 (10 clases)
set(digits.target)

#### Check the dataset

In [None]:
# Convertimos los datos a un DataFrame de pandas para análisis
# Cada columna (0-63) representa un píxel de la imagen 8x8 aplanada
import pandas as pd

df = pd.DataFrame(data= digits['data'])
df['target'] = digits['target']  # Añadimos la columna target con las etiquetas
df

#### Check the target

In [None]:
# Mostramos todas las etiquetas del dataset en un array
# Cada posición corresponde a la etiqueta de una imagen
digits.target

In [None]:
# Contamos cuántas imágenes hay de cada dígito
# Verificamos si el dataset está balanceado entre las clases
df.target.value_counts()

In [None]:
# Mostramos las primeras 50 etiquetas para ver la secuencia
# Observamos que inicialmente están ordenadas del 0 al 9
digits.target[0:50]

In [None]:
# Examinamos los datos de la primera imagen (índice 0) en formato aplanado
# Array de 64 valores que representan los píxeles de una imagen 8x8
digits.data[0]

In [None]:
# Convertimos y mostramos la primera imagen como matriz 8x8
# Cada número representa la intensidad del píxel en esa posición
print(digits.data[0].reshape(8,8))

#### Plot some numbers

In [None]:
# Visualizamos las primeras 5 imágenes del dataset con sus etiquetas
# Creamos una figura con 5 subplots para mostrar las imágenes lado a lado
import numpy as np 
import matplotlib.pyplot as plt

plt.figure(figsize=(20,2))  # Establecemos el tamaño de la figura
for index, (image, label) in enumerate(zip(digits.data[0:5], digits.target[0:5])):
    plt.subplot(1, 5, index + 1)  # Creamos subplot en posición index+1
    plt.imshow(np.reshape(image, (8,8)), cmap='binary')  # Mostramos imagen en escala binaria
    plt.title('Training: ' + str(label), fontsize = 20)  # Añadimos título con la etiqueta

In [None]:
# Verificamos que cada imagen tiene 64 píxeles (8x8)
# Confirmamos la dimensionalidad de nuestros datos
8*8

### Splitting Data into Training and Test Sets (Digits Dataset)

In [None]:
# Dividimos los datos en conjuntos de entrenamiento y prueba
# 75% para entrenamiento, 25% para prueba (test_size = 0.25)
# random_state=0 asegura reproducibilidad de la división aleatoria
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(digits.data,
                                                   digits.target,
                                                   test_size = 0.25,
                                                   random_state=0)

In [None]:
# Mostramos los datos de entrenamiento
# Matriz con las imágenes de entrenamiento (75% del dataset)
x_train

In [None]:
# Creamos y entrenamos el modelo de Regresión Logística
# max_iter=10000 aumenta las iteraciones para garantizar convergencia en este dataset complejo
from sklearn.linear_model import LogisticRegression

logisticRegr = LogisticRegression(max_iter=10000)
logisticRegr.fit(x_train, y_train)

In [None]:
# Calculamos el tamaño total de elementos en el conjunto de entrenamiento
# 1347 imágenes × 64 píxeles = 86208 elementos totales
x_train.size

In [None]:
# Evaluamos la precisión del modelo en el conjunto de entrenamiento
# Resultado de 1.0 indica ajuste perfecto (posible sobreajuste)
logisticRegr.score(x_train, y_train)

In [None]:
# Evaluamos la precisión del modelo en el conjunto de prueba
# Esta es la métrica más importante - rendimiento en datos no vistos
logisticRegr.score(x_test, y_test)

In [None]:
# Verificamos las clases que el modelo puede predecir
# Debe mostrar los dígitos del 0 al 9
logisticRegr.classes_

### To predict

In [None]:
# Visualizamos las primeras 5 imágenes del conjunto de prueba con sus etiquetas reales
# Esto nos permite ver qué tipo de dígitos estamos intentando predecir
plt.figure(figsize=(20,2))
for index, (image, label) in enumerate(zip(x_test[0:5], y_test[0:5])):
    plt.subplot(1, 5, index + 1)
    plt.title('Test: ' + str(label), fontsize = 20)
    plt.imshow(np.reshape(image, (8,8)), cmap='binary');

In [None]:
# Visualizamos la segunda imagen del conjunto de prueba
# Utilizamos escala de grises para una mejor visualización
first_test_image = x_test[1]
plt.imshow(np.reshape(first_test_image, (8,8)), cmap=plt.cm.gray);

In [None]:
# Mostramos los valores de píxeles de la segunda imagen del conjunto de prueba
# Array de 64 valores que representan las intensidades de los píxeles
x_test[1]

In [None]:
# Extraemos la primera imagen del conjunto de prueba para predicción
# Mantenemos la forma de array 2D (1 muestra × 64 características)
x_test[0:1]

In [None]:
# Predecimos la clase de la segunda imagen del conjunto de prueba
# El modelo retorna el dígito que cree que representa la imagen
logisticRegr.predict(x_test[1:2])

In [None]:
# Visualizamos las primeras 10 imágenes del conjunto de prueba con sus etiquetas
# Esto nos permite comparar visualmente las etiquetas reales con las predicciones
plt.figure(figsize=(20,2))
for index, (image, label) in enumerate(zip(x_test[0:10], y_test[0:10])):
    plt.subplot(1, 10, index + 1)
    plt.title('Test: ' + str(label), fontsize = 20)
    plt.imshow(np.reshape(image, (8,8)), cmap='binary');

In [None]:
# Predecimos las clases para las primeras 10 imágenes del conjunto de prueba
# Retorna un array con las predicciones del modelo
logisticRegr.predict(x_test[:10])

In [None]:
# Mostramos las etiquetas reales de las primeras 10 imágenes
# Podemos compararlas con las predicciones del modelo
y_test[:10]

### Probabilities

In [None]:
# Mostramos la etiqueta real de la segunda imagen del conjunto de prueba
# Para verificar si nuestra predicción fue correcta
y_test[1:2]

In [None]:
# Obtenemos las probabilidades de predicción para la segunda imagen
# Cada posición corresponde a la probabilidad de ser cada dígito (0-9)
# Redondeamos a 2 decimales para mejor legibilidad
np.round(logisticRegr.predict_proba(x_test[1:2])[0],2)

In [None]:
# Encontramos la probabilidad máxima de predicción para la primera imagen
# Esto nos indica qué tan confiado está el modelo en su predicción
max(logisticRegr.predict_proba(x_test[0:1])[0])

In [None]:
# Repetimos las etiquetas reales de las primeras 10 imágenes para comparación
y_test[:10]

In [None]:
# Filtramos y visualizamos una imagen donde la predicción coincide con la etiqueta real
# Esto nos muestra un ejemplo de predicción correcta
pred = x_test[logisticRegr.predict(x_test) == y_test][0]
plt.imshow(pred.reshape(8,8), cmap=plt.cm.gray);

In [None]:
# Verificamos la forma de los coeficientes del modelo entrenado
# 10 filas (una por cada dígito) × 64 columnas (una por cada píxel)
logisticRegr.coef_.shape

### Measuring Model Performance (Digits Dataset)

In [None]:
# Calculamos y mostramos la precisión del modelo en el conjunto de prueba
# Convertimos a porcentaje para mejor interpretación
score = logisticRegr.score(x_test, y_test)
print(score * 100, "%")

### Matriz de confusión

Eje horizontal: falso positivo

Eje vertical: falso negativo

In [None]:
# Calculamos la matriz de confusión para evaluar el rendimiento por clase
# Comparamos las predicciones del modelo con las etiquetas reales
import sklearn.metrics as metrics
predictions = logisticRegr.predict(x_test)
cm = metrics.confusion_matrix(y_test, predictions)
print(cm)

In [None]:
# Visualizamos la matriz de confusión como un mapa de calor
# Facilita la interpretación del rendimiento del modelo por cada dígito
plt.figure(figsize=(8,8))
sns.heatmap(cm, annot=True, linewidths=.5, square = True, cmap = 'Blues_r')
plt.ylabel('Actual label')  # Etiqueta del eje Y
plt.xlabel('Predicted label')  # Etiqueta del eje X
all_sample_title = 'Accuracy Score: {0}'.format(score)  # Título con la precisión
plt.title(all_sample_title, size = 15);

In [None]:
# Creamos una matriz de confusión normalizada (en proporciones)
# normalize='true' convierte los conteos a porcentajes por fila
sns.heatmap(metrics.confusion_matrix(y_test, predictions, normalize='true'), annot=True)

In [None]:
# Calculamos matrices de confusión multilabel
# Genera una matriz de confusión binaria para cada clase (dígito)
from sklearn.metrics import multilabel_confusion_matrix

multilabel_confusion_matrix(y_test, predictions)

In [None]:
# Importamos la función para generar reportes de clasificación detallados
from sklearn.metrics import classification_report

In [None]:
# Generamos un reporte completo de clasificación
# Incluye precision, recall, f1-score y support para cada dígito
print(classification_report(y_test, predictions))

In [None]:
# Experimentamos con regularización L2 y parámetro C=1
# C controla la fuerza de regularización (valores menores = más regularización)
logisticRegr = LogisticRegression(max_iter=10000, penalty='l2', C=1)
logisticRegr.fit(x_train, y_train)

In [None]:
# Evaluamos el rendimiento con C=1
# Comparamos precisión en entrenamiento vs prueba para detectar sobreajuste
print(logisticRegr.score(x_train, y_train))
print(logisticRegr.score(x_test, y_test))

In [None]:
# Probamos con mayor regularización (C=0.01) y (Ridge)
# Más regularización puede reducir el sobreajuste pero también la precisión
logisticRegr = LogisticRegression(max_iter=10000, penalty='l2', C=0.01) 
logisticRegr.fit(x_train, y_train)

In [None]:
# Evaluamos el rendimiento con C=0.01
# Observamos si mejora la generalización (menor diferencia entre train y test)
print(logisticRegr.score(x_train, y_train))
print(logisticRegr.score(x_test, y_test))

In [None]:
# Experimentamos con regularización muy fuerte (C=0.0001)
# Esto podría causar subajuste (underfitting)
logisticRegr = LogisticRegression(max_iter=10000, penalty='l2', C=0.0001)
logisticRegr.fit(x_train, y_train)

In [None]:
# Evaluamos el rendimiento con regularización muy fuerte
# Esperamos ver precisión reducida tanto en train como test
print(logisticRegr.score(x_train, y_train))
print(logisticRegr.score(x_test, y_test))

In [None]:
# Probamos con muy poca regularización (C=100000)
# Valores altos de C permiten mayor flexibilidad del modelo
logisticRegr = LogisticRegression(max_iter=10000, penalty='l2', C=100000)
logisticRegr.fit(x_train, y_train)

In [None]:
# Evaluamos el rendimiento con poca regularización
# Podría mostrar sobreajuste si hay gran diferencia entre train y test
print(logisticRegr.score(x_train, y_train))
print(logisticRegr.score(x_test, y_test))

In [None]:
# Comparamos con Random Forest como algoritmo alternativo
# Random Forest suele tener buen rendimiento en tareas de clasificación de imágenes
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(max_depth=12)  # Limitamos la profundidad para evitar sobreajuste
rf.fit(x_train, y_train)  # Entrenamos el modelo
y_pred = rf.predict(x_test)  # Hacemos predicciones

# Evaluamos el rendimiento
print("accuracy", rf.score(x_test, y_test))
print("confusion_matrix\n", metrics.confusion_matrix(y_test, y_pred))

**Interpretación de los resultados del modelo Random Forest (clasificación de dígitos 0–9)**

**Resultados:**
- **Accuracy:** 0.98 → El modelo clasifica correctamente el **98% de los dígitos**, lo que indica un rendimiento excelente.  
- **Matriz de confusión:**  
  La mayoría de los valores se concentran en la diagonal principal, lo que significa que casi todos los dígitos fueron reconocidos correctamente.

**Análisis detallado:**
- Los dígitos **0, 6, 7, 8 y 9** fueron clasificados correctamente en casi todos los casos, sin errores relevantes.  
- El dígito **1** tuvo un solo error, confundido con el dígito **5**.  
- El dígito **2** fue confundido una vez con **0** y una vez con **3**.  
- El dígito **3** tuvo un error leve, confundido con **8**.  
- El dígito **4** se confundió una vez con **7**.  
- El dígito **5** tuvo un error mínimo, confundido con **9**.  
- En general, las confusiones son **muy pocas y esporádicas**, lo que refleja un modelo bien ajustado.

**Conclusión:**
El modelo **Random Forest** logra un desempeño **muy alto (98% de acierto)**, mostrando una capacidad excelente para distinguir los dígitos del 0 al 9.  
Los errores que aparecen se dan entre números visualmente similares, lo cual es esperable en este tipo de tarea.  
El modelo generaliza bien y **no presenta signos de sobreajuste significativos**, especialmente considerando que la profundidad de los árboles fue limitada a 12.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import metrics

# Calculamos la matriz de confusión
cm = metrics.confusion_matrix(y_test, y_pred)

# Creamos la figura
plt.figure(figsize=(8, 6))

# Dibujamos el mapa de calor
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=range(10), yticklabels=range(10))

# Etiquetas y título
plt.xlabel('Etiqueta Predicha')
plt.ylabel('Etiqueta Real')
plt.title('Matriz de Confusión - Random Forest (Clasificación de Dígitos)')

# Mostramos la gráfica
plt.show()


In [None]:
# Analizamos la importancia de características (feature importance) del Random Forest
# Reorganizamos como matriz 8x8 para visualizar qué píxeles son más importantes
# Redondeamos a 2 decimales para mejor legibilidad
np.round(rf.feature_importances_,2).reshape(8,8)