In [None]:
# Cargar conjunto de datos.
from sklearn import datasets
digits = datasets.load_digits()

In [None]:
# Verificar el formato de los datos.
X, y = digits.data, digits.target
print(X.shape)
print(y.shape)

In [None]:
%matplotlib inline
# La imagen original del dígito ha sido aplanada, por lo que la
volvemos a dar forma a su forma original
# Verificar la dimensionalidad de los datos, por ejemplo, el primer
elemento en el conjunto de datos X[0]
print(X[0].shape)
print(X[0])
# Reajustar a 8x8 para recuperar la imagen original
print(X[0].reshape((8,8)))

In [None]:
# Importar la biblioteca matplotlib para la visualización.
import matplotlib.pyplot as plt
# Mostrar la imagen del séptimo dígito en el conjunto de datos.
# Primero, reajustamos los datos del dígito a su forma original de 8x8
píxeles.
# Utilizamos 'cmap="gray"' para mostrar la imagen en escala de grises.
# El parámetro 'interpolation="nearest"' asegura que la imagen no sea
suavizada.
plt.imshow(X[6].reshape((8,8)), cmap="gray", interpolation="nearest")

In [None]:
# Importar la biblioteca matplotlib para la visualización.
import matplotlib.pyplot as plt
# Crear una figura con una cuadrícula de subplots de 8 filas por 12
columnas.
fig, ax = plt.subplots(8, 12, subplot_kw={'xticks':[], 'yticks':[]})
# Iterar sobre cada subplot en la cuadrícula.
for i in range(ax.size):
 # Mostrar la imagen del dígito en la posición 'i' en el conjunto
de datos.
 # Primero, reajustamos los datos del dígito a su forma original de
8x8 píxeles.
 # Utilizamos 'cmap=plt.cm.binary' para mostrar la imagen en una
escala de grises binaria.
 ax.flat[i].imshow(digits.data[i].reshape(8, 8),
cmap=plt.cm.binary)
# Ajustar el tamaño de la figura para que sea de 10 pulgadas de ancho
y 6 pulgadas de alto.
fig.set_size_inches((10, 6))

# **Implementación de SVM**

In [None]:
# Importar las bibliotecas necesarias
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import matplotlib.pyplot as plt
import numpy as np
# Cargar el conjunto de datos Iris
iris = load_iris()
X0_svm = iris.data[:, :2] # Usar solo las dos primeras
características para graficar
y0_svm = iris.target
# Dividir en conjunto de entrenamiento y prueba
X_train_svm, X_test_svm, y_train_svm, y_test_svm =
train_test_split(X0_svm, y0_svm, test_size=0.3, random_state=42)
# Entrenar un modelo SVM con kernel RBF
svm_model = SVC(kernel='rbf', C=1, gamma=0.1, probability=True)
svm_model.fit(X_train_svm, y_train_svm)
# Visualizar el espacio de decisión
h_svm = 0.02
x_min_svm, x_max_svm = X0_svm[:, 0].min() - 1, X0_svm[:, 0].max() + 1
y_min_svm, y_max_svm = X0_svm[:, 1].min() - 1, X0_svm[:, 1].max() + 1
xx_svm, yy_svm = np.meshgrid(np.arange(x_min_svm, x_max_svm, h_svm),
np.arange(y_min_svm, y_max_svm, h_svm))
Z_svm = svm_model.predict(np.c_[xx_svm.ravel(), yy_svm.ravel()])
Z_svm = Z_svm.reshape(xx_svm.shape)
plt.figure(figsize=(8, 6))
plt.contourf(xx_svm, yy_svm, Z_svm, alpha=0.8, cmap='viridis')
plt.scatter(X_test_svm[:, 0], X_test_svm[:, 1], c=y_test_svm,
edgecolor='k', cmap='viridis')
plt.title("Clasificación con SVM (kernel RBF)")
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.show()

## Evaluación del Modelo
Es importante evaluar el rendimiento de la SVM utilizando métricas estándar. Las métricas
comunes incluyen **Precisión, Recall, F1-Score, y la Matriz de Confusión**. Estas métricas se
derivan de los siguientes términos fundamentales:
Términos Fundamentales
1. Verdaderos Positivos (TP):
- Cantidad de ejemplos positivos que el modelo clasifica correctamente como
positivos.
2. Falsos Positivos (FP):
- Cantidad de ejemplos negativos que el modelo clasifica incorrectamente como
positivos.
3. Verdaderos Negativos (TN):
- Cantidad de ejemplos negativos que el modelo clasifica correctamente como
negativos.
4. Falsos Negativos (FN):
- Cantidad de ejemplos positivos que el modelo clasifica incorrectamente como
negativos.



In [None]:
from sklearn.metrics import classification_report, confusion_matrix,
roc_auc_score
from sklearn.preprocessing import LabelBinarizer
# Predicciones
y_pred_svm = svm_model.predict(X_test_svm)
# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test_svm, y_pred_svm))
# Matriz de confusión
cm_svm = confusion_matrix(y_test_svm, y_pred_svm)
print("Matriz de Confusión:")
print(cm_svm)
# AUC para cada clase (utilizando One-vs-Rest)
lb_svm = LabelBinarizer()
y_test_bin_svm = lb_svm.fit_transform(y_test_svm) # Convertir las
etiquetas de clase a formato binario
y_pred_prob_svm = svm_model.predict_proba(X_test_svm) # Obtener las
probabilidades de predicción
# Calcular el AUC para cada clase
auc_scores_svm = []
for i in range(y_test_bin_svm.shape[1]):
 auc_svm = roc_auc_score(y_test_bin_svm[:, i], y_pred_prob_svm[:,
i])
 auc_scores_svm.append(auc_svm)
# Mostrar AUC para cada clase
for i, auc_svm in enumerate(auc_scores_svm):
 print(f"AUC para la clase {i}: {auc_svm}")

## Área Bajo la Curva ROC (AUC)

In [None]:
from sklearn.model_selection import GridSearchCV
# Definir el espacio de búsqueda
param_grid_svm = {
 'C': [0.1, 1, 10, 100],
 'gamma': [1, 0.1, 0.01, 0.001],
 'kernel': ['rbf']
}
# Búsqueda en cuadrícula
grid_svm = GridSearchCV(SVC(), param_grid_svm, refit=True, verbose=2,
cv=5)
grid_svm.fit(X_train_svm, y_train_svm)
print("Mejores parámetros:", grid_svm.best_params_)

Optimización Visual: Búsqueda de Kernel

In [None]:
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
for kernel in kernels:
 svm_model = SVC(kernel=kernel, C=1, gamma='scale')
 svm_model.fit(X_train_svm, y_train_svm)
 score = svm_model.score(X_test_svm, y_test_svm)
 print(f"Kernel: {kernel}, Precisión: {score}")

## Clasificador K-Nearest Neighbors (KNN) con k=10


In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import numpy as np
import matplotlib.pyplot as plt
# Cargar el conjunto de datos Iris
# El conjunto de datos Iris tiene 150 muestras de 3 clases, con 4
características.
iris_knn = load_iris()
X0_knn = iris_knn.data[:, :2] # Tomamos solo las dos primeras
características para facilitar la visualización 2D
y0_knn = iris_knn.target
# Dividir en conjunto de entrenamiento y prueba
# test_size: Proporción del conjunto de prueba (30% de las muestras se
utilizan para pruebas).
# random_state: Aleatoriedad para asegurar divisiones reproducibles.
X_train_knn, X_test_knn, y_train_knn, y_test_knn =
train_test_split(X0_knn, y0_knn, test_size=0.3, random_state=42)
# Entrenar el clasificador KNN
# n_neighbors: Número de vecinos a considerar (k=10 en este caso).
knn_model = KNeighborsClassifier(n_neighbors=10)
knn_model.fit(X_train_knn, y_train_knn)
# Visualizar los resultados
# Configurar el espacio de la gráfica
h_knn = 0.02 # Tamaño del paso en la malla.
x_min_knn, x_max_knn = X0_knn[:, 0].min() - 1, X0_knn[:, 0].max() + 1
# Rango de valores para la característica 1.
y_min_knn, y_max_knn = X0_knn[:, 1].min() - 1, X0_knn[:, 1].max() + 1
# Rango de valores para la característica 2.
# Crear una malla de puntos para predecir sus etiquetas
xx_knn, yy_knn = np.meshgrid(np.arange(x_min_knn, x_max_knn, h_knn),
np.arange(y_min_knn, y_max_knn, h_knn))
Z_knn = knn_model.predict(np.c_[xx_knn.ravel(), yy_knn.ravel()]) #
Predecir para cada punto de la malla.
Z_knn = Z_knn.reshape(xx_knn.shape) # Dar forma a las predicciones
para que coincidan con la malla.
# Graficar el resultado
plt.figure(figsize=(8, 6))
plt.contourf(xx_knn, yy_knn, Z_knn, alpha=0.8, cmap='viridis') #
Fondo que indica la clasificación predicha.
plt.scatter(X_test_knn[:, 0], X_test_knn[:, 1], c=y_test_knn,
edgecolor='k', cmap='viridis') # Puntos del conjunto de prueba.
plt.title("Clasificación con KNN ($k=10$)")
plt.xlabel("Característica 1")
plt.ylabel("Característica 2")
plt.show()

Evaluación del Modelo


In [None]:
from sklearn.metrics import classification_report, confusion_matrix,
roc_auc_score
from sklearn.preprocessing import LabelBinarizer
# Predicciones
y_pred_knn = knn_model.predict(X_test_knn)
# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test_knn, y_pred_knn))
# Matriz de confusión
cm_knn = confusion_matrix(y_test_knn, y_pred_knn)
print("Matriz de Confusión:")
print(cm_knn)
# AUC para cada clase (utilizando One-vs-Rest)
lb_knn = LabelBinarizer()
y_test_bin_knn = lb_knn.fit_transform(y_test_knn) # Convertir las
etiquetas de clase a formato binario
y_pred_prob_knn = knn_model.predict_proba(X_test_knn) # Obtener las
probabilidades de predicción
# Calcular el AUC para cada clase
auc_scores_knn = []
for i in range(y_test_bin_knn.shape[1]):
 auc = roc_auc_score(y_test_bin_knn[:, i], y_pred_prob_knn[:, i])
 auc_scores_knn.append(auc)
# Mostrar AUC para cada clase
for i, auc in enumerate(auc_scores_knn):
 print(f"AUC para la clase {i}: {auc}")

### **Optimización de k**

1. Validación Cruzada:
 - Probar diferentes valores de k usando validación cruzada y seleccionar el que
maximice la precisión promedio.
2. Regla General:
 - Un valor común es √n, donde n es el número de muestras en el conjunto de
entrenamiento.




In [None]:
from sklearn.model_selection import cross_val_score
import numpy as np
# Probar diferentes valores de k
k_values_knn = range(1, 20)
accuracies_knn = []
for k_knn in k_values_knn:
 knn_model = KNeighborsClassifier(n_neighbors=k_knn)
 scores_knn = cross_val_score(knn_model, X_train_knn, y_train_knn,
cv=5)
 accuracies_knn.append(scores_knn.mean())
# Graficar la precisión promedio para diferentes valores de k
plt.figure(figsize=(8, 6))
plt.plot(k_values_knn, accuracies_knn, marker='o')
plt.title("Optimización del parámetro $k$")
plt.xlabel("Número de vecinos ($k$)")
plt.ylabel("Precisión promedio")
plt.show()

Pasos del Algoritmo KNN

In [None]:
# Importar el módulo de vecinos (neighbors) de scikit-learn, que
contiene algoritmos para clasificación y regresión basados en vecinos
más cercanos.
from sklearn import neighbors
# Crear una instancia del clasificador K-Nearest Neighbors (KNN) con
k=10 vecinos.
knn = neighbors.KNeighborsClassifier(n_neighbors=10)
# Entrenar el clasificador KNN utilizando el método fit(), que ajusta
el modelo según los datos de entrenamiento X y las etiquetas y.
knn.fit(X, y)
KNeighborsClassifier(n_neighbors=10)

In [None]:
# Importar el módulo pickle, que se utiliza para serializar y
deserializar objetos de Python.
import pickle
# Abrir un archivo en modo escritura binaria ('wb') para guardar el
clasificador.
ofname = open('my_classifier.pkl', 'wb')
# Serializar el clasificador KNN y guardarlo en el archivo.
s = pickle.dump(knn, ofname)
# Cerrar el archivo para asegurarse de que los datos se escriben
correctamente.
ofname.close()
# Imprimir el resultado de la operación de dump (debería ser None).
print(s)
# Limpiar el espacio de nombres de la sesión actual.
%reset -f

In [None]:
# Importar los módulos necesarios
from sklearn import neighbors
from sklearn import datasets
import pickle
# Abrir el archivo 'my_classifier.pkl' en modo lectura binaria ('rb')
para cargar el modelo guardado.
ofname = open('my_classifier.pkl', 'rb')
# Cargar el conjunto de datos de dígitos de sklearn para utilizarlo en
la evaluación del modelo.
digits = datasets.load_digits()
X = digits.data # Cargar las características (imágenes aplanadas de
los dígitos)
# Cargar el modelo KNN previamente guardado en el archivo
'my_classifier.pkl'.
knn = pickle.load(ofname)
# Cerrar el archivo después de cargar el modelo para liberar recursos.
ofname.close()
# Ahora puedes utilizar el modelo cargado (knn) para hacer
predicciones o evaluaciones.
# Calcular la predicción utilizando el modelo KNN cargado.
# Aquí estamos prediciendo el dígito correspondiente a la primera
imagen en el conjunto de datos.
print(knn.predict(X[0,:].reshape(1, -1)))
# Obtener las etiquetas (valores objetivo) del conjunto de datos.
y = digits.target
y
# Calcular las predicciones para todo el conjunto de datos X
utilizando el modelo KNN cargado.
y_pred = knn.predict(X)
y_pred

In [None]:
# Calcular el rendimiento del modelo KNN en el conjunto de
entrenamiento.
# ¡SI SABES LO QUE ESTÁS HACIENDO, NUNCA DEBES HACER ESTO DE NUEVO!
knn.score(X, y)
0.9855314412910406

## Clasificador de Árbol de Decisión

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt
# Cargar el conjunto de datos Iris
iris_dtc = load_iris()
X0_dtc = iris_dtc.data
y0_dtc = iris_dtc.target
# Dividir los datos en conjunto de entrenamiento y prueba
X_train_dtc, X_test_dtc, y_train_dtc, y_test_dtc =
train_test_split(X0_dtc, y0_dtc, test_size=0.3, random_state=42)
# Entrenar el modelo de árbol de decisión
dtc_model = DecisionTreeClassifier(random_state=42)
dtc_model.fit(X_train_dtc, y_train_dtc)
# Visualizar el árbol de decisión
plt.figure(figsize=(12, 8))
plot_tree(dtc_model, filled=True,
feature_names=iris_dtc.feature_names,
class_names=iris_dtc.target_names)
plt.title("Árbol de Decisión para el Conjunto de Datos Iris")
plt.show()

Evaluación del Modelo

In [None]:
from sklearn.metrics import classification_report, confusion_matrix,
roc_auc_score
from sklearn.preprocessing import LabelBinarizer
# Predicciones
y_pred_dtc = dtc_model.predict(X_test_dtc)
# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test_dtc, y_pred_dtc))
# Matriz de confusión
cm_dtc = confusion_matrix(y_test_dtc, y_pred_dtc)
print("Matriz de Confusión:")
print(cm_dtc)
# AUC para cada clase (utilizando One-vs-Rest)
lb_dtc = LabelBinarizer()
y_test_bin_dtc = lb_dtc.fit_transform(y_test_dtc) # Convertir las
etiquetas de clase a formato binario
y_pred_prob_dtc = dtc_model.predict_proba(X_test_dtc) # Obtener las
probabilidades de predicción
# Calcular el AUC para cada clase
auc_scores_dtc = []
for i in range(y_test_bin_dtc.shape[1]):
 auc = roc_auc_score(y_test_bin_dtc[:, i], y_pred_prob_dtc[:, i])
 auc_scores_dtc.append(auc)
# Mostrar AUC para cada clase
for i, auc in enumerate(auc_scores_dtc):
 print(f"AUC para la clase {i}: {auc}")

Optimización del Árbol de Decisión

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix,
roc_auc_score
from sklearn.preprocessing import LabelBinarizer
from sklearn.tree import DecisionTreeClassifier
# Definir los hiperparámetros a ajustar
param_grid_dtc = {
 'max_depth': [3, 5, 7, 10],
 'min_samples_split': [2, 5, 10],
 'min_samples_leaf': [1, 2, 4]
}
# Realizar búsqueda en cuadrícula con validación cruzada
grid_search_dtc =
GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid_dtc,
cv=5)
grid_search_dtc.fit(X_train_dtc, y_train_dtc)
# Mejor conjunto de hiperparámetros
print(f"Mejores hiperparámetros: {grid_search_dtc.best_params_}")
# Evaluar el modelo con los mejores parámetros
best_clf_dtc = grid_search_dtc.best_estimator_
y_pred_best_dtc = best_clf_dtc.predict(X_test_dtc)

# Reporte de clasificación
print("Reporte de clasificación:")
print(classification_report(y_test_dtc, y_pred_best_dtc))
# Matriz de confusión
cm_dtc = confusion_matrix(y_test_dtc, y_pred_best_dtc)
print("Matriz de Confusión:")
print(cm_dtc)
# AUC para cada clase (utilizando One-vs-Rest)
lb_dtc = LabelBinarizer()
y_test_bin_dtc = lb_dtc.fit_transform(y_test_dtc) # Convertir las
etiquetas de clase a formato binario
y_pred_prob_dtc = best_clf_dtc.predict_proba(X_test_dtc) # Obtener
las probabilidades de predicción
# Calcular el AUC para cada clase
auc_scores_dtc = []
for i in range(y_test_bin_dtc.shape[1]):
 auc = roc_auc_score(y_test_bin_dtc[:, i], y_pred_prob_dtc[:, i])
 auc_scores_dtc.append(auc)
# Mostrar AUC para cada clase
for i, auc in enumerate(auc_scores_dtc):
 print(f"AUC para la clase {i}: {auc}")

In [None]:
# EJERCICIO: Llena esta celda con la solución al ejercicio.
# Importar el conjunto de datos de dígitos desde sklearn
from sklearn import datasets
data = datasets.load_digits()
X, y = data.data, data.target # Cargar características (X) y
etiquetas (y)
# Importar los clasificadores KNN y Árbol de Decisión desde sklearn
from sklearn import neighbors
from sklearn import tree
## LLENA EL RESTO CON EL CÓDIGO DEL EJERCICIO
# Crear un clasificador KNN con k=5 vecinos
knn = neighbors.KNeighborsClassifier(n_neighbors=5)
knn.fit(X, y) # Entrenar el clasificador KNN con los datos de
entrenamiento
# Calcular y mostrar el rendimiento del modelo KNN en el conjunto de
entrenamiento
score_knn = knn.score(X, y)
print(f"Rendimiento del modelo KNN en el conjunto de entrenamiento:
{score_knn:.4f}")
# Calcular predicciones utilizando el modelo KNN para comparar con los
valores originales
y_pred_knn = knn.predict(X)
# Mostrar algunos ejemplos de comparación entre valores originales y
predicciones por KNN
print("\nEjemplos de comparación (valor original vs. predicción por
KNN):")
for i in range(10): # Mostrar los primeros 10 ejemplos
 print(f"Valor original: {y[i]}, Predicción KNN: {y_pred_knn[i]}")

In [None]:
#import os
#!pip3 install graphviz pydotplus
# Crear un clasificador de árbol de decisión
clf_tree = tree.DecisionTreeClassifier()
clf_tree.fit(X, y) # Entrenar el clasificador de árbol de decisión
con los datos de entrenamiento
# Calcular y mostrar el rendimiento del modelo de árbol de decisión en
el conjunto de entrenamiento
score_tree = clf_tree.score(X, y)
print(f"Rendimiento del modelo de árbol de decisión en el conjunto de
entrenamiento: {score_tree:.4f}")
# Calcular predicciones utilizando el modelo de árbol de decisión para
comparar con los valores originales
y_pred_tree = clf_tree.predict(X)
# Mostrar algunos ejemplos de comparación entre valores originales y
predicciones por árbol de decisión
print("\nEjemplos de comparación (valor original vs. predicción por
Árbol de Decisión):")
for i in range(10): # Mostrar los primeros 10 ejemplos
 print(f"Valor o

In [None]:
from skimage import io
import numpy as np
# Seleccionar el octavo dígito en el conjunto de datos y remodelarlo a
su forma original 8x8
tmp = X[7].reshape((8, 8))
# Visualizar el dígito original
print("Dígito Original:")
# Normalizar la imagen y convertir a uint8 para evitar la advertencia
normalized_image = ((tmp - tmp.min()) / (tmp.max() - tmp.min()) *
255).astype(np.uint8)
io.imshow(normalized_image) # Ahora la imagen está en el rango
correcto
io.show()
# Visualizar el espejo horizontal del dígito original
print("Espejo Horizontal del Dígito:")
# Normalizar el espejo horizontal y convertir a uint8
normalized_image_mirror = (((tmp[:, ::-1]) - tmp.min()) / (tmp.max() -
tmp.min()) * 255).astype(np.uint8)
io.imshow(normalized_image_mirror) # Imagen normalizada y convertida
a uint8
io.show()

Cálculo de Nuevas Características:

In [None]:
import numpy as np
# Inicializar un arreglo para contener las nuevas características para
cada imagen.
Xnew = np.zeros((y.shape[0], 3))
for i in range(y.shape[0]):
 area = sum(X[i]) # Calcular la característica de área.
 tmp = X[i].reshape((8, 8))

 # Calcular simetría horizontal multiplicando la imagen por su
espejo horizontal.
 symH = tmp * tmp[:, ::-1]

 # Calcular simetría vertical multiplicando la imagen por su espejo vertical.
 symV = tmp * tmp[::-1, :]

 # Almacenar las características calculadas en Xnew.
 Xnew[i, :] = [sum(symH.flatten()), area, sum(symV.flatten())]
# Imprimir las nuevas características y su forma.
print("Nuevas características calculadas:")
print(Xnew)
print("Forma de Xnew:", Xnew.shape)

In [None]:
# Guardar este conjunto de datos para uso posterior
import pickle
# Abrir un archivo en modo binario para escritura
ofname = open('my_digits_data.pkl', 'wb')
# Utilizar pickle para serializar y guardar los datos Xnew y y en el
archivo
s = pickle.dump([Xnew, y], ofname)
# Cerrar el archivo después de guardar
ofname.close()
# Imprimir un mensaje indicando que el guardado ha terminado
print('DONE')

In [None]:
import matplotlib.pyplot as plt
# Encontrar los índices de los dígitos 0 y 6 en las etiquetas y
idxA = y == 0
idxB = y == 6
# Elegir qué características trazar (seleccionar las columnas
correspondientes en Xnew)
feature1 = 1
feature2 = 2
# Graficar las características para los dígitos 0 y 6
plt.figure()
plt.scatter(Xnew[idxA, feature1], Xnew[idxA, feature2], c='blue',
alpha=0.2, label='Digit 0')
plt.scatter(Xnew[idxB, feature1], Xnew[idxB, feature2], c='red',
alpha=0.2, label='Digit 6')
plt.xlabel(f'Feature {feature1}')
plt.ylabel(f'Feature {feature2}')
plt.legend()
plt.title(f'Gráfico de dispersión de las características {feature1} vs
{feature2}')
plt.show()

Medición de rendimiento

In [None]:
import matplotlib.pyplot as plt
from sklearn import metrics
import numpy as np
def plot_confusion_matrix(y, y_pred):
 # Generar la matriz de confusión
 cm = metrics.confusion_matrix(y, y_pred)

 # Configurar la figura y el tamaño
 plt.figure(figsize=(8, 6))

 # Mostrar la matriz de confusión como una imagen de colores
 plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues)
 plt.title('Matriz de Confusión')
 plt.colorbar() # Mostrar la barra de colores que representa los
valores

 # Configurar etiquetas de los ejes x e y
 classes = np.unique(y)
 tick_marks = np.arange(len(classes))
 plt.xticks(tick_marks, classes, rotation=45)
 plt.yticks(tick_marks, classes)

 # Agregar números como anotaciones de texto en cada celda
 threshold = cm.max() / 2. # Umbral para decidir el color del
texto
 for i, j in np.ndindex(cm.shape):
 plt.text(j, i, format(cm[i, j], 'd'),
 horizontalalignment="center",
 color="white" if cm[i, j] > threshold else "black")

 # Ajustar el diseño para mejorar la legibilidad
 plt.tight_layout()

 # Etiquetas de los ejes y título
 plt.ylabel('Etiqueta Verdadera')
 plt.xlabel('Etiqueta Predicha')
# Ejemplo de uso (suponiendo que y e y_pred están definidos en otra
parte del código)
# y e y_pred son las etiquetas verdaderas y predichas, respectivamente
# Métrica de precisión de clasificación
print("Precisión de clasificación:", metrics.accuracy_score(y,
y_pred))
# Llamar a la función para graficar la matriz de confusión
plot_confusion_matrix(y, y_pred)
# Mostrar el gráfico
plt.show()

In [None]:
from sklearn import neighbors
from sklearn import metrics
# Crear una instancia del clasificador KNeighborsClassifier con 1
vecino.
knn = neighbors.KNeighborsClassifier(n_neighbors=1)
# Entrenar el clasificador en el conjunto de datos.
knn.fit(Xnew, y)
# Realizar predicciones en el conjunto de datos utilizando el modelo
entrenado.
yhat = knn.predict(Xnew)
# Imprimir la precisión de clasificación del modelo.
print("Precisión de clasificación:", metrics.accuracy_score(yhat, y))
# Graficar la matriz de confusión para las etiquetas verdaderas y las
etiquetas predichas.
plot_confusion_matrix(y, yhat)
# Nota: El modelo con características (Xnew) se utiliza aquí en lugar
del conjunto de datos original,
# lo que indica que se han aplicado pasos de preprocesamiento o
técnicas de extracción de características al conjunto de datos
original.

In [None]:
# Resetear el espacio de trabajo para asegurar un entorno limpio
%reset -f
# Cargar el conjunto de datos de dígitos desde un archivo pickle
import pickle
# Abrir el archivo que contiene el conjunto de datos
with open('my_digits_data.pkl', 'rb') as ofname:
  # Cargar el conjunto de datos desde el archivo
 data = pickle.load(ofname)
 # Asignar características a X y etiquetas de destino a y
 X, y = data[0], data[1]
# Preparar el conjunto de datos para una simulación realista:
aleatorizarlo y dividirlo en subconjuntos de entrenamiento y prueba
import numpy as np
# Permutar aleatoriamente una secuencia de índices basada en el tamaño
de y
perm = np.random.permutation(y.size)
# Definir la proporción del conjunto de datos para asignar al
entrenamiento
PRC = 0.7
# Calcular el punto de división para dividir el conjunto de datos
split_point = int(np.ceil(y.shape[0] * PRC))
# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
basados en el punto de división calculado
X_train = X[perm[:split_point]]
y_train = y[perm[:split_point]]
X_test = X[perm[split_point:]]
y_test = y[perm[split_point:]]
# Imprimir las formas de los conjuntos de entrenamiento y prueba para
verificar
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)
# Entrenar un clasificador de Vecinos Más Cercanos (K-Nearest
Neighbors) en los datos de entrenamiento
from sklearn import neighbors
# Inicializar el clasificador con 1 vecino para simplicidad
knn = neighbors.KNeighborsClassifier(n_neighbors=1)
# Ajustar el clasificador a los datos de entrenamiento
knn.fit(X_train, y_train)
# Predecir las etiquetas para el conjunto de entrenamiento y evaluar
el rendimiento
yhat = knn.predict(X_train)
# Importar las bibliotecas necesarias para la evaluación del
rendimiento
from sklearn import metrics
import matplotlib.pyplot as plt
# Imprimir estadísticas de entrenamiento
print("\nESTADÍSTICAS DE ENTRENAMIENTO:")
print("Precisión de clasificación:", metrics.accuracy_score(yhat,
y_train))
# Visualizar la matriz de confusión
def plot_confusion_matrix(cm, classes, title='Matriz de Confusión',
cmap=plt.cm.Blues):
 # Configurar la figura y el tamaño
 plt.figure(figsize=(8, 6))
 plt.imshow(cm, interpolation='nearest', cmap=cmap)
 plt.title(title)
 plt.colorbar()
 tick_marks = np.arange(len(classes))
 plt.xticks(tick_marks, classes, rotation=45)
 plt.yticks(tick_marks, classes)
 fmt = 'd'
 thresh = cm.max() / 2.
 for i, j in np.ndindex(cm.shape):
 plt.text(j, i, format(cm[i, j], fmt),
 horizontalalignment="center",
 color="white" if cm[i, j] > thresh else "black")
 plt.tight_layout()
 plt.ylabel('Etiqueta Verdadera')
 plt.xlabel('Etiqueta Predicha')
 plt.show()
# Generar la matriz de confusión a partir de las predicciones de los
datos de entrenamiento
cm = metrics.confusion_matrix(y_train, yhat)
# Llamar a la función para graficar la matriz de confusión mejorada
plot_confusion_matrix(cm, classes=np.unique(y_train), title="Matriz de
Confusión del Entrenamiento")

In [None]:
# Predecir las etiquetas para el conjunto de prueba para evaluar el
rendimiento
yhat = knn.predict(X_test)
# Importar las bibliotecas necesarias para la evaluación del
rendimiento
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np
# Imprimir estadísticas de prueba
print("ESTADÍSTICAS DE PRUEBA:")
print("Precisión de clasificación:", metrics.accuracy_score(yhat,
y_test))
# Función para graficar la matriz de confusión con números para mayor claridad
def plot_confusion_matrix_with_numbers(cm, title='Matriz de
Confusión', cmap=plt.cm.Blues):
 """
 Esta función grafica una matriz de confusión con los conteos
reales mostrados en la matriz para una mejor claridad.
 """
 plt.figure(figsize=(8, 6))
 plt.imshow(cm, interpolation='nearest', cmap=cmap)
 plt.title(title)
 plt.colorbar()
 tick_marks = np.arange(len(np.unique(y_test)))
 plt.xticks(tick_marks, np.unique(y_test), rotation=45)
 plt.yticks(tick_marks, np.unique(y_test))
 # Iterar sobre las dimensiones de los datos y crear anotaciones de
texto.
 fmt = 'd' # Formato como entero decimal
 thresh = cm.max() / 2. # Umbral para el color del texto basado en
el fondo
 for i, j in np.ndindex(cm.shape):
 plt.text(j, i, format(cm[i, j], fmt),
 horizontalalignment="center",
 color="white" if cm[i, j] > thresh else "black")
 plt.tight_layout()
 plt.ylabel('Etiqueta Verdadera')
 plt.xlabel('Etiqueta Predicha')
# Generar la matriz de confusión a partir de las predicciones de los
datos de prueba
cm_test = metrics.confusion_matrix(y_test, yhat)
# Graficar la matriz de confusión mejorada con números para los datos
de prueba
plot_confusion_matrix_with_numbers(cm_test, "Matriz de Confusión de
Prueba")
plt.show()

**Entendiendo la Variabilidad en el Rendimiento del Modelo**

In [None]:
from sklearn import model_selection, neighbors, metrics
import numpy as np
# Definir el tamaño del conjunto de prueba (proporción)
PRC = 0.3
# Crear un arreglo para almacenar las precisiones de clasificación
obtenidas en cada repetición
acc = np.zeros((10,))
# Realizar 10 repeticiones del proceso de división y evaluación
for i in range(10):
 # Dividir el conjunto de datos en conjuntos de entrenamiento y
prueba de manera aleatoria
 X_train, X_test, y_train, y_test =
model_selection.train_test_split(X, y, test_size=PRC, random_state=42)

 # Inicializar el clasificador KNN con 1 vecino
 knn = neighbors.KNeighborsClassifier(n_neighbors=1)

 # Entrenar el clasificador en el conjunto de entrenamiento
 knn.fit(X_train, y_train)
 # Predecir las etiquetas para el conjunto de prueba
 yhat = knn.predict(X_test)

 # Calcular la precisión de clasificación y almacenarla
 acc[i] = metrics.accuracy_score(yhat, y_test)
# Reorganizar el arreglo de precisión para mostrar los resultados de
manera adecuada
acc.shape = (1, 10)
# Imprimir el error esperado promedio (1 - precisión promedio)
print("Error esperado promedio: " + str(1 - np.mean(acc[0])))

## Selección de Modelo

In [None]:
# Importar las bibliotecas necesarias de sklearn para selección de
modelos, clasificadores y métricas
from sklearn import model_selection
from sklearn import neighbors
from sklearn import tree
from sklearn import svm
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np # Asegurarse de que numpy esté importado para
operaciones con matrices
# Definir la proporción del conjunto de datos a utilizar para pruebas
PRC = 0.1
# Inicializar una matriz para almacenar los resultados de precisión de
cada clasificador a través de las iteraciones
acc_r = np.zeros((10, 4)) # 10 iteraciones, 4 clasificadores
# Repetir el experimento 10 veces para obtener una distribución de
métricas de rendimiento
for i in range(10):
 # Dividir el conjunto de datos en conjuntos de entrenamiento y
prueba utilizando validación cruzada estratificada
 X_train, X_test, y_train, y_test =
model_selection.train_test_split(X, y, test_size=PRC, stratify=y)

 # Inicializar clasificadores con configuraciones específicas
 nn1 = neighbors.KNeighborsClassifier(n_neighbors=1) #
Clasificador 1-Vecino Más Cercano
 nn3 = neighbors.KNeighborsClassifier(n_neighbors=3) #
Clasificador 3-Vecinos Más Cercanos
 svc = svm.SVC() # Clasificador SVM (Support Vector Machine)
 dt = tree.DecisionTreeClassifier() # Clasificador Árbol de
Decisión

 # Entrenar cada clasificador con el conjunto de entrenamiento
 nn1.fit(X_train, y_train)
 nn3.fit(X_train, y_train)
 svc.fit(X_train, y_train)
 dt.fit(X_train, y_train)

 # Predecir las etiquetas para el conjunto de prueba usando cada
clasificador entrenado
 yhat_nn1 = nn1.predict(X_test)
 yhat_nn3 = nn3.predict(X_test)
 yhat_svc = svc.predict(X_test)
 yhat_dt = dt.predict(X_test)

 # Calcular y almacenar la precisión para cada clasificador
 acc_r[i][0] = metrics.accuracy_score(yhat_nn1, y_test)
 acc_r[i][1] = metrics.accuracy_score(yhat_nn3, y_test)
 acc_r[i][2] = metrics.accuracy_score(yhat_svc, y_test)
 acc_r[i][3] = metrics.accuracy_score(yhat_dt, y_test)
# Visualizar los resultados de precisión para cada clasificador
utilizando un gráfico de caja
plt.boxplot(acc_r);
# Superponer puntos rojos para mostrar los resultados individuales de
precisión para comparación visual
for i in range(4):
 xderiv = (i+1)*np.ones(acc_r[:, i].shape) + (np.random.rand(10,)-
0.5) * 0.1
 plt.plot(xderiv, acc_r[:, i], 'ro', alpha=0.3)

# Personalizar el gráfico con etiquetas apropiadas
ax = plt.gca()
ax.set_xticklabels(['1-NN', '3-NN', 'SVM', 'Árbol de Decisión'])
plt.xlabel('Tipo de Clasificador')
plt.ylabel('Precisión')
plt.title('Comparación de Rendimiento de Clasificadores')
# Mostrar el gráfico
plt.show()

**Entendiendo las Técnicas de Validación Cruzada**

In [None]:
from sklearn import model_selection, neighbors, tree, svm, metrics
import numpy as np
import matplotlib.pyplot as plt
# Inicializar una matriz para almacenar los puntajes de precisión para
cada pliegue y modelo
acc = np.zeros((10, 4)) # 10 pliegues, 4 modelos
# Crear un objeto KFold para validación cruzada de 10-fold
kf = model_selection.KFold(n_splits=10, shuffle=True)
# Contador de bucle
i = 0
# Iterar sobre cada pliegue definido por KFold
for train_index, test_index in kf.split(X):
 # Dividir los datos en conjuntos de entrenamiento y prueba basados
en el pliegue actual
 X_train, X_test = X[train_index], X[test_index]
 y_train, y_test = y[train_index], y[test_index]

 # Inicializar clasificadores
 nn1 = neighbors.KNeighborsClassifier(n_neighbors=1) # 1-vecino
más cercano
 nn3 = neighbors.KNeighborsClassifier(n_neighbors=3) # 3-vecinos
más cercanos
 svc = svm.SVC() # Máquina de vectores de soporte (SVM)
 dt = tree.DecisionTreeClassifier() # Árbol de decisión

 # Entrenar cada clasificador en el conjunto de entrenamiento
 nn1.fit(X_train, y_train)
 nn3.fit(X_train, y_train)
 svc.fit(X_train, y_train)
 dt.fit(X_train, y_train)

 # Realizar predicciones en el conjunto de prueba
 yhat_nn1 = nn1.predict(X_test)
 yhat_nn3 = nn3.predict(X_test)
 yhat_svc = svc.predict(X_test)
 yhat_dt = dt.predict(X_test)

 # Calcular y almacenar la precisión para cada clasificador
 acc[i][0] = metrics.accuracy_score(yhat_nn1, y_test)
 acc[i][1] = metrics.accuracy_score(yhat_nn3, y_test)
 acc[i][2] = metrics.accuracy_score(yhat_svc, y_test)
 acc[i][3] = metrics.accuracy_score(yhat_dt, y_test)

 # Incrementar el contador del bucle
 i += 1
# Visualizar los puntajes de precisión como un gráfico de caja para
cada clasificador
plt.boxplot(acc)
# Superponer los puntajes individuales de precisión como puntos rojos
para una mejor visualización
for i in range(4):
 xderiv = (i+1) * np.ones(acc[:, i].shape) + (np.random.rand(10,) -
0.5) * 0.1
 plt.plot(xderiv, acc[:, i], 'ro', alpha=0.3)
# Configurar las etiquetas para cada clasificador en el eje x
ax = plt.gca()
ax.set_xticklabels(['1-NN', '3-NN', 'SVM', 'Árbol de Decisión'])
plt.xlabel('Tipo de Clasificador')
plt.ylabel('Precisión')
plt.title('Resultados de Validación Cruzada de 10-Fold')
plt.show()

Union de graficos

In [None]:
# Solo por diversión, vamos a juntar ambos gráficos
fig = plt.figure()
ax = plt.gca()
# Iterar sobre cada clasificador
for i in range(4):
 # Graficar el gráfico de caja para los resultados de validación
cruzada y repetición
 plt.boxplot([acc[:,i], acc_r[:,i]], positions=[2*i+1, 2*i+2],
widths=0.6)
 # Graficar los puntos individuales de precisión para validación cruzada (rojo) y repetición (azul)
 xderiv = (2*i+1) * np.ones(acc[:,i].shape) + (np.random.rand(10,) - 0.5) * 0.1
 plt.plot(xderiv, acc[:,i], 'ro', alpha=0.3)
 xderiv = (2*i+2) * np.ones(acc[:,i].shape) + (np.random.rand(10,) - 0.5) * 0.1
 plt.plot(xderiv, acc_r[:,i], 'bo', alpha=0.3)
# Establecer límites y etiquetas de los ejes
plt.xlim(0, 9)
plt.ylim(0, 0.4)
ax.set_xticklabels(['1-NN', '1-NN', '3-NN', '3-NN', 'SVM', 'SVM', 'Árbol de Decisión', 'Árbol de Decisión'], rotation=45, ha="right")

# Mostrar el gráfico
plt.show()