## Clasificador de Datos KNN.

### Carga de modulos y bases de datos para la verificacion.

In [1]:
import numpy as np
from sklearn.datasets import load_iris, load_digits, load_wine
from sklearn.model_selection import train_test_split, StratifiedKFold, LeaveOneOut
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

### Para este ejemplo, he elegido ( k = 3 ) porque es un valor comúnmente utilizado que suele ofrecer un buen equilibrio entre sesgo y varianza. Sin embargo, en una implementación real, se recomienda probar varios valores de ( k ) y elegir el que ofrezca el mejor rendimiento en el conjunto de validación.

In [2]:
# Elegir el mejor valor de k (para simplicidad elegimos k=3 aquí)
k = 3

### Funciones de evaluacion de bases de datos.

In [3]:
# Función para evaluar KNN con diferentes métodos de validación
def evaluate_knn(X, y, k):
    results = {}

    # Hold-Out 70/30 estratificado
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    results['Hold-Out 70/30'] = {
        'Accuracy': accuracy_score(y_test, y_pred),
        'Confusion Matrix': confusion_matrix(y_test, y_pred)
    }

    # 10-Fold Cross-Validation estratificado
    skf = StratifiedKFold(n_splits=10)
    accuracies = []
    conf_matrices = []
    for train_index, test_index in skf.split(X, y):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracies.append(accuracy_score(y_test, y_pred))
        conf_matrices.append(confusion_matrix(y_test, y_pred))
    results['10-Fold Cross-Validation'] = {
        'Accuracy': np.mean(accuracies),
        'Confusion Matrix': np.sum(conf_matrices, axis=0)
    }

    # Leave-One-Out
    loo = LeaveOneOut()
    accuracies = []
    conf_matrices = []
    for train_index, test_index in loo.split(X):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracies.append(accuracy_score(y_test, y_pred))
        conf_matrices.append(confusion_matrix(y_test, y_pred))
    results['Leave-One-Out'] = {
        'Accuracy': np.mean(accuracies),
        'Confusion Matrix': np.sum(conf_matrices, axis=0)
    }

    return results

### Dataset de Iris

In [None]:
# Cargar el dataset de iris y evaluarlo
data = load_iris()
X = data.data
y = data.target
results = evaluate_knn(X, y, k)

### Conjunto de datos de dígitos de MNIST

In [None]:
# Evaluar KNN para el conjunto de datos de dígitos de MNIST
digits_data = load_digits()
X_digits = digits_data.data
y_digits = digits_data.target
results_digits = evaluate_knn(X_digits, y_digits, k)

### Conjunto de vinos

In [None]:
# Evaluar KNN para el conjunto de datos de vinos
wine_data = load_wine()
X_wine = wine_data.data
y_wine = wine_data.target
results_wine = evaluate_knn(X_wine, y_wine, k)

### Imprimir los resultados de Iris

In [7]:
print("\n\n\t*** Resultados de la base de datos de Iris: \n\n")
for method, metrics in results.items():
    print(f"Method: {method}")
    print(f"Accuracy: {metrics['Accuracy']}")
    print(f"Confusion Matrix:\n{metrics['Confusion Matrix']}\n")



	*** Resultados de la base de datos de Iris: 


Method: Hold-Out 70/30
Accuracy: 0.9333333333333333
Confusion Matrix:
[[15  0  0]
 [ 0 13  2]
 [ 0  1 14]]

Method: 10-Fold Cross-Validation
Accuracy: 0.9666666666666666
Confusion Matrix:
[[50  0  0]
 [ 0 47  3]
 [ 0  2 48]]

Method: Leave-One-Out
Accuracy: 0.96
Confusion Matrix:
[[144 147]
 [147 144]]



### Imprimir los resultados para el conjunto de datos de dígitos de MNIST

In [8]:
print("\n\n\t*** Resultados de la base de datos de dígitos de MNIST: \n\n")
print("Resultados para el conjunto de datos de dígitos de MNIST:")
for method, metrics in results_digits.items():
    print(f"Method: {method}")
    print(f"Accuracy: {metrics['Accuracy']}")
    print(f"Confusion Matrix:\n{metrics['Confusion Matrix']}\n")



	*** Resultados de la base de datos de dígitos de MNIST: 


Resultados para el conjunto de datos de dígitos de MNIST:
Method: Hold-Out 70/30
Accuracy: 0.9796296296296296
Confusion Matrix:
[[54  0  0  0  0  0  0  0  0  0]
 [ 0 55  0  0  0  0  0  0  0  0]
 [ 0  0 53  0  0  0  0  0  0  0]
 [ 0  0  0 54  0  0  0  1  0  0]
 [ 0  0  0  0 54  0  0  0  0  0]
 [ 0  0  0  0  0 53  1  0  0  1]
 [ 0  0  0  0  0  0 54  0  0  0]
 [ 0  0  0  0  0  0  0 53  0  1]
 [ 0  2  0  1  0  0  0  0 48  1]
 [ 0  0  0  3  0  0  0  0  0 51]]

Method: 10-Fold Cross-Validation
Accuracy: 0.9766325263811299
Confusion Matrix:
[[178   0   0   0   0   0   0   0   0   0]
 [  0 180   0   0   0   1   1   0   0   0]
 [  0   4 171   1   0   0   0   0   1   0]
 [  0   0   1 176   0   1   0   2   2   1]
 [  0   1   0   0 178   0   1   0   0   1]
 [  0   0   0   0   0 178   1   0   0   3]
 [  1   1   0   0   0   0 179   0   0   0]
 [  0   0   0   0   0   0   0 178   0   1]
 [  0   6   0   2   0   0   0   0 166   0]
 [  0   1  

### Imprimir los resultados para el conjunto de datos de vinos

In [9]:
print("\n\n\t***Resultados para el conjunto de datos de vinos: \n\n")
for method, metrics in results_wine.items():
    print(f"Method: {method}")
    print(f"Accuracy: {metrics['Accuracy']}")
    print(f"Confusion Matrix:\n{metrics['Confusion Matrix']}\n")



	***Resultados para el conjunto de datos de vinos: 


Method: Hold-Out 70/30
Accuracy: 0.6851851851851852
Confusion Matrix:
[[17  0  1]
 [ 3 14  4]
 [ 5  4  6]]

Method: 10-Fold Cross-Validation
Accuracy: 0.7209150326797384
Confusion Matrix:
[[51  3  5]
 [ 7 48 16]
 [ 5 14 29]]

Method: Leave-One-Out
Accuracy: 0.7247191011235955
Confusion Matrix:
[[129 152]
 [155 129]]

