<a href="https://colab.research.google.com/github/HectorDelgadoJ/Laboratorio-6/blob/main/Laboratorio6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratorio 6


En esta práctica, implementaremos y validaremos el Clasificador de la Distancia Mínima, un modelo de aprendizaje supervisado basado en la asignación de muestras a la clase más cercana según la distancia euclidiana a los centroides de cada clase. Este clasificador es eficiente y adecuado para datos donde las clases están claramente diferenciadas en el espacio de características.
Usaremos tres datasets de scikit-learn (Iris, Wine y Digits) y evaluaremos el rendimiento del clasificador mediante tres métodos de validación: Hold-Out estratificado (70/30), 10-Fold Cross-Validation estratificado, y Leave-One-Out. Cada método de validación nos permitirá observar el comportamiento y la precisión del modelo bajo diferentes enfoques de evaluación. Los resultados obtenidos brindarán una visión clara sobre la robustez y capacidad del clasificador para generalizar en estos conjuntos de datos.

##* Paso 1: Importar Bibliotecas Necesarias

In [None]:
from sklearn.datasets import load_iris, load_wine, load_digits  # Cargar datasets de ejemplo
from sklearn.model_selection import train_test_split, StratifiedKFold, LeaveOneOut
from sklearn.metrics import accuracy_score
import numpy as np


## * Paso 2: Implementar el Clasificador de la Distancia Mínima
El clasificador calculará el centroide de cada clase en el conjunto de entrenamiento y asignará cada punto de prueba a la clase más cercana (por distancia euclidiana).

In [None]:
class MinimumDistanceClassifier:
    def fit(self, X, y):
        # Calcular el centroide de cada clase
        self.centroids = {}
        for label in np.unique(y):
            self.centroids[label] = X[y == label].mean(axis=0)

    def predict(self, X):
        # Asignar cada muestra a la clase con el centroide más cercano
        predictions = []
        for sample in X:
            distances = {label: np.linalg.norm(sample - centroid) for label, centroid in self.centroids.items()}
            predictions.append(min(distances, key=distances.get))
        return np.array(predictions)


## * Paso 3: Definir Función para Validación y Evaluación
Esta función recibe el dataset, el clasificador, y el método de validación a aplicar.

In [None]:
def validate_model(X, y, validation_method):
    clf = MinimumDistanceClassifier()
    accuracies = []

    if validation_method == "Hold-Out":
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
        clf.fit(X_train, y_train)
        y_pred = clf.predict(X_test)
        accuracies.append(accuracy_score(y_test, y_pred))

    elif validation_method == "10-Fold":
        skf = StratifiedKFold(n_splits=10)
        for train_index, test_index in skf.split(X, y):
            X_train, X_test = X[train_index], X[test_index]
            y_train, y_test = y[train_index], y[test_index]
            clf.fit(X_train, y_train)
            y_pred = clf.predict(X_test)
            accuracies.append(accuracy_score(y_test, y_pred))

    elif validation_method == "Leave-One-Out":
        loo = LeaveOneOut()
        for train_index, test_index in loo.split(X):
            X_train, X_test = X[train_index], X[test_index]
            y_train, y_test = y[train_index], y[test_index]
            clf.fit(X_train, y_train)
            y_pred = clf.predict(X_test)
            accuracies.append(accuracy_score(y_test, y_pred))

    return np.mean(accuracies)


## * Paso 4: Cargar Datasets y Validar
Usaremos tres datasets de scikit-learn: iris, wine, y digits. Para cada dataset, evaluaremos el modelo usando los tres métodos de validación.

In [None]:
# Cargar datasets
datasets = {
    "Iris": load_iris(),
    "Wine": load_wine(),
    "Digits": load_digits()
}

# Validar el modelo con cada dataset y método de validación
validation_methods = ["Hold-Out", "10-Fold", "Leave-One-Out"]

for dataset_name, data in datasets.items():
    X, y = data.data, data.target
    print(f"Results for {dataset_name} dataset:")
    for method in validation_methods:
        accuracy = validate_model(X, y, method)
        print(f"{method} Accuracy: {accuracy:.4f}")
    print("-" * 40)


In [None]:
El codigo coompleto:

In [None]:
# Importar bibliotecas necesarias
from sklearn.datasets import load_iris, load_wine, load_digits  # Datasets de ejemplo
from sklearn.model_selection import train_test_split, StratifiedKFold, LeaveOneOut
from sklearn.metrics import accuracy_score
import numpy as np

# Definir el Clasificador de la Distancia Mínima
class MinimumDistanceClassifier:
    def fit(self, X, y):
        # Calcular el centroide de cada clase
        self.centroids = {}
        for label in np.unique(y):
            self.centroids[label] = X[y == label].mean(axis=0)

    def predict(self, X):
        # Asignar cada muestra a la clase con el centroide más cercano
        predictions = []
        for sample in X:
            distances = {label: np.linalg.norm(sample - centroid) for label, centroid in self.centroids.items()}
            predictions.append(min(distances, key=distances.get))
        return np.array(predictions)

# Definir la función de validación
def validate_model(X, y, validation_method):
    clf = MinimumDistanceClassifier()
    accuracies = []

    if validation_method == "Hold-Out":
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
        clf.fit(X_train, y_train)
        y_pred = clf.predict(X_test)
        accuracies.append(accuracy_score(y_test, y_pred))

    elif validation_method == "10-Fold":
        skf = StratifiedKFold(n_splits=10)
        for train_index, test_index in skf.split(X, y):
            X_train, X_test = X[train_index], X[test_index]
            y_train, y_test = y[train_index], y[test_index]
            clf.fit(X_train, y_train)
            y_pred = clf.predict(X_test)
            accuracies.append(accuracy_score(y_test, y_pred))

    elif validation_method == "Leave-One-Out":
        loo = LeaveOneOut()
        for train_index, test_index in loo.split(X):
            X_train, X_test = X[train_index], X[test_index]
            y_train, y_test = y[train_index], y[test_index]
            clf.fit(X_train, y_train)
            y_pred = clf.predict(X_test)
            accuracies.append(accuracy_score(y_test, y_pred))

    return np.mean(accuracies)

# Cargar datasets
datasets = {
    "Iris": load_iris(),
    "Wine": load_wine(),
    "Digits": load_digits()
}

# Validar el modelo con cada dataset y método de validación
validation_methods = ["Hold-Out", "10-Fold", "Leave-One-Out"]

for dataset_name, data in datasets.items():
    X, y = data.data, data.target
    print(f"Results for {dataset_name} dataset:")
    for method in validation_methods:
        accuracy = validate_model(X, y, method)
        print(f"{method} Accuracy: {accuracy:.4f}")
    print("-" * 40)


# Parte 2
En esta segunda parte de la práctica, implementaremos y validaremos el Clasificador de 1-Vecino Más Cercano (1NN). Este método de clasificación supervisada asigna cada muestra a la clase de su vecino más cercano en el espacio de características, utilizando la distancia euclidiana para medir la similitud. La simplicidad y efectividad de este clasificador lo convierten en una opción ampliamente usada para problemas de clasificación donde las clases se encuentran bien definidas y separadas.
Para evaluar el rendimiento del modelo, utilizaremos tres métodos de validación: Hold-Out (70/30) estratificado, 10-Fold Cross-Validation estratificado, y Leave-One-Out. Además, mediremos el desempeño del clasificador en términos de precisión (accuracy) y generaremos matrices de confusión, lo cual permitirá un análisis más profundo del comportamiento del modelo en diferentes datasets (Iris, Wine y Digits). Estos resultados nos ayudarán a comparar la efectividad del Clasificador 1NN y a explorar su capacidad de generalización en distintos conjuntos de datos.

## * Paso 1: Implementación del Clasificador 1NN


In [None]:
# Importar bibliotecas necesarias
from sklearn.datasets import load_iris, load_wine, load_digits  # Datasets de ejemplo
from sklearn.model_selection import train_test_split, StratifiedKFold, LeaveOneOut
from sklearn.metrics import accuracy_score, confusion_matrix
import numpy as np

# Definir el Clasificador 1NN
class OneNearestNeighborClassifier:
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        predictions = []
        for sample in X:
            # Calcular la distancia de la muestra a todos los puntos de entrenamiento
            distances = np.linalg.norm(self.X_train - sample, axis=1)
            # Encontrar el índice de la muestra de entrenamiento más cercana
            nearest_neighbor_index = np.argmin(distances)
            # Asignar la clase de la muestra de entrenamiento más cercana
            predictions.append(self.y_train[nearest_neighbor_index])
        return np.array(predictions)


## * Paso 2: Validación con el Método Hold-Out


In [None]:
# Definir función para validación y cálculo de precisión
def validate_1NN_hold_out(X, y):
    clf = OneNearestNeighborClassifier()
    # Separar el conjunto de datos en entrenamiento (70%) y prueba (30%) estratificado
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)

    # Calcular medidas de desempeño
    accuracy = accuracy_score(y_test, y_pred)
    conf_matrix = confusion_matrix(y_test, y_pred)

    return accuracy, conf_matrix


## * Paso 3: Probar con un Dataset (Iris) y Ver Resultados

In [None]:

# Importar load_iris
from sklearn.datasets import load_iris # Import the load_iris function

# Cargar dataset Iris
data = load_iris()
X, y = data.data, data.target

# Validar usando Hold-Out y mostrar resultados
accuracy, conf_matrix = validate_1NN_hold_out(X, y)
print("Hold-Out Validation (Iris Dataset):")
print(f"Accuracy: {accuracy:.4f}")
print("Confusion Matrix:")
print(conf_matrix)

El código completo:

In [None]:
# Importar bibliotecas necesarias
from sklearn.datasets import load_iris, load_wine, load_digits
from sklearn.model_selection import train_test_split, StratifiedKFold, LeaveOneOut
from sklearn.metrics import accuracy_score, confusion_matrix
import numpy as np

# Definir el Clasificador 1NN
class OneNearestNeighborClassifier:
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        predictions = []
        for sample in X:
            # Calcular la distancia euclidiana entre el sample y cada muestra de X_train
            distances = np.linalg.norm(self.X_train - sample, axis=1)
            # Encontrar el índice de la muestra más cercana
            nearest_neighbor_index = np.argmin(distances)
            # Asignar la clase de la muestra más cercana
            predictions.append(self.y_train[nearest_neighbor_index])
        return np.array(predictions)

# Función de validación para Hold-Out
def validate_1NN_hold_out(X, y):
    clf = OneNearestNeighborClassifier()
    # División 70/30 con estratificación
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y)
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)

    accuracy = accuracy_score(y_test, y_pred)
    conf_matrix = confusion_matrix(y_test, y_pred)
    return accuracy, conf_matrix

# Función de validación para 10-Fold Cross-Validation
def validate_1NN_k_fold(X, y, k=10):
    clf = OneNearestNeighborClassifier()
    skf = StratifiedKFold(n_splits=k)

    accuracies = []
    # Matriz de confusión acumulativa
    confusion_matrices = np.zeros((len(np.unique(y)), len(np.unique(y))), dtype=int)

    for train_index, test_index in skf.split(X, y):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]

        clf.fit(X_train, y_train)
        y_pred = clf.predict(X_test)

        accuracies.append(accuracy_score(y_test, y_pred))
        confusion_matrices += confusion_matrix(y_test, y_pred)

    avg_accuracy = np.mean(accuracies)
    return avg_accuracy, confusion_matrices

# Función de validación para Leave-One-Out
def validate_1NN_leave_one_out(X, y):
    clf = OneNearestNeighborClassifier()
    loo = LeaveOneOut()

    accuracies = []
    confusion_matrices = np.zeros((len(np.unique(y)), len(np.unique(y))), dtype=int)

    for train_index, test_index in loo.split(X):
        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]

        clf.fit(X_train, y_train)
        y_pred = clf.predict(X_test)

        accuracies.append(accuracy_score(y_test, y_pred))
        confusion_matrices += confusion_matrix(y_test, y_pred)

    avg_accuracy = np.mean(accuracies)
    return avg_accuracy, confusion_matrices

# Ejecutar validaciones con tres datasets diferentes
datasets = {
    "Iris": load_iris(),
    "Wine": load_wine(),
    "Digits": load_digits()
}

# Aplicar el clasificador y métodos de validación a cada dataset
for dataset_name, dataset in datasets.items():
    X, y = dataset.data, dataset.target
    print(f"\nResults for {dataset_name} Dataset:")

    # Hold-Out Validation
    accuracy, conf_matrix = validate_1NN_hold_out(X, y)
    print("\nHold-Out Validation:")
    print(f"Accuracy: {accuracy:.4f}")
    print("Confusion Matrix:\n", conf_matrix)

    # 10-Fold Cross-Validation
    accuracy, conf_matrix = validate_1NN_k_fold(X, y)
    print("\n10-Fold Cross-Validation:")
    print(f"Accuracy: {accuracy:.4f}")
    print("Confusion Matrix:\n", conf_matrix)

    # Leave-One-Out Validation
    accuracy, conf_matrix = validate_1NN_leave_one_out(X, y)
    print("\nLeave-One-Out Validation:")
    print(f"Accuracy: {accuracy:.4f}")
    print("Confusion Matrix:\n", conf_matrix)


