In [1]:
import sys
sys.path.append("../src")

In [2]:
import pandas as pd
from preprocess import min_max_scaler

# Cargar el dataset Glass
glass_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/glass/glass.data"
glass_columns = ["Id", "RI", "Na", "Mg", "Al", "Si", "K", "Ca", "Ba", "Fe", "Type"]
glass_df = pd.read_csv(glass_url, names=glass_columns, header=None)
glass_features = glass_df.drop(columns=["Id", "Type"])
glass_target = glass_df["Type"]

# Normalizar el Glass Dataset
glass_features_normalized = min_max_scaler(glass_features.values.tolist())
glass_data_normalized = pd.DataFrame(glass_features_normalized, columns=glass_features.columns)
glass_data_normalized["Type"] = glass_target

# Cargar el dataset Iris
iris_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
iris_columns = ["SepalLength", "SepalWidth", "PetalLength", "PetalWidth", "Class"]
iris_df = pd.read_csv(iris_url, names=iris_columns, header=None)
iris_features = iris_df.drop(columns=["Class"])
iris_target = iris_df["Class"].map({
    "Iris-setosa": 0,
    "Iris-versicolor": 1,
    "Iris-virginica": 2
})

# Normalizar el Iris Dataset
iris_features_normalized = min_max_scaler(iris_features.values.tolist())
iris_data_normalized = pd.DataFrame(iris_features_normalized, columns=iris_features.columns)
iris_data_normalized["Class"] = iris_target

# Cargar el dataset Wine
wine_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data"
wine_columns = ["Class", "Alcohol", "MalicAcid", "Ash", "Alcalinity", "Magnesium", "Phenols",
                "Flavanoids", "NonFlavanoids", "Proanthocyanins", "Color", "Hue",
                "Dilution", "Proline"]
wine_df = pd.read_csv(wine_url, names=wine_columns, header=None)
wine_features = wine_df.drop(columns=["Class"])
wine_target = wine_df["Class"]

# Normalizar el Wine Dataset
wine_features_normalized = min_max_scaler(wine_features.values.tolist())
wine_data_normalized = pd.DataFrame(wine_features_normalized, columns=wine_features.columns)
wine_data_normalized["Class"] = wine_target

# Verificar los datasets normalizados
print("Glass Dataset Preprocesado:")
print(glass_data_normalized.head())

print("\nIris Dataset Preprocesado:")
print(iris_data_normalized.head())

print("\nWine Dataset Preprocesado:")
print(wine_data_normalized.head())

Glass Dataset Preprocesado:
         RI        Na        Mg        Al        Si         K        Ca   Ba  \
0  0.432836  0.437594  1.000000  0.252336  0.351786  0.009662  0.308550  0.0   
1  0.283582  0.475188  0.801782  0.333333  0.521429  0.077295  0.223048  0.0   
2  0.220808  0.421053  0.790646  0.389408  0.567857  0.062802  0.218401  0.0   
3  0.285777  0.372932  0.821826  0.311526  0.500000  0.091787  0.259294  0.0   
4  0.275241  0.381955  0.806236  0.295950  0.583929  0.088567  0.245353  0.0   

    Fe  Type  
0  0.0     1  
1  0.0     1  
2  0.0     1  
3  0.0     1  
4  0.0     1  

Iris Dataset Preprocesado:
   SepalLength  SepalWidth  PetalLength  PetalWidth  Class
0     0.222222    0.625000     0.067797    0.041667      0
1     0.166667    0.416667     0.067797    0.041667      0
2     0.111111    0.500000     0.050847    0.041667      0
3     0.083333    0.458333     0.084746    0.041667      0
4     0.194444    0.666667     0.067797    0.041667      0

Wine Dataset Prepr

In [3]:
from validation import hold_out
from collections import Counter

# Hold-Out para el Glass Dataset
X_glass = glass_data_normalized.drop(columns=["Type"]).values.tolist()
y_glass = glass_data_normalized["Type"].values.tolist()

X_train_glass, X_test_glass, y_train_glass, y_test_glass = hold_out(
    X_glass, y_glass, test_size=0.3, stratify=True, random_seed=42
)
print("Hold-Out Glass Dataset:")
print(f"  Tamaño de entrenamiento: {len(X_train_glass)}, Tamaño de prueba: {len(X_test_glass)}")
print(f"  Distribución de clases (entrenamiento): {Counter(y_train_glass)}")
print(f"  Distribución de clases (prueba): {Counter(y_test_glass)}")

# Hold-Out para el Iris Dataset
X_iris = iris_data_normalized.drop(columns=["Class"]).values.tolist()
y_iris = iris_data_normalized["Class"].values.tolist()

X_train_iris, X_test_iris, y_train_iris, y_test_iris = hold_out(
    X_iris, y_iris, test_size=0.3, stratify=True, random_seed=42
)
print("\nHold-Out Iris Dataset:")
print(f"  Tamaño de entrenamiento: {len(X_train_iris)}, Tamaño de prueba: {len(X_test_iris)}")
print(f"  Distribución de clases (entrenamiento): {Counter(y_train_iris)}")
print(f"  Distribución de clases (prueba): {Counter(y_test_iris)}")

# Hold-Out para el Wine Dataset
X_wine = wine_data_normalized.drop(columns=["Class"]).values.tolist()
y_wine = wine_data_normalized["Class"].values.tolist()

X_train_wine, X_test_wine, y_train_wine, y_test_wine = hold_out(
    X_wine, y_wine, test_size=0.3, stratify=True, random_seed=42
)
print("\nHold-Out Wine Dataset:")
print(f"  Tamaño de entrenamiento: {len(X_train_wine)}, Tamaño de prueba: {len(X_test_wine)}")
print(f"  Distribución de clases (entrenamiento): {Counter(y_train_wine)}")
print(f"  Distribución de clases (prueba): {Counter(y_test_wine)}")

Hold-Out Glass Dataset:
  Tamaño de entrenamiento: 153, Tamaño de prueba: 61
  Distribución de clases (entrenamiento): Counter({2: 54, 1: 49, 7: 21, 3: 12, 5: 10, 6: 7})
  Distribución de clases (prueba): Counter({2: 22, 1: 21, 7: 8, 3: 5, 5: 3, 6: 2})

Hold-Out Iris Dataset:
  Tamaño de entrenamiento: 105, Tamaño de prueba: 45
  Distribución de clases (entrenamiento): Counter({0: 35, 1: 35, 2: 35})
  Distribución de clases (prueba): Counter({0: 15, 1: 15, 2: 15})

Hold-Out Wine Dataset:
  Tamaño de entrenamiento: 126, Tamaño de prueba: 52
  Distribución de clases (entrenamiento): Counter({2: 50, 1: 42, 3: 34})
  Distribución de clases (prueba): Counter({2: 21, 1: 17, 3: 14})


In [4]:
from validation import k_fold_cross_validation

# K-Fold para el Glass Dataset
folds_glass = k_fold_cross_validation(X_glass, y_glass, k=10, stratify=True, random_seed=42)
print("K-Fold Glass Dataset:")
for i, (X_train, X_val, y_train, y_val) in enumerate(folds_glass, 1):
    print(f"  Fold {i}:")
    print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
    print(f"    Distribución de clases (entrenamiento): {Counter(y_train)}")
    print(f"    Distribución de clases (validación): {Counter(y_val)}")

# K-Fold para el Iris Dataset
folds_iris = k_fold_cross_validation(X_iris, y_iris, k=10, stratify=True, random_seed=42)
print("\nK-Fold Iris Dataset:")
for i, (X_train, X_val, y_train, y_val) in enumerate(folds_iris, 1):
    print(f"  Fold {i}:")
    print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
    print(f"    Distribución de clases (entrenamiento): {Counter(y_train)}")
    print(f"    Distribución de clases (validación): {Counter(y_val)}")

# K-Fold para el Wine Dataset
folds_wine = k_fold_cross_validation(X_wine, y_wine, k=10, stratify=True, random_seed=42)
print("\nK-Fold Wine Dataset:")
for i, (X_train, X_val, y_train, y_val) in enumerate(folds_wine, 1):
    print(f"  Fold {i}:")
    print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
    print(f"    Distribución de clases (entrenamiento): {Counter(y_train)}")
    print(f"    Distribución de clases (validación): {Counter(y_val)}")


K-Fold Glass Dataset:
  Fold 1:
    Tamaño de entrenamiento: 162, Tamaño de validación: 18
    Distribución de clases (entrenamiento): Counter({1: 63, 2: 63, 7: 18, 3: 9, 5: 9})
    Distribución de clases (validación): Counter({1: 7, 2: 7, 7: 2, 3: 1, 5: 1})
  Fold 2:
    Tamaño de entrenamiento: 162, Tamaño de validación: 18
    Distribución de clases (entrenamiento): Counter({1: 63, 2: 63, 7: 18, 3: 9, 5: 9})
    Distribución de clases (validación): Counter({1: 7, 2: 7, 7: 2, 3: 1, 5: 1})
  Fold 3:
    Tamaño de entrenamiento: 162, Tamaño de validación: 18
    Distribución de clases (entrenamiento): Counter({1: 63, 2: 63, 7: 18, 3: 9, 5: 9})
    Distribución de clases (validación): Counter({1: 7, 2: 7, 7: 2, 3: 1, 5: 1})
  Fold 4:
    Tamaño de entrenamiento: 162, Tamaño de validación: 18
    Distribución de clases (entrenamiento): Counter({1: 63, 2: 63, 7: 18, 3: 9, 5: 9})
    Distribución de clases (validación): Counter({1: 7, 2: 7, 7: 2, 3: 1, 5: 1})
  Fold 5:
    Tamaño de entren

In [5]:
from validation import leave_one_out

# Leave-One-Out para el Glass Dataset
folds_glass_loo = leave_one_out(X_glass, y_glass)
print("Leave-One-Out Glass Dataset:")
print(f"  Número total de iteraciones: {len(folds_glass_loo)}")
for i, (X_train, X_val, y_train, y_val) in enumerate(folds_glass_loo[:5], 1):  # Mostrar solo las primeras 5 iteraciones
    print(f"  Iteración {i}:")
    print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
    print(f"    Distribución de clases (entrenamiento): {Counter(y_train)}")
    print(f"    Clase de validación: {y_val[0]}")

# Leave-One-Out para el Iris Dataset
folds_iris_loo = leave_one_out(X_iris, y_iris)
print("\nLeave-One-Out Iris Dataset:")
print(f"  Número total de iteraciones: {len(folds_iris_loo)}")
for i, (X_train, X_val, y_train, y_val) in enumerate(folds_iris_loo[:5], 1):  # Mostrar solo las primeras 5 iteraciones
    print(f"  Iteración {i}:")
    print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
    print(f"    Distribución de clases (entrenamiento): {Counter(y_train)}")
    print(f"    Clase de validación: {y_val[0]}")

# Leave-One-Out para el Wine Dataset
folds_wine_loo = leave_one_out(X_wine, y_wine)
print("\nLeave-One-Out Wine Dataset:")
print(f"  Número total de iteraciones: {len(folds_wine_loo)}")
for i, (X_train, X_val, y_train, y_val) in enumerate(folds_wine_loo[:5], 1):  # Mostrar solo las primeras 5 iteraciones
    print(f"  Iteración {i}:")
    print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
    print(f"    Distribución de clases (entrenamiento): {Counter(y_train)}")
    print(f"    Clase de validación: {y_val[0]}")

Leave-One-Out Glass Dataset:
  Número total de iteraciones: 214
  Iteración 1:
    Tamaño de entrenamiento: 213, Tamaño de validación: 1
    Distribución de clases (entrenamiento): Counter({2: 76, 1: 69, 7: 29, 3: 17, 5: 13, 6: 9})
    Clase de validación: 1
  Iteración 2:
    Tamaño de entrenamiento: 213, Tamaño de validación: 1
    Distribución de clases (entrenamiento): Counter({2: 76, 1: 69, 7: 29, 3: 17, 5: 13, 6: 9})
    Clase de validación: 1
  Iteración 3:
    Tamaño de entrenamiento: 213, Tamaño de validación: 1
    Distribución de clases (entrenamiento): Counter({2: 76, 1: 69, 7: 29, 3: 17, 5: 13, 6: 9})
    Clase de validación: 1
  Iteración 4:
    Tamaño de entrenamiento: 213, Tamaño de validación: 1
    Distribución de clases (entrenamiento): Counter({2: 76, 1: 69, 7: 29, 3: 17, 5: 13, 6: 9})
    Clase de validación: 1
  Iteración 5:
    Tamaño de entrenamiento: 213, Tamaño de validación: 1
    Distribución de clases (entrenamiento): Counter({2: 76, 1: 69, 7: 29, 3: 17, 5:

In [6]:
from classifier import EuclideanClassifier
from check import accuracy_score, confusion_matrix_binary, precision, recall, f1_score

def validate_classifier(classifier, X, y, dataset_name, method, **kwargs):
    """
    Valida un clasificador con diferentes métodos y calcula métricas.

    Args:
        classifier (object): Clasificador a validar.
        X (list): Datos de entrada.
        y (list): Etiquetas.
        dataset_name (str): Nombre del dataset.
        method (str): Método de validación ('holdout', 'kfold', 'loo').
        kwargs: Argumentos adicionales para los métodos de validación.
    """
    print(f"Validando {dataset_name} con {method}...\n")
    
    if method == "holdout":
        # Dividir datos con Hold-Out
        X_train, X_test, y_train, y_test = hold_out(X, y, **kwargs)
        folds = [(X_train, X_test, y_train, y_test)]
    elif method == "kfold":
        # Crear folds con K-Fold Cross-Validation
        folds = k_fold_cross_validation(X, y, **kwargs)
    elif method == "loo":
        # Crear folds con Leave-One-Out
        folds = leave_one_out(X, y)
    else:
        raise ValueError("Método de validación no reconocido.")
    
    total_accuracy = 0
    total_conf_matrix = {"TP": 0, "TN": 0, "FP": 0, "FN": 0}

    for i, (X_train, X_val, y_train, y_val) in enumerate(folds):
        # Entrenar el clasificador
        classifier.fit(X_train, y_train)

        # Realizar predicciones
        y_pred = classifier.predict(X_val)

        # Calcular métricas
        accuracy = accuracy_score(y_val, y_pred)
        conf_matrix = confusion_matrix_binary(y_val, y_pred)
        tp, tn, fp, fn = conf_matrix["TP"], conf_matrix["TN"], conf_matrix["FP"], conf_matrix["FN"]

        # Acumular métricas
        total_accuracy += accuracy
        total_conf_matrix["TP"] += tp
        total_conf_matrix["TN"] += tn
        total_conf_matrix["FP"] += fp
        total_conf_matrix["FN"] += fn

        # Imprimir resultados por fold/iteración
        print(f"  Fold {i + 1 if method != 'loo' else f'Iteración {i + 1}'}:")
        print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
        print(f"    Accuracy: {accuracy:.4f}")
        print(f"    Matriz de Confusión: {conf_matrix}\n")

    # Calcular métricas finales
    avg_accuracy = total_accuracy / len(folds)
    prec = precision(total_conf_matrix["TP"], total_conf_matrix["FP"])
    rec = recall(total_conf_matrix["TP"], total_conf_matrix["FN"])
    f1 = f1_score(total_conf_matrix["TP"], total_conf_matrix["FP"], total_conf_matrix["FN"])

    print(f"Resultados Finales para {dataset_name} con {method}:")
    print(f"  Accuracy Promedio: {avg_accuracy:.4f}")
    print(f"  Matriz de Confusión Total: {total_conf_matrix}")
    print(f"  Precision: {prec:.4f}")
    print(f"  Recall: {rec:.4f}")
    print(f"  F1-Score: {f1:.4f}\n")

# Instanciar el clasificador
euclidean_classifier = EuclideanClassifier()

# Validar con los tres métodos y datasets
methods = ["holdout", "kfold", "loo"]
datasets = [
    ("Glass Dataset", X_glass, y_glass),
    ("Iris Dataset", X_iris, y_iris),
    ("Wine Dataset", X_wine, y_wine)
]

for method in methods:
    for dataset_name, X, y in datasets:
        if method == "holdout":
            validate_classifier(euclidean_classifier, X, y, dataset_name, method, test_size=0.3, stratify=True)
        elif method == "kfold":
            validate_classifier(euclidean_classifier, X, y, dataset_name, method, k=10)
        elif method == "loo":
            validate_classifier(euclidean_classifier, X, y, dataset_name, method)


Validando Glass Dataset con holdout...

  Fold 1:
    Tamaño de entrenamiento: 153, Tamaño de validación: 61
    Accuracy: 0.3443
    Matriz de Confusión: {'TP': 4, 'TN': 0, 'FP': 0, 'FN': 0}

Resultados Finales para Glass Dataset con holdout:
  Accuracy Promedio: 0.3443
  Matriz de Confusión Total: {'TP': 4, 'TN': 0, 'FP': 0, 'FN': 0}
  Precision: 1.0000
  Recall: 1.0000
  F1-Score: 1.0000

Validando Iris Dataset con holdout...

  Fold 1:
    Tamaño de entrenamiento: 105, Tamaño de validación: 45
    Accuracy: 0.9333
    Matriz de Confusión: {'TP': 13, 'TN': 15, 'FP': 0, 'FN': 0}

Resultados Finales para Iris Dataset con holdout:
  Accuracy Promedio: 0.9333
  Matriz de Confusión Total: {'TP': 13, 'TN': 15, 'FP': 0, 'FN': 0}
  Precision: 1.0000
  Recall: 1.0000
  F1-Score: 1.0000

Validando Wine Dataset con holdout...

  Fold 1:
    Tamaño de entrenamiento: 126, Tamaño de validación: 52
    Accuracy: 0.9038
    Matriz de Confusión: {'TP': 16, 'TN': 0, 'FP': 0, 'FN': 0}

Resultados Fina

In [7]:
from knn import KNNClassifier
from check import accuracy_score, confusion_matrix_binary, precision, recall, f1_score
from validation import hold_out, k_fold_cross_validation, leave_one_out

def validate_knn(classifier, X, y, dataset_name, method, **kwargs):
    """
    Valida el Clasificador 1NN con diferentes métodos y calcula métricas.

    Args:
        classifier (object): Clasificador a validar.
        X (list): Datos de entrada.
        y (list): Etiquetas.
        dataset_name (str): Nombre del dataset.
        method (str): Método de validación ('holdout', 'kfold', 'loo').
        kwargs: Argumentos adicionales para los métodos de validación.
    """
    print(f"Validando {dataset_name} con {method}...\n")
    
    if method == "holdout":
        # Dividir datos con Hold-Out
        X_train, X_test, y_train, y_test = hold_out(X, y, **kwargs)
        folds = [(X_train, X_test, y_train, y_test)]
    elif method == "kfold":
        # Crear folds con K-Fold Cross-Validation
        folds = k_fold_cross_validation(X, y, **kwargs)
    elif method == "loo":
        # Crear folds con Leave-One-Out
        folds = leave_one_out(X, y)
    else:
        raise ValueError("Método de validación no reconocido.")
    
    total_accuracy = 0
    total_conf_matrix = {"TP": 0, "TN": 0, "FP": 0, "FN": 0}

    for i, (X_train, X_val, y_train, y_val) in enumerate(folds):
        # Entrenar el clasificador
        classifier.fit(X_train, y_train)

        # Realizar predicciones
        y_pred = classifier.predict(X_val)

        # Calcular métricas
        accuracy = accuracy_score(y_val, y_pred)
        conf_matrix = confusion_matrix_binary(y_val, y_pred)
        tp, tn, fp, fn = conf_matrix["TP"], conf_matrix["TN"], conf_matrix["FP"], conf_matrix["FN"]

        # Acumular métricas
        total_accuracy += accuracy
        total_conf_matrix["TP"] += tp
        total_conf_matrix["TN"] += tn
        total_conf_matrix["FP"] += fp
        total_conf_matrix["FN"] += fn

        # Imprimir resultados por fold/iteración
        print(f"  Fold {i + 1 if method != 'loo' else f'Iteración {i + 1}'}:")
        print(f"    Tamaño de entrenamiento: {len(X_train)}, Tamaño de validación: {len(X_val)}")
        print(f"    Accuracy: {accuracy:.4f}")
        print(f"    Matriz de Confusión: {conf_matrix}\n")

    # Calcular métricas finales
    avg_accuracy = total_accuracy / len(folds)
    prec = precision(total_conf_matrix["TP"], total_conf_matrix["FP"])
    rec = recall(total_conf_matrix["TP"], total_conf_matrix["FN"])
    f1 = f1_score(total_conf_matrix["TP"], total_conf_matrix["FP"], total_conf_matrix["FN"])

    print(f"Resultados Finales para {dataset_name} con {method}:")
    print(f"  Accuracy Promedio: {avg_accuracy:.4f}")
    print(f"  Matriz de Confusión Total: {total_conf_matrix}")
    print(f"  Precision: {prec:.4f}")
    print(f"  Recall: {rec:.4f}")
    print(f"  F1-Score: {f1:.4f}\n")

# Instanciar el clasificador 1NN
knn_classifier = KNNClassifier(k=1)

# Validar con los tres métodos y datasets
methods = ["holdout", "kfold", "loo"]
datasets = [
    ("Glass Dataset", X_glass, y_glass),
    ("Iris Dataset", X_iris, y_iris),
    ("Wine Dataset", X_wine, y_wine)
]

for method in methods:
    for dataset_name, X, y in datasets:
        if method == "holdout":
            validate_knn(knn_classifier, X, y, dataset_name, method, test_size=0.3, stratify=True)
        elif method == "kfold":
            validate_knn(knn_classifier, X, y, dataset_name, method, k=10)
        elif method == "loo":
            validate_knn(knn_classifier, X, y, dataset_name, method)


Validando Glass Dataset con holdout...

  Fold 1:
    Tamaño de entrenamiento: 153, Tamaño de validación: 61
    Accuracy: 0.6066
    Matriz de Confusión: {'TP': 11, 'TN': 0, 'FP': 0, 'FN': 0}

Resultados Finales para Glass Dataset con holdout:
  Accuracy Promedio: 0.6066
  Matriz de Confusión Total: {'TP': 11, 'TN': 0, 'FP': 0, 'FN': 0}
  Precision: 1.0000
  Recall: 1.0000
  F1-Score: 1.0000

Validando Iris Dataset con holdout...

  Fold 1:
    Tamaño de entrenamiento: 105, Tamaño de validación: 45
    Accuracy: 0.9556
    Matriz de Confusión: {'TP': 15, 'TN': 15, 'FP': 0, 'FN': 0}

Resultados Finales para Iris Dataset con holdout:
  Accuracy Promedio: 0.9556
  Matriz de Confusión Total: {'TP': 15, 'TN': 15, 'FP': 0, 'FN': 0}
  Precision: 1.0000
  Recall: 1.0000
  F1-Score: 1.0000

Validando Wine Dataset con holdout...

  Fold 1:
    Tamaño de entrenamiento: 126, Tamaño de validación: 52
    Accuracy: 0.9808
    Matriz de Confusión: {'TP': 17, 'TN': 0, 'FP': 0, 'FN': 0}

Resultados Fi