En este archivo se explica e implementa el proceso de entrenamiento de los modelos, que consiste basicamente en cargar los datos de entrenamiento y entrenar los modelos con dichos conjuntos.

In [1]:
import pandas as pd
import numpy as np
import os
import joblib
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier


### Entrenamiento de modelos
El primer paso es cargar el conjunto de entrenamiento. Después, entrenaremos un modelo con los datos cargados. Se implementa a continuación una función que entrena el modelo seleccionado mediante el parámetro $method$, utilizando los datos de entrenamiento de la versión y partición deseada con los parámetros $set$ y $fold$.

In [None]:
def genera_modelo(method: str, set: str, fold: str):
    """
        Entrena un modelo seleccionado, para la version del conjunto y la partición seleccionadas.
    
        Args:
            method: tipo de modelo
            set: version del conjunto de datos
            fold: particion (1 - 5)
                    
        Returns: 
            model_fitted: modelo entrenado con los conjuntos de datos
    """

    # Generamos el path al archivo .csv correspondiente
    data_path = os.path.join(os.getcwd(), "data")
    full_path = os.path.join(data_path, f"{set}/training{fold}_{set}.csv")

    # Cargamos los datos de entrenamiento
    training_df = pd.read_csv(full_path)

    X_train = training_df.iloc[:, :-1]
    y_train = training_df.iloc[:, -1]

    # Generamos el modelo que corresponda y lo entrenamos

    if method == 'knn':                 # K-Nearest Neighbors (KNN)
        model_fitted = KNeighborsClassifier(n_neighbors=5)

    elif method == 'svm':               # Support Vector Machine (SVM)
        model_fitted = SVC(kernel='linear', random_state=42, probability=True)

    elif method == 'naive_bayes':       # Naive Bayes (Gaussian)
        model_fitted = GaussianNB()

    elif method == 'random_forest':     # Random Forest
        model_fitted = RandomForestClassifier(n_estimators=100, random_state=42)

    model_fitted.fit(X_train, y_train)

    # Guardamos el modelo entrenado para el conjunto y fold específicos
    models_path = os.path.join(os.getcwd(), "models")
    model_name = f"{method}_{set}_{fold}.pkl"
    joblib.dump(model_fitted, os.path.join(models_path, model_name))


### Generación de modelos entrenados
A continuación, para cada versión de los datos (original, normalizados y estandarizados, con sus respectivos PCA de 0.8 y 0.9) se va a entrenar un modelo por cada método de los siguientes: K-NN, SVM, Naive Bayes y Random Forest.

In [None]:
METHODS = ['knn', 'svm', 'naive_bayes', 'random_forest']
SETS = [
    'norm', 'norm_PCA80', 'norm_PCA95',
    'original', 'original_PCA80', 'original_PCA95',
    'stand', 'stand_PCA80', 'stand_PCA95'
]


for method in METHODS:
    for set in SETS:
        for fold in range(1, 6):
            print(f"Generando {method} sobre el conjunto {set} para el fold {fold}")
            genera_modelo(method, set, fold)


Generando knn sobre el conjunto norm para el fold 1
Generando knn sobre el conjunto norm para el fold 2
Generando knn sobre el conjunto norm para el fold 3
Generando knn sobre el conjunto norm para el fold 4
Generando knn sobre el conjunto norm para el fold 5
Generando knn sobre el conjunto norm_PCA80 para el fold 1
Generando knn sobre el conjunto norm_PCA80 para el fold 2
Generando knn sobre el conjunto norm_PCA80 para el fold 3
Generando knn sobre el conjunto norm_PCA80 para el fold 4
Generando knn sobre el conjunto norm_PCA80 para el fold 5
Generando knn sobre el conjunto norm_PCA95 para el fold 1
Generando knn sobre el conjunto norm_PCA95 para el fold 2
Generando knn sobre el conjunto norm_PCA95 para el fold 3
Generando knn sobre el conjunto norm_PCA95 para el fold 4
Generando knn sobre el conjunto norm_PCA95 para el fold 5
Generando knn sobre el conjunto original para el fold 1
Generando knn sobre el conjunto original para el fold 2
Generando knn sobre el conjunto original para el