En este archivo se explica e implementa el proceso de entrenamiento de los modelos, que consiste basicamente en cargar los datos de entrenamiento y entrenar los modelos con dichos conjuntos.

### Conjunto de datos
El primer paso es cargar los conjunto de entrenamiento. A continuación se implementa una función que devuelve los conjuntos de entrenamiento de la versión y partición deseadas, modificando los parámetros $set$ y $fold$ respectivamente.

In [30]:
import pandas as pd
import numpy as np

def cargar_datos_entrenamiento(set, fold):
    """
        Carga el conjunto de datos de entrenamiento en un dataFrame.
    
        Args:
            set: version del conjunto de datos
            fold: particion
                    
        Returns: 
            training_data: el dataFrame con el conjunto de entrenamiento
    """
    training_data = pd.read_csv(f"./{set}/training{fold}_{set}.csv")
    return training_data


### Entrenamiento de modelos
Para los conjuntos cargados, entrenaremos un modelo por cada método de los siguientes: K-NN, SVM, Naive Bayes y Random Forest. Se implementa a continuación una función que entrena el modelo seleccionado mediante el parámetro $model$, utilizando la versión y partición deseada con los parámetros $set$ y $fold$.

In [31]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier

def entrena_modelo(model_type, set, fold):
    """
        Entrena un modelo seleccionado, para la version del conjunto y la partición seleccionadas.
    
        Args:
            model: tipo de modelo
            set: version del conjunto de datos
            fold: particion
                    
        Returns: 
            model_fitted: modelo entrenado con los conjuntos de datos
    """

    training_data = cargar_datos_entrenamiento(set, fold)
    X_train = training_data.iloc[:,:-1]
    y_train = training_data.iloc[:,-1]

    if model_type == 'knn':                 # K-Nearest Neighbors (KNN)
        model_fitted = KNeighborsClassifier(n_neighbors=5)

    elif model_type == 'svm':               # Support Vector Machine (SVM)
        model_fitted = SVC(kernel='linear', random_state=42)

    elif model_type == 'naive_bayes':       # Naive Bayes (Gaussian)
        model_fitted = GaussianNB()

    elif model_type == 'random_forest':     # Random Forest
        model_fitted = RandomForestClassifier(n_estimators=100, random_state=42)

    model_fitted.fit(X_train, y_train)
    
    return model_fitted


A continuación se muestra una prueba de lo métodos implementados.

In [32]:
# Conjunto de datos de entrenamiento

set = "norm"
fold = 1
training_data = cargar_datos_entrenamiento(set, fold)
training_data

Unnamed: 0,0,1,2,3,4
0,0.138889,0.458333,0.101695,0.041667,0.0
1,0.305556,0.583333,0.084746,0.125000,0.0
2,0.250000,0.875000,0.084746,0.000000,0.0
3,0.333333,0.916667,0.067797,0.041667,0.0
4,0.166667,0.458333,0.084746,0.041667,0.0
...,...,...,...,...,...
115,0.666667,0.416667,0.711864,0.916667,2.0
116,0.555556,0.208333,0.677966,0.750000,2.0
117,0.611111,0.416667,0.711864,0.791667,2.0
118,0.527778,0.583333,0.745763,0.916667,2.0


In [33]:
# Entrenar modelo

set = "original"
fold = 3
model = entrena_modelo('svm', set, fold)
model

0,1,2
,C,1.0
,kernel,'linear'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,
