In [None]:
# Cargar los datos que habíamos guardado del entrenamiento
# Estos datos ya se encuentran estandarizados y con los atributos seleccionados

import numpy as np

# Matriz de características con la clase
train = np.load('../fianl_features/train.npy')

# Ahora vamos a separar los atributos de la clase

X_train = train[:, :-1]
y_train = train[:, -1]

In [None]:
# Definir los modelos de clasificación

# Utilizaremos el modelo del Perceptron Multicapa
# Este modelo nos permite clasificar datos de manera no lineal
# Es un algoritmo que se basa en el uso de redes neuronales
# y lo que hace es buscar conexiones entre las neuronas durante el forward propagation
# evalua el error cometido (nivel de exactitud alcanzado)
# y en base a eso, durante el backward propagation actualiza los hiperparametros de las conexiones de las neuronas
# para en la siguiente iteración reducir el error o aumentar el nivel de exactitud durante la predicción
# Es un algoritmo iterativo
# Los algoritmos de Perceptron se pueden usar tanto para regresión como para clasificación

# Así mismo también utilizaremos un modelo de Logistic Regression para comparar los resultados obtenidos
# No confundir Logistic Regression con Regresión lineal. Logistic Regression se utiliza para problemas de clasificación

from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import cross_val_score, KFold

algortimos = {
    'LOGR': LogisticRegression(penalty='l2', solver='saga', max_iter=1000, random_state=42),
    'MLP': MLPClassifier(hidden_layer_sizes=[8, 4], activation='relu', solver='sgd', batch_size='auto', 
                         learning_rate='constant', learning_rate_initial=0.01, max_iter=1000, random_state=42)
}

# Cross-validation iterno en k=5 bolsas. Esto nos permitira mejorar los hiperparametros de nustros
# algoritmos para obtener un mejor resultado
# Dividiremos en dos sub conjuntos nuestro conjunto de entrenamiento.
# Uno será de entrenamiento y otro de validacion.

# Con el metodo cross_val_score lo que hacemos es obtener el accuracy de nuestro modelo
# para cada una de las bolsas. Esto nos ayudara a observar que tan robusto es nuestro modelo
# ya que en caso de hacer una única partición, no sabemos si nuestro modelo es lo suficiente robusto por 
# los datos escogidos, o si es robusto en general. El metodo cross_val_score lo que hace es agregar
# aleatoridad

# Obtenemos el accuracy en cada una de las 5 bolsas de validación

results = {}

# El accuracy es un buen indicador ya que nos muestra el porcentaje de muestras que estoy acertando
# con respecto al total
for nombre, alg in algoritmos.items():
    results[nombre] = cross_val_score(alg, X_train, y_train, cv=KFold(n_splits=5, shuffle=True, random_state=42))
    print(nombre + ': Accuracy: %0.4f +/- %0.4f' % (results[nombre].mean(), results[nombre].std()))

In [None]:
# Una vez que ya hemos determinado los hiperparametros y ya no los podemos optimizar todavia mas
# ahora si ya podemos definir el modelo definitivo

algortimos = {
    'LOGR': LogisticRegression(penalty='l2', solver='saga', max_iter=1000, random_state=42),
    'MLP': MLPClassifier(hidden_layer_sizes=[8, 4], activation='relu', solver='sgd', batch_size='auto', 
                         learning_rate='constant', learning_rate_initial=0.01, max_iter=1000, random_state=42)
}

LOGR_definitivo = LOGR.fit(X_train, y_train)
MLP_definitivo = MLP.fit(X_train, y_train)

# Atributos que se obtienen durante el entrenamiento

# El error mínimo cometido durante las etapas de entrnamiento
print('Minimo error cometido: ', MLP_definitivo.best_loss_)
print('Numero de iteraciones llevadas a cabo: ', MLP_definitivo.n_iter_)

In [None]:
# Una vez que ya hemos entrenado los modelos con los datos de ENTRENAMIENTO
# lo que haremos será guardar los modelos en nuestra computadora
# para poder utilizarlos en un futuro con los datos de test

import os
impoer pickle

if os.path.exists('../models'):
    os.mkdir('../models')
    
with open('../models/LOGR.pickle', 'wb') as fw:
    pickle.dump(LOGR_definitivo, fw)
    
with open('../models/MLP.pickle', 'wb') as fw:
    pickle.dump(MLP_definitivo, fw)