In [3]:
# Librerias
# ********************************************************

# Libreria para ignorar warnings
import warnings 
warnings.filterwarnings('ignore', category=FutureWarning)

# Libreria para el tiempo
import time 
from datetime import datetime

# Libreria para cargar el dataset o dataframe
import pandas as pd

# Libreria para algoritmos de machine learning
import sklearn 

# Librerias para utilizar Ada Boost
from sklearn.ensemble import AdaBoostClassifier
# Libreria para utilizar Naive Bayes
from sklearn.naive_bayes import GaussianNB
# Libreria para utilizar Redes Neuronales
from sklearn.neural_network import MLPClassifier
# Libreria para utilizar el árbol de decisión
from sklearn.tree import DecisionTreeClassifier
# Libreria para utilizar bosques aleatorios
from sklearn.ensemble import RandomForestClassifier

# Importamos la función train_test_split para dividir los datos de entrenamiento y prueba
from sklearn.model_selection import train_test_split

# Libreria para construir la matriz de confusión
from sklearn.metrics import confusion_matrix


def n_t_s(valor):
    return f'{valor:,}'

def imprimir_con_timestamp(*params):
    timestamp = datetime.now().strftime('%F %X')
    print(timestamp, ' '.join(params) , '')
    
def inicializar_datos(nombre_de_archivo, cantidad_de_registros):
    # Carga el dataset
    tiempo_inicio = time.time()
    imprimir_con_timestamp('Inicia el proceso de importar el Dataset a Python')
    datos = pd.read_csv(nombre_de_archivo, nrows=cantidad_de_registros)
    tiempo_fin = (time.time()-tiempo_inicio) 
    imprimir_con_timestamp('Dataset con', n_t_s(datos.shape[0]), 'registros y', n_t_s(datos.shape[1]), 'columnas cargada en: ',n_t_s(round(tiempo_fin,5)),' segundos es decir',n_t_s(round(tiempo_fin/60,5)),'minutos')

    imprimir_con_timestamp('Creando datasets de prueba y entrenamiento')
    predictores = datos[datos.columns[:-1]].to_numpy() # Específica tomar variables predictoras
    target = datos[datos.columns[-1]].to_numpy() # Específica tomar variable a predecir (última posición)
    datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba = train_test_split(predictores , target, test_size = 0.3)
    imprimir_con_timestamp('Entrenamiento: ',n_t_s(len(datos_entrenamiento)), 'registros (70%)')
    imprimir_con_timestamp('Pruebas:       ',n_t_s(len(datos_prueba)), 'registros (30%)')
    return datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba

# Calcula el porcentaje de Aciertos / Errores de las maquinas de aprendizaje
def calcular_resultados(target_prueba, predicciones_prueba, inicio_tiempo):
    imprimir_con_timestamp('Calculando la cantidad de aciertos')
    # Matriz de confusión en pruebas
    matriz_confusion = confusion_matrix(target_prueba, predicciones_prueba)
    # Se crea una Matriz de Confusion para hacer los calculos de aciertos / errores
    imprimir_con_timestamp('Matriz de confusión')
    imprimir_con_timestamp('Verdaderos Negativos: ',n_t_s(matriz_confusion[0,0]))
    imprimir_con_timestamp('Verdaderos Positivos: ',n_t_s(matriz_confusion[1,1]))
    imprimir_con_timestamp('Falsos Positivos:     ',n_t_s(matriz_confusion[1,0]))
    imprimir_con_timestamp('Falsos Negativos:     ',n_t_s(matriz_confusion[0,1]))
    acierto = round(100/target_prueba.shape[0]*(matriz_confusion[0,0]+matriz_confusion[1,1]),5)
    imprimir_con_timestamp('Porcentaje de Aciertos: ',n_t_s(acierto))
    error = round(100 - acierto,5)
    imprimir_con_timestamp('Porcentaje de Errores: ',n_t_s(error))
    cantidad_errores = matriz_confusion[0,1] + matriz_confusion[1,0]
    imprimir_con_timestamp('Errores de clasificación: ' + n_t_s(cantidad_errores) + ' errores, sobre un total de ',n_t_s(target_prueba.shape[0]),' casos')
         
# Ejecuta la maquina de aprendizaje que se especifica y regresa el tiempo de ejecución
def ejecutar_algoritmo(nombre, funcion_ml, datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba):
    inicio_tiempo = time.time() 
    funcion_ml(datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba)
    tiempo_fin = (time.time()-inicio_tiempo) 
    imprimir_con_timestamp(nombre,'ejecutado en',n_t_s(round(tiempo_fin,5)), 'segundos es decir',n_t_s(round(tiempo_fin/60,5)), 'minutos')
    print('\n')

# Creamos nuestas funciones que contienen los algoritmos   
def ada_boost(datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba):
    imprimir_con_timestamp('Ada boost: iniciando el entrenamiento');
    inicio_tiempo = time.time() 
    ada = AdaBoostClassifier(n_estimators=10, learning_rate=1.5, random_state=1)
    model = ada.fit(datos_entrenamiento, target_entrenamiento)
    tiempo_fin = (time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de entrenamiento:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')
    imprimir_con_timestamp('Prediciendo resultados')
    # predicción 
    inicio_tiempo = time.time() 
    predicciones_prueba = model.predict(datos_prueba)
    tiempo_fin=(time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de ejecución:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')    
    calcular_resultados(target_prueba, predicciones_prueba, inicio_tiempo) 

def naive(datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba):
    imprimir_con_timestamp('Naive Bayes: iniciando el entrenamiento');
    inicio_tiempo = time.time() 
    bayes = GaussianNB()
    model = bayes.fit(datos_entrenamiento, target_entrenamiento)
    tiempo_fin = (time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de entrenamiento:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')
    imprimir_con_timestamp('Prediciendo resultados')
    # predicción 
    inicio_tiempo = time.time() 
    predicciones_prueba = model.predict(datos_prueba)
    tiempo_fin=(time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de ejecución:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')    
    calcular_resultados(target_prueba, predicciones_prueba, inicio_tiempo) 
    
def forest(datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba):
    imprimir_con_timestamp('Random Forest: iniciando el entrenamiento');
    inicio_tiempo = time.time() 
    randomforest = RandomForestClassifier(n_estimators=10)
    model = randomforest.fit(datos_entrenamiento, target_entrenamiento)
    tiempo_fin = (time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de entrenamiento:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')
    imprimir_con_timestamp('Prediciendo resultados')
    # predicción 
    inicio_tiempo = time.time() 
    predicciones_prueba = model.predict(datos_prueba)
    tiempo_fin=(time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de ejecución:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')    
    calcular_resultados(target_prueba, predicciones_prueba, inicio_tiempo)     
    
def redes_neuronales(datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba):
    imprimir_con_timestamp('Redes Neuronales: iniciando el entrenamiento');
    inicio_tiempo = time.time() 
    redes = MLPClassifier(max_iter=100, hidden_layer_sizes=(4))
    model = redes.fit(datos_entrenamiento, target_entrenamiento)
    tiempo_fin = (time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de entrenamiento:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')
    imprimir_con_timestamp('Prediciendo resultados')
    # predicción 
    inicio_tiempo = time.time() 
    predicciones_prueba = model.predict(datos_prueba)
    tiempo_fin=(time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de ejecución:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')    
    calcular_resultados(target_prueba, predicciones_prueba, inicio_tiempo) 

def arboles(datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba):
    imprimir_con_timestamp('Arboles de decision: iniciando el entrenamiento');
    inicio_tiempo = time.time() 
    arbol = DecisionTreeClassifier(max_depth=7)
    model = arbol.fit(datos_entrenamiento, target_entrenamiento)
    tiempo_fin = (time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de entrenamiento:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')
    imprimir_con_timestamp('Prediciendo resultados')
    # predicción 
    inicio_tiempo = time.time() 
    predicciones_prueba = model.predict(datos_prueba)
    tiempo_fin=(time.time()-inicio_tiempo) 
    imprimir_con_timestamp('Tiempo de ejecución:',n_t_s(round(tiempo_fin,5)), 
                           ' segundos es decir ',n_t_s(round(tiempo_fin/60,5)), ' minutos')    
    calcular_resultados(target_prueba, predicciones_prueba, inicio_tiempo) 

imprimir_con_timestamp('Inicializamos los datos que vamos a utilizar')

datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba = inicializar_datos('/git/nodejs/proyecto/dataset.csv', 5000000)

print('\n\n')
imprimir_con_timestamp('Iniciar la ejecución de los Algoritmos ')
print('\n\n')
ejecutar_algoritmo('Ada boost', ada_boost, datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba)
ejecutar_algoritmo('Arboles de decision', arboles, datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba)
ejecutar_algoritmo('Redes Neuronales', redes_neuronales, datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba)
ejecutar_algoritmo('Naive Bayes', naive, datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba)
ejecutar_algoritmo('Random Forest', forest, datos_entrenamiento, datos_prueba, target_entrenamiento, target_prueba)


2020-10-11 22:31:44 Inicializamos los datos que vamos a utilizar 
2020-10-11 22:31:44 Inicia el proceso de importar el Dataset a Python 
2020-10-11 22:31:44 Dataset con 50,000 registros y 27 columnas cargada en:  0.1161  segundos es decir 0.00194 minutos 
2020-10-11 22:31:44 Creando datasets de prueba y entrenamiento 
2020-10-11 22:31:44 Entrenamiento:  35,000 registros (70%) 
2020-10-11 22:31:44 Pruebas:        15,000 registros (30%) 



2020-10-11 22:31:44 Iniciar la ejecución de los Algoritmos  



2020-10-11 22:31:44 Ada boost: iniciando el entrenamiento 
2020-10-11 22:31:45 Tiempo de entrenamiento: 0.37083  segundos es decir  0.00618  minutos 
2020-10-11 22:31:45 Prediciendo resultados 
2020-10-11 22:31:45 Tiempo de ejecución: 0.0201  segundos es decir  0.00033  minutos 
2020-10-11 22:31:45 Calculando la cantidad de aciertos 
2020-10-11 22:31:45 Matriz de confusión 
2020-10-11 22:31:45 Verdaderos Negativos:  9,555 
2020-10-11 22:31:45 Verdaderos Positivos:  4,946 
2020-10-11 22:31