In [1]:
import numpy
import pandas
import keras
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import StratifiedKFold
import seaborn

recruitment = pandas.read_csv('recruitment_data.csv', sep=',', decimal='.')

features = list(recruitment.columns.values)

classificacao = features.pop(-1)

#_ = seaborn.pairplot(recruitment, hue=classificacao)

#removendo o sexo pois de acordo com o plot de distruicao , a chance de recrutamento eh equivalente para os dois sexos
features.remove('Gender')


X = recruitment[features].to_numpy() 
Y = recruitment[classificacao]

# Normalizando as features X
X_scaler = StandardScaler()
X_scaler = X_scaler.fit(X)
X_normalizado_standard = X_scaler.transform(X)


scaler = MinMaxScaler()
scaler = scaler.fit(X)
X_normalizado_min_max = scaler.transform(X)
#seaborn.scatterplot(X_normalizado_min_max) #melhor pois tem features que tem escala diferente 



# PARAMETROS DA REDE 
maximo_neuronios = 5
funcao_ativacao = 'tanh' 
metrica = 'Accuracy' 
#quantidade de loops q vai esperar ate q o erro de teste comece a aumentar 
paciencia = 300
max_epocas = 5*paciencia
min_improvement = 0.01
adam_initial_lr = 0.01
adam_decay_steps = max_epocas
adam_lr_decay = 0.99
rollback_on_no_lower_bound_gain = True #se comecar o erro a subir, volta pra onde tava bom

# SEED que controla a aleatoriedade 
random_seed = 22
n_k_folds = 5 #quantas partes o dataset vai ser dividido
keras.utils.set_random_seed(random_seed)
# DIVIDE EM K PEDACOS
sk_folds = StratifiedKFold(n_splits=n_k_folds)
sk_folds.get_n_splits(X_normalizado_min_max, Y)

5

In [24]:
# TREINANDO
metric_lower_bound = 0.0
metric_median = 0.0
resultados = []
for n_neuron in numpy.arange(1, maximo_neuronios+1):
    ix_fold = 1
    #divisao os grupos de treino e teste, ele faz pelos indices
    for train_index, test_index in sk_folds.split(X_normalizado_min_max, Y):
        # pegar o dado do teste  e treino   a partir dos indices da divisao feita pelo skfolds
        X_train, X_test = X_normalizado_min_max[train_index], X_normalizado_min_max[test_index]
        Y_train, Y_test = Y[train_index], Y[test_index]
        
        #configurando o otimizador 
        adam_lr_schedule = keras.optimizers.schedules.ExponentialDecay(adam_initial_lr,
                                                                        adam_decay_steps,
                                                                        adam_lr_decay)
        optimizer = keras.optimizers.Adam(learning_rate=adam_lr_schedule)

        # Configurando a rede
        model_name = f"ADAM-N{n_neuron}F{ix_fold}_{classificacao}"
        val_metric_name = f'val_{metrica}'
        
        inputs = keras.Input(shape=(len(features), ))
        hidden = keras.layers.Dense(n_neuron, activation=funcao_ativacao)(inputs)
        outputs = keras.layers.Dense(1, activation=funcao_ativacao)(hidden) #penas 1 classificacao = 1 saida
        rede = keras.Model(inputs=inputs, outputs=outputs, name=model_name)

        #Usar o otimizador com erro medio quadratico 
        rede.compile(optimizer=optimizer, loss='mse', metrics=[metrica])
        
        #early stop com foco no erro do grupo de validacao
        es_loss = keras.callbacks.EarlyStopping(monitor='val_loss', patience=paciencia, restore_best_weights=True)
        #early stop com foco na acuracia dos testes
        es_metric = keras.callbacks.EarlyStopping(monitor=metrica, mode='max', patience=paciencia, min_delta=min_improvement, restore_best_weights=True)


        #iniciando a rede para tentar encontrar o modelo
        resultado = rede.fit(X_train, Y_train, validation_data=(X_test, Y_test), batch_size=X_train.shape[0], 
                                epochs=max_epocas, verbose=0, callbacks=[es_loss, es_metric])

    

        # RESULTADOS DA REDE
        model_loss = resultado.history['loss'][-1]
        model_val_loss = resultado.history['val_loss'][-1]
        metric_val = resultado.history[metrica][-1]
        val_metric_val = resultado.history[val_metric_name][-1]
        n_epochs = len(resultado.history['val_loss'])

        resultado_dict = {'model_name': model_name,
                        'optimizer': optimizer,
                        'neurons': n_neuron,
                        'fold': ix_fold,
                        'loss': model_loss,
                        'val_loss': model_val_loss,
                        metrica: metric_val,
                        val_metric_name: val_metric_val,
                        'epochs': n_epochs,
                        'net': rede,
                        'history': resultado}
        resultados.append(resultado_dict)

        print(f"{model_name} > epochs: {n_epochs} loss: {model_loss} val_loss: {model_val_loss} {metrica}: {100.0*metric_val}% {val_metric_name}: {100.0*val_metric_val}%")
              

        # SE CHEGAR NO 100% para de aumentar 
        maximized_metrics = (val_metric_val == 1.0) & (metric_val == 1.0)

        if maximized_metrics:
            break

        print('')
        ix_fold += 1
        
    # GET LOWER BOUND OF WINNING ALGORITHM
    df_resultados = pandas.DataFrame(resultados)


ADAM-N1F1_HiringDecision > epochs: 856 loss: 0.1120549738407135 val_loss: 0.07616442441940308 Accuracy: 86.50000095367432% val_Accuracy: 90.66666960716248%

ADAM-N1F2_HiringDecision > epochs: 434 loss: 0.13101792335510254 val_loss: 0.10970497131347656 Accuracy: 86.41666769981384% val_Accuracy: 89.33333158493042%

ADAM-N1F3_HiringDecision > epochs: 436 loss: 0.11442888528108597 val_loss: 0.09436624497175217 Accuracy: 86.50000095367432% val_Accuracy: 89.33333158493042%

ADAM-N1F4_HiringDecision > epochs: 523 loss: 0.13941439986228943 val_loss: 0.1197722777724266 Accuracy: 86.2500011920929% val_Accuracy: 88.66666555404663%

ADAM-N1F5_HiringDecision > epochs: 425 loss: 0.10570008307695389 val_loss: 0.22040382027626038 Accuracy: 90.41666388511658% val_Accuracy: 73.33333492279053%

ADAM-N2F1_HiringDecision > epochs: 711 loss: 0.10742856562137604 val_loss: 0.07102981209754944 Accuracy: 86.83333396911621% val_Accuracy: 90.66666960716248%

ADAM-N2F2_HiringDecision > epochs: 432 loss: 0.11247114