In [7]:
import numpy as np
import pandas as pd
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer


def pegar_dataframe_por_num_resposta(num_resposta: int):
    return pd.read_csv('perguntas_2019 - {} respostas - Pronto para uso (sem bias).csv'.format(num_resposta))#%%



In [24]:
for num_respostas in range(3, 6):
    print("\n\n - - - - - Começando teste com {} respostas - - - - - \n\n".format(num_respostas))
    df = pegar_dataframe_por_num_resposta(num_respostas)
    
    # Filtrando apenas com perguntas com resposta escolhida
    df = df[df['alvo']!=-1]
    
    # O atributo 'tem_site_proprio' foi removido, pois não parecia estar contribuindo
    colunas_respostas = ['pontos_resposta', 'tempo_resposta', 'user_reputation', 'maestria_tags']
    colunas_relevantes = [c + str(resposta) for resposta in range(0, num_respostas) for c in colunas_respostas]

    x = df[colunas_relevantes]
    y = df['alvo']

    print('Tamanho dataset: ' + str(len(df)))

    # Preparamos o imputer
    simple_imputer = SimpleImputer(missing_values=np.NaN, strategy='constant', fill_value=-1)
    simple_imputer.fit(x)

    X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.15)

    # Dessa vez realizamos o scalling!
    scaler = StandardScaler()
    scaler.fit(X_train)
    X_train = scaler.transform(X_train)
    X_test = scaler.transform(X_test)
    
    # Trocamos o valor default de variáveis em branco para -1
    X_train = simple_imputer.transform(X_train)
    X_test = simple_imputer.transform(X_test)
    
    print('Numero linhas Treino: ' + str(len(X_train)))
    print('Numero linhas Test: ' + str(len(X_test)))
    
    # Cria modelo
    mlp = MLPClassifier(hidden_layer_sizes=(num_respostas*2, num_respostas*2, num_respostas*2), max_iter=3000)
    mlp.fit(X_train, y_train.values.ravel())

    y_pred = mlp.predict(X_test)

    cm = confusion_matrix(y_test, y_pred)

    print(str(cm) + "\n")
    print(classification_report(y_test, y_pred))

    print("\n\n - - - - - Terminado teste com {} respostas - - - - - \n\n".format(num_respostas))



 - - - - - Começando teste com 3 respostas - - - - - 


Tamanho dataset: 268680
Numero linhas Treino: 228378
Numero linhas Test: 40302
[[9962 1429 1967]
 [2411 7985 2916]
 [2359 1301 9972]]

              precision    recall  f1-score   support

           0       0.68      0.75      0.71     13358
           1       0.75      0.60      0.66     13312
           2       0.67      0.73      0.70     13632

    accuracy                           0.69     40302
   macro avg       0.70      0.69      0.69     40302
weighted avg       0.70      0.69      0.69     40302



 - - - - - Terminado teste com 3 respostas - - - - - 




 - - - - - Começando teste com 4 respostas - - - - - 


Tamanho dataset: 270954
Numero linhas Treino: 230310
Numero linhas Test: 40644
[[7116  840 1155 1045]
 [1279 6935  793 1020]
 [ 988 1393 6962  940]
 [1139 1060 1104 6875]]

              precision    recall  f1-score   support

           0       0.68      0.70      0.69     10156
           1       0.68     