Fundamentação Teórica

Uma rede neural artificial multicamadas perceptron é um modelo flexível que consiste de um conjunto de camadas de neurônios interligados mapeando os neurônios da camada de entrada em uma camada de neurônios na saída. (GARDNER & DORLING, 1998)

Dessa forma, esse modelo tem a capacidade de aprendizado através de treinos supervisionados. Sendo assim, os dados de treino são repetidamente aplicados no modelo, de forma que sejam gerados valores para as funções de ativação dos neurônios até que seja alcançado um valor significativo para o modelo. (GARDNER & DORLING, 1998)

Sendo assim, uma rede neural artificial multicamadas perceptron se divide em 3 tipos de camada, a camada de entrada, a intermediária ou oculta e, por fim, a camada de saída como podemos ver na imagem abaixo.


   Com base na teoria vista, vamos implementar um algoritmo com o mesmo propósito da aula anterior, porém agora utilizando de uma Rede Neural Artificial Multicamadas Perceptron (RNA - MCP). Dessa forma, podemos realizar uma análise de eficiência em relação ao outro algoritmo para a mesma finalidade, com os mesmos dados de base.


Importando as bibliotecas:

As bibliotecas serão basicamente as mesmas, exceto pelo algoritmo classificador, que agora será a RNA MCP disponibilizada também pelo Scikit Learn. 

In [1]:
import pandas as pd
import numpy as np
import sklearn
from sklearn.neural_network import MLPClassifier
from sklearn.neural_network import MLPRegressor

from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.metrics import classification_report, confusion_matrix

Abrindo o arquivo e criando o dataframe

In [2]:
dados = pd.read_csv("diabetes.csv")
dados.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Vamos agora separar as colunas utilizadas para inferir o dado desejado, que é a existência de diabetes ou não, ou seja, vamos isolar a coluna Outcome das demais.

In [3]:
coluna_alvo = ["Outcome"]
preditores = list(set(list(dados.columns))-set(coluna_alvo))

In [4]:
dados[preditores]

Unnamed: 0,Pregnancies,Age,BloodPressure,DiabetesPedigreeFunction,Insulin,SkinThickness,Glucose,BMI
0,6,50,72,0.627,0,35,148,33.6
1,1,31,66,0.351,0,29,85,26.6
2,8,32,64,0.672,0,0,183,23.3
3,1,21,66,0.167,94,23,89,28.1
4,0,33,40,2.288,168,35,137,43.1
...,...,...,...,...,...,...,...,...
763,10,63,76,0.171,180,48,101,32.9
764,2,27,70,0.340,0,27,122,36.8
765,5,30,72,0.245,112,23,121,26.2
766,1,47,60,0.349,0,0,126,30.1


In [5]:
dados[coluna_alvo]

Unnamed: 0,Outcome
0,1
1,0
2,1
3,0
4,1
...,...
763,0
764,0
765,0
766,1


Vamos agora, alocar os dados do data frame em um vetor X, com os dados que serão utilizados para inferência, ou seja, os preditores, como foi visto anterior. Os dados da coluna_alvo, ou seja, Outcome, será alocada em um vetor Y. Para que posteriormente possamos separar os dados para treino e teste.


In [6]:
X = dados[preditores].values
Y = dados[coluna_alvo].values

Iremos agora utilizar a função train_test_split, para separarmos os dados de X e Y para treino e teste do modelo da nossa RNA - MCP, com 30% dos dados para teste e o restante para o treino. Eles são repostos em outros 4 vetores, X_train, X_test, y_train e y_test.

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X,Y, test_size=0.3, random_state=20)


Agora que temos os dados devidamente separados, vamos criar o nosso modelo de RNA MCP, para podermos aplicar os dados para treinar e, por fim, testá-lo.
A instância do modelo é criado através do método MLPClassifier, ele possui vários parametros e nesta aula iremos usar 4, ela possui diversos e, portanto, recomendo verificar a documentação da mesma no site do Scikit Learn. Sendo assim, irei brevemente explanar as que iremos utilizar.

    Hidden_layer_sizes: Número de camadas escondidas e a quantidade de neurônio delas.

    
    Activation: Função de ativação dos Neurônios

    
    Solver: Especifica o algoritmo para otimização dos pesos dos neurônios

    
    Max_iter: Número máximo de iterações com os dados de treino para obter os valores dos pesos de cada neurônio


In [8]:
#Cria a rede neural e atribui à modeloRN
modeloRN = MLPClassifier(hidden_layer_sizes=(8,8,), activation='relu',solver='adam', max_iter=600)
#hidden_layer_sizer exemplo:
# hidden_layer_sizes=(4,) - 1 camada escondida com 4 neuronios
# hidden_layer_sizes=(8,3,) - 2 camadas escondidas, uma com 8 neuronios e outra com 3

Feito isto, temos uma RNA-MCP com 8 neurônios na camada de entrada, 8 neurônios em cada camada intermediária/escondida, sendo 2 camadas desse tipo, e, por fim, uma camada de saída com 1 neurônio (0 para não possui diabetes e 1 caso contrario)


Aplicamos, agora, os dados previamente separados para o treino da nossa RNA-MCP, através do método fit(), que possui como parâmetro os valores de X e Y de treino.


In [9]:
#Treinando a rede neural artifical com os dados de treino.
modeloRN.fit(X_train,y_train)

  y = column_or_1d(y, warn=True)


MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(8, 8), learning_rate='constant',
              learning_rate_init=0.001, max_iter=600, momentum=0.9,
              n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5,
              random_state=None, shuffle=True, solver='adam', tol=0.0001,
              validation_fraction=0.1, verbose=False, warm_start=False)

Com a nossa RNA-MCP devidamente treinada, vamos testá-la. Sendo assim, através do método predict(), que recebe como parâmetro os valores relacionados ao preditores, podemos obter um vetor com os resultados da inferência.


In [10]:
#Realizando o teste e guardando os valores em y_predict
y_predict = modeloRN.predict(X_test)

Agora que possuímos nosso resultado, vamos novamente verificar a eficiência do modelo, verificando sua acurácia e depois, gerando a matriz de confusão e a tabela com os demais índices de eficiência (f1, recall, precision).


In [11]:
#Utilizando accuracy_score do módulo metrics para realizar o cálculo de acuracia
print("Accuracy:",metrics.accuracy_score(y_test, y_predict))

Accuracy: 0.6796536796536796


In [12]:
#Gerando a matriz de confusão
print(confusion_matrix(y_test,y_predict))

[[133  20]
 [ 54  24]]


In [13]:
#Gerando a tabela com os demais indices de eficiencia
print(classification_report(y_test,y_predict))

              precision    recall  f1-score   support

           0       0.71      0.87      0.78       153
           1       0.55      0.31      0.39        78

    accuracy                           0.68       231
   macro avg       0.63      0.59      0.59       231
weighted avg       0.66      0.68      0.65       231



REFERENCIAS

GARDNER, Matt W.; DORLING, S. R. Artificial neural networks (the multilayer perceptron)—a review of applications in the atmospheric sciences. Atmospheric environment, v. 32, n. 14-15, p. 2627-2636, 1998.