#  MultiLayer Perceptron - BackPropagation

Implemente uma Rede Neural Artificial do tipo Multilayer Perceptron, implementando o algoritmo de Back-propagation:<br>
Teste o algoritmo usando a base de dados de IRIS<br>
Teste diferentes números de camadas escondidas, e diferentes números de neurônios nas camadas escondidas.<br>
Teste em mais 2 problemas da base de dados de ML.<br>

## Implementação do Algoritmo
Neste algoritmo, será implementada uma rede multilayer perceptron com uma hidden layer.

In [1]:
#Importação de bibliotecas
import numpy as np
import random as random

#Definição de funções:
def sigmoid(sum):
    """Retorna o resultado da função sigmoid"""
    return 1/(1+np.exp(-sum))

def sigmoid_derivative(sigmoid):
    """Retorna o resultado da derivada da função sigmoid"""
    return sigmoid * (1-sigmoid)

In [2]:
#Inicialização dos pesos de forma randômica
def weights_ih(qtd_inputs,qtd_perceptrons):
    """Esta função inicializa os pesos entre a input layer e a hidden layer"""
    weights0 = 2 * np.random.random([qtd_inputs, qtd_perceptrons]) - 1
    return weights0

def weights_ho(qtd_outputs,qtd_perceptrons):
    """Esta função inicializa os pesos entre a hidden layer e a output layer"""
    weights1 = 2 * np.random.random([qtd_perceptrons, qtd_outputs]) - 1
    return weights1

In [3]:
def mlp(inputs,out,weights_0,weights_1,error):
    """Esta função atualiza os pesos para as camadas: input->hidden(weights_0) e hidden-output (weights_1)"""
    
    for epoch in range(epochs):
        
        #FeedFoward da Hidden Layer:
        #Cálculo da net
        net_hidden = np.dot(inputs, weights_0)
        #Aplicação da função de ativação no resultado da net
        hidden_layer = sigmoid(net_hidden)

        #FeedFoward da Output
        #Cálculo da net
        net_output  = np.dot(hidden_layer, weights_1)
        #Aplicação da função de ativação no resultado da net
        output_layer = sigmoid(net_output)
        
        #Implementação do erro
        error_output_layer = out - output_layer
        
        #Print da quantidade de erro x Epoch
        average = np.mean(abs(error_output_layer))
        if epoch % 10000 == 0:
            print('Epoch: ' + str(epoch + 1) + ' Error: ' + str(average))
            error.append(average)

        #Back Propagation
        #Cálculo do delta da camada de saída:
        #Derivada do output
        derivative_output = sigmoid_derivative(output_layer)
        #Cálculo do delta output
        delta_output = error_output_layer * derivative_output

        #Cálculo do delta da hidden layer
        delta_output_x_weight = np.dot(delta_output,weights_1.T)
        delta_hidden_layer = delta_output_x_weight * sigmoid_derivative(hidden_layer)

        #Atualiação dos erros da output layer
        input_x_delta1 = np.dot(hidden_layer.T,delta_output)
        weights_1 = weights_1 + (input_x_delta1 * learning_rate)

        #Atualiação dos erros da hidden layer
        input_x_delta0 = np.dot(inputs.T,delta_hidden_layer)
        weights_0 = weights_0 + (input_x_delta0 * learning_rate)
    return weights_0,weights_1

In [4]:
#Predict
def predict(instance,weights0,weights1):
    hidden_layer = sigmoid(np.dot(instance,weights0))
    output_layer = sigmoid(np.dot(hidden_layer,weights1))

    x=[]
    for i in output_layer:
        x.append(round(i))
    return x

## Iris Dataset

Iris Dataset Information: <br>

- Inputs: 4
- Outputs - 3
- Samples per class: [50,50,50]
- Samples total: 150
- Quantidade de epochs: Mínimo 10^5 (pois deseja-se 10^-5 de erro)
- Taxa de aprendizado adotada: 0.1 (deve ser baixa para garantir que o algoritmo irá convergir para o mínimo global)

In [5]:
from sklearn import datasets
    
#Import dataset
iris = datasets.load_iris()

#Define input
inputs = iris.data

#Define output
outputs = iris.target

#Codificação da output
# 0 - [1,0,0]
# 1 - [0,1,0]
# 2 - [0,0,1]
out=[]
for i in outputs:
    if i==0:
        out.append([1,0,0])
    if i==1:
        out.append([0,1,0])
    if i==2:
        out.append([0,0,1])
out=np.array(out)

### 4 perceptrons na Hidden Layer

In [6]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 4
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.5581045327881231
Epoch: 10001 Error: 0.4444446063206665
Epoch: 20001 Error: 0.44444450640832744
Epoch: 30001 Error: 0.4444444579388009
Epoch: 40001 Error: 0.4444443763977317
Epoch: 50001 Error: 0.4444444739041738
Epoch: 60001 Error: 0.4444444672722206
Epoch: 70001 Error: 0.44444446232356194
Epoch: 80001 Error: 0.4444444583803411
Epoch: 90001 Error: 0.4444444550501845


Nota-se que uma pequena quantidade de perceptrons aplicada à hidden layer não é suficiente para aprender os dados de saída da rede.

### 9 perceptrons na Hidden Layer

In [7]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 9
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.5555158778461023
Epoch: 10001 Error: 0.458021882461668
Epoch: 20001 Error: 0.4682282907371353
Epoch: 30001 Error: 0.22465733241191918
Epoch: 40001 Error: 0.22358181536351096
Epoch: 50001 Error: 0.22321326386413576
Epoch: 60001 Error: 0.2238006635189955
Epoch: 70001 Error: 0.22378185905208395
Epoch: 80001 Error: 0.22372139492855064
Epoch: 90001 Error: 0.22326023451656038


In [8]:
#Predição de todos os valores
predicao=[]
for i in inputs:
    predicao.append(predict(np.array(i),weights_0,weights_1))
print(predicao)

[[1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 0], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 0], [0, 0, 1], [0, 0, 1], [0, 0, 0], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 0], [0, 0, 1], [0, 0, 0], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 1], [0, 0, 0], [0, 0, 1], [0, 0, 1]

De acordo com a fórmula de Hecht-Nielsen, a quantidade de perceptrons aplicada à hidden layer deve ser <= (2* inputs +1), totalizando 9 processadores. 

> Conclusão: Mesmo utilizando a quantidade máxima de perceptrons, somente **uma hidden layer não é suficiente** para obter um erro < 10^-5 no dataset Iris.

## Wine dataset

Wine Dataset Information:

- Inputs: 13
- Outputs - 3
- Samples per class: [59,71,48]
- Samples total: 178

In [9]:
#Import dataset
from sklearn.datasets import load_wine
wine = load_wine()
inputs = wine['data']

#Define output
outputs = wine.target

#Codificação da output
# 0 - [1,0,0]
# 1 - [0,1,0]
# 2 - [0,0,1]
out=[]
for i in outputs:
    if i==0:
        out.append([1,0,0])
    if i==1:
        out.append([0,1,0])
    if i==2:
        out.append([0,0,1])
out=np.array(out)

### 4 perceptrons na Hidden Layer

In [10]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 4
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.5427077684576838


  return 1/(1+np.exp(-sum))


Epoch: 10001 Error: 0.4687970846018736
Epoch: 20001 Error: 0.46385596277114693
Epoch: 30001 Error: 0.44626494364337804
Epoch: 40001 Error: 0.455820176990994
Epoch: 50001 Error: 0.4676510834864989
Epoch: 60001 Error: 0.4521346983681276
Epoch: 70001 Error: 0.45317021088777787
Epoch: 80001 Error: 0.43875734264075356
Epoch: 90001 Error: 0.46624950516327884


Com 4 perceptrons obtem-se aproximadamente 50% de erro.

### 27 perceptrons na Hidden Layer

In [11]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 27
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

  return 1/(1+np.exp(-sum))


Epoch: 1 Error: 0.5553024354767695
Epoch: 10001 Error: 0.3333343869163406
Epoch: 20001 Error: 0.33333335949052273
Epoch: 30001 Error: 0.3333333697928779
Epoch: 40001 Error: 0.33333339805947326
Epoch: 50001 Error: 0.3333338529346459
Epoch: 60001 Error: 0.3333333989626893
Epoch: 70001 Error: 0.333333898187906
Epoch: 80001 Error: 0.3333334158325526
Epoch: 90001 Error: 0.3333333547117494


Neste dataset é possível utilizar até 27 perceptrons, uma vez que há 13 entradas (13*2+1). <br>

> Conclusão: Mesmo utilizando a quantidade máxima de perceptrons, somente **uma hidden layer não é suficiente** para obter um erro < 10^-5 no dataset Wine.

## Credit dataset

Credit Dataset Information:

- Inputs: 03 (income, salary, and loan)
- Outputs - 01 output binária (0 ou 1)
- Samples total: 2000

A eficiência de uma hidden layer será testada neste dataset de saída binária.

In [12]:
import pandas as pd
dataset = pd.read_csv('dataset/credit_data.csv')
from sklearn.preprocessing import MinMaxScaler

#Removendo célular nulas do dataset
dataset = dataset.dropna()

#Separando as colunas de entrada
inputs = dataset.iloc[:, 1:4].values

#Standardização - dataset apresenta 2000 samples, cujas inputs estão em escalas diferentes 
scaler = MinMaxScaler()
inputs = scaler.fit_transform(inputs)

#Selecionando as colunas de saída
outputs = dataset.iloc[:, 4].values
out = outputs.reshape(-1, 1)

### 2 Perceptrons

In [13]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = 1 #saída binária - somente 01 perceptron na output
qtd_perceptrons = 2
epochs = 100000
learning_rate = 0.01 
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.4152391730501038
Epoch: 10001 Error: 0.1379968147408465
Epoch: 20001 Error: 0.1316191376498681
Epoch: 30001 Error: 0.12811255701440724
Epoch: 40001 Error: 0.12571354083408096
Epoch: 50001 Error: 0.12390142496742865
Epoch: 60001 Error: 0.12245137276595815
Epoch: 70001 Error: 0.12124606114754063
Epoch: 80001 Error: 0.12021672317422263
Epoch: 90001 Error: 0.11931971042664122


Para 03 entradas, a quantidade máxima de perceptrons é 7. Portanto, o erro obtido com 02 neurônios na hidden layer pode ser melhorado.

### 7 Perceptrons
Testando o comportamento da rede a quantidade máxima de perceptrons na hidden layer.

In [14]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = 1 #saída binária - somente 01 perceptron na output
qtd_perceptrons = 7
epochs = 100000
learning_rate = 0.01 
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.6264361606976077
Epoch: 10001 Error: 0.0844615355064356
Epoch: 20001 Error: 0.08034479694109964
Epoch: 30001 Error: 0.0793002518488987
Epoch: 40001 Error: 0.07874621387309985
Epoch: 50001 Error: 0.07830474690548846
Epoch: 60001 Error: 0.07792171024872149
Epoch: 70001 Error: 0.0775932286254405
Epoch: 80001 Error: 0.07731865185775996
Epoch: 90001 Error: 0.07709406886276525


In [15]:
#Predição de todos os valores
predicao=[]
for i in inputs:
    predicao.append(predict(np.array(i),weights_0,weights_1))
predicao

[[0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [1],
 [1],
 [0],
 [1],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [1],
 [0],
 [0],
 [0]

In [16]:
#Exemplo:

#Checando as entradas com saída 0
inputs[outputs==0]

#Testando a saída de uma delas
predict(([0.9231759 , 0.95743135, 0.58883739]),weights_0,weights_1)

[0]

In [17]:
#Exemplo2:

#Checando as entradas com saída 1
inputs[outputs==1]

#Testando a saída de uma delas
predict(([4.46906018e-02, 6.51805101e-01, 3.17014248e-01]),weights_0,weights_1)

[1]

Para este dataset, apenas uma hidden layer apresentou um resultado satisfatório (erro de  0.07). E portanto, a rede conseguiu aprender o dataset e calcular predições confiáveis.