#  MultiLayer Perceptron - BackPropagation

Implemente uma Rede Neural Artificial do tipo Multilayer Perceptron, implementando o algoritmo de Back-propagation:<br>
Teste o algoritmo usando a base de dados de IRIS<br>
Teste diferentes números de camadas escondidas, e diferentes números de neurônios nas camadas escondidas.<br>
Teste em mais 2 problemas da base de dados de ML.<br>

## Implementação do Algoritmo
Neste algoritmo, será implementada uma rede multilayer perceptron com uma hidden layer.

In [1]:
#Importação de bibliotecas
import numpy as np
import random as random

#Definição de funções:
def sigmoid(sum):
    """Retorna o resultado da função sigmoid"""
    return 1/(1+np.exp(-sum))

def sigmoid_derivative(sigmoid):
    """Retorna o resultado da derivada da função sigmoid"""
    return sigmoid * (1-sigmoid)

In [2]:
#Inicialização dos pesos de forma randômica
def weights_ih(qtd_inputs,qtd_perceptrons):
    """Esta função inicializa os pesos entre a input layer e a hidden layer"""
    weights0 = 2 * np.random.random([qtd_inputs, qtd_perceptrons]) - 1
    return weights0

def weights_ho(qtd_outputs,qtd_perceptrons):
    """Esta função inicializa os pesos entre a hidden layer e a output layer"""
    weights1 = 2 * np.random.random([qtd_perceptrons, qtd_outputs]) - 1
    return weights1

In [3]:
def mlp(inputs,out,weights_0,weights_1,error):
    """Esta função atualiza os pesos para as camadas: input->hidden(weights_0) e hidden-output (weights_1)"""
    
    for epoch in range(epochs):
        
        #FeedFoward da Hidden Layer:
        #Cálculo da net
        net_hidden = np.dot(inputs, weights_0)
        #Aplicação da função de ativação no resultado da net
        hidden_layer = sigmoid(net_hidden)

        #FeedFoward da Output
        #Cálculo da net
        net_output  = np.dot(hidden_layer, weights_1)
        #Aplicação da função de ativação no resultado da net
        output_layer = sigmoid(net_output)
        
        #Implementação do erro
        error_output_layer = out - output_layer
        
        #Print da quantidade de erro x Epoch
        average = np.mean(abs(error_output_layer))
        if epoch % 10000 == 0:
            print('Epoch: ' + str(epoch + 1) + ' Error: ' + str(average))
            error.append(average)

        #Back Propagation
        #Cálculo do delta da camada de saída:
        #Derivada do output
        derivative_output = sigmoid_derivative(output_layer)
        #Cálculo do delta output
        delta_output = error_output_layer * derivative_output

        #Cálculo do delta da hidden layer
        delta_output_x_weight = np.dot(delta_output,weights_1.T)
        delta_hidden_layer = delta_output_x_weight * sigmoid_derivative(hidden_layer)

        #Atualiação dos erros da output layer
        input_x_delta1 = np.dot(hidden_layer.T,delta_output)
        weights_1 = weights_1 + (input_x_delta1 * learning_rate)

        #Atualiação dos erros da hidden layer
        input_x_delta0 = np.dot(inputs.T,delta_hidden_layer)
        weights_0 = weights_0 + (input_x_delta0 * learning_rate)
    return weights_0,weights_1

In [4]:
#Predict
def predict(instance,weights0,weights1):
    hidden_layer = sigmoid(np.dot(instance,weights0))
    output_layer = sigmoid(np.dot(hidden_layer,weights1))

    x=[]
    for i in output_layer:
        x.append(round(i))
    return x

## Iris Dataset

Iris Dataset Information: <br>

- Inputs: 4
- Outputs - 3
- Samples per class: [50,50,50]
- Samples total: 150
- Quantidade de epochs: Mínimo 10^5 (pois deseja-se 10^-5 de erro)
- Taxa de aprendizado adotada: 0.1 (deve ser baixa para garantir que o algoritmo irá convergir para o mínimo global)

In [5]:
from sklearn import datasets
    
#Import dataset
iris = datasets.load_iris()

#Define input
inputs = iris.data

#Define output
outputs = iris.target

#Codificação da output
# 0 - [1,0,0]
# 1 - [0,1,0]
# 2 - [0,0,1]
out=[]
for i in outputs:
    if i==0:
        out.append([1,0,0])
    if i==1:
        out.append([0,1,0])
    if i==2:
        out.append([0,0,1])
out=np.array(out)

### 4 perceptrons na Hidden Layer

In [6]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 4
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.49383755857879047
Epoch: 10001 Error: 0.4444446376029474
Epoch: 20001 Error: 0.4444445366080971
Epoch: 30001 Error: 0.44444450330865687
Epoch: 40001 Error: 0.4444444864031204
Epoch: 50001 Error: 0.4444444758455689
Epoch: 60001 Error: 0.44444446824950634
Epoch: 70001 Error: 0.44444446204712695
Epoch: 80001 Error: 0.4444444562189578
Epoch: 90001 Error: 0.44444444966694874


(array([[ 2.59633118, -1.57986113, -3.73234049,  7.32701534],
        [ 1.07033913, -1.43689541, -1.11918056,  1.36946142],
        [ 0.4384454 ,  0.10134106, -6.97193942,  8.33985458],
        [ 0.700941  , -0.40254572, -2.67291727,  3.31432107]]),
 array([[ 4.25380119, -2.33130607, -4.56505153],
        [-0.21109021,  0.61472987, -0.4092142 ],
        [ 5.7060193 , -1.60352251, -5.00745303],
        [-4.94694803,  1.6381572 ,  3.87190572]]))

Nota-se que uma pequena quantidade de perceptrons aplicada à hidden layer não é suficiente para aprender os dados de saída da rede.

### 9 perceptrons na Hidden Layer

In [7]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 9
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.5303881816163535
Epoch: 10001 Error: 0.4444445832262445
Epoch: 20001 Error: 0.44444369773197157
Epoch: 30001 Error: 0.43388261696109925
Epoch: 40001 Error: 0.4042834838046177
Epoch: 50001 Error: 0.408484661029542
Epoch: 60001 Error: 0.43860321711395583
Epoch: 70001 Error: 0.4749414061282175
Epoch: 80001 Error: 0.45176941694959344
Epoch: 90001 Error: 0.4260966322883281


In [8]:
#Predição de todos os valores
predicao=[]
for i in inputs:
    predicao.append(predict(np.array(i),weights_0,weights_1))
print(predicao)

[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]

De acordo com a fórmula de Hecht-Nielsen, a quantidade de perceptrons aplicada à hidden layer deve ser <= (2* inputs +1), totalizando 9 processadores. <br>Ao utilizar a máxima de perceptrons (nove), é obtido um erro de 0.22.

> Conclusão: somente **uma hidden layer não é suficiente** para obter um erro < 10^-5.

## Wine dataset

Wine Dataset Information:

- Inputs: 13
- Outputs - 3
- Samples per class: [59,71,48]
- Samples total: 178

In [9]:
#Import dataset
from sklearn.datasets import load_wine
wine = load_wine()
inputs = wine['data']

#Define output
outputs = wine.target

#Codificação da output
# 0 - [1,0,0]
# 1 - [0,1,0]
# 2 - [0,0,1]
out=[]
for i in outputs:
    if i==0:
        out.append([1,0,0])
    if i==1:
        out.append([0,1,0])
    if i==2:
        out.append([0,0,1])
out=np.array(out)

### 4 perceptrons na Hidden Layer

In [10]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 4
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.5208762586874768


  return 1/(1+np.exp(-sum))


Epoch: 10001 Error: 0.39366850799033076
Epoch: 20001 Error: 0.4153816326920511
Epoch: 30001 Error: 0.3946308969829672
Epoch: 40001 Error: 0.41838833098929046
Epoch: 50001 Error: 0.4213578850752265
Epoch: 60001 Error: 0.4014594814213972
Epoch: 70001 Error: 0.4263343767975086
Epoch: 80001 Error: 0.4176388001778162
Epoch: 90001 Error: 0.41156383741079067


(array([[-0.1188291 ,  0.72664146, -0.77416495,  0.72694749],
        [ 0.26046326,  0.73816106,  0.35223313,  0.42601998],
        [-0.84652176, -0.86262368, -0.23053566,  0.63242356],
        [-0.26221929,  0.39904645,  0.74740615, -0.10951753],
        [ 0.37281935, -0.46358618, -0.82439507, -0.49803835],
        [-0.49442292,  0.95652943,  0.78014819, -0.64099707],
        [ 0.59361882,  0.75344955,  0.38018061,  0.31552314],
        [ 0.50883467,  0.57476057, -0.28909619, -0.81329135],
        [ 0.4106006 ,  0.03696379,  0.28223401,  0.20779263],
        [-0.04600513,  0.19003084,  0.20853261, -0.15753426],
        [ 0.79559645, -0.32553602,  0.71716728, -0.51689937],
        [-0.39045997,  0.54616408, -0.50762479, -0.80933402],
        [ 0.39549508, -0.86924112,  0.89561231,  0.75416171]]),
 array([[ 0.12556784, -1.26829238, -0.0710476 ],
        [ 0.77325344, -0.40809579, -0.63851437],
        [-1.50550602, -0.024056  , -0.80122815],
        [-0.2784698 , -0.76923241, -0.3376666

Com 4 perceptrons obtem-se quase 50% de erro.

### 27 perceptrons na Hidden Layer

In [11]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = len(set(outputs))
qtd_perceptrons = 27
epochs = 100000
learning_rate = 0.1
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

  return 1/(1+np.exp(-sum))


Epoch: 1 Error: 0.5439539277162233
Epoch: 10001 Error: 0.3333347634825088
Epoch: 20001 Error: 0.3333333450291282
Epoch: 30001 Error: 0.3333333462308674
Epoch: 40001 Error: 0.33333334778920265
Epoch: 50001 Error: 0.3333333499066342
Epoch: 60001 Error: 0.33333335297862987
Epoch: 70001 Error: 0.33333335789659846
Epoch: 80001 Error: 0.3333333671835905
Epoch: 90001 Error: 0.3333333918905831


Neste dataset é possível utilizar até 27 perceptrons, uma vez que há 13 entradas (13*2+1). <br>
Nota-se que, assim como ocorreu no dataset da iris, é necessária mais de uma hidden layer para aprender o target do dataset Wine.

## Credit dataset

Credit Dataset Information:

- Inputs: 03 (income, salary, and loan)
- Outputs - 01 output binária (0 ou 1)
- Samples total: 2000

A eficiência de uma hidden layer será testada neste dataset de saída binária.

In [12]:
import pandas as pd
dataset = pd.read_csv('dataset/credit_data.csv')
from sklearn.preprocessing import MinMaxScaler

#Removendo célular nulas do dataset
dataset = dataset.dropna()

#Separando as colunas de entrada
inputs = dataset.iloc[:, 1:4].values

#Standardização - dataset apresenta 2000 samples, cujas inputs estão em escalas diferentes 
scaler = MinMaxScaler()
inputs = scaler.fit_transform(inputs)

#Selecionando as colunas de saída
outputs = dataset.iloc[:, 4].values
out = outputs.reshape(-1, 1)

### 2 Perceptrons

In [13]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = 1 #saída binária - somente 01 perceptron na output
qtd_perceptrons = 2
epochs = 100000
learning_rate = 0.01 
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.5811762071143238
Epoch: 10001 Error: 0.12224715037754291
Epoch: 20001 Error: 0.11729398704113586
Epoch: 30001 Error: 0.11456733078439826
Epoch: 40001 Error: 0.1126908556816422
Epoch: 50001 Error: 0.11126482582247393
Epoch: 60001 Error: 0.11011740466714218
Epoch: 70001 Error: 0.1091590115978524
Epoch: 80001 Error: 0.10833709510610122
Epoch: 90001 Error: 0.10761823477904978


Para 03 entradas, a quantidade máxima de perceptrons é 7. Portanto, o erro obtido com 02 neurônios na hidden layer pode ser melhorado.

### 7 Perceptrons
Testando o comportamento da rede a quantidade máxima de perceptrons na hidden layer.

In [14]:
#Main Code
qtd_inputs = inputs.shape[1]
qtd_outputs = 1 #saída binária - somente 01 perceptron na output
qtd_perceptrons = 7
epochs = 100000
learning_rate = 0.01 
error = []

#Inicialização dos pesos
weights_0 = weights_ih(qtd_inputs,qtd_perceptrons)
weights_1 = weights_ho(qtd_outputs,qtd_perceptrons)

#Atualização dos pesos
weights_0,weights_1 = mlp(inputs,out,weights_0,weights_1,error)

Epoch: 1 Error: 0.4168697171139791
Epoch: 10001 Error: 0.07979329380232056
Epoch: 20001 Error: 0.07714657390113791
Epoch: 30001 Error: 0.07634898533454058
Epoch: 40001 Error: 0.07600414448265982
Epoch: 50001 Error: 0.07576770282076939
Epoch: 60001 Error: 0.07556250961647155
Epoch: 70001 Error: 0.07539546782601904
Epoch: 80001 Error: 0.07526491032820833
Epoch: 90001 Error: 0.07516504684521624


In [15]:
#Predição de todos os valores
predicao=[]
for i in inputs:
    predicao.append(predict(np.array(i),weights_0,weights_1))
predicao

[[0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [1],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [1],
 [1],
 [0],
 [1],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [0],
 [0],
 [0],
 [0],
 [0],
 [1],
 [0],
 [1],
 [0],
 [0],
 [0]

In [16]:
#Exemplo:

#Checando as entradas com saída 0
inputs[outputs==0]

#Testando a saída de uma delas
predict(([0.9231759 , 0.95743135, 0.58883739]),weights_0,weights_1)

[0]

In [17]:
#Exemplo2:

#Checando as entradas com saída 1
inputs[outputs==1]

#Testando a saída de uma delas
predict(([4.46906018e-02, 6.51805101e-01, 3.17014248e-01]),weights_0,weights_1)

[1]

Para este dataset, apenas uma hidden layer apresentou um resultado satisfatório (baixo erro). E portanto, a rede conseguiu aprender o dataset e calcular predições confiáveis.