<a href="https://colab.research.google.com/github/luizcalabria/redes_neurais_pos/blob/main/MLP_Backpropagation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!git clone https://github.com/valmirf/redes_neurais_pos.git

Cloning into 'redes_neurais_pos'...
remote: Enumerating objects: 85, done.[K
remote: Counting objects: 100% (85/85), done.[K
remote: Compressing objects: 100% (77/77), done.[K
remote: Total 85 (delta 23), reused 8 (delta 0), pack-reused 0[K
Unpacking objects: 100% (85/85), done.


##Multipayer Perceptron (MLP)

Rede Neural baseado no algoritmo de gradiente descendente.  
Os gradientes são calculados usando backpropagation. 

Para mais detalhes, ver os capitulos 13 a 16 do livro no site:

http://deeplearningbook.com.br/

In [2]:
import random
import numpy as np
import pandas as pd

A entrada é uma lista (`sizes`) contém o número de neurônios nas respectivas camadas da rede. Por exemplo, se a lista for [2, 3, 1] então será uma rede de três camadas, com o primeira camada contendo 2 neurônios, a segunda camada 3 neurônios, e a terceira camada 1 neurônio. Os bias e pesos para a rede são inicializados aleatoriamente, usando uma distribuição Gaussiana com média 0 e variância 1. Note que a primeira camada é assumida como uma camada de entrada, e por convenção não definimos nenhum bias para esses neurônios, pois os bias são usados na computação das saídas das camadas posteriores.


In [5]:
# Classe Network
class Network(object):

    def __init__(self, sizes):
        self.num_layers = len(sizes)  #número de neurônios em cada camada
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]] #limiar
        self.weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])] #pesos
        self.activate_function = 'SIGMOID'

    def feedforward(self, x):
        """Retorna a saída da rede z se `x` for entrada."""
        for b, w in zip(self.biases, self.weights):
            #x = sigmoid(np.dot(w, x)+b) #net = (∑xw+b)
            x = activate(np.dot(w, x)+b, self.activate_function) #net = (∑xw+b)
        return x

    def SGD(self, training_data, epochs, mini_batch_size, 𝜂, test_data=None, activate_function='SIGMOID', smart_tx=False,arq=None):
        """Treinar a rede neural usando o algoritmo mini batch com gradiente descendente. 
         A entrada é uma lista de tuplas
         `(x, y)` representando as entradas de treinamento e as
         saídas. Os outros parâmetros não opcionais são
         auto-explicativos. Se `test_data` for fornecido, então a
         rede será avaliada em relação aos dados do teste após cada
         época e progresso parcial impresso. Isso é útil para
         acompanhar o progresso, mas retarda as coisas substancialmente."""

        self.activate_function = activate_function
        colunas = ["HiddenLayers", "Config", "Função", "Taxa", "Epoch", "Accur"]
        df = pd.DataFrame(columns=colunas)           
        #dataset de treino
        training_data = list(training_data)
        n = len(training_data)
        
        #dataset de teste
        if test_data:
            test_data = list(test_data)
            n_test = len(test_data)

        for j in range(epochs):
            random.shuffle(training_data)
            #técnica que realiza o treinamento por lotes
            #mini_batch_size = tamanho do lote
            mini_batches = [training_data[k:k+mini_batch_size] for k in range(0, n, mini_batch_size)]

            if smart_tx :
              𝜂 = 0.97 * 𝜂 #decresce 𝜂 em 3%

            for mini_batch in mini_batches:
                self.update_mini_batch(mini_batch, 𝜂)
            
            if test_data:
                acc = self.evaluate(test_data)
                #print("    Epoch {} : {} / {} = {}%, activation={}, 𝜂={}".format(j,acc,n_test,(acc*100)/n_test, self.activate_function, 𝜂));
                dados=[{'HiddenLayers': len(arq)-2, 'Config': arq, 'Função':self.activate_function, 'Taxa':𝜂, 'Epoch':j, 'Accur':(acc*100)/n_test}]
                df = df.append(dados,ignore_index=False)
            else:
                print("    Epoch {} finalizada".format(j))
        return df 
    def update_mini_batch(self, mini_batch, 𝜂):
        """Atualiza os pesos e limiares da rede aplicando
         a descida do gradiente usando backpropagation para um único mini lote.
         O `mini_batch` é uma lista de tuplas `(x, y)`, e `a` é a taxa de aprendizado."""

        #inicializa matriz com derivadas de pesos e limiares
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        nabla_b = [np.zeros(b.shape) for b in self.biases]

        for x, y in mini_batch:
            #resultado dos deltas do backpropagation sem a multiplicação da taxa de aprendizagem
            #soma os deltas do minibatch
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            
        #atualiza pesos e limiares (𝜂*𝛿*f’(net)*𝑥)  
        self.weights = [w-(𝜂/len(mini_batch))*nw for w, nw in zip(self.weights, nabla_w)]
        self.biases = [b-(𝜂/len(mini_batch))*nb for b, nb in zip(self.biases, nabla_b)]

    def backprop(self, x, y):
        """Retorna uma tupla `(nabla_b, nabla_w)` representando o
         gradiente para a função de custo J_x. `nabla_b` e
         `nabla_w` são listas de camadas de matrizes numpy, semelhantes
         a `self.biases` e `self.weights`."""
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        
        # Feedforward
        activation = x

        # Lista para armazenar todas as saídas dos neurônios (z), camada por camada
        activations = [x] 

        # Lista para armazenar todos os vetores net, camada por camada
        nets = [] 

        for b, w in zip(self.biases, self.weights):
            net = np.dot(w, activation)+b   
            nets.append(net)
            #activation = sigmoid(net) #z = valor de saída do neurônio
            activation = activate(net, self.activate_function)
            activations.append(activation)
        
        # Backward pass 
        
        #última camada -(u-z)f'(net)
        #delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(net[-1])
        delta = self.cost_derivative(activations[-1], y) * activate_prime(net[-1], self.activate_function)
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose()) #(𝑦−𝑧)*f’(net)*𝑥
        
        # l = 1 significa a última camada de neurônios, l = 2 é a penúltima e assim por diante. 
        for l in range(2, self.num_layers):
            net = nets[-l]
            #zs = sigmoid_prime(net)
            zs = activate_prime(net, self.activate_function)
            #delta da camada intermediaria. Note que utiliza o delta calculado anteriormente
            delta = np.dot(self.weights[-l+1].transpose(), delta) * zs 
            nabla_b[-l] = delta
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose()) #∑(𝛿𝑤)f’(net)𝑥
        return (nabla_b, nabla_w)

    def evaluate(self, test_data):
        """Retorna o número de entradas de teste para as quais a rede neural 
         produz o resultado correto. Note que a saída da rede neural
         é considerada o índice de qualquer que seja
         neurônio na camada final que tenha a maior ativação."""

        test_results = [(np.argmax(self.feedforward(x)), y) for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)

    def cost_derivative(self, output_activations, y):
        """Retorna o vetor das derivadas parciais."""
        return (output_activations-y)

# Função de Ativação Sigmóide
def sigmoid(net):
    return 1.0/(1.0+np.exp(-net))

# Função para retornar as derivadas da função Sigmóide
def sigmoid_prime(z):
    return sigmoid(z)*(1-sigmoid(z))

def relu(z):
   return np.maximum(0,z)

def relu_prime(z):
    return (z>0).astype(z.dtype)

#Função de ativação genérica
def activate(z, activate_function):
  if activate_function=='RELU':
    return relu(z)
  return sigmoid(z)

def activate_prime(z, activate_function):
  if activate_function=='RELU':
    return relu_prime(z)
  return sigmoid_prime(z)


Como exemplo, essa mesma rede será executada na base de dados MNIST. O codigo abaixo carrega a base de dados.

In [6]:
# Carregar o dataset MNIST

# Imports
import pickle
import gzip
import numpy as np
from keras.utils import np_utils

def load_data():
    f = gzip.open('redes_neurais_pos/MLP/mnist.pkl.gz', 'rb')
    training_data, validation_data, test_data = pickle.load(f, encoding="latin1")
    f.close()
    return (training_data, validation_data, test_data)

def load_data_wrapper_reduce():
    tr_d, va_d, te_d = load_data()

    #rescaled the input image values from [0, 255] to [0,1]
    X_train = tr_d[0].reshape(len(tr_d[0]), 784)     
    X_test = te_d[0].reshape(10000, 784)
    X_train = X_train.astype('float32') / 255
    X_test = X_test.astype('float32') / 255
    Y_train = np_utils.to_categorical(tr_d[1], 10)
    Y_test = np_utils.to_categorical(te_d[0], 10)

    training_inputs = [np.reshape(x, (784, 1)) for x in X_train]
    training_results = [vectorized_result(y) for y in Y_train]
    training_data = zip(training_inputs, training_results)
    validation_inputs = [np.reshape(x, (784, 1)) for x in va_d[0]]
    validation_data = zip(validation_inputs, va_d[1])
    test_inputs = [np.reshape(x, (784, 1)) for x in X_test]
    test_data = zip(test_inputs, Y_test)
    return (training_data, validation_data, test_data)

def load_data_wrapper():
    tr_d, va_d, te_d = load_data()
    training_inputs = [np.reshape(x, (784, 1)) for x in tr_d[0]]
    training_results = [vectorized_result(y) for y in tr_d[1]]
    training_data = zip(training_inputs, training_results)
    validation_inputs = [np.reshape(x, (784, 1)) for x in va_d[0]]
    validation_data = zip(validation_inputs, va_d[1])
    test_inputs = [np.reshape(x, (784, 1)) for x in te_d[0]]
    test_data = zip(test_inputs, te_d[1])
    return (training_data, validation_data, test_data)

def vectorized_result(j):
    e = np.zeros((10, 1))
    e[j] = 1.0
    return e


#Executa a rede neural

Parâmetros de rede:
         2º param é contagem de épocas
         3º param é tamanho do lote
         4º param é a taxa de aprendizado (𝜂)




In [7]:
training_data, validation_data, test_data = load_data_wrapper()
training_data = list(training_data)
test_data = list(test_data)
TAXAS = [0.1, 0.3, 0.5]
ARQS = [[784, 20, 10], [784, 30, 10], [784, 40, 10], [784, 10, 10, 10], [784, 20, 10, 10], [784, 30, 20, 10]]
FUNCS = ['SIGMOID','RELU']
colunas = ["HiddenLayers", "Config", "Função", "Taxa", "Epoch", "Accur"]
resultado = pd.DataFrame(columns=colunas)
contador = 0
for taxa in TAXAS:
  for func in FUNCS:
    for arq in ARQS:
      contador+=1
      if contador>3: contador=1
      print('\n## HiddenLayers: {}, Config: {} ({}), Função: {}, Taxa: {}  ##'.format(len(arq)-2,contador,arq,func,taxa))
      mlp = Network(arq)
      df = mlp.SGD(training_data, 20, 32, taxa, test_data=test_data, activate_function=func, smart_tx=False,arq=arq)
      frames = [resultado, df]
      resultado = pd.concat(frames)


## HiddenLayers: 1, Config: 1 ([784, 20, 10]), Função: SIGMOID, Taxa: 0.1  ##

## HiddenLayers: 1, Config: 2 ([784, 30, 10]), Função: SIGMOID, Taxa: 0.1  ##

## HiddenLayers: 1, Config: 3 ([784, 40, 10]), Função: SIGMOID, Taxa: 0.1  ##

## HiddenLayers: 2, Config: 1 ([784, 10, 10, 10]), Função: SIGMOID, Taxa: 0.1  ##

## HiddenLayers: 2, Config: 2 ([784, 20, 10, 10]), Função: SIGMOID, Taxa: 0.1  ##

## HiddenLayers: 2, Config: 3 ([784, 30, 20, 10]), Função: SIGMOID, Taxa: 0.1  ##

## HiddenLayers: 1, Config: 1 ([784, 20, 10]), Função: RELU, Taxa: 0.1  ##

## HiddenLayers: 1, Config: 2 ([784, 30, 10]), Função: RELU, Taxa: 0.1  ##

## HiddenLayers: 1, Config: 3 ([784, 40, 10]), Função: RELU, Taxa: 0.1  ##

## HiddenLayers: 2, Config: 1 ([784, 10, 10, 10]), Função: RELU, Taxa: 0.1  ##

## HiddenLayers: 2, Config: 2 ([784, 20, 10, 10]), Função: RELU, Taxa: 0.1  ##

## HiddenLayers: 2, Config: 3 ([784, 30, 20, 10]), Função: RELU, Taxa: 0.1  ##

## HiddenLayers: 1, Config: 1 ([784, 20, 10])

##**Mini-Projeto**
1) Realizar avaliações modificando os seguintes parâmetros:     

     a) Taxa de aprendizagem: 0.1, 0.3 e 0.5
     b) Função de ativação RELU
     c) Rede com uma camada intermediária com 3 configurações diferentes (Explicite a configuração utilizada)
     d) Rede com duas camadas intermediárias com 3 configurações diferentes (Explicite a configuração utilizada)
     
      
Complete a Tabela abaixo com os resultados (Pra cada configuração de camadas intermediárias, execute as 3 taxas de aprendizagem pra função de ativação Sigmoide e Relu):

<pre>
CONFIGURAÇÕES:
  UMA Camada Intermediária:
    1: [784, 20, 10], 2: [784, 30, 10], 3: [784, 40, 10]
  DUAS Camadas Intermediárias:
    1: [784, 10, 10, 10], 2: [784, 20, 10, 10], 3: [784, 30, 20, 10]
</pre>

\begin{array}{|c|ccc|ccc|ccc|}\hline\\ \\
  1\;Camada\;Intermediária & & \mathcal{𝜂=0.1} & &  & \mathcal{𝜂=0.3} & & & \mathcal{𝜂=0.5} &  & \\ \hline 
Configurações & 1 & 2 & 3 & 1 & 2 & 3 & 1 & 2 & 3 & \\ \hline
Sigmoide  & 69.25 & 59.33 & 59.33 & &  & & &  &  & \\ \hline 
Relu  & 10.09 & 10.07 & &  &  & & &  &  & \\ \hline
  2\;Camadas\;Intermediárias & & \mathcal{𝜂=0.1} & &  & \mathcal{𝜂=0.3} & & & \mathcal{𝜂=0.5} &  & \\ \hline 
Configurações & 1 & 2 & 3 & 1 & 2 & 3 & 1 & 2 & 3 & \\ \hline 
Sigmoide  & 57.5 & 64.61 & 64.81 &  &  & & &  &  & \\ \hline
Relu  & & & &  &  & & &  &  & \\ \hline
\end{array}

2) Modifique a taxa de aprendizagem pra diminuir com o tempo. Execute com a melhor configuração encontrada. Melhorou o resultado?


# **Tabela da questão 1**

In [8]:
print(resultado.query('Epoch==19'))

  HiddenLayers             Config   Função  Taxa Epoch  Accur
0            1      [784, 20, 10]  SIGMOID   0.1    19  71.44
0            1      [784, 30, 10]  SIGMOID   0.1    19  67.58
0            1      [784, 40, 10]  SIGMOID   0.1    19  68.86
0            2  [784, 10, 10, 10]  SIGMOID   0.1    19  63.11
0            2  [784, 20, 10, 10]  SIGMOID   0.1    19  63.56
0            2  [784, 30, 20, 10]  SIGMOID   0.1    19  65.72
0            1      [784, 20, 10]     RELU   0.1    19   8.91
0            1      [784, 30, 10]     RELU   0.1    19  11.51
0            1      [784, 40, 10]     RELU   0.1    19   9.80
0            2  [784, 10, 10, 10]     RELU   0.1    19  11.61
0            2  [784, 20, 10, 10]     RELU   0.1    19   9.80
0            2  [784, 30, 20, 10]     RELU   0.1    19   9.80
0            1      [784, 20, 10]  SIGMOID   0.3    19  72.06
0            1      [784, 30, 10]  SIGMOID   0.3    19  72.35
0            1      [784, 40, 10]  SIGMOID   0.3    19  76.71
0       

In [9]:
resultado = resultado.sort_values(by=["Accur"],ascending=False)
resultado = resultado.reset_index(drop=True)
melhor = resultado.loc[0]
print(resultado.iloc[0])
mlp = Network(resultado.iloc[0][1])
df = mlp.SGD(training_data, 20, 32, resultado.iloc[0][3], test_data=test_data, activate_function=resultado.iloc[0][2], smart_tx=True,arq=resultado.iloc[0][1])
print(df.iloc[19])

HiddenLayers                1
Config          [784, 40, 10]
Função                SIGMOID
Taxa                      0.3
Epoch                      19
Accur                   76.71
Name: 0, dtype: object
HiddenLayers                1
Config          [784, 40, 10]
Função                SIGMOID
Taxa                 0.163138
Epoch                      19
Accur                   72.54
Name: 0, dtype: object


In [10]:
print(resultado.iloc[1])
print(resultado.iloc[2])

HiddenLayers                1
Config          [784, 40, 10]
Função                SIGMOID
Taxa                      0.3
Epoch                      18
Accur                   76.66
Name: 1, dtype: object
HiddenLayers                1
Config          [784, 40, 10]
Função                SIGMOID
Taxa                      0.3
Epoch                      17
Accur                    76.6
Name: 2, dtype: object


# **Resposta da Questão 2**

In [None]:
if( resultado.iloc[0][5] > df.iloc[0][5]):
  print("O resultado piorou")
elif (resultado.iloc[0][5] == df.iloc[0][5]):
  print ("Não houve modificação no resultado")
else:
  print("O resultado melhorou")

O resultado piorou
