<a href="https://colab.research.google.com/github/valmirf/redes_neurais_pos/blob/main/MLP/Otimizacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!git clone https://github.com/valmirf/redes_neurais_pos.git

##Multipayer Perceptron (MLP)

Rede Neural baseado no algoritmo de gradiente descendente.  
Os gradientes s√£o calculados usando backpropagation. 

Para mais detalhes, ver os capitulos 13 a 16 do livro no site:

http://deeplearningbook.com.br/

In [None]:
import random
import numpy as np

A entrada √© uma lista (`sizes`) cont√©m o n√∫mero de neur√¥nios nas respectivas camadas da rede. Por exemplo, se a lista for [2, 3, 1] ent√£o ser√° uma rede de tr√™s camadas, com o primeira camada contendo 2 neur√¥nios, a segunda camada 3 neur√¥nios, e a terceira camada 1 neur√¥nio. Os bias e pesos para a rede s√£o inicializados aleatoriamente, usando uma distribui√ß√£o Gaussiana com m√©dia 0 e vari√¢ncia 1. Note que a primeira camada √© assumida como uma camada de entrada, e por conven√ß√£o n√£o definimos nenhum bias para esses neur√¥nios, pois os bias s√£o usados na computa√ß√£o das sa√≠das das camadas posteriores.


In [None]:
# Classe Network
class Network(object):

    def __init__(self, sizes):
        self.num_layers = len(sizes)  #n√∫mero de neur√¥nios em cada camada
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]] #limiar
        self.weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1], sizes[1:])] #pesos

    def feedforward(self, x):
        """Retorna a sa√≠da da rede z se `x` for entrada."""
        for b, w in zip(self.biases, self.weights):
            x = sigmoid(np.dot(w, x)+b) #net = (‚àëwx+b)
        return x

    def SGD(self, training_data, epochs, mini_batch_size, ùúÇ, test_data=None):
        """Treinar a rede neural usando o algoritmo mini batch com gradiente descendente. 
         A entrada √© uma lista de tuplas
         `(x, y)` representando as entradas de treinamento e as
         sa√≠das. Os outros par√¢metros n√£o opcionais s√£o
         auto-explicativos. Se `test_data` for fornecido, ent√£o a
         rede ser√° avaliada em rela√ß√£o aos dados do teste ap√≥s cada
         √©poca e progresso parcial impresso. Isso √© √∫til para
         acompanhar o progresso, mas retarda as coisas substancialmente."""

        #dataset de treino
        training_data = list(training_data)
        n = len(training_data)
        
        #dataset de teste
        if test_data:
            test_data = list(test_data)
            n_test = len(test_data)

        for j in range(epochs):
            random.shuffle(training_data)
            #t√©cnica que realiza o treinamento por lotes
            #mini_batch_size = tamanho do lote
            mini_batches = [training_data[k:k+mini_batch_size] for k in range(0, n, mini_batch_size)]
            
            for mini_batch in mini_batches:
                self.update_mini_batch(mini_batch, ùúÇ)
            
            if test_data:
                acc = self.evaluate(test_data)
                print("Epoch {} : {} / {} = {}%".format(j,acc,n_test,(acc*100)/n_test));
   
            else:
                print("Epoch {} finalizada".format(j))

    def update_mini_batch(self, mini_batch, ùúÇ):
        """Atualiza os pesos e limiares da rede aplicando
         a descida do gradiente usando backpropagation para um √∫nico mini lote.
         O `mini_batch` √© uma lista de tuplas `(x, y)`, e `a` √© a taxa de aprendizado."""

        #inicializa matriz com derivadas de pesos e limiares
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        nabla_b = [np.zeros(b.shape) for b in self.biases]

        for x, y in mini_batch:
            #resultado dos deltas do backpropagation sem a multiplica√ß√£o da taxa de aprendizagem
            #soma os deltas do minibatch
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            
        #atualiza pesos e limiares (ùúÇ*ùõø*f‚Äô(net)*ùë•)  
        self.weights = [w-(ùúÇ/len(mini_batch))*nw for w, nw in zip(self.weights, nabla_w)]
        self.biases = [b-(ùúÇ/len(mini_batch))*nb for b, nb in zip(self.biases, nabla_b)]

    def backprop(self, x, y):
        """Retorna uma tupla `(nabla_b, nabla_w)` representando o
         gradiente para a fun√ß√£o de custo J_x. `nabla_b` e
         `nabla_w` s√£o listas de camadas de matrizes numpy, semelhantes
         a `self.biases` e `self.weights`."""
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        
        # Feedforward
        activation = x

        # Lista para armazenar todas as sa√≠das dos neur√¥nios (z), camada por camada
        activations = [x] 

        # Lista para armazenar todos os vetores net, camada por camada
        nets = [] 

        for b, w in zip(self.biases, self.weights):
            net = np.dot(w, activation)+b   
            nets.append(net)
            activation = sigmoid(net) #z = valor de sa√≠da do neur√¥nio
            activations.append(activation)
        
        # Backward pass 
        
        #√∫ltima camada -(u-z)f'(net)
        delta = self.cost_derivative(activations[-1], y) * sigmoid_prime(nets[-1])
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose()) #(ùë¶‚àíùëß)*f‚Äô(net)*ùë•
        
        # l = 1 significa a √∫ltima camada de neur√¥nios, l = 2 √© a pen√∫ltima e assim por diante. 
        for l in range(2, self.num_layers):
            net = nets[-l]
            zs = sigmoid_prime(net)
            #delta da camada intermediaria. Note que utiliza o delta calculado anteriormente
            delta = np.dot(self.weights[-l+1].transpose(), delta) * zs 
            nabla_b[-l] = delta
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose()) #‚àë(ùõøùë§)f‚Äô(net)ùë•
        return (nabla_b, nabla_w)

    def evaluate(self, test_data):
        """Retorna o n√∫mero de entradas de teste para as quais a rede neural 
         produz o resultado correto. Note que a sa√≠da da rede neural
         √© considerada o √≠ndice de qualquer que seja
         neur√¥nio na camada final que tenha a maior ativa√ß√£o."""

        test_results = [(np.argmax(self.feedforward(x)), y) for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)

    def cost_derivative(self, output_activations, y):
        """Retorna o vetor das derivadas parciais."""
        return (output_activations-y)

# Fun√ß√£o de Ativa√ß√£o Sigm√≥ide
def sigmoid(net):
    return 1.0/(1.0+np.exp(-net))

# Fun√ß√£o para retornar as derivadas da fun√ß√£o Sigm√≥ide
def sigmoid_prime(z):
    return sigmoid(z)*(1-sigmoid(z))


Como exemplo, essa mesma rede ser√° executada na base de dados MNIST. O codigo abaixo carrega a base de dados.

In [None]:
# Carregar o dataset MNIST

# Imports
import pickle
import gzip
import numpy as np

def load_data():
    f = gzip.open('redes_neurais_pos/MLP/mnist.pkl.gz', 'rb')
    training_data, validation_data, test_data = pickle.load(f, encoding="latin1")
    f.close()
    return (training_data, validation_data, test_data)

def load_data_wrapper():
    tr_d, va_d, te_d = load_data()
    training_inputs = [np.reshape(x, (784, 1)) for x in tr_d[0]]
    training_results = [vectorized_result(y) for y in tr_d[1]]
    training_data = zip(training_inputs, training_results)
    validation_inputs = [np.reshape(x, (784, 1)) for x in va_d[0]]
    validation_data = zip(validation_inputs, va_d[1])
    test_inputs = [np.reshape(x, (784, 1)) for x in te_d[0]]
    test_data = zip(test_inputs, te_d[1])
    return (training_data, validation_data, test_data)

def vectorized_result(j):
    e = np.zeros((10, 1))
    e[j] = 1.0
    return e


#Executa a rede neural

Par√¢metros de rede:
         2¬∫ param √© contagem de √©pocas
         3¬∫ param √© tamanho do lote
         4¬∫ param √© a taxa de aprendizado (ùúÇ)




In [None]:
training_data, validation_data, test_data = load_data_wrapper()
training_data = list(training_data)

#arquitetura da rede
arquitecture = [784, 30, 10]
mlp = Network(arquitecture)
mlp.SGD(training_data, 30, 32, 0.3, test_data=test_data)




##**Mini-Projeto**

A partir dos melhores resultados obtidos no projeto anterior, execute 3 configura√ß√µes pra cada quest√£o a seguir:

1) Implementar as regulariza√ß√µes L1 e L2

2) Implementar o Momento

3) Comparar os experimentos e explicar o porque de cada resultado? Qual foi a melhor regulariza√ß√£o? Por qu√™? O Momento melhorou os resultados? Por qu√™? 

Data de Entrega: 14/10/2020
     
      
Complete a Tabela abaixo com os resultados 

\begin{array}{|c|c|c|c|}\hline\\ \\
  Configuracao & 1 & 2 & 3 \\ \hline 
L1 &  &  &   \\ \hline
L2  & & &  \\ \hline 
Momento  & & & \\ \hline
\end{array}



\\
Data de Entrega: 17/10/2020
