# Redes Neurais de multi camadas

Neurônios artificiais representam os blocos de construção das redes neurais artificiais multicamadas que discutiremos. O 
conceito básico por trás das redes neurais artificiais foi construído sobre hipóteses e modelos de como o cérebro humano funciona para resolver tarefas complexas. Embora artificial redes neurais ganharam muita popularidade nos últimos anos, os primeiros estudos de redes neurais remontam à década de 1940, quando Warren McCulloch e Walter Pitt pela primeira vez
descreveu como os neurônios poderiam funcionar.


No entanto, as redes neurais nunca foram tão populares como são hoje, graças a os muitos avanços importantes que foram feitos na década anterior, que resultou no que agora chamamos de arquiteturas e algoritmos de aprendizagem profunda (*deep learning*) - redes neurais que são compostas de muitas camadas. As redes neurais são um tema quente, não apenas na pesquisa acadêmica, mas também em grandes empresas de tecnologia como o Facebook, Microsoft e Google, que investem pesadamente em redes neurais artificiais e na pesquisa em *deep learning*.

# Modelando funções complexas com redes neurais arificiais 

### Rede Neural  de única camada (single-layer)

#### ADAptive LInear NEuron (Adaline): 

- Vimos uma implementação do Adeline para classificação binária e usando o gradiente descendente como algoritmo de otimização para aprender os pesos (coeficientes) do modelo. 

- Computa-se o gradiente baseado no datasert de treino completo e atualizamos os pesos do modelo na direção oposta ao gradiente. 

- Otimiza-se uma função objetivo que definimos como a função de custo Soma dos Erros Quadráticos (SSE)

- Multiplica-se o gradiente por um fator, a taxa de aprendizagem η, que tivemos que escolher cuidadosamente para equilibrar a velocidade de aprendizagem com o risco de ultrapasar  o mínimo global da função de custo.



<div>
<img src="attachment:image.png" width="600"/>
</div>

<br>
<br>

## Rede Neural Multi camadas

Vamos aprender como conectar vários neurônios únicos a uma rede neural *feedforward* multicamadas; este tipo especial de rede é totalmente conectada e também é chamada Perceptron multicamadas (MLP). 
A figura a seguir ilustra o conceito de um MLP consistindo em três camadas:


<div>
<img src="attachment:image.png" width="600"/>
</div>

O MLP representado na figura anterior tem uma camada de entrada (input layer), uma camada oculta (hidden layer) e uma camada de saída (output layer). As unidades na camada oculta estão totalmente conectadas à camada de entrada, e a camada de saída está totalmente conectada à camada oculta. Se tal rede tiver mais de uma camada oculta, também a chamamos de rede neural artificial profunda (*deep artificial neural network*).

Denotamos a i-ésima unidade de ativação na l-ésima camada como $a_i^{(h)}$. Para tornar a matemática e as implementações de código um pouco mais intuitivas, não iremos usar índices numéricos para se referir a camadas, mas vamos usar $in$ sobrescrito para a camada de entrada, o $h$ sobrescrito para a camada oculta e  $o$ sobrescrito para a camada de saída. 

Por exemplo, $a_i^{(in)}$ em refere-se ao i-ésimo valor na camada de entrada, $a_i^{(h)}$ refere-se a a i-ésima unidade na camada oculta e $a_i^{(out)}$ refere-se à i-ésima unidade na camada de saída.

Aqui, as unidades de ativação $a_0^{(in)}$ e $a_0^{(out)}$ são as unidades de **bias**, que definimos iguais a 1. A ativação das unidades na camada de entrada é apenas a própria entrada mais a unidade de polarização:


<div>
<img src="attachment:image.png" width="200"/>
</div>

- Cada unidade na camada $l$ é conectada a todas as unidades na camada $l+1$ por meio dos pesos $w$. 
- Por exemplo, a conexão entre a $k$-ésima unidade na camada $l$ com a $j$-ésima unidade na camada $l+1$ será escrita como $w_{k,j}^{(l+1)}$. 
- Denotamos a matriz de pesos que conecta a entrada à camada oculta como $\boldsymbol{W}^{(h)}$ e a matriz que conecta a camada oculta à camada de saída $\boldsymbol{W}^{(out)}$.
- Uma unidade da camada de saída é responsável é suficiente para uma classificação binária, para uma rede neural que permita classificação muti-classes utilizamos a técnica **One-versus-All (OvA)**. 



### Classificação multi-classes: One-versus-All

- Utiliza uma representação vetorial **one-hot** para cada classe. Por exemplo, para os labels do dataset *iris*, sendo (0=Setosa, 1=Versicolor, 2=Virginica), temos os seguintes  vetores que representam cada classe. 
- A camada de saída terá tantas unidades quantas forem as classes, dessa forma, é como se cada unidade fizesse uma classficiação de se a entrada pertence ou não a classe representada naquela posição. 

<div>
<img src="attachment:image.png" width="200"/>
</div>

A figura abaixo é uma representação simplificada de um multi-layer perceptron 3-4-3
- Camada de entrada: 3 unidades mais um de bias
- Camada oculda com 4 unidades mais um bias 
- Camada de saída 3 unidades

<div>
<img src="attachment:image.png" width="500"/>
</div>

<br>
<br>

## Ativação de uma rede neural 

MLP é um exemplo típico de rede neural artificial *feedforward*. O termo feedforward se refere ao fato de que cada camada serve como entrada para a próxima camada sem loops, em contraste com as redes neurais recorrentes. 
Descreveremos o processo de propagação direta para calcular a saída de um modelo MLP. Para entender como isso se encaixa no contexto de aprendizagem de um
Modelo MLP, vamos resumir o procedimento de aprendizagem MLP em três etapas simples:
    
1. Começando na camada de entrada, propagamos os padrões do treinamento dados através da rede para gerar uma saída.

2. Com base na saída da rede, calculamos o erro que queremos minimizar usando uma função de custo que descreveremos mais tarde.

3. Retropropagamos o erro, encontramos sua derivada em relação a cada peso da rede e atualizar o modelo.

Finalmente, depois de repetir essas três etapas para várias épocas e aprender os pesos do MLP, usamos a propagação direta para calcular a saída da rede e aplicar uma função de limite para obter os rótulos de classe previstos na representação one-hot.

- Para possibilitar a solução de problemas mais complexos, nós precisamos de uma função de ativação não-linear, por exemplo, função sigmóide (utilizada na regressão logística), dada por $\phi(z) = \frac{1}{1 - e ^{-z} }$.

- A função sigmóide é uma curva em forma de S que mapeia a entrada z em uma distribuição logística no intervalo de 0 a 1, que corta o eixo y em z = 0, conforme a figura a seguir.

<div>
<img src="attachment:image.png" width="500"/>
</div>

<br>
<br>

# Classificando dígitos

## MNIST dataset

O conjunto de dados MNIST está disponível publicamente em http://yann.lecun.com/exdb/mnist/ e consiste nas seguintes quatro partes:

- Imagens do conjunto de treinamento: train-images-idx3-ubyte.gz (9,9 MB, 47 MB descompactado, 60.000 amostras)
- Rótulos do conjunto de treinamento: train-labels-idx1-ubyte.gz (29 KB, 60 KB descompactado, 60.000 rótulos)
- Imagens do conjunto de teste: t10k-images-idx3-ubyte.gz (1,6 MB, 7,8 MB, 10.000 amostras)
- Rótulos do conjunto de teste: t10k-labels-idx1-ubyte.gz (5 KB, 10 KB descompactado, 10.000 rótulos)

Nesta seção, trabalharemos apenas com um subconjunto de MNIST, portanto, só precisamos baixar as imagens do conjunto de treinamento e os rótulos do conjunto de treinamento.

Depois de baixar os arquivos, simplesmente execute a próxima célula de código para descompactar os arquivos.

In [1]:
# this code cell unzips mnist

import sys
import gzip
import shutil
import os

if (sys.version_info > (3, 0)):
    writemode = 'wb'
else:
    writemode = 'w'

zipped_mnist = [f for f in os.listdir('./') if f.endswith('ubyte.gz')]
for z in zipped_mnist:
    with gzip.GzipFile(z, mode='rb') as decompressed, open(z[:-3], writemode) as outfile:
        outfile.write(decompressed.read()) 

#### Nota do autor

----

IGNORE IF THE CODE CELL ABOVE EXECUTED WITHOUT PROBLEMS:
    
If you have issues with the code cell above, I recommend unzipping the files using the Unix/Linux gzip tool from the terminal for efficiency, e.g., using the command 

    gzip *ubyte.gz -d
 
in your local MNIST download directory, or, using your favorite unzipping tool if you are working with a machine running on Microsoft Windows. The images are stored in byte form, and using the following function, we will read them into NumPy arrays that we will use to train our MLP.

Please note that if you are **not** using gzip, please make sure tha the files are named

- train-images-idx3-ubyte
- train-labels-idx1-ubyte
- t10k-images-idx3-ubyte
- t10k-labels-idx1-ubyte

If a file is e.g., named `train-images.idx3-ubyte` after unzipping (this is due to the fact that certain tools try to guess a file suffix), please rename it to `train-images-idx3-ubyte` before proceeding. 

----

In [2]:
import os
import struct
import numpy as np
 
def load_mnist(path, kind='train'):
    """Load MNIST data from `path`"""
    labels_path = os.path.join(path, 
                               '%s-labels-idx1-ubyte' % kind)
    images_path = os.path.join(path, 
                               '%s-images-idx3-ubyte' % kind)
        
    with open(labels_path, 'rb') as lbpath:
        magic, n = struct.unpack('>II', 
                                 lbpath.read(8))
        labels = np.fromfile(lbpath, 
                             dtype=np.uint8)

    with open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack(">IIII", 
                                               imgpath.read(16))
        images = np.fromfile(imgpath, 
                             dtype=np.uint8).reshape(len(labels), 784)
        images = ((images / 255.) - .5) * 2
 
    return images, labels

In [None]:
!ls

In [3]:
X_train, y_train = load_mnist('', kind='train')
print('Rows: %d, columns: %d' % (X_train.shape[0], X_train.shape[1]))

FileNotFoundError: [Errno 2] No such file or directory: 'train-labels-idx1-ubyte'

In [None]:
X_test, y_test = load_mnist('', kind='t10k')
print('Rows: %d, columns: %d' % (X_test.shape[0], X_test.shape[1]))

Visualize the first digit of each class:

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots(nrows=2, ncols=5, sharex=True, sharey=True,)
ax = ax.flatten()
for i in range(10):
    img = X_train[y_train == i][0].reshape(28, 28)
    ax[i].imshow(img, cmap='Greys')

ax[0].set_xticks([])
ax[0].set_yticks([])
plt.tight_layout()
# plt.savefig('images/12_5.png', dpi=300)
plt.show()

Visualize 25 different versions of "7":

In [None]:
fig, ax = plt.subplots(nrows=5, ncols=5, sharex=True, sharey=True,)
ax = ax.flatten()
for i in range(25):
    img = X_train[y_train == 7][i].reshape(28, 28)
    ax[i].imshow(img, cmap='Greys')

ax[0].set_xticks([])
ax[0].set_yticks([])
plt.tight_layout()
# plt.savefig('images/12_6.png', dpi=300)
plt.show()

In [None]:
import numpy as np

np.savez_compressed('mnist_scaled.npz', 
                    X_train=X_train,
                    y_train=y_train,
                    X_test=X_test,
                    y_test=y_test)

In [None]:
mnist = np.load('mnist_scaled.npz')
mnist.files

In [None]:
X_train, y_train, X_test, y_test = [mnist[f] for f in ['X_train', 'y_train', 
                                    'X_test', 'y_test']]

del mnist

X_train.shape

<br>
<br>

## Implementing a multi-layer perceptron

In [None]:
import numpy as np
import sys


class NeuralNetMLP(object):
    """ Feedforward neural network / Multi-layer perceptron classifier.

    Parameters
    ------------
    n_hidden : int (default: 30)
        Number of hidden units.
    l2 : float (default: 0.)
        Lambda value for L2-regularization.
        No regularization if l2=0. (default)
    epochs : int (default: 100)
        Number of passes over the training set.
    eta : float (default: 0.001)
        Learning rate.
    shuffle : bool (default: True)
        Shuffles training data every epoch if True to prevent circles.
    minibatch_size : int (default: 1)
        Number of training samples per minibatch.
    seed : int (default: None)
        Random seed for initalizing weights and shuffling.

    Attributes
    -----------
    eval_ : dict
      Dictionary collecting the cost, training accuracy,
      and validation accuracy for each epoch during training.

    """
    def __init__(self, n_hidden=30,
                 l2=0., epochs=100, eta=0.001,
                 shuffle=True, minibatch_size=1, seed=None):

        self.random = np.random.RandomState(seed)
        self.n_hidden = n_hidden
        self.l2 = l2
        self.epochs = epochs
        self.eta = eta
        self.shuffle = shuffle
        self.minibatch_size = minibatch_size

    def _onehot(self, y, n_classes):
        """Encode labels into one-hot representation

        Parameters
        ------------
        y : array, shape = [n_samples]
            Target values.

        Returns
        -----------
        onehot : array, shape = (n_samples, n_labels)

        """
        onehot = np.zeros((n_classes, y.shape[0]))
        for idx, val in enumerate(y.astype(int)):
            onehot[val, idx] = 1.
        return onehot.T

    def _sigmoid(self, z):
        """Compute logistic function (sigmoid)"""
        return 1. / (1. + np.exp(-np.clip(z, -250, 250)))

    def _forward(self, X):
        """Compute forward propagation step"""

        # step 1: net input of hidden layer
        # [n_samples, n_features] dot [n_features, n_hidden]
        # -> [n_samples, n_hidden]
        z_h = np.dot(X, self.w_h) + self.b_h

        # step 2: activation of hidden layer
        a_h = self._sigmoid(z_h)

        # step 3: net input of output layer
        # [n_samples, n_hidden] dot [n_hidden, n_classlabels]
        # -> [n_samples, n_classlabels]

        z_out = np.dot(a_h, self.w_out) + self.b_out

        # step 4: activation output layer
        a_out = self._sigmoid(z_out)

        return z_h, a_h, z_out, a_out

    def _compute_cost(self, y_enc, output):
        """Compute cost function.

        Parameters
        ----------
        y_enc : array, shape = (n_samples, n_labels)
            one-hot encoded class labels.
        output : array, shape = [n_samples, n_output_units]
            Activation of the output layer (forward propagation)

        Returns
        ---------
        cost : float
            Regularized cost

        """
        L2_term = (self.l2 *
                   (np.sum(self.w_h ** 2.) +
                    np.sum(self.w_out ** 2.)))

        term1 = -y_enc * (np.log(output))
        term2 = (1. - y_enc) * np.log(1. - output)
        cost = np.sum(term1 - term2) + L2_term
        
        # If you are applying this cost function to other
        # datasets where activation
        # values maybe become more extreme (closer to zero or 1)
        # you may encounter "ZeroDivisionError"s due to numerical
        # instabilities in Python & NumPy for the current implementation.
        # I.e., the code tries to evaluate log(0), which is undefined.
        # To address this issue, you could add a small constant to the
        # activation values that are passed to the log function.
        #
        # For example:
        #
        # term1 = -y_enc * (np.log(output + 1e-5))
        # term2 = (1. - y_enc) * np.log(1. - output + 1e-5)
        
        return cost

    def predict(self, X):
        """Predict class labels

        Parameters
        -----------
        X : array, shape = [n_samples, n_features]
            Input layer with original features.

        Returns:
        ----------
        y_pred : array, shape = [n_samples]
            Predicted class labels.

        """
        z_h, a_h, z_out, a_out = self._forward(X)
        y_pred = np.argmax(z_out, axis=1)
        return y_pred

    def fit(self, X_train, y_train, X_valid, y_valid):
        """ Learn weights from training data.

        Parameters
        -----------
        X_train : array, shape = [n_samples, n_features]
            Input layer with original features.
        y_train : array, shape = [n_samples]
            Target class labels.
        X_valid : array, shape = [n_samples, n_features]
            Sample features for validation during training
        y_valid : array, shape = [n_samples]
            Sample labels for validation during training

        Returns:
        ----------
        self

        """
        n_output = np.unique(y_train).shape[0]  # number of class labels
        n_features = X_train.shape[1]

        ########################
        # Weight initialization
        ########################

        # weights for input -> hidden
        self.b_h = np.zeros(self.n_hidden)
        self.w_h = self.random.normal(loc=0.0, scale=0.1,
                                      size=(n_features, self.n_hidden))

        # weights for hidden -> output
        self.b_out = np.zeros(n_output)
        self.w_out = self.random.normal(loc=0.0, scale=0.1,
                                        size=(self.n_hidden, n_output))

        epoch_strlen = len(str(self.epochs))  # for progress formatting
        self.eval_ = {'cost': [], 'train_acc': [], 'valid_acc': []}

        y_train_enc = self._onehot(y_train, n_output)

        # iterate over training epochs
        for i in range(self.epochs):

            # iterate over minibatches
            indices = np.arange(X_train.shape[0])

            if self.shuffle:
                self.random.shuffle(indices)

            for start_idx in range(0, indices.shape[0] - self.minibatch_size +
                                   1, self.minibatch_size):
                batch_idx = indices[start_idx:start_idx + self.minibatch_size]

                # forward propagation
                z_h, a_h, z_out, a_out = self._forward(X_train[batch_idx])

                ##################
                # Backpropagation
                ##################

                # [n_samples, n_classlabels]
                sigma_out = a_out - y_train_enc[batch_idx]

                # [n_samples, n_hidden]
                sigmoid_derivative_h = a_h * (1. - a_h)

                # [n_samples, n_classlabels] dot [n_classlabels, n_hidden]
                # -> [n_samples, n_hidden]
                sigma_h = (np.dot(sigma_out, self.w_out.T) *
                           sigmoid_derivative_h)

                # [n_features, n_samples] dot [n_samples, n_hidden]
                # -> [n_features, n_hidden]
                grad_w_h = np.dot(X_train[batch_idx].T, sigma_h)
                grad_b_h = np.sum(sigma_h, axis=0)

                # [n_hidden, n_samples] dot [n_samples, n_classlabels]
                # -> [n_hidden, n_classlabels]
                grad_w_out = np.dot(a_h.T, sigma_out)
                grad_b_out = np.sum(sigma_out, axis=0)

                # Regularization and weight updates
                delta_w_h = (grad_w_h + self.l2*self.w_h)
                delta_b_h = grad_b_h # bias is not regularized
                self.w_h -= self.eta * delta_w_h
                self.b_h -= self.eta * delta_b_h

                delta_w_out = (grad_w_out + self.l2*self.w_out)
                delta_b_out = grad_b_out  # bias is not regularized
                self.w_out -= self.eta * delta_w_out
                self.b_out -= self.eta * delta_b_out

            #############
            # Evaluation
            #############

            # Evaluation after each epoch during training
            z_h, a_h, z_out, a_out = self._forward(X_train)
            
            cost = self._compute_cost(y_enc=y_train_enc,
                                      output=a_out)

            y_train_pred = self.predict(X_train)
            y_valid_pred = self.predict(X_valid)

            train_acc = ((np.sum(y_train == y_train_pred)).astype(np.float) /
                         X_train.shape[0])
            valid_acc = ((np.sum(y_valid == y_valid_pred)).astype(np.float) /
                         X_valid.shape[0])

            sys.stderr.write('\r%0*d/%d | Cost: %.2f '
                             '| Train/Valid Acc.: %.2f%%/%.2f%% ' %
                             (epoch_strlen, i+1, self.epochs, cost,
                              train_acc*100, valid_acc*100))
            sys.stderr.flush()

            self.eval_['cost'].append(cost)
            self.eval_['train_acc'].append(train_acc)
            self.eval_['valid_acc'].append(valid_acc)

        return self

In [None]:
n_epochs = 200

## @Readers: PLEASE IGNORE IF-STATEMENT BELOW
##
## This cell is meant to run fewer epochs when
## the notebook is run on the Travis Continuous Integration
## platform to test the code on a smaller dataset
## to prevent timeout errors; it just serves a debugging tool

if 'TRAVIS' in os.environ:
    n_epochs = 20

In [None]:
nn = NeuralNetMLP(n_hidden=100, 
                  l2=0.01, 
                  epochs=n_epochs, 
                  eta=0.0005,
                  minibatch_size=100, 
                  shuffle=True,
                  seed=1)

nn.fit(X_train=X_train[:55000], 
       y_train=y_train[:55000],
       X_valid=X_train[55000:],
       y_valid=y_train[55000:])

In [None]:
import matplotlib.pyplot as plt

plt.plot(range(nn.epochs), nn.eval_['cost'])
plt.ylabel('Cost')
plt.xlabel('Epochs')
#plt.savefig('images/12_07.png', dpi=300)
plt.show()

In [None]:
plt.plot(range(nn.epochs), nn.eval_['train_acc'], 
         label='training')
plt.plot(range(nn.epochs), nn.eval_['valid_acc'], 
         label='validation', linestyle='--')
plt.ylabel('Accuracy')
plt.xlabel('Epochs')
plt.legend()
#plt.savefig('images/12_08.png', dpi=300)
plt.show()

In [None]:
y_test_pred = nn.predict(X_test)
acc = (np.sum(y_test == y_test_pred)
       .astype(np.float) / X_test.shape[0])

print('Test accuracy: %.2f%%' % (acc * 100))

In [None]:
miscl_img = X_test[y_test != y_test_pred][:25]
correct_lab = y_test[y_test != y_test_pred][:25]
miscl_lab = y_test_pred[y_test != y_test_pred][:25]

fig, ax = plt.subplots(nrows=5, ncols=5, sharex=True, sharey=True,)
ax = ax.flatten()
for i in range(25):
    img = miscl_img[i].reshape(28, 28)
    ax[i].imshow(img, cmap='Greys', interpolation='nearest')
    ax[i].set_title('%d) t: %d p: %d' % (i+1, correct_lab[i], miscl_lab[i]))

ax[0].set_xticks([])
ax[0].set_yticks([])
plt.tight_layout()
#plt.savefig('images/12_09.png', dpi=300)
plt.show()

#### Referências 
*Python Machine Learning 2nd Edition* by [Sebastian Raschka](https://sebastianraschka.com), Packt Publishing Ltd. 2017

Code Repository: https://github.com/rasbt/python-machine-learning-book-2nd-edition

Code License: [MIT License](https://github.com/rasbt/python-machine-learning-book-2nd-edition/blob/master/LICENSE.txt)