# Lista de Exercícios 2

In [23]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from typing import List, Callable
import math

### 1. Sabe-se que cada neurônio, de forma individual, estabelecerá um hiperplano de separação em um dado problema. Se uma quantidade relativamente grande de neurônios forem colocados em paralelo em uma única camada, tal rede seria capaz de separar problemas não-lineares? Justifique sua resposta.

Se ligarmos essa camada a uma camada de saída, sim. Se uma quantidade grande de neurônios forem colocados em paralelo em uma camada oculta, ligados à camada de saída, eles gerarão inúmeros hiperplanos que serão combinados pela camada de entrada. O hiperplano resultado teria um efeito serrilhado, mas seria capaz de separar problemas não lineares com uma certa precisão.

### 2. Qual a importância da escolha da função de ativação em redes neurais artificiais?

Além de inserir não linearidade, a função de ativação influencia muito no treinamento da rede. Isso porque as técnicas de treinamento utilizam gradiente descendente, que dependem da função ser diferenciável para seu funcionamento. A importância disso é tanta que uma das coisas que ajudou a criar redes mais profundas foi a adoção de outras funções de ativação além da sigmóide e tangente hiperbólica: RELU, ELU, Leaky-ELU, etc. Essas funções foram importantes para combater o vanishing gradient e exploding gradient, que aconteciam com maior força devido à natureza da sigmóide e tangente hiperbólica, que apresentam alta variância próximo do centro, mas variânica mínima nas bordas.

### 3. Qual o possível ganho, em comparação a um único neurônio, que se pode obter em uma rede neural artificial com duas camadas de neurônios?

Ela passa a ser capaz de resolver problemas não lineares. Além disso, poderá tratar de problemas multiclasses se sua camada de saída possuir mais de um neurônio.

### 4. Quais são as dificuldades em usar uma rede neural de múltiplas camadas?

A dificuldade está em seu treinamento. Mesmo depois da criação do algoritmo backpropagation, ainda existe muita dificuldade em se empilhar camadas. Isso porque o backpropagation funciona com derivadas parciais da saída da rede em relação aos neurônios. Quando esses neurônios estão em camadas muito distantes da saída, esse gradiente vai ficando cada vez maior, apresentando o problema conhecido como vanishing gradient, em que o gradiente é tão pequeno que as camadas iniciais mal tem seus pesos alterados.

### 5. Explique intuitivamente o que é a regra da cadeia.

A Regra da Cadeia indica como obter o coeficiente de variação (derivada) de uma função matemática composta por outra função. Essa regra dita que esse coeficiente de variação pode ser obtido ao calcular separadamente a derivada de cada função e multiplicar os resultados. Logo, pode-se dizer que o coeficiente de variação de uma função é dado pela multiplicação dos coeficientes de cada função de forma recursiva.

### 6. Explique matematicamente o que é a regra da cadeia.

In [8]:
%%latex
Dadas as funções $f(x)$ e $g(x)$, e considerando que $f(x)$ seja composta por $g(x)$ (ex: $f(x) = g(x)^2$), a regra da cadeia indica que a derivada de $f(x)$ é dada por:

<IPython.core.display.Latex object>

In [9]:
%%latex
$f'(x) = f'(g(x))g'(x)$

<IPython.core.display.Latex object>

Ou melhor:

In [10]:
%%latex
$\frac{df}{dx} = \frac{df}{dg} \frac{dg}{dx}$

<IPython.core.display.Latex object>

Caso a composição seja de múltiplas funções, essa regra se aplica recursivamente.

### 7. Qual a importância das derivadas parciais para o processo de treinamento de uma rede neural artificial multicamadas?

As derivadas parciais permitem encontrar a variação de uma função com multiplas variáveis em relação a uma delas. Dessa forma, as derivadas parciais são utilizadas para derivar a função de erro em relação a cada um dos pesos, permitindo que seja encontrada a direção de alteração de cada peso para se minimizar o erro.

### 8. Quanto mais camadas uma rede neural artificial possuir, melhor o seu desempenho?

Não necessariamente. Primeiro porque uma rede profunda é mais difícil de treinar, precisando de uma quantidade maior de dados para um treinamento efetivo. Segundo que quanto maior a complexidade do modelo, mais suscetível ele está ao overfitting. Ou seja, uma rede muito profunda poderá até aprender os dados de treinamento, chegando até ao ponto de "decorá-los", mas não conseguirá criar uma boa generalização. Isso fará com que novos dados que a rede nunca viu sejam classificados com uma baixa precisão.

### 9. Dados quatro problemas diferentes, ilustrados na figura abaixo. Como você projetaria a arquitetura de uma rede neural artificial de modo a economizar neurônios utilizados na rede?

a) Esse problema é linearmente separável por um único hiperplano, o que permitiria que um único neurônio fosse capaz de resolver o problema.

b) Esse problema pode ser separado por múltiplos hiperplanos lineares. Então, seria necessário pelo menos um neurônio por hiperplano e uma camada de saída com um neurônio por classe. Essa camada de saída combinaria os hiperplanos e cada neurônio de saída indicaria a porcentagem de chance da entrada fazer parte de sua classe. Poderíamos, então, classificar a entrada com o neurônio de maior saída. Com essa separação, é provável que fosse necessário 5 neurônios na camada oculta (um para cada hiperplano) e 5 na camada de saída (um para cada classe).

c) Esse problema é linearmente separável por um único hiperplano, o que permitiria que um único neurônio fosse capaz de resolver o problema.

d) Esse problema já apresenta regiões convexas para separar as classes. Logo, seria necessário ou uma quantidade maior de neurônios numa única camada oculta, para que vários hiperplanos sejam traçados e combinados na camada de saída, ou duas camadas ocultas, o que tornaria capaz de produzir regiões convexas de separação. A quantidade de neurônios na camada de saída continua sendo 5, como na (b).

### 10. Qual a relação entre gradiente descendente, gradiente descendente estocástico e mínimos locais e globais?

O Gradiente Descendente é uma técnica de otimização que visa encontrar um valor mínimo (ou máximo) de uma função desconhecida através do cálculo da derivada do erro com base nos exemplos de entrada e saída (dataset). O problema dessa técnica é que ela tende a ficar presa em mínimos locais, visto que a derivada tende ao zero quando um é alcançado. Para evitar que isso aconteça, utiliza-se o Gradiente Descendente Estocástico. Ao invés de considerar todos os exemplos de entrada e saída para se calcular a derivada, utiliza-se apenas um exemplo por vez, selecionado em ordem aleatória. Dessa forma, cada exemplo representa uma função diferente, a qual terá mínimos diferentes. Isso evita que a otimização fique presa em mínimos locais, mas deixa a otimização muito mais lenta, podendo até mesmo não convergir. Por isso, foi criada a otimização com Mini Batch. Ela utiliza de estocasticidade, mas calcula o gradiente com base em um batch de exemplos. Isso deixa a otimização mais estável e mais rápida, enquanto evita os mínimos locais. Mas cria um novo hiperparâmetro: o tamanho do mini batch.

### 12. Implemente o algoritmo backpropagation em linguagem python e apresente um notebook correspondente com os comentários. Por fim, mostre o gráfico de erro em relação às épocas para o conjunto de dados do exercício anterior;

In [20]:
class MultilayerPerceptron:

    def __init__(self, initial_weights: List[List[np.ndarray]], bias: List[float], learning_rate: float,
                 activation_function: Callable[[float], float], derived_activation_function: Callable[[float], float]):
        if len(bias) != len(initial_weights):
            raise ValueError("Deve haver um bias e uma lista de pesos por camada, sendo que ambos tenham o mesmo tamanho.")
        self._weights: List[List[np.ndarray]] = initial_weights
        self._bias: List[float] = bias
        self._learning_rate: float = learning_rate
        self._activation_function: Callable[[float], float] = activation_function
        self._derived_activation_function: Callable[[float], float] = derived_activation_function
        
    def _prepend_bias(self, X):
        return np.insert(X, 0, values=1, axis=0)
    
    def predict(self, X):
        layer_input = self._prepend_bias(X)
        for layer_weights, layer_bias in zip(self._weights, self._bias):
            layer_output = []
            for neuron_weights in layer_weights:
                neuron_weights_with_bias = np.insert(neuron_weights, 0, values=layer_bias, axis=0)
                neuron_output = (layer_input * neuron_weights_with_bias).sum()
                layer_output.append(self._activation_function(neuron_output))
            layer_output = np.array(layer_output)
            layer_input = self._prepend_bias(layer_output)
                
        return layer_output
    
    def fit(self, X, y):
        weights_history = [self._weights]
        errors_history = []
        for i in range (50):
            output = self._calculate_output(X)
            errors = (y - output)
            delta = self._learning_rate * adaline._prepend_bias(X).T.dot(errors)
            self._weights = self._weights + delta
            weights_history.append(self._weights)
            errors_history.append((errors**2).sum() / 2.0)
                
        return weights_history, errors_history

In [21]:
def sigmoid(x: float) -> float:
    return 1 / (1 + math.exp(-x))

def sigmoid_derivative(x: float) -> float:
    return sigmoid(x) * (1 - sigmoid(x))

model = MultilayerPerceptron([[np.array([0.15, 0.2]), np.array([0.25, 0.3])], [np.array([0.4, 0.45]), np.array([0.5, 0.55])]], [0.35, 0.6], 0.01, sigmoid, sigmoid_derivative)

In [15]:
X = np.array([0.05, 0.1])

In [24]:
model.predict(X)

array([ 0.75136507,  0.77292847])