# O que são Redes Neurais

Muitas tarefas que envolvem inteligência, reconhecimento de padrões e detecção de objetos são extremamente difíceis de se automatizar, mes assim são facilmente desempenhadas por animais ou crianças.
Por exemplo, como seu cachorro te reconhece, seu dono, ao invés de um estranho?
Como uma criança consegue discernir entre um ônibus escolar a um ônibus municipal?
E como nosso cérebro subconscientemente, reconhece padrões complexos a cada dia sem que se quer nos demos conta?


**A resposta se encontra em nosso corpo**. Todos nós contemos, biologicamente, uma rede neural conectada a um sistema nervoso.

O termo "*Neural*" é a forma adjetiva de "*Neurônio*", "*Network*" denomina uma estrutura do tipo grafo, logo o termo "Artificial Neural Networks" referencia um sistema computacional que visa replicar (ou no mínimo inspirado por) as conexões neurais em nosso sistema nervoso.

Para um sistema ser considerado uma ANN(Artificial Neural Network) ele deve ter uma estrutura de grafos dirigidos onde cada nodo do grafo perfoma alguma computação simples. Cada conexão então carrega um sinal (a saída da computação anterior) de um nodo para outro, influenciados por um "*weight*" indicando se este sinal deve ser ampliado ou diminuído. Algumas conexões possuem pesos de valores altos e positivos indicando que este sinal é muito importante quando fazemos uma **classificação** , o inverso indicando que o sinal é pouco representativo para a **classificação** 

# Relação com a Biologia

<p align="center"><img src="https://github.com/dsantiago/Perceptron/raw/master/imgs/human-neuron.png" height="400px"></p>

Nosso cérebro é composto por 10 bilhões de neurônios aproximadamente, cada um conectado a outros 10 bilhões. 

O corpo do neurônio(soma), onde as entradas(dendritos) e as saídas(axônio) conectam um soma a outro soma. 
Cada neurônio recebe um impulso eletroquímico de outros neurônios em seu dendrito. Se estes impulsos tiverem energia suficiente para ativar um neurônio, então este neurônio transmite o sinal através de seu axônio, enviando como entrada aos dendritos de outros neurônios, e estes por sua vez podem também ativar enviando a mensagem a diante.

A grande sacada aqui é que esta ativação é uma **operação binária - o neurônio ativa ou não ativa**. Não existem níveis de ativação, simplificando: um neurônio só irá ativar caso sinal total recebido ultrapasse um certo limite.
Sempre lembrando que o algoritmo de Redes Neurais, assim como Algoritmos Genéticos, são apenas inspirados em como funciona nosso organimos,  o primeiro levando em conta o cérebro e o segundo o material genético e possííveis mutações. Mas a verdade é que ainda não temos o domínio completo da neuro ciência, ou em palavras mais amistosas, a ciência do cérebro e por motivos óbvios nãão conseguimos replicar o funcionamento do cérebro de forma fidedigna.


# Modelos Artificiais

Uma rede neural simplesmente faz a soma ponderada das entradas. Os valores valores $X_1, X_2, X_3$ são nossas **entradas** e tipicamente corresponde a uma as linha de um *dataset* disposto de forma tabular.

<p align="center"><img src="https://github.com/dsantiago/Perceptron/raw/master/imgs/simple-nn.png" height="400px"></p>

Cada $x$ é conectado a um neurônio com um vetor de peso **$W$** que consiste de $W_1, W_2, ..., W_n$, ou seja, cada entrada $x$ estáá associada a um peso $w$.

Note que na última entrada passamos o valor $1$ associado a um $W_4$ este sendo uma entrada extra no vetor de pesos para atender este valor($1$). Esta entrada extra é chamada de *bias* e tem como motivação o conceito de **coeficiente linear** na equação da reta que é justo onde passa a reta corta o eixo $y$ dando maleabilidade de deslocamento vertical a reta.

Por fim, a saída do dado, a direita da imagem, pega a soma ponderada pelos pesos, aplica uma função de ativação(usamos para identificar se o neurônio ativou ou não) e entrega o resultado.

Matematicamente falando:

* $ f\left(X_1W_1 + X_2W_2 + X_nW_n\right) $
* $ f\left(\sum_{i=1}^{n} X_iW_i\right) $
* Ou simplesmente, $f(net)$, onde: $$ net = \sum_{i=1}^{n} X_iW_i $$

# Funções de Ativação

A mais simples das funções de ativação é a "*step function*", utilizada pelo algoritmo no Perceptron.

<br />

$$
f(net) = 
\begin{cases}
1  & \text{if } net > 0\\
0  & \text{otherwise}\\
\end{cases}
$$

# O Algoritmo Perceptron

Concebido por Rosenblatt em 1958, *The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain*<font color="#F00">[1]</font> é provavelmente o mais antigo e simples dos algoritmos de ANN. Este paper sozinho éé imensamente responsável pela popularidade e utilidade das redes neurais nos dias atuais.

Em 1969, um balde de água fria caiu na comunidade  de *Machine Learning* que quase pôs um fim ao avançço dos estudos na área. *Minsky e Papert* publicaram *Perceptrons: an introduction to computational geometry*<font color="#F00">[2]</font>, um livro que estagnou os estudo em NN em quase uma década, mesmo sendo um livro<font color="#F00">[5]</font> controverso, os autores demonstraram com sucesso que um Perceptron *single layer* éé ineficaz em separar dados não lineares.

Mas logo na sequência, em 1970 onde começou-se a explorar redes mais profundas(chamadas também de *multi-layer perceptron*) em conjunto com o algoritmo de *backpropagation*(Webos<font color="#F00">[3]</font> e Rumelhart<font color="#F00">[4]</font> e logo o estudo em ANN saiu do hiato e voltou a aquecer.

# Problema do XOR

Em um dataset *bitwise* contendo as operações *OR*, *AND* e *XOR* :

| $x_0$ |  $x_1$ | | OR | AND | XOR |
|--|--|--|--|--|--|
| 0| 0|  | 0| 0| 0|
| 0| 1|  | 1| 0| 1|
| 1| 0|  | 1| 0| 1|
| 1| 1|  | 1| 1| 0|

Podemos notar que no caso do *OR* e *AND* podemos via uma linha classificar os dados porém no caso do *XOR* não existe linha que segmente os dados da forma correta, o *XOR* se caracteriza por não ser ***linearmente separável***.

<p align="center"><img src="https://github.com/dsantiago/Perceptron/raw/master/imgs/XOR_problem.png" width="800"></p>

Não entendeu essa questão da lineariedade?

Visualmente, veja na figura abaixo (extraída do MIT), sabemos de ante-mão que nosso algoritmo não conseguirá fazer a separação da segunda imagem.

<p align="center"><img src="https://github.com/dsantiago/Perceptron/raw/master/imgs/linear-vs-nao-linear.png" width="800"></p>

# Premissas do Perceptron

Nosso objetivo é identificar os pesos $w$ que classifique com precisão cada item em nossos dados. 
Para treinar nosso Perceptron devemos alimentar nossa rede com os dados *diversas vezes*. A cada vez que nossa rede enxergar todo o conjunto de dados, dissemos uma *epoch* se passou. Normalmente temos uma certa quantia de *epochs* até que nosso vetor de pesos $w$ possa ter sido aprendido/otimizado para separar linearmente nossos dados.

Um pseudo-código pode ser visto a seguir:

1. Inicializar o vetor $w$ com pequenos valores aleatórios <br />  
2. Até o Perceptron convergir: <br />
  (a) Itere o vetor $X$ e os valores verdadeiros $y$ <br />
  (b) Para cada $X_i$, passe-o pela rede, calculando o valor de saída pela ***step function***: $\hat{y}_i = \phi\left(W \odot X_i\right)$ <br />
  (c) Atualize os pesos de $W$: $ W = W + \left(-\alpha\left(\hat{y}_i - y_i\right)X_i\right) 
  \text{para todo } i \in \left\{0,\dotsc,n\right\} $ 
  
O "aprendizado" ocorre nos passos 2b e 2c onde tomamos o produto interno de $w$ e obtemos  a saída $y_j$. Este valor então é passado a *step function* que nos retorna $1$ se $y > 0$ e $0$ caso contrário.

Agora devemos mover nosso vetor $w$ um passo "mais próximo" da classificação correta, esta atualização é feita pelo que chamamos de *"delta rule"* no passo 2c.

A expressão $\left(\hat{y} - y\right)$ determina se nossa classificação está correta ou não, em caso possitivo a diferença deve ser $0$. Caso contrário esta diferença pode ser tanto positiva como negativa, nos dando a direção em que nossos pesos serão atualizados(e assim nos deixando mais próximos da classificação correta).

Para atualizar nosso vetor $W$

In [43]:
import numpy as np # Lib p/ Algebra Linear

In [26]:
class Perceptron:
    def __init__(self, N, alpha=0.1):
        self.W = np.random.randn(N + 1) # inicializando com pesos aleatorios, um valor extra para o bias
        self.alpha = alpha

    def step_function(self, x):
        return 1 if x > 0 else 0

    def fit(self, X, y, epochs=10):
        X = np.c_[X, np.ones((X.shape[0]))]

        for epoch in np.arange(0, epochs):
            # loop sob cada entrada
            for (x, target) in zip(X, y):
                y_hat = self.step_function(np.dot(x, self.W)) # predicao

                if y_hat != target:
                    error = y_hat - target
                    self.W += -self.alpha * error * x # atualiza o vetor de pesos
    
    def predict(self, X):
        X = np.atleast_2d(X)
        X = np.c_[X, np.ones((X.shape[0]))]

        return self.step_function(np.dot(X, self.W))

In [27]:
print("[INFO] Valores binarios de entrada, representando 2 bits...\n")
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
X

[INFO] Valores binarios de entrada, representando 2 bits...



array([[0, 0],
       [0, 1],
       [1, 0],
       [1, 1]])

### Executando OR

In [30]:
y = np.array([[0], [1], [1], [1]]) # Valores respostas do OR
 
print("[INFO] Treinando Perceptron - OR...")
p = Perceptron(X.shape[1], alpha=0.1)
p.fit(X, y, epochs=20)

[INFO] Treinando Perceptron - OR...


In [32]:
print("[INFO] Predição Perceptron - OR... \n")
 
for (x, target) in zip(X, y):
	pred = p.predict(x)
	print(f"[INFO] entrada={x}, valor-real={target[0]}, predicao={pred}")

[INFO] Predição Perceptron - OR... 

[INFO] entrada=[0 0], valor-real=0, predicao=0
[INFO] entrada=[0 1], valor-real=1, predicao=1
[INFO] entrada=[1 0], valor-real=1, predicao=1
[INFO] entrada=[1 1], valor-real=1, predicao=1


### Executando AND

In [34]:
y = np.array([[0], [0], [0], [1]]) # Valores respostas do AND
 
print("[INFO] Treinando Perceptron - AND...")
p = Perceptron(X.shape[1], alpha=0.1)
p.fit(X, y, epochs=20)

[INFO] Treinando Perceptron - AND...


In [35]:
print("[INFO] Predição Perceptron - AND... \n")
 
for (x, target) in zip(X, y):
	pred = p.predict(x)
	print(f"[INFO] entrada={x}, valor-real={target[0]}, predicao={pred}")

[INFO] Predição Perceptron - AND... 

[INFO] entrada=[0 0], valor-real=0, predicao=0
[INFO] entrada=[0 1], valor-real=0, predicao=0
[INFO] entrada=[1 0], valor-real=0, predicao=0
[INFO] entrada=[1 1], valor-real=1, predicao=1


### Executando XOR

In [39]:
y = np.array([[0], [1], [1], [0]]) # Valores respostas do XOR
 
print("[INFO] Treinando Perceptron - XOR...")
p = Perceptron(X.shape[1], alpha=0.1)
p.fit(X, y, epochs=20)

[INFO] Treinando Perceptron - XOR...


In [40]:
print("[INFO] Predição Perceptron - XOR... \n")
 
for (x, target) in zip(X, y):
	pred = p.predict(x)
	print(f"[INFO] entrada={x}, valor-real={target[0]}, predicao={pred}")

[INFO] Predição Perceptron - XOR... 

[INFO] entrada=[0 0], valor-real=0, predicao=1
[INFO] entrada=[0 1], valor-real=1, predicao=0
[INFO] entrada=[1 0], valor-real=1, predicao=0
[INFO] entrada=[1 1], valor-real=0, predicao=0


---
## Percebe-se que o algoritmo não conseguiu prever este resultado justamente pela necessidade de termos um algoritmo não linear no caso do XOR, como já discutimos previamente. 

## E agora como resolver?
---

# Multi-Layer ou Perceptron Multi Camadas

A intuição inicial é a de que precisaremos adicionar *layers* ou camadas extras afim de resolver problemas mais complexos.

Um exemplo de arquitetura básica de um Multi-layer Perceptron é a que segue:

<p align="center"><img src="https://github.com/dsantiago/Perceptron/raw/master/imgs/forward_pass.png" height="400px"></p>

* No primeiro exemplo temos de 2 entradas, 2 *layers* ocultos e uma saída
* No segundo exemplo temos de 3 entradas, 3 *layers* ocultos e novamente uma única saída

## Função de Ativação

Conferimos a *step function* anteriormente porém esta função não é diferenciável pois sóó pode assumir 0 ou 1 de forma abrupta, como podemos conferir na imagem a seguir:

<p align="center"><img src="https://github.com/dsantiago/Perceptron/raw/master/imgs/activation_functions.png" height="600px" ></p>

Com excessão da *step function* (que mais parece um degrau de escada), todas as demais funções são diferenciáveis.

Pare nosso caso, respeitando os papers iniciais, utilizaremos a função ***Sigmoid*** onde qualquer valor de entrada é achatado entre 0 e 1 porém de uma forma contínua. A fórmula da Simoid é dada por:

<br />

$$
\large
\sigma(z) = \frac{1}{1 + e^{-z}}
\large
$$

O uso das funções de ativação nos ajuda a criar o efeito de não linearidade quando diversas são postas em cascata. Baseado na Teoria da Aproximação Universal: https://en.wikipedia.org/wiki/Universal_approximation_theorem.

## O Backpropagation

Backpropagation é muito provavelmente o algoritmo mais importante na história das Redes Neurais - sem (um eficiente) backpropagation, seria impossível treinar Deep Learning até a profundidade que vemos nos dias atuais. 

Backpropagation pode ser considerado o pilar das redes neurais/deep learning moderno.

A incarnação original do backpropagation foi vista lá pelos idos de 1970, porém não foi até o seminal paper de 1986, "*Learning representations by back-propagating errors*" por Rumelhart, Hinton, e Williams, que foi possível inventar um algoritmo muito mais rápido emais adequado para treinar redes neurais profundas.

O backpropagation consiste:
* O "forward pass" onde nossas entradas são passadas pela rede e nossas predições obtidas.
* O "backward pass" é onde where we computamos o gradiente da função de custo no último *layer*(camada)da rede a usa este gradiente para recursivamente aplicar a ***regra da cadeia*** para atualizar os pesos da nossa rede, também conhecida como fase de atualização dos pesos.


No forward pass fazemos exatamente o que fizemos no Perceptron com o único adendo de ter mais camadas e, consequentemente, torna-se um sistema linear mais complexo.

No backward pass, temos que ter uma função diferenciável, ou seja, derivável. Só assim conseguiremos calcular as derivadas parciais envolvidas do erro em respeito a um peso $W_{i,j}$, $loss(E)$, saída $O_i$ e a saída da rede $net_i$.

<br />

$$ 
\frac{\partial E}{\partial W_{i,j}} = \frac{\partial E}{\partial O_i} \frac{\partial O_i}{\partial net_i}  
\frac{\partial net_i}{\partial W_{i,j}}
$$

Como o objetivo não é explicar as derivadas envolvidas, porém para os aficcionados por matemática, segue  a resolução.

Nos conformamos em entender que a derivada da Sigmoid tem como resultado:

Derivada Simóide:

$$
\large
\sigma'(x) = \sigma(x)\left(1 - \sigma(x)\right)
\large
$$

Prova:

$$
\begin{align}
\dfrac{d}{dx} \sigma(x) &= \dfrac{d}{dx} \left[ \dfrac{1}{1 + e^{-x}} \right] \\
&= \dfrac{d}{dx} \left( 1 + \mathrm{e}^{-x} \right)^{-1} \\
&= -(1 + e^{-x})^{-2}(-e^{-x}) \\
&= \dfrac{e^{-x}}{\left(1 + e^{-x}\right)^2} \\
&= \dfrac{1}{1 + e^{-x}\ } \cdot \dfrac{e^{-x}}{1 + e^{-x}}  \\
&= \dfrac{1}{1 + e^{-x}\ } \cdot \dfrac{(1 + e^{-x}) - 1}{1 + e^{-x}}  \\
&= \dfrac{1}{1 + e^{-x}\ } \cdot \left( \dfrac{1 + e^{-x}}{1 + e^{-x}} - \dfrac{1}{1 + e^{-x}} \right) \\
&= \dfrac{1}{1 + e^{-x}\ } \cdot \left( 1 - \dfrac{1}{1 + e^{-x}} \right) \\
&= \sigma(x) \cdot (1 - \sigma(x))
\end{align}
$$

## Atualizando os pesos

Uma vez percorrido reversamente a rede da última cada até a primeira e calculando os gradientes baseados nas derivadas parciais de cada camada, vamos atualizar nosso vetor de pesos $W$. Para isso usamos um learning rate $\alpha$ pequeno para dara pequeno passos em direção do ponto ótimo da função de custo, no nosso caso simplesmente $error=\left(\hat{y} - y\right)$.

Podemos concluir que caminhamos o vetor de pesos com seus gradientes escalados pelo fator $\alpha$.

<br />

$$
\large
w_{t + 1} = w_t  - \alpha.\nabla w_t
\large
$$

#Implementação

In [3]:
import numpy as np

In [12]:
class MultiLayerPerceptron:
    def __init__(self, layers, alpha=0.1):
        self.W = []
        self.layers = layers # Camadas em forma de lista. Ex: [2,2,1]
        self.alpha = alpha # Taxa de aprendizado

        for i in np.arange(0, len(layers) - 2):
            # No ex. [2,2,1] o resultado das 2 primeiras camdas seria uma matrix 2x2, 
            # porém adicionando o bias temos uma 3x3
            w = np.random.randn(layers[i] + 1, layers[i + 1] + 1)
            self.W.append(w)

        # A úúltima camada não precisamos adicionar o bias
        w = np.random.randn(layers[-2] + 1, layers[-1])
        self.W.append(w)

    def sigmoid(self, x):
        return 1.0 / (1 + np.exp(-x))

    def sigmoid_deriv(self, x):
        return x * (1 - x)

    def calculate_loss(self, X, targets):
        targets = np.atleast_2d(targets)
        predictions = self.predict(X, addBias=False)
        loss = 0.5 * np.sum((predictions - targets) ** 2)
        return loss

    def fit(self, X, y, epochs=1000, displayUpdate=100):
        # Adicionando o bias (coluna de 1's)
        X = np.c_[X, np.ones((X.shape[0]))]

        for epoch in np.arange(0, epochs):
            
            for (x, target) in zip(X, y):
                self.fit_partial(x, target)

            if epoch == 0 or (epoch + 1) % displayUpdate == 0:
                loss = self.calculate_loss(X, y)
                print(f"[INFO] epoch={epoch + 1}, loss={loss:.7f}")

    def fit_partial(self, x, y):
        X = [np.atleast_2d(x)]

        # Feedfoward:
        for layer in np.arange(0, len(self.W)):
            net = np.dot(X[layer], self.W[layer])
            out = self.sigmoid(net) # Nossa ativação não linear
            X.append(out)

        # Backpropagation
        
        # Calculamos o erro da última camada e seguimos recursivamente da última até a primeira
        error = X[-1] - y 
        # Calculamos a seguir o nossa lista de gradiente, tendo como 1 elemnto o erro * gradiente da última camada
        grad = [error * self.sigmoid_deriv(X[-1])] 

        # Executamos as derivadas parciais a partir da última camada (aplicação da regra da cadeia)
        for layer in np.arange(len(X) - 2, 0, -1):
            delta = np.dot(grad[-1], self.W[layer].T)
            delta = delta * self.sigmoid_deriv(X[layer])
            grad.append(delta)

        # Reverte os dados, visto que foram gerados de trás p/ frente
        grad = grad[::-1]

        # Atualiza os pesos com os gradientes com passos determinados pela Learning Rate alpha
        for layer in np.arange(0, len(self.W)):
            self.W[layer] += -self.alpha * X[layer].T.dot(grad[layer])

    def predict(self, X, addBias=True):
        y_hat = np.atleast_2d(X)
        
        if addBias:
            y_hat= np.c_[y_hat, np.ones((y_hat.shape[0]))]

        for layer in np.arange(0, len(self.W)):
            y_hat = self.sigmoid(np.dot(y_hat, self.W[layer]))

        return y_hat

In [13]:
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y = np.array([[0], [1], [1], [0]])

print("Entradas XOR...\n", X)
print("Saídas XOR...\n", y)

Entradas XOR...
 [[0 0]
 [0 1]
 [1 0]
 [1 1]]
Saídas XOR...
 [[0]
 [1]
 [1]
 [0]]


In [14]:
nn = MultiLayerPerceptron([2, 2, 1], alpha=0.5)
nn.fit(X, y, epochs=20000, displayUpdate=1000)

[INFO] epoch=1, loss=0.7513548
[INFO] epoch=1000, loss=0.1814224
[INFO] epoch=2000, loss=0.1332085
[INFO] epoch=3000, loss=0.1290036
[INFO] epoch=4000, loss=0.1275399
[INFO] epoch=5000, loss=0.1267793
[INFO] epoch=6000, loss=0.1262695
[INFO] epoch=7000, loss=0.1257879
[INFO] epoch=8000, loss=0.1245960
[INFO] epoch=9000, loss=0.0085606
[INFO] epoch=10000, loss=0.0023704
[INFO] epoch=11000, loss=0.0014009
[INFO] epoch=12000, loss=0.0009999
[INFO] epoch=13000, loss=0.0007790
[INFO] epoch=14000, loss=0.0006385
[INFO] epoch=15000, loss=0.0005410
[INFO] epoch=16000, loss=0.0004694
[INFO] epoch=17000, loss=0.0004144
[INFO] epoch=18000, loss=0.0003709
[INFO] epoch=19000, loss=0.0003356
[INFO] epoch=20000, loss=0.0003064


In [15]:
for (x, target) in zip(X, y):
	pred = nn.predict(x)[0][0]
	step = 1 if pred > 0.5 else 0
	print(f"[INFO] data={x}, valor-real={target[0]}, predicao={pred:.4f}, step_function={step}")

[INFO] data=[0 0], valor-real=0, predicao=0.0139, step_function=0
[INFO] data=[0 1], valor-real=1, predicao=0.9888, step_function=1
[INFO] data=[1 0], valor-real=1, predicao=0.9869, step_function=1
[INFO] data=[1 1], valor-real=0, predicao=0.0110, step_function=0


## Finalmente conseguimos criar uma rede neural que se adapta a problemas não lineares e o XOR foi vencido.

# REFERÊNCIAS

<font color="#F00">[1]</font> F. Rosenblatt. “The Perceptron: A Probabilistic Model for Information Storage and Organization in The Brain”. In: Psychological Review (1958), pages 65–386.

<font color="#F00">[2]</font> M. Minsky and S. Papert. Perceptrons. Cambridge, MA: MIT Press, 1969.

<font color="#F00">[3]</font> P. J.Werbos. “Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences”. PhD thesis. Harvard University, 1974.

<font color="#F00">[4]</font> David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. “Neurocomputing: Foundations of Research”. In: edited by James A. Anderson and Edward Rosenfeld. Cambridge, MA, USA: MIT Press, 1988. Chapter Learning Representations by Back-propagating Errors, pages 696–699. ISBN: 0-262-01097-6. URL: http://dl.acm.org/citation.cfm?id=65669.104451.

<font color="#F00">[5]</font> Mikel Olazaran. “A Sociological Study of the Official History of the Perceptrons Controversy”.In: Social Studies of Science 26.3 (1996), pages 611–659. ISSN: 03063127. URL: http://www.jstor.org/stable/285702.

<font color="#F00">[6]</font> Rumelhart, Hinton, and Williams. "Learning Representations by back-propagation errors" http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf