# Fundamentos em Data Science

## Redes Neurais Artificiais

Fábio Sato <fabiosato@gmail.com

# Redes Neurais Artificiais (ANN) - Introdução

Inspiração no cérebro humano para a construção de algoritmos inteligentes

Algoritmos versáteis, poderosos e escaláveis que podem lidar com tarefas complexas de aprendizado de máquina

Algoritmo base de Aprendizado Profundo (*Deep Learning*) que fornece os principais serviços de IA utilizados atualmente:
    - Classificação de imagens (Google Image)
    - Reconhecimento de fala (Siri)
    - Recomendação de vídeos (Youtube e Netflix)






# Neurônios Biológicos

Composto por um corpo celular contendo o núcleo, ramificações (dendritos) e uma longa extensão denominada axônio.

O axônio apresenta ramificações em suas extremidades que possuem pequenas estruturas denominadas terminais sinápticos (sinapses) que estão conectadas aos dendritos de outros neurônios.

Recebem curtos impulsos elétricos (sinais) de outros neurôrios através das sinapses.


![Neurônio Biológico](figuras/biological-neuron.jpg)

# Neurônios Biológicos

Quando um neurônio recebe um número suficiente de sinais de outros neurônios dentro 
de alguns milisegundos ele dispara seu próprio sinal.

Neurônios individuais se comportam de forma bastante simples, mas estão organizados em uma vasta rede de bilhões de neurônios, onde cada neurônio está conectado a milhares de outros neurônios.

"Cálculos" altamente complexos podem ser realizados por uma vasta rede de simples neurônios.

![Biological Neurons Layers](figuras/biological-neurons-layers.png)



# ANN - Histórico

## 1943 - McCulloch e Pitts

*A Logical Calculus of Ideas Immanent in Nervous Activity*

Primeira arquitetura de redes neurais artificiais.

Modelo computacional simplificado de como neurônios biológicos podem trabalhar em conjunto para realizar operações complexas.

Uma ou mais entradas binárias (ligado/desligado) e uma saída binária.

Ativação da saída quando mais do que um certo número de entradas estão ativas.

![McCulloch and Pitts ANN](figuras/mcculloch-pitts-ann.png)

# ANN - Histórico

## 1957: Frank Rosenblat

Proposta de um neurônio artifical ligeiramente modificado.

LTU - *Linear Treshold Unit* - entradas e saídas são números e um peso é associado a cada conexão de entrada.

Cálculo da soma ponderada das entradas: $ z = w_1 x_1 + w_2 x_2 + ... + w_n x_n = \mathbf{w}^T \cdot \mathbf{x}$

Função de *step* sobre o soma que produz na saída o resultado $h_w(\mathbf{x}) = step(z)$

![Perceptron](figuras/perceptron.png)

# LTU - Funções Step


$$ heaviside(z) = 
\begin{cases}
0 & if z \lt 0 \\
1 & if z \ge 0
\end{cases} $$

$$ sign(z) = 
\begin{cases}
-1 & if z \lt 0 \\
0  & if z = 0 \\
+1 & if z \gt 0
\end{cases}
$$

# Perceptron

Combinação linear das entradas: LTU pode ser usado somente para problemas simples de classificação binária linear.

Um Perceptron consiste de uma camada simples de LTUs onde cada neurônio está conectado a todas entradas.

As conexões de entrada são compostas por neurônios que reproduzem os valores na saída.

Um neurônio de viés (*bias*) é geralmente adicionado ($x_0 = 1$).

Perceptrons não são capazes de aprender padrões complexos.

Entretanto, Rosenblat demonstrou que se o problema é linearmente separável o algoritmo irá convergir para uma solução.



# Perceptron - Treinamento

Baseado na regra de Hebb: quando um neurônio frequentemente ativa outro a conexão entre eles fica mais forte.

Perceptrons são treinados de forma que o erro produzido pela rede seja levado em consideração.

Não reforça conexões que conduziram a uma saída errada.

Para cada instância de treinamento o erro da rede é determinado e os pesos são atualizados de forma que as conexões de entradas que poderiam ter contribuido para uma saída correta sejam reforçadas.

# Perceptron - Regra de Aprendizado

$$ w_{i,j}^{(next step)} = w_{i, j} + \eta (\hat{y_i} - y_i)x_i $$

- $w_{i,j}$ é o peso da conexão entre o $i$-ésimo neurônio de entrada e o $j$-ésimo neurônio de saída
- $x_i$ é o $i$-ésimo valor de entrada da instância de treinamento atual
- $\hat{y_i}$ é a saída do $j$-ésimo neurônio de saída para a instância de treinamento atual
- $y_i$ é o valor de saída alvo do $j$-ésimo neurônio de saída para a instância de treinamento atual
- $\eta$ é a taxa de aprendizado

# Perceptron - Exemplo

In [11]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score

iris = load_iris()
X = iris.data[:, (2,3)]
y = (iris.target == 0).astype(np.int)

clf = Perceptron(random_state=1234)
clf.fit(X, y)

y_pred = clf.predict(X)
print("Acurácia: %f" % accuracy_score(y, y_pred))

Acurácia: 1.000000




# MLP - Multi-Layer Perceptron

1969 - Minksy e Papert: limitações do Perceptron (XOR)

MLP: algumas das limitações podem ser eliminadas através do empilhamento de múltiplos Perceptrons.

Uma MLP é composta por uma ou mais camadas de entrada, um ou mais camadas de LTUs (camadas escondidas), e uma camada final de LTUs chamada de camada de saída.

Quando uma ANN possui duas ou mais camadas escondidas é denominada rede neural profunda (DNN - *Deep Neural Network*)

![MLP](figuras/mlp-network.png)

In [None]:
# MLP - Treinamento

Durante anos muitos pesquisadores tentaram encontrar uma forma de treinar MLPs sem sucesso.

Em 1986 Rumelhart et al. publicaram um artigo introduzindo o algoritmo de treinamento *Backpropagation*.

