<a href="https://colab.research.google.com/github/valerio-unifei/UNIFEI-IA-Aulas/blob/main/UNIFEI_IA_Redes_Neurais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Redes Neurais Artificiais (RNA)
*Artificial Neural Network (ANN)*

**Definição**

Redes neurais artificiais são modelos matemático obtidos dos neurônios naturais. Tem a finalidade de simular seu funcionamento em ambiente computacional de forma a obter sistemas baseados em aprendizagem de máquina (*machine learning*).

Como é uma técnica copiada da natureza (neurônio natural), ela é considerada uma abordagem conexionista.

## Treinamento Supervisionado

O treinamento é obtido através do uso de casos (linhas) organizados (tabela) onde um tutor (valor de saída desejado) é relacionado.

O procedimento de treinamento visa a repetição dos casos como entrada nas técnicas e analisa o erro do valor de saída com o tutor.

Exemplo: Reproduzir o funcionamento de uma porta E

Tabela verdade da porta E, onde:
- X são entradas
- y é o tutor ou valor esperado da rede

|X0|X1|y|
|-|-|-----|
|0|0|0|
|0|1|0|
|1|0|0|
|1|1|1|


In [1]:
import numpy as np

X = np.array([[0,0],[0,1],[1,0],[1,1]])
y = np.array([[0],[0],[0],[1]])
print('X =',X)
print('y =',y)

X = [[0 0]
 [0 1]
 [1 0]
 [1 1]]
y = [[0]
 [0]
 [0]
 [1]]


## Neurônio Artificial

O neurônio artificial é formado das seguintes partes:

- entradas (x<sub>1</sub>, x<sub>2</sub>, ..., x<sub>n</sub>)
- entrada Bias (sempre com 1.0)
- pesos sinápticos
- somador
- função de ativação
- saída

<img src="https://cdn-images-1.medium.com/max/1600/1*WRG_Re8vGVuHDYigtq2IBA.jpeg">

In [2]:
# --- definindo ---
class Perceptron(): # neurônio linear
    def __init__(self):
      np.random.seed(1)
      #pesos sinapticos iniciados aleatoriamente
      self.pesos = 2 * np.random.random((2,1))-1

    def ativacao(self,x):
      return x # ativação linear f(x) = x
    
    def ativacao_reversa(self,x):
      return x # f-1(x) = x

    def executar(self, entradas):
      entradas = entradas.astype(float)
      saida = self.ativacao(np.dot(entradas, self.pesos))
      return saida

# ---- utilizando ---
tico = Perceptron()
print('Pesos sinapticos =',tico.pesos)
entradas = np.array([0,1])
print('Entradas =',entradas)
print('Saida =',tico.executar(entradas))

Pesos sinapticos = [[-0.16595599]
 [ 0.44064899]]
Entradas = [0 1]
Saida = [0.44064899]


Esquisito? Calma, ainda vai piorar!

## Treinamento

Baseado na diferença entre o valor de saída do neurônio e o valor tutor esperado, o ajuste é realizado nos pesos sinápticos (memória da rede neural) que são acrescidos ou reduzidos conforme relação entre o erro e o valor de entrada.

In [3]:
def treina_basico(neuronio, entradas, tutores, iteracoes):
  erros = tutores
  for iter in range(iteracoes):
    saidas = neuronio.executar(entradas)
    erros = tutores - saidas
    ajustes = np.dot(entradas.T, erros * neuronio.ativacao_reversa(saidas))
    neuronio.pesos += ajustes
  print('Erro =', erros.sum())

tico = Perceptron() 
treina_basico(tico,X,y,50)
print('Pesos sinapticos =',tico.pesos)
tico.executar(X)

Erro = -0.632559500993485
Pesos sinapticos = [[0.39152884]
 [0.39152884]]


array([[0.        ],
       [0.39152884],
       [0.39152884],
       [0.78305767]])

Tem um problema, o ajuste brusco nos pesos sinápticos causa oscilação no valor ótimo de funcionamento da rede, portanto precisamos definir uma taxa de aprendizado para que isso não se torne um problema.

## Neurônios com ativação não linear

<img src="https://qph.fs.quoracdn.net/main-qimg-07bc0ec05532caf5ebe8b4c82d0f5ca3">



In [4]:
# --- definindo ---
class Neuronio(): # neurônio não linear
    def __init__(self):
      np.random.seed(1)
      #pesos sinapticos iniciados aleatoriamente
      self.pesos = 2 * np.random.random((2,1))-1

    def ativacao(self,x): #sigmoidal
      return 1 / (1 + np.exp(-x))
    
    def ativacao_reversa(self,x):
      return x * (1 - x) # motivo de usar a sigmoidal (simples!)
    
    def executar(self, entradas):
      entradas = entradas.astype(float)
      saida = self.ativacao(np.dot(entradas, self.pesos))
      return saida

# ---- utilizando ---
teco = Perceptron()
print('Pesos sinapticos =',teco.pesos)
entradas = np.array([0,1])
print('Entradas =',entradas)
print('Saida =',teco.executar(entradas))

Pesos sinapticos = [[-0.16595599]
 [ 0.44064899]]
Entradas = [0 1]
Saida = [0.44064899]


In [5]:
teco = Neuronio() 
treina_basico(teco,X,y,50)
print('Pesos sinapticos =',teco.pesos)
teco.executar(X)

Erro = -1.000093408315861
Pesos sinapticos = [[-0.01292652]
 [ 0.01309035]]


array([[0.5       ],
       [0.50327254],
       [0.49676841],
       [0.50004096]])

## Treinamento para redes multi camada

Um rede multi camadas sempre foi um desafio para seu aprendizado no ambiente computacional, pois matematicamente uma rede neural multi camadas com ativação não linear é considerada uma [caixa preta](https://pt.wikipedia.org/wiki/Caixa_preta_(teoria_dos_sistemas).

<img src="https://i2.wp.com/neptune.ai/wp-content/uploads/Backpropagation-architecture.png?resize=768%2C643&ssl=1">

Rede Neural Artificial com 4 camadas:
- Camada de entrada ( ~ número de colunas da tabela)
- Camada oculta 1
- Camada oculta 2
- Camada de saída ( ~ classes para identificar)


**Metodologia Clássica:** Retro propagação de erro.

<img src="https://i1.wp.com/neptune.ai/wp-content/uploads/Backpropagation-passes-architecture.png?resize=768%2C732&ssl=1">

O erro entre o tutor e a resposta da rede trafega da camada de saída para a entrada através da função inversa de ativação e os pesos sinápticos das entradas de cada neurônio da rede.

<img src="https://i0.wp.com/neptune.ai/wp-content/uploads/Backpropagation-prediction.png?resize=1024%2C218&ssl=1">

Como funciona a retro propagação de erro:
1. A rede tem seus pesos sinápticos inicializados aleatóriamente;
2. É inserido o 1o caso (linha 1) e a saída da rede é obtida;
3. Erro entre a saída da rede e o tutor (valor esperado);
4. O erro é previsto na entrada da camada de saída pela **função de ativação inversa**; 
5. O erro previsto é distribuído para as entradas através do peso sináptico;
6. A 2a camada oculta recebe o erro previsto nas saídas de seus neurônios;
7. Novamente o erro é previsto nas entradas pela **função de ativação inversa**;
8. Os pesos sinápticos dos neurônios da 2a camada oculta distribuiem o erro para suas entradas;
9. A 1a camada oculta recebe o erro previsto nas saídas de seus neurônios;
10. Novamente o erro é previsto nas entradas pela **função de ativação inversa**;
11. Os pesos sinápticos dos neurônios da 1a camada oculta distribuiem o erro para suas entradas;
12. A camada de entrada recebe o erro previsto nas saídas de seus neurônios;
13. Novamente o erro é previsto nas entradas pela **função de ativação inversa**;
14. Todos os pesos sinápticos são ajustados pelo erro previsto sobre sua respectiva entrada em todas as camadas...

Problemas neste processo de aprendizado:
 - lentidão
 - mínimos locais de erro ao invés de mínimo global


## Problema da separação dos espaços


<img src="https://d3i71xaburhd42.cloudfront.net/7e73bffddc02223a8037e07da898cb194a64a619/9-Figure5-1.png">

# Redes Multi Camada

Multi-Layer Perceptron (MLP)



<img src="https://www.researchgate.net/profile/Mohamed-Zahran-16/publication/303875065/figure/fig4/AS:371118507610123@1465492955561/A-hypothetical-example-of-Multilayer-Perceptron-Network.png">

## MLP para Classificação

https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

**Classificação**:

Identificar um tutor discreto, identificado por classes.

- 0 - Falso
- 1 - Verdadeiro

In [6]:
from sklearn.neural_network import MLPClassifier

# Ou-exclusivo
X = [[0,0],[0,1],[1,0],[1,1]]
y = [0,1,1,0]

funcoes = ['identity','logistic','tanh','relu']

for activation in funcoes:
  rna = MLPClassifier(activation=activation, solver='lbfgs',hidden_layer_sizes=(4,))
  #treinamento
  rna.fit(X,y)

  print('--- ativação =',activation, ' ---')
  print('camadas =',rna.n_layers_)
  print('acurácia =', rna.score(X,y))
  print('y_previsto =',rna.predict(X))

--- ativação = identity  ---
camadas = 3
acurácia = 0.5
y_previsto = [1 1 1 1]
--- ativação = logistic  ---
camadas = 3
acurácia = 1.0
y_previsto = [0 1 1 0]
--- ativação = tanh  ---
camadas = 3
acurácia = 1.0
y_previsto = [0 1 1 0]
--- ativação = relu  ---
camadas = 3
acurácia = 0.75
y_previsto = [0 1 0 0]


**Informação:** Por que a ativação linear deu o pior resultado?

Motivo uma rede MLP com ativação linear em todas as camadas pode ser simplificada para apenas UM neurônio de ativação linear. 

Portanto, no problema de separação dos espaços, o comportamento do ou-exclusivo não pode ser classificado por apenas 1 camada (neste caso 1 neurônio).

### Tipos de Treinamento

O MLP treina usando Stochastic Gradient Descent , Adam ou L-BFGS.
- https://en.wikipedia.org/wiki/Stochastic_gradient_descent
- https://arxiv.org/abs/1412.6980
- https://en.wikipedia.org/wiki/Limited-memory_BFGS

O solucionador padrão 'adam' funciona muito bem em conjuntos de dados relativamente grandes (com milhares de amostras de treinamento ou mais) em termos de tempo de treinamento e pontuação de validação. 

Para pequenos conjuntos de dados, entretanto, 'lbfgs' pode convergir mais rápido e ter um desempenho melhor.

In [7]:
from sklearn import datasets

#https://pt.wikipedia.org/wiki/Conjunto_de_dados_flor_Iris
iris = datasets.load_iris()
X = iris.data
y = iris.target

print('Casos/Linhas =',len(X),' Classes =',set(y))

Casos/Linhas = 150  Classes = {0, 1, 2}


In [8]:
import warnings
warnings.filterwarnings('ignore')

from sklearn.neural_network import MLPClassifier

funcoes = ['identity','logistic','tanh','relu']
otimizadores = ['lbfgs', 'sgd', 'adam']

for solver in otimizadores:
  for activation in funcoes:
    rna = MLPClassifier(activation=activation, solver=solver,hidden_layer_sizes=(4,))
    #treinamento
    rna.fit(X,y)

    print(' otimizador =',solver,
          ' ativação =',activation, 
          ' acurácia =', rna.score(X,y))

 otimizador = lbfgs  ativação = identity  acurácia = 0.9866666666666667
 otimizador = lbfgs  ativação = logistic  acurácia = 0.9933333333333333
 otimizador = lbfgs  ativação = tanh  acurácia = 0.9933333333333333
 otimizador = lbfgs  ativação = relu  acurácia = 0.3333333333333333
 otimizador = sgd  ativação = identity  acurácia = 0.36
 otimizador = sgd  ativação = logistic  acurácia = 0.3333333333333333
 otimizador = sgd  ativação = tanh  acurácia = 0.5133333333333333
 otimizador = sgd  ativação = relu  acurácia = 0.8533333333333334
 otimizador = adam  ativação = identity  acurácia = 0.6466666666666666
 otimizador = adam  ativação = logistic  acurácia = 0.66
 otimizador = adam  ativação = tanh  acurácia = 0.64
 otimizador = adam  ativação = relu  acurácia = 0.3333333333333333
