[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/diogoflim/AM/blob/main/6_DeepLearning/aula_DL.ipynb)


# Aprendizado de máquina e decisões dirigidas por dados

**Professor: Diogo Ferreira de Lima Silva**

**TPP - UFF**

**Aula 6 e 7**

# Redes Neurais

## Revisão das últimas aulas

Estudamos nas últimas aulas o modelo Perceptron, conhecido como o modelo básico de redes neurais. Vimos que

- O Perceptron, assim como uma regressão linear ou uma regressão logística, pode ser visto como uma rede de: 

    - uma camada de input, representada pelos atributos das observações de treinamento.
    - uma camada escondida com um único neurônio que recebe a soma ponderada dos valores dos atributos pelos respectivos pessos.
        - observação: também há um atributo conhecido como bias $(b)$.
    - Na camada escondida, realiza-se uma operação designada pela função de ativação a depender do modelo utilizado.


A figura abaixo ilustra a situação:

<img src="fig_1.png">

As funções de ativação para os casos estudados seriam:

- Regressão Linear: $a = g(z)=z$

- Regressão Logística: $a = g(z)=\frac{1}{1+e^{-z}}$

    - Nesse caso: 
    
    $$y = \begin{cases} 1 & \text{se } a > 0.5 \\ 0 & \text{caso contrário} \end{cases}$$

- Perceptron: $a = g(z)=z$
    - Nesse caso: 
    
    $$y = \begin{cases} 1 & \text{se } a >= 0 \\ -1 & \text{caso contrário} \end{cases}$$

## Múltiplas Camadas

Normalmente, o estudo de redes neurais trata de problemas onde é interessante a utilização de múltiplas camadas escondidas. Nesse caso, nosso algoritmo de aprendizagem ganha a capacidade de aprender funções mais complexas. 

Adicionamente, várias outras possibilidades de funções de ativação podem ser utilizadas.

## Arquitetura de uma Rede Neural

Em uma RNA, os neurônios podem estar dispostos em mais de uma camada intermediária. 

- Saídas dos neurônios de uma camada intermediária podem ser entradas para os neurônios da camada intermediária seguinte. 
- Saídas dos neurônios da última camada intermediária são entradas para neurônios dispostos em uma camada de saída (output). 

Quando há mais de uma camada intermediária, a rede neural é chamada de rede multicamadas (redes profundas). 

Vejamos um exemplo:

<img src="fig_2.png">

Nessa figura, apenas alguns arcos foram desenhados para simplificar a visualização. No entanto, perceba que a partir de um neurônio na camada $l$ poderia sair um link para cada neurônio da camada $l+1$

Vejamos uma representação simplificada da rede acima, porém, considere que temos todos os links propagados.

<img src = "fig_3.png">

Vetor $\vec{a}^{[0]} = \vec{x} = [x_1, x_2, ..., x_n]$.

---

Vetor $\vec{a}^{[1]}$:

$$ a^{[1]}_1 =  g^{[1]}(\vec{w}^{[1]}_1 \cdot \vec{x} + b^{[1]}_1) $$
$$ a^{[1]}_2 =  g^{[1]}(\vec{w}^{[1]}_2 \cdot \vec{x} + b^{[1]}_2) $$
$$ a^{[1]}_3 =  g^{[1]}(\vec{w}^{[1]}_3 \cdot \vec{x} + b^{[1]}_3) $$

--------

Vetor $\vec{a}^{[2]}$:

$$ a^{[2]}_1 =  g^{[2]}(\vec{w}^{[2]}_1 \cdot \vec{a}^{[1]} + b^{[2]}_1) $$
$$ a^{[2]}_2 =  g^{[2]}(\vec{w}^{[2]}_2 \cdot \vec{a}^{[1]} + b^{[2]}_2) $$
$$ a^{[2]}_3 =  g^{[2]}(\vec{w}^{[2]}_3 \cdot \vec{a}^{[1]} + b^{[2]}_3) $$
$$ a^{[2]}_4 =  g^{[2]}(\vec{w}^{[2]}_4 \cdot \vec{a}^{[1]} + b^{[2]}_4) $$

--------

Vetor $\vec{a}^{[3]}$:

$$ a^{[3]}_1 =  g^{[3]}(\vec{w}^{[3]}_1 \cdot \vec{a}^{[2]} + b^{[3]}_1) $$
$$ a^{[3]}_2 =  g^{[3]}(\vec{w}^{[3]}_2 \cdot \vec{a}^{[2]} + b^{[3]}_2) $$

--------

De maneira geral, a notação fica:

$$ a^{[l]}_j =  g^{[l]}(\vec{w}^{[l]}_j \cdot \vec{a}^{[l-1]} + b^{[l]}_j) $$

Perceba que, na notação que estudamos até o momento, estamos tratando da passagem de um exemplo (um vetor $\vec{x}$ específico) pela rede. 

Porém, na verdade uma matriz de exemplos de treinamento $\mathbf{X}$ deve passar pela rede para o cálculo do custo após cada iteração.

**Vamos iniciar um primeiro exemplo no Tensorflow**

## TensorFlow

O TensorFlow é uma das principais bibliotecas para implementação de algorítmos de redes neurais. 

Vejamos como ficaria o exemplo de uma rede neural de 3 camadas escondidas implementado no TensorFlow:

- Camada 1 com 3 neurônios
- Camada 2 com 4 neurônios
- Camada 3 com 1 neurônio
- As funções de ativação em todas as camadas são sigmoides.

In [181]:
# Importando as bibliotecas

import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

In [182]:
tf.random.set_seed(1234) 

modelo = Sequential(
    [
        Dense(3, activation='sigmoid', name = 'camada_1'),
        Dense(4, activation='sigmoid', name = 'camada_2'),
        Dense(1, activation='sigmoid', name = 'camada_3')
     ]
)

Vamos criar um Dataset para testar nosso modelo. 
O problema tratado será de duas classes. Usaremos a função do sklearn makeblobs para criar o dataset com as seguintes características:
- 2 classes
- 3 atributos
- 1000 exemplos

Informações: https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html

In [202]:
from sklearn.datasets import make_blobs

classes = 2
m = 1000
centers = [[-5, -5, -5], [5, 5, 5]]
std = 7.0
X_train, y_train = make_blobs(n_samples=m, centers=centers, cluster_std=std,random_state=30)

In [203]:
X_train

array([[ -8.27589418,  -6.00601927,   1.72422202],
       [  3.2905861 ,  -5.74092333,  -9.73150057],
       [  3.33428541,   6.25081248,   8.16387198],
       ...,
       [ -3.16434604,   7.56162468,   2.14345937],
       [  1.37071913,   0.19911344,  -1.15212557],
       [-15.20994896,  -1.29901339,  -5.17813762]])

In [204]:
y_train

array([1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1,
       0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0,
       0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0,
       0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0,
       0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1,
       1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0,

In [205]:
contagem = np.bincount(y_train)
print(f"Número de exemplos na classe 0: {contagem[0]}\nNúmero de exemplos na classe 1: {contagem[1]}")

Número de exemplos na classe 0: 500
Número de exemplos na classe 1: 500


### Passando os exemplos para o treinamento do nosso modelo

In [206]:
modelo.compile(
    loss=tf.keras.losses.BinaryCrossentropy(),
    optimizer=tf.keras.optimizers.Adam(learning_rate = 0.01),
)



In [207]:
modelo.fit(
    X_train,y_train,
    epochs=20
)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x1ad7e7856a0>

In [208]:
W1, b1 = model.get_layer("camada_1").get_weights()
W2, b2 = model.get_layer("camada_2").get_weights()
print("W1:\n", W1, "\nb1:", b1)
print("W2:\n", W2, "\nb2:", b2)

W1:
 [[ 0.08334005 -0.29660565  0.17884266]
 [-0.56124383 -0.15262699  0.8899205 ]] 
b1: [0. 0. 0.]
W2:
 [[-0.32336175 -0.66899645  0.27413416 -0.36288744]
 [-0.3022557  -0.68477273  0.38106263  0.40476227]
 [-0.20340782  0.56833684 -0.0420264   0.01816851]] 
b2: [0. 0. 0. 0.]


In [209]:
a_3 = modelo.predict(X_train)
print(f"As previsões para o valor da probabilidade de x_1 pertencer à classe 1 são: \n{a_3}")

As previsões para o valor da probabilidade de x_1 pertencer à classe 1 são: 
[[0.04334693]
 [0.05170152]
 [0.97126883]
 [0.8250412 ]
 [0.04154276]
 [0.97261715]
 [0.91044587]
 [0.9726982 ]
 [0.9726214 ]
 [0.26455694]
 [0.0420385 ]
 [0.36258042]
 [0.41928315]
 [0.95852584]
 [0.9675596 ]
 [0.06257364]
 [0.9724524 ]
 [0.9083154 ]
 [0.26694056]
 [0.9703758 ]
 [0.29617876]
 [0.95948684]
 [0.8161122 ]
 [0.95198697]
 [0.9692446 ]
 [0.0495991 ]
 [0.04989506]
 [0.9047513 ]
 [0.9715431 ]
 [0.09367179]
 [0.97261673]
 [0.9039258 ]
 [0.9685445 ]
 [0.09422315]
 [0.04889116]
 [0.14541432]
 [0.05300944]
 [0.046209  ]
 [0.05383921]
 [0.9725319 ]
 [0.8140064 ]
 [0.23604769]
 [0.04394041]
 [0.971887  ]
 [0.9722748 ]
 [0.05111042]
 [0.97216743]
 [0.97261363]
 [0.05993235]
 [0.9699938 ]
 [0.8994528 ]
 [0.9690667 ]
 [0.21814217]
 [0.0419695 ]
 [0.9069754 ]
 [0.93265176]
 [0.97058403]
 [0.9525049 ]
 [0.23801939]
 [0.3373496 ]
 [0.08268675]
 [0.96960574]
 [0.06887117]
 [0.05599405]
 [0.38602072]
 [0.7457423 ]

In [210]:
previsoes_treinamento = (a_3 >= 0.5).astype(int)
previsoes_treinamento

array([[0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [1],
       [0],
       [1],
       [0],
       [0],
       [1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
    

In [211]:
conta=0
for i in range (len(previsoes_treinamento)):
    if previsoes_treinamento[i] == y_train[i]: 
        conta +=1

conta/len(y_train)

0.903

Vamos criar um conjunto de teste da mesma maneira que criamos o de treinamento.

In [215]:
from sklearn.datasets import make_blobs

classes = 2
m = 200
centers = [[-5, -5, -5], [5, 5, 5]]
std = 7.0
X_test, y_test = make_blobs(n_samples=m, centers=centers, cluster_std=std,random_state=30)

In [216]:
a_3 = modelo.predict(X_test)
previsoes_testes = (a_3 >= 0.5).astype(int)




In [217]:
conta=0

for i in range (len(previsoes_testes)):
    if previsoes_testes[i] == y_test[i]: 
        conta +=1

conta/len(y_test)

0.895

---

## Funções de Ativação

- Linear: $$a=g(z)=z$$

- Sigmoid: $$a = g(z)=\frac{1}{1+e^{-z}}$$

- Relu: $$a = g(z)= \max(0,z)$$

- Leaky ReKY: $$a = g(z)= \max(0.1z , z)$$

- Softmax (multiclasse, com $K$ classes): $$a = g(z_i) = \frac{e^{z_i}}{\sum_j^Ke^{z_j}}$$

---

**Exemplo do uso da função de ativação Softmax:**

<img src = "softmax.png">


---

## Notação

A seguinte notação será utilizada para uma rede neural multicamada:

- O número de camadas na rede é dado por $L$ e o número de neurônios em uma camada $l$ é dado por $n^{[l]}$ , sendo $n^{[0]}=n$ o número de atributos.
- Um exemplo de treinamento é representado por um vetor coluna de $n$  atributos.

$$ \vec{x}^{(i)} \in \mathbb{R}^{n^{[0]}} = [x_1^{(i)}, x_2^{(i)}, ..., x_n^{(i)}]^T $$

- A matriz $ \mathbf{X} \in \mathbb{R}^{n^{[0]} \times m}$ organiza cada um dos $m$ exemplos de treinamento em uma coluna, assim, $\mathbf{X}_{:,i} = x^{(i)}$.

- $y^{(i)}$ representa um rótulo atribuído ao exemplo $\vec{x}^{(i)}$. O vetor $\vec{y} = [y^{(i)},…,y^{(m)}] $ representa os rótulos do conjunto de treinamento. 

- Uma matriz $\mathbf{W}^{[l]} \in \mathbb{R}^{n^{[l-1]} \times n^{[l]}}$ representa os pesos utilizados para ponderar a entrada de uma camada $l$ com uma equação linear do tipo: $w \cdot x+b$. 

- A entrada da matriz na linha $i$ e coluna $j$, $W_{i,j}^{[l]}$ , representa o peso associado a uma entrada no neurônio $j$  da camada $l$ que corresponde a uma saída do neurônio $i$ da camada $(l-1)$. 

- O vetor coluna $\vec{b}^{[l]}$  recebe os valores dos interceptos das $n^{[l]}$  equações lineares correspondentes às entradas dos neurônios da camada $l$.

- $\vec{z}^{[l]} = \mathbf{W}^{[l]^T} \cdot \vec{a}^{[l-1]} + \vec{b}^{[l]}$, onde $\vec{z}^{[l]} \in \mathbb{R}^{n^{[l]}}$, representa um vetor coluna com a ponderação das entradas nos neurônios da camada $l$. Na primeira camada intermediária, o exemplo de treinamento é ponderado, $ \vec{a}^{[0]} = \vec{x}$.

- Uma matriz $\mathbf{Z}^{[l]} \in \mathbb{R}^{n^{[l]} \times m} $ representa as ponderações das entradas para os $m$ diferentes exemplos do conjunto de treinamento Dessa forma: $\mathbf{A}^{[0]} = \mathbf{X}$. 

- $\vec{a}^{[l]} \in \mathbb{R}^{n^{[l]}}$ representa a saída da função de ativação $g^[l]$ aplicada na camada $l$. Assim, para uma camada $l$ temos: $\vec{a}^{[l]}=g^{[l]} (\vec{z}^{[l]})$.

- Uma matriz $\mathbf{A}^{[l]} \in \mathbb{R}^{n^{[l]} \times m}$ representa as saídas das funções de ativação em cada camada $l$ (linhas) para os $m$ exemplos de treinamento (colunas).


---