[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/diogoflim/AM/blob/main/6_DeepLearning/aula_DL.ipynb)


# Aprendizado de máquina e decisões dirigidas por dados

**Professor: Diogo Ferreira de Lima Silva**

**TPP - UFF**

**Aula 6 e 7**

# Redes Neurais

## Revisão das últimas aulas

Estudamos nas últimas aulas o modelo Perceptron, conhecido como o modelo básico de redes neurais. Vimos que

- O Perceptron, assim como uma regressão linear ou uma regressão logística, pode ser visto como uma rede de: 

    - uma camada de input, representada pelos atributos das observações de treinamento.
    - uma camada escondida com um único neurônio que recebe a soma ponderada dos valores dos atributos pelos respectivos pessos.
        - observação: também há um atributo conhecido como bias $(b)$.
    - Na camada escondida, realiza-se uma operação designada pela função de ativação a depender do modelo utilizado.


A figura abaixo ilustra a situação:

<img src="fig_1.png">

As funções de ativação para os casos estudados seriam:

- Regressão Linear: $a = g(z)=z$

- Regressão Logística: $a = g(z)=\frac{1}{1+e^{-z}}$

    - Nesse caso: 
    
    $$y = \begin{cases} 1 & \text{se } a > 0.5 \\ 0 & \text{caso contrário} \end{cases}$$

- Perceptron: $a = g(z)=z$
    - Nesse caso: 
    
    $$y = \begin{cases} 1 & \text{se } a >= 0 \\ -1 & \text{caso contrário} \end{cases}$$

### Múltiplas Camadas

Normalmente, o estudo de redes neurais trata de problemas onde é interessante a utilização de múltiplas camadas escondidas. Nesse caso, nosso algoritmo de aprendizagem ganha a capacidade de aprender funções mais complexas. 

Adicionamente, várias outras possibilidades de funções de ativação podem ser utilizadas.

## Arquitetura de uma Rede Neural

Em uma RNA, os neurônios podem estar dispostos em mais de uma camada intermediária. 

- Saídas dos neurônios de uma camada intermediária podem ser entradas para os neurônios da camada intermediária seguinte. 
- Saídas dos neurônios da última camada intermediária são entradas para neurônios dispostos em uma camada de saída (output). 

Quando há mais de uma camada intermediária, a rede neural é chamada de rede multicamadas (redes profundas). 

Vejamos um exemplo:

<img src="fig_2.png">

Nessa figura, apenas alguns arcos foram desenhados para simplificar a visualização. No entanto, perceba que a partir de um neurônio na camada $l$ poderia sair um link para cada neurônio da camada $l+1$

Vejamos uma representação simplificada da rede acima, porém, considere que temos todos os links propagados.

## Notação

A seguinte notação será utilizada para uma rede neural multicamada:

- O número de camadas na rede é dado por $L$ e o número de neurônios em uma camada $l$ é dado por $n^[l]$ , sendo $n^[0] =n$ o número de atributos.
- Um exemplo de treinamento é representado por um vetor coluna de $n$  atributos.

$$ \vec{x}^{(i)} \in \mathbb{R}^{n^{[0]}} = [x_1^{(i)}, x_2^{(i)}, ..., x_n^{(i)}]^T $$

- A matriz $ \mathbf{X} \in \mathbb{R}^{n^{[0]} \times m}$ organiza cada um dos $m$ exemplos de treinamento em uma coluna, assim, $\mathbf{X}_{:,i} = x^{(i)}$.

- $y^{(i)}$ representa um rótulo atribuído ao exemplo $\vec{x}^{(i)}$. O vetor $\vec{y} = [y^{(i)},…,y^{(m)}] $ representa os rótulos do conjunto de treinamento. 

- Uma matriz $\mathbf{W}^{[l]} \in \mathbb{R}^{n^[l-1] \times n^[l]}$ representa os pesos utilizados para ponderar a entrada de uma camada $l$ com uma equação linear do tipo: $wx+b$. A entrada da matriz na linha $i$ e coluna $j$, $W_{i,j}^{[l]}$ , representa o peso associado a uma entrada no neurônio $j$  da camada $l$ que corresponde a uma saída do neurônio $i$ da camada $(l-1)$. 

- O vetor coluna $\vec{b}^{[l]}$  recebe os valores dos interceptos das $n^{[l]}$  equações lineares correspondentes às entradas dos neurônios da camada $l$.

- $\vec{z}^{[l]} = \mathbf{W}^{[l]^T} \cdot \vec{a}^{[l-1]} + \vec{b}^{[l]}$, onde $\vec{z}^{[l]} \in \mathbb{R}^{n^[l]}$, representa um vetor coluna com a ponderação das entradas nos neurônios da camada $l$. Na primeira camada intermediária, o exemplo de treinamento é ponderado, $a^[0] =x^{(i)}$.

- Uma matriz $\mathbf{Z}^{[l]} \in \mathbb{R}^{n^{[l]} \times m} $ representa as ponderações das entradas para os $m$ diferentes exemplos do conjunto de treinamento Dessa forma: $\mathbf{A}^{[0]} = \mathbf{X}$. 

- $\vec{a}^{[l]} \in \mathbb{R}^{n^{[l]}}$ representa a saída da função de ativação $g^[l]$ aplicada na camada $l$. Assim, para uma camada $l$ temos: $\vec{a}^{[l]}=g^{[l]} (\vec{z}^{[l]})$.

- Uma matriz $\mathbf{A}^{[l]} \in \mathbb{R}^{n^{[l]} \times m}$ representa as saídas das funções de ativação em cada camada $l$ (linhas) para os $m$ exemplos de treinamento (colunas).
