# Deep Learning

Modelos de deep learning tentam reproduzir o comportamento de aprendizado humano através de redes neurais artificais. A unidade de uma rede neural artificial é chamado de nó (ou neruônio matemático) e é baseado no neurônio biológico. Baseando-se ainda no cérebro humano os neruônios matemáticos tenatm reproduzir o mesmo comportamento de neruônios biológicos durante o processo de "treinamento" da IA. 

Essa ideia do deep learning começou em meados de 1980, contudo apenas após 2000 com a explosão do poder computacional necessário para o processamento de jogos com gráficos e requisitos cada vez maiores é que foi possível um crescimento explosivo do deep learning.

## O Neurônio biológico

O neurônio biológico é a unidade de processamento do cérebro humano. Ele é dividido em três partes: 
* Corpo celular, responsável por receber os sinais elétricos (sinapses) vindos de outros neurônios. Esses sinais são captados pelos Dendritos e processados no corpo celular. 

* Axônio que é responsável por transmitir esses sinais. Ao final do axônio estão localizados os nervos terminais.

* Nervos terminais são responsáveis pela transmissão do sinal elétrico de um neurônio para o outro.

![neuronio_bio.jpg](attachment:163fb429-9e62-4ecb-8927-861b9a54bd40.jpg)

Assim podemos pensar que o Corpo Celular (ou Soma) em conjunto com os Dentritos formam a superfície de entrada de informações no neurônio enquanto o Axônio e os nervos terminais formam a superfície de saída de informações do neurônio. 

Essa entrada e saída de informações são controladas pelas sinapses, sendo basicamente "válvulas" de informações. O fluxo das sinapses é algo variável e graças a essa variação o neurônio tem a possibilidade de adaptação. Quando captamos algum sinal através de nossos sensos (visão, audição, etc) esse sinal irá chegar ao neurônio e se for um sinal "forte" o suficiente (ou seja passar um certo *threshold*) então eles seguem pelo axônio e são enviados para o próximo neurônio. Caso esses sinais não sejam fortes o suficiente eles são apenas bloqueados e considerados irrelevantes. 

Como o neurônio recebe sinais de diversos outros neurônios esses sinais são ponderados no corpo celular e então são atenuados ("sinais fracos") ou amplificados ("sinais fortes") dependendo do dentrito de origem, visto que nesses dentritos temos um certo "peso" para cada tipo de sinal. Esses "pesos" seriam um tipo de memória. Esses pesos são definidos pelo cérebro durante sua vida útil através do proceso de memorização. 

Inspirados nesse processo, pesquisador desenvolveram então o **neurônio matemático**.

## O Neurônio matemático

O desenvolvimento do neurônio matemático é antigo, datando de 1943 com as pesquisas de <a href=https://www.jmeiners.com/neural-nets-sim/papers/mcp.pdf>Warren McCulloch e Walter Pitts</a>, que propuseram uma simplificação para o neurônio biológico. Esse neurônio matemático iria calcular a soma ponderada de diversos inputs, aplicar uma função e passar o resultado adiante.

![neuronio-matematico.png](attachment:59b4c726-b2a3-4cf0-a458-a976c43b87a8.png)

No diagrama anterior, nossas entradas sao dadas por $x_n$, essas entradas irão neurônios receptores dependendo do peso sináptico ($w_{kn}$, onde $k$ é o índice do neurônio e $n$ representa o terminal de entrada da sinapse a qual o neurônio se refere) dessas entradas. O corpo celular é representado por dois módulos:

* O primeiro módulo diz respeito a uma soma das entradas quando multiplicadas pelo peso sináptico; 
* O segundo módulo é representado pela função de ativação que, baseando-se na entrada e nos pesos sinápticos qual será a saída do neurônio pelo axônio ($y_k$).

Esse modelo é bem simplista visto que McCulloch acreditava que o neurônio apresentava caráter binário (ou ele é influenciado por outro neurônio ou ele não é). 

### Perceptron

O perceptron é o modelo de neurônio artifical mais simples possível, nele temos dados de entrada ($x_1,...,x_n$) e um único dado de saída, ele foi criado entre 1950 e 1960 por Frank Rosenblatt. Vamos supor que temos um neurônio artificial de três entradas ($x_1,x_2,x_3$). A esse neurônio teremos então três pesos ($w_1, w_2, w_3$).  A saída do neurônio (0 ou 1) será determinada pela soma ponderada dada por: 

\begin{equation}
S = \sum\limits_j w_jx_j
\end{equation}

* Se: S$\leq$ threshold, então nossa saída é 0;
* Se: S$\gt$ threshold, então nossa saída é 1.

### Função de Ativação

A função de ativação é extremamente importante para quando trabalhamos com mais de uma camada de perceptrons, digamos que tenhamos 5 neurônios de entrada, a sua saída será a entrada em outros dois neurônios, esses neurônios terão sua saída como sendo entrada de um único neurônio e temos finalmente o neurônio final. Podemos pensar nesse modelo que temos um camada de entrada, duas camadas internas e uma camada de saída. 

Seja $f(x)$ a função de ativação, então iremos ter que:

\begin{equation}
Y(f(x)) = f\left(\sum\limits_j w_jx_j+bias\right)
\end{equation}

Onde o bias é um elemento que permite aumentar o grau de liberdade dos ajustes dos pesos. Assim como temos diversos métodos de aprendizado de máquina, temos diversas <a hrerf=http://deeplearningbook.com.br/funcao-de-ativacao/>funções de ativação</a> possíveis que são boas para cada caso isolado.

### Backpropagation

A ideia de backpropagation surgiu na época de 1970, porém só começou a ser apreciada com o trabalho feito pelos cientistas <a href=http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf>David E. Rumelhart, Geoffrey E. Hinton & Ronald J. Williams</a>, que mostrou diversas redes neurais em que o backpropagation era mais eficiente do que a abordagem utilizada até então. Em algoritmos modernos é esse mecanismo que permite treinar modelos em horas ou dias ao invés de anos. 

### Grafo Computacional

Grafos, introduzidos por Euler em meados de 1740, é um modelo matemático que apresenta relações entre objetos. Um grafo ($G(V,E)$) apresentará uma certa quantidade de vértices ($V$, chamados de nós), ligados por conjunto de bordas ou arestas ($E$). 

Grafos computacionais irão realizar cálculos matemáticos em cada um de seus nós.

![tree-def-1024x592.png](attachment:d5482ae8-6e8f-4c92-8cf5-9c821f1fde61.png)

Grafos como esse são a principal abstração por trás de frameworks de deep learning como o <a href=https://tensorflow.org/>Tensorflow</a>. 

Em grafos aplicamos o backpropagation em dois passos:

* O passo para a frente (*forward pass*), onde nossas entradas são passadas através da rede e as previsões de saída são obtidas (também chamado de fase de propagação). Através de produtos internos nos propagamos os dados de entrada pela rede até chegarmos a camada de saída. 

* O passo para trás (*backward pass*), onde calculamos o gradiente da função de perda na camada final (ou seja, camada de previsão) da rede e utilizamos esse gradiente para aplicar recursivamente a regra da cadeia (de derivadas) para atualizar os pesos de nossa rede.



# Referência

[Deep Learning Book (01)](http://deeplearningbook.com.br/deep-learning-a-tempestade-perfeita/)

[Deep Learning Book (04)](https://www.deeplearningbook.com.br/o-neuronio-biologico-e-matematico/)

[A logical calculus of the ideas immanent in nervous activity](https://www.jmeiners.com/neural-nets-sim/papers/mcp.pdf)

[Deep Learning Book (06)](http://deeplearningbook.com.br/o-perceptron-parte-1/)

[Deep Learning Book (08)](http://deeplearningbook.com.br/funcao-de-ativacao/)

[Learning representations by back-propagation errors](http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf)

[Deep Learning Book (14)](https://www.deeplearningbook.com.br/algoritmo-backpropagation-parte1-grafos-computacionais-e-chain-rule/)