# 1.1 Introdução a Redes Neurais: o que são?

## Redes Neurais são aproximadores de funções

Redes neurais podem ser vistas de maneira bastante simplificada **funções matemáticas**.

**Ideia abstrata**

```
Entradas: x ----> Computação: f ------> Saídas: f(x)
```

**Matemática**

$f(x) = x \times 2 + 3$
 

**Python**

```python
def f(x):
    return x * 2 + 3
```


Similar à funções, as redes neurais possuem entradas e saídas. As entradas são representadas por amostras dos seus dados. As saídas, por sua vez, dependem de que tarefa estamos desempenhando.


Assim, uma simples definição de redes neurais é:

> "Redes Neurais são *aproximadores de funções*"


## Redes Neurais são construídas a partir de camadas


Redes Neurais são definidas em termos de camadas. **A primeira camada representa as entradas da rede, enquanto a última camada representa as saídas**.

Todas as camadas que estão entre as camadas de entrada e saída são chamadas de **camadas escondidas** (ou *hidden layers*). Um exemplo de uma Rede Neural com 2 camadas escondidas pode ser vista na figura abaixo:

![](images/rede_neural.png)

### Sobre as camadas...


Com exceção da camada de entrada, toda camada de uma rede é composta pela seguintes propriedades:

- **número de neurônios**: na figura acima, a primeira camada escondida tem 4 neurônios, já a segunda camada escondida tem 3 neurônios, enquanto a camada de saída tem apenas 1. Cada neurônio representa um valor.

- **parâmetros**: cada neurônio recebe como entrada todos as saídas dos neurônios das camadas anteriores. Cada entrada dessa é multiplicada por um peso correspondente. **Tais pesos representam o que a Rede Neural pode ajustar para encontrar a solução do problema e são conhecidos como parâmetros**.


**A imagem acima mostra apenas uma arquitetura possível para uma rede neural.** Existem vários outros tipos de arquiteturas e outros tipos de camadas que podemos usar para construir uma rede neural. Nessa parte do curso iremos focar nessa arquitetura que se chama [MultiLayerPerceptron (MLP)](https://en.wikipedia.org/wiki/Multilayer_perceptron).

Todas essas camadas são chamadas **camadas densas**. A arquitetura MLP é caracterizada por várias camadas densas uma após a outra (várias camadas intermediárias). Apesar de na imagem acima termos escolhido mostrar apenas 2 camadas intermediárias poderíamos ter quantas quiséssemos, com quantos nós quiséssemos! O número de nós de entrada e de saída são fixos dependendo do problema que estamos tentando resolver.


### Entendendo a matemática

Vamos focar apenas na computação que envolve o segundo nó da segunda camada intermediária:

![](images/focando_rede_neural.png)


Cada peso (linha conectando os neurônios da camada anterior a esse neurônio) é um número, e cada nó também representa um número.

![](images/focando_rede_neural2.png)

Interpretamos esse número como a saída do neurônio, se a saída é um valor alto (> 0) dizemos que o neurônio **foi ativado**. Como a imagem sugere, utilizamos a saída dos neurônios anteriores para calcular a saída do próximo neurônio. Mas como? 


$$SN_j = f(\sum{(SN_i \cdot pij)} + b_j)$$

$SN_j$ = Saída do Neurônio j  
$P_ij$ = Peso que liga o neurônio i ao neurônio j  
$b_j$ = Bias de do neurônio j  


In [1]:
def funcao_de_ativacao(x):
    if x > 0:
        return x
    else:
        return 0


def liga_neuronios(saida_neuronios_da_camada_anterior, pesos_neuronio, bias, f):
    saida_neuronio = 0
    
    # Soma ponderada dos pesos com a saída
    for saida_neuronio_anterior, peso in zip(saida_neuronios_da_camada_anterior, pesos_neuronio):
        saida_neuronio += saida_neuronio_anterior * peso
    
    # Adiciona bias
    saida_neuronio += bias
    
    # Aplica função de ativação
    saida_neuronio = f(saida_neuronio)
    
    return saida_neuronio

# Exemplo da imagem
liga_neuronios([4.1, 2.9, 0.7, -0.3], [0.1, 3.7, -1.3, 4.1], 1, funcao_de_ativacao)

10.0

> Ok... então para calcular a saída de um neurônio, eu faço a soma ponderada entre os pesos e todas as saídas dos neurônios da camada anterior. Ate aí tudo bem... mas aí eu somo a isso uma coisa chamada bias e depois aplico sobre esse valor uma função de ativação?

Isso!

![](https://raw.githubusercontent.com/arnaldog12/Manual-Pratico-Deep-Learning/master/images/perceptron.png)
Imagem de: https://github.com/arnaldog12/Manual-Pratico-Deep-Learning/blob/master/Perceptron.ipynb


> OBS: Se isolarmos um nó da rede neural temos o que é chamado **perceptron**.


### Função de Ativação

Como o próprio nome indica é uma função matemática. Por enquanto não vamos nos preocupar muito com ela, iremos ver mais sobre funções de ativação na seção 1.5.

Por enquanto só vou dizer 2 coisas: 

   * A função de ativação que utilizamos no código anterior se chama ReLU, é uma das mais utilizadas e é comumente utilizada entre as camadas intermediárias. Na camada final geralmente não utilizamos função de ativação ou utilizamos alguma outra função (não relu).
    
    
   * Como experado de uma função, uma função de ativação transforma uma entrada em alguma outra coisa que obtemos como saída. No caso das funções de ativação é bastante interessante que ela não seja uma reta, por exemplo na imagem abaixo temos com a ReLU se comporta, ta vendo que ela é tipo um cotovelo dobrado no zero? Esse cotovelo faz com que a reta que define essa função não seja uma linha reta, e é isso que queremos na função de ativação, não precisa ser um cotovelo, poderia ser uma barraguinha, mas precisamos de curvas!
    
![](https://cdn-images-1.medium.com/max/937/1*oePAhrm74RNnNEolprmTaQ.png) ![](https://www.bepantol.com.br/static/media/images/sobrePele-Produtos/cotovelo-ressecado.jpg)


### Bias

O bias é um termo independente da entrada que existe para nos dar mobilidade!

Por exemplo, considere a seguinte função:

y = 2 * x

Essa função tem uma mobilidade limitada, ela passa pela origem (se x = 0, y = 0) e não podemos mudar isso :(. Porém se essa função fosse:

y = 2 * x + bias

Ao modificar o bias, podemos fazer com que a função vá mais para esquerda ou direita, não mais sendo forçada a passar pela origem.

Na nossa rede o bias faz um papel similar! Nos dando liberdade para mover a função que estamos aprendendo, lembra que redes neurais são aproximadores de função? Pois é, literalmente!

[Mais informações sobre bias (em inglês) nesse link](https://stackoverflow.com/questions/2480650/role-of-bias-in-neural-networks).


**Importante**

Nos diagramas que mostramos, o bias não era mostrado, por que? Geralmente pra deixar a visualização mais bonitinha não mostramos o biax, abaixo segue nossa rede reural com o bias no diagrama:

![](images/bias_rede_neural.png) 

O bias é um nó na rede como qualquer outro, porém ele não se conecta aos nós da camada anterior, podemos pensar que seu valor é fixo e igual a 1.

>*“Se hoje é o Dia da rede neural, ontem eu disse que rede neural... o dia da rede neural é dia da camada, do peso e das funções de ativação, mas também é o dia dos bias. Sempre que você olha uma camada densa, há sempre uma figura oculta, que é um bias atrás, o que é algo muito importante.”* - Marianne Monteiro.


## Jutando os pedaços e codando uma Rede Neural

Vamos codar a seguinte rede neural:

![](images/codando_rede_neural.png)

Nomeamos os neurônios pra ficar mais simples de identificá-los no código.

    * ni_cj = i-ésimo neuronio da j-ésima camada


> Os valores escolhidos são arbitrários e a saída não significa nada.

In [3]:
# ------- Camada de entrada -------
# Definimos esse valor! Na prática irá vir de uma base de dados.
entrada = -3

# ------- Primeira camada ---------
n1_c1 = liga_neuronios([entrada], [-4.3], 1, funcao_de_ativacao)
n2_c1 = liga_neuronios([entrada], [-1.3], 2.2, funcao_de_ativacao)

# ------- Segunda camada ---------
n1_c2 = liga_neuronios([n1_c1, n2_c1], [0.2, 3.3], 2.7, funcao_de_ativacao)

# ------- Camada de saída --------

# Na última camada não usamos ReLU, lembra? Podemos simplesmente não usar
# função de entrada, para tal é só usar uma função que não faz nada (função identidade)
# essa função é também denominada como linear nos frameworks de DL.
def faz_nada(x):
    return x

saida = liga_neuronios([n1_c2], [4.1], -10, faz_nada)

print(saida)

95.00099999999999


A grande sacada é das redes neurais é a definição de camadas e como elas se comunicam. Uma rede neural consiste basicamente da mesma computação baseada em camadas onde a entrada de uma camada é a camada imediamente anterior a ela.


Ou seja: uma camada aprende a partir das camadas anteriores! 


Isso permite que a rede neural busque modificar os pesos de uma camada de maneira a gerar representações melhores para que a próxima camada tenha acesso a informações mais relevantes pra resolver o problema!

### Deixando o código eficiente, bonito e cheiroso

Como a boa programadora que você é, deve ter notado que o código anterior é bastante ineficiente!!! 

**PERGUNTA: mais espeficamente para cada nó em uma rede neural quantas operações são necessárias para calcular sua saída?**

Pense a respeito, a resposta segue abaixo...



Para calcular a saída desse nó precisamos cacular a soma ponderada de todos os nós da camada anterior, digamos que a camada anterior tem N nós.

Então precisaríamos de O(N) operações para calcular a saída de um único nó nessa camada.

Então por exemplo se tivermos 1 camada de entrada com 100 nós e 2 camadas intermediárias com 200 nós cada, precisaríamos realizaríamos o seguinte número de operações em cada camada:

* camada intermediária 1: 100 * 200 (100 entradas para cada nó, 200 nós) = 20000
* camada intermediária 2: 200 * 200 (200 entradas para cada nó, 200 nós) = 40000

Totalizando: 60000 operações para calcular todas as saídas.

Isso é péssimo :((! Queremos várias camadas na nossa rede, não podemos ser tão lentos :((

Felizmente temos uma solução para deixar esse cálculo mais eficiente!!!

![](https://cdn-images-1.medium.com/freeze/max/1000/1*W8c9Eg-rJgLVhPmx4TD3Rw.jpeg?q=20)

A ideia é que não sabemos qual o melhor `f` possível, e poderíamos tentar várias funções para se **ajustar** aos dados. Para isso modificamos os pesos.


> ⚠️ **Cuidado: não confunda parâmetro com hiperparâmetros!** Parâmetros são o que a sua rede usa para aprender (pesos e bias), enquanto hiperparâmetros são o que você define acerca da sua rede (número de camadas, qtde. de neurônios por camada, função de ativação de cada camada, etc...)

## Em busca da função perfeita


### Exemplo: [base dados Iris](https://mari-linhares.github.io/codando-deep-learning/notebooks/glossario.html#iris)

Digamos que para um exemplo da base de dados queremos determinar qual a espécie dessa planta.

**Entradas**

A base de dados iris tem 4 **[atributos](https://mari-linhares.github.io/codando-deep-learning/notebooks/glossario.html#atributos)** de uma planta que iremos usar como entrada.

**Saídas**

Neste caso a saída que nos interessa é a espécie da planta. Então digamos que a saída é um número que indica qual a espécie:

0 = Iris Setosa , 1 = Iris Versicolour, 2 = Iris Virginica

### Obtendo a base de dados

In [7]:
# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

# Trabalhar com os dados
from sklearn.datasets import fetch_mldata

# Atributos: iris_dataset.data
# Espécie: iris_dataset.target
iris_dataset = fetch_mldata('iris')

print('Numero de exemplos na base:', len(iris_dataset.data))
print('Atributos da primeira planta:', iris_dataset.data[0])
print('Especie da primeira planta:', iris_dataset.target[0])

Numero de exemplos na base: 150
Atributos da primeira planta: [-0.555556  0.25     -0.864407 -0.916667]
Especie da primeira planta: 1




### Vamos codar uma função que resolve esse problema!

Uma função para resolver esse problema precisa receber 4 parâmetros (cada um dos atributos da planta) e produzir uma saída (espécie da planta).


In [8]:
def f(x1, x2, x3, x4):
    # Não importa os atributos pra mim a resposta é sempre: Setosa!!!!
    return 0

print(f(*iris_dataset.data[0]), iris_dataset.target[0])
print(f(*iris_dataset.data[1]), iris_dataset.target[1])
print(f(*iris_dataset.data[-1]), iris_dataset.target[-1])

0 1
0 1
0 3


A função acima é válida para este problema (4 entradas, 1 saída), o problema dela é que... Ela não ta ajudando a gente no nosso problema em nada! Ela simplesmente ignora os atributos e nos diz que qualquer exemplo é da espécie Setosa.

Como podemos avaliar o quão boa é essa função? Uma métrica possível é [acurácia](https://mari-linhares.github.io/codando-deep-learning/notebooks/glossario.html#acuracia)


Por exemplo: dado um banco com a altura de determinadas pessoas (entrada), queremos estimar o "peso" dessas pessoas. Nesse caso, o "peso" das pessoas é a variável que queremos estimar. Portanto, o "peso" nesse caso representaria a nossa saída. Sempre que a nossa saída é conhecida, nós dizemos que esse tipo de problema é um problema de **Aprendizagem Supervisionada**.Há casos em que não necessariamente o nosso problema tem uma saída explícita. Nesse caso, teremos uma **Aprendizagem Não-Supervisionada**.

Além disso, quando a **saída assume qualquer valor real** (0, 1.2, 3.14, -26, +34, ...), nós dizemos que temos um **Problema de Regressão**. Por outro lado, quando a **saída é discreta** (0/1, saudável/doente, cachorro/gato/passarinho), nós temos **Problemas de Classificação**.



A grande sacada é o que acontece dentro de `f`! A ideia é que não sabemos qual o melhor `f` possível, e poderíamos tentar várias funções para se **ajustar** aos dados.

Em geral, elas são matrizes $NxD$, onde $N$ (#linhas) **representa o número de amostras** que seu banco de dados tem e $D$ (#colunas) **representa a quantidade de atributos** de cada amostra, também conhecida por *dimensionalidade*. Como exemplo, imagine que tenhamos um banco de dados com 1.000 amostras e cada amostra tem 5 atributos. Logo, nossas entradas seriam representadas por uma matriz $1000x5$, sacou? 



As entradas são representadas pelas amostras dos seus dados. Em geral, elas são matrizes $NxD$, onde $N$ (#linhas) **representa o número de amostras** que seu banco de dados tem e $D$ (#colunas) **representa a quantidade de atributos** de cada amostra, também conhecida por *dimensionalidade*. Como exemplo, imagine que tenhamos um banco de dados com 1.000 amostras e cada amostra tem 5 atributos. Logo, nossas entradas seriam representadas por uma matriz $1000x5$, sacou? 

**As saídas, por sua vez, representam o que você quer que a sua rede aprenda**. Por exemplo: dado um banco com a altura de determinadas pessoas (entrada), queremos estimar o "peso" dessas pessoas. Nesse caso, o "peso" das pessoas é a variável que queremos estimar. Portanto, o "peso" nesse caso representaria a nossa saída. Sempre que a nossa saída é conhecida, nós dizemos que esse tipo de problema é um problema de **Aprendizagem Supervisionada**. Há casos em que não necessariamente o nosso problema tem uma saída explícita. Nesse caso, teremos uma **Aprendizagem Não-Supervisionada**. Além disso, quando a **saída assume qualquer valor real** (0, 1.2, 3.14, -26, +34, ...), nós dizemos que temos um **Problema de Regressão**. Por outro lado, quando a **saída é discreta** (0/1, homem/mulher, cachorro/gato/passarinho), nós temos **Problemas de Classificação**.

In [9]:
class MyFirstNeuralNetwork(object):

    def __init__(self, weights=0.5):
        self._weights = weights
    
    def function(self, _input):
        return self._activation_function(_input * self._weights)
    
    def _activation_function(self, data):
        return data

In [10]:
nn = MyFirstNeuralNetwork()

## Referências

Este conteúdo é baseado nos seguintes materiais:

- [Capítulo 3](https://github.com/iamtrask/Grokking-Deep-Learning) de Grokking Deep Learning.
- [Perceptron](https://en.wikipedia.org/wiki/Perceptron) da Wikipedia
- [Frank Rosenblatt](https://en.wikipedia.org/wiki/Frank_Rosenblatt) da Wikipedia
- [Geoffrey Hinton](https://en.wikipedia.org/wiki/Geoffrey_Hinton) da Wikipedia
- [Backpropagation](https://en.wikipedia.org/wiki/Backpropagation) da Wikipedia