# Redes Neurais

## Conceitos

Redes neurais são estruturas tecnológicas de machine learning que baseiam seu funcionamento na forma de aprendizagem dos cérebros humanos. Essas rede aprendem com a experiência para obter e melhorar performances de execução. O aprendizado humano é possível graças aos neurônios de nosso cérebro.
<br>
Os neurônios possuem a seguinte estrutura:
- canais de inputs, que são os dentritos; 
- um centro de processamento desses inputs, o corpo celular; 
- uma via de propagação de sinal elétrico, os axônios;
- canais de output, terminais do axônio.
<br>
<img src="img/neuron.png" align="center" width="50%">
<br>
O modelo mais básico de neurônio, desenvolvido por  Frank Rosenblatt, é chamado de **Perceptron**, e possível verificar que sua arquitetura é a mesma de um neurônio humano:
<br>
<img src="img/perceptron.jpg" align="center" width="50%">
<br>
- os canais de input xi, que são somados de acordo com um conjunto de pesos wi. 
- uma **função de ativação** no corpo celular (step function) e o output. 
<br>
A esse movimento dos inputs, sendo multiplicados por seus pesos e passando pela função de ativação como uma combinação linear é dado o nome de movimento **feedfoward**. O machine learning por trás de um perceptron torna-se, então, um problema de otimização dos pesos wi.

 Ler mais sobre a história das redes neurais __[nesse link](http://www.andreykurenkov.com/writing/ai/a-brief-history-of-neural-nets-and-deep-learning/)__ 
 e seu funcionamento __[nesse outro link](http://neuralnetworksanddeeplearning.com/chap1.html)__

É necessário entender como escolher os pesos wi certos para que o output seja correto. Entender como que a variação de cada peso wi afetará o output, além de  atualizar os pesos de acordo com as conclusões. Se há uma função custo, uma **loss function** definida (RMSE, MAE etc), pode-se, então, aplicar um algoritmo já bem conhecido em machine learning: o gradiente descendente! Ao movimento de volta do sinal, comparando os outputs y com as predições yhat e atualizando os pesos de cada conexão input de neurônios, recebe o nome de **backpropagation**. <br>
<img src="img/neural_net_inner_working.gif" align="right" width="50%">

Aqui pode-se ver o funcionamento de uma rede neural genérica. Repare na ordem dos acontecimentos. Um input entra e realiza o seu movimento de feedfoward. Resultados são gerados e comparados com os valores reais. Então, o sinal faz o caminho contrário na rede, atualizando os valores dos pesos num movimento de backpropagation. A cada ciclo desses, damos o nome de **epoch**.
Aina não é uma rede pois existe apenas um neurônio. Mas a ideia é adicionar mais, camadas, mais neurônios, mais funções de ativação. Só a partir dessa complexidade uma rede pode ser chamada de rede neural. O funcionamento dessa rede sempre sempre igual: definir o número de epochs, sua arquitetura e repetir o ciclo de feedfoward-backpropagation.


Uma arquitetura de redes neurais pode ser descrita como neurônios diferentes (ou seja, com estrutura e funções de ativação diferentes) realizando uma função diferente na rede. 
<br>
<img src="img/neural_net_zoo.png" align="left" width="80%">

# Conclusões

Uma rede neural pode ser descrita como um aproximado universal de mappings, ou funções, já que ela é um aproximador universal. Uma rede neural consegue naturalmente aproximar funções mesmo que não lineares, segundo o __[Teorema da Aproximação Universal](https://en.wikipedia.org/wiki/Universal_approximation_theorem)__. Pode-se conferir sua prova __[aqui](https://hackernoon.com/illustrative-proof-of-universal-approximation-theorem-5845c02822f6)__. 
<br>
Machine learning é descobrir o mapping interno de um dataset. Ao entender que redes neurais são aproximadores universais de funções, pode-se entender porque elas são tão poderosas, principalmente em casos complexos e não lineares, como visão computacional e NLP.

## Redes Neurais e seus Parâmetros

Exercício 0: entre __[nesse playground](https://playground.tensorflow.org/)__ e comece a variar os hiperparâmetros disponíveis. Experimente trocar de dataset, colocar mais neurônios, menos neurônios, mudar camadas, learning rate, tudo. Quais conclusões podemos chegar? Para ajudar vocês a entender os hiperparâmetros de uma rede neural, é bom lembrar os três princípios básicos de uma rede neural: **dados** (o que estou aprendendo), **arquitetura** (quem está aprendendo) e **otimizador** (como está aprendendo). No caso desse playground, podemos mexer nos 2 primeiros itens e um pouco no terceiro ao regular a learning rate. 
<br>
Ao construir uma rede neural, podemos escolher:
 - **Modelo**: sequencial, recorrente etc. É o tipo geral de rede que estamos criando. Por enquanto, veremos as redes sequencias (fully connected)
 - **Layers**: quantas, quais e em qual ordem de camadas teremos em nossa arquitetura. Encare isso como blocos de lego que são encaixados para a construção do modelo. Quanto mais blocos, maior a capacidade do modelo de aprender, mas também maior sua chance de overfitting. Existe uma tonelada de tipos de layers que se pode colocar em uma rede.
 - **Neurônios ou Activation Functions**: para cada camada (ou até cada neurônio), qual será sua função interna. Sigmoide, ReLU, Leaky ReLu, step etc... É importante que sua diferenciação esteja definida sempre, pois queremos que o gradiente descendente funcione. Na dúvida, use ReLU.
 - **Otimizador**: Batch Gradient Descent, SGD, Mini Batch GD, Nesterov Momentum, Adagrad, Adam, qual otimizador? Na dúvida, use Adam
 - **Regularização**: terá regularização e com qual peso. Isso ajuda a prever overfitting
 - **Dropout**: terá ou não esquecimento temporário de neurônios para mais robustez. Isso ajuda a prever overfitting.
 - **Noise**: quanto de ruído será produzido internamente na rede. Isso ajuda a torná-la mais robusta.
 - **Epochs**: quantas epochs a rede realizará. Também é possível realizar early-stopping caso a rede alcance a performance desejada
 - **Loss Function**: qual será a função custo que norteará a otimização do seu modelo
<br>
Existem mais alguns hiperparâmetros, mas por enquanto isso está suficiente. Vamos então construir nossa primeira rede neural com TF 2.0.

# Uma Rede Neural em TF 2.0

## Importando o TensorFlow

In [2]:
import tensorflow as tf
import datetime

# E checar qual versão estamos utilizando.
# Escolhemos a 2.0 pois sua sintaxe e funcionamento sem session.run() e 
# construção com base em Keras o torna muito mais intuitivo
print("Using TensorFlow version", tf.__version__)

Using TensorFlow version 2.0.0-beta1


## Importando um dataset residente do TensorFlow

In [3]:
mnist = tf.keras.datasets.mnist

**O MNIST do TF 2.0 já vem quebrado em treino e test**

In [4]:
(x_train, y_train),(x_test, y_test) = mnist.load_data()

**Normalizando os valores de cada pixel**

In [5]:
x_train, x_test = x_train / 255.0, x_test / 255.0

## Montando a rede

### Instanciando o modelo sequencial

In [6]:
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(input_shape=(28, 28)), # camada para transformar a imagem 28x28 em um vetor unidimensional
  tf.keras.layers.Dense(512, activation=tf.nn.relu), # 512 neuronios fully connected com ativação por ReLU
  tf.keras.layers.Dropout(0.2), # Dropout de 20% da última camada
  tf.keras.layers.Dense(10, activation=tf.nn.softmax) # 10 neurônios softmax, para classificação. Um para cada categoria
])

### Definindo Loss Function e Otimizador

In [7]:
model.compile(optimizer='adam', # Estamos utilizando o ADAM
              loss='sparse_categorical_crossentropy', # nossa loss function é entropia cross-categórica
              metrics=['accuracy']) # nossa métrica base será acc. Podemos utilizar mais de uma métrica

### Realizando o .fit do modelo com 5 epochs

In [8]:
model.fit(x_train, y_train, epochs=5)
model.evaluate(x_test, y_test)

W0718 11:22:00.994471  7392 deprecation.py:323] From C:\Users\Marcos\Anaconda3\lib\site-packages\tensorflow\python\ops\math_grad.py:1250: add_dispatch_support.<locals>.wrapper (from tensorflow.python.ops.array_ops) is deprecated and will be removed in a future version.
Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where


Train on 60000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.06616890939560253, 0.98]

Com poucas linhas de código, chegamos numa ótima acurácia. Repare na evolução da loss e accuracy ao longo das epochs. O que pode ser observado sobre sua variação e velocidade de variação? Qual a causa disso? <br>