# Deep Learning

É uma subárea da inteligência artificial:

<img width=600px src="assets/deep01.png"/>

A inteligência artificial busca ensinar computadores a executar tarefas que são fáceis para os seres humanos, mas que não podem ser descritas formalmente ou são muito complexas para computadores, como reconhecimento de voz e imagens.<br/>
Se desenharmos um gráfico mostrando como os conceitos de redes neurais são construídos um sobre o outro, o gráfico é profundo, com muitas camadas. Por essa razão, nós chamamos esta abordagem de Deep Learning.

<img width=400px src="assets/deep02.png"/>

**Como funciona Deep Learning**<br/>
O processo de aprendizagem dos algoritmos de deep learning se baseia no processo de aprendizagem do nosso cérebro, principalmente na parte conhecida como córtex visual, o chamado processo da Aprendizagem Hierárquica.


<img width=600px src="assets/deep03.png"/>


**Deep Neural Networks**<br/>
A definição mais simples de Deep Learning é que ela é uma rede neural com múltiplas camadas ocultas.<br/>
O uso de várias camadas ocultas permite uma acumulação mais sofisticada de elementos simples a outros mais complexos. Pode-se considerar dois aspectos de complexidade da arquitetura de um modelo:
* Número de neurônios por camada;
* Número de camadas;	

Principais frameworks para deep learning:

<img width=800px src="assets/deep04.png"/>


**Convolutional Neural Networks**<br/>

<img width=400px src="assets/deep05.png"/>


**Recurrent Neural Networks**<br/>
A ideia por trás das RNNs é fazer uso de informações sequenciais, elas constituem uma ampla classe de redes cuja evolução do estado depende tanto da entrada corrente quanto do estado atual. Elas têm uma memória, que capturam as informações que foram calculadas até o momento.<br/>
Atualmente as RNNs são bastante utilizadas em processamento de linguagem natural. O tipo mais comumente usado de RNNs são as LSTMs (Long short-term memory), que são muito melhores na captura de dependências de longo prazo do que RNNs padrões.<br/>
A arquitetura usada em RNNs é adequada para permitir o processamento de informação sequencial (textos, áudio e vídeo).

<img width=300px src="assets/deep06.png"/>


**LSTM (Long Short-Term Memory)**<br/>
As LSTMs  consistem em um conjunto de sub redes conectadas recorrentemente. Essas sub redes, chamadas de blocos de memória, podem ser consideradas uma metáfora de chips de memória.<br/>
Cada bloco possui uma ou mais células de memória auto conectadas e três unidades de multiplicação que definem a operação que deve ser realizada, as portas de entrada, saída e de esquecimento.


<img width=300px src="assets/deep07.png"/>

**Função de ativação (Softmax)**<br/>
A função softmax serve para converter o resultado previsto pelo modelo em uma lista de probabilidades de valores.



**Stochastic Gradient Descent**<br/>
O treinamento de uma rede neural é convertido em um problema de otimização, cujo objetivo é minimizar o erro cometido pela rede, quando considerados todos os exemplos de treinamento.<br/>
A ideia do algoritmo é realizar de forma iterativa pequenas alterações no vetor de parâmetros de forma a levar o vetor na maior descida nessa superfície.

<img width=300px src="assets/deep08.png"/>

O gradiente de uma função f mede o quanto f varia uma vez que seus argumentos são alterados. Se f for uma função multivariada de n variáveis, então o gradiente negativo de f é um vetor n-dimensional cujas componentes são as derivadas parciais de f.<br/>

O problema do gradiente descendente é que além de ser computacionalmente intensivo, você precisa calcular o gradiente de cada elemento do seu conjunto de treinamento, o que pode levar muito tempo em grandes conjuntos de dados.<br/>

A solução encontrada para esse problema foi o Stochastic Gradient Descent (SGD) que é uma versão do gradiente descendente, em que trabalhamos com amostras aleatórias.<br/>

Tanto no Gradiente Descendente (DG) quanto no Stochastic Gradient Descent (SGD), você atualiza um conjunto de parâmetros de forma iterativa para minimizar uma função de erro. Porém, enquanto com DG, você precisa percorrer todas as amostras em seu conjunto de treinamento para fazer uma única atualização para um parâmetro em uma iteração particular, com SGD, por outro lado, você usa somente uma amostra de treinamento de seu conjunto de treinamento para fazer a atualização para um parâmetro em uma iteração específica.<br/>

SGD é uma aproximação de gradiente descendente e quanto mais lotes processados pela rede neural (ou seja, mais amostra aleatórias), melhor a aproximação.
A implementação do SGD compreende:
1. Amostragem aleatória de um lote de dados do conjunto de dados total.
2. Executar a rede para frente e para trás para calcular o gradiente (com dados gerados no item 1).
3. Aplicar a atualização de descida de gradiente.
4. Repetir os passos 1 a 3 até que a convergência ou o ciclo seja interrompido por outro mecanismo, ou seja, o número de épocas (epochs).

**Momentum e Learning Rate**<br/>
Os pesos da rede neural podem ser atualizados conforme os dados são processados e os erros são calculados (abordagem conhecida como online learning) ou ao final do processo (abordagem conhecida como batch learning).

<img width=300px src="assets/deep09.png"/>

O principal parâmetro que controla a atualização dos pesos é conhecido com learning rate, normalmente é atribuído valores bem pequenos para esse parâmetro, como 0.1 ou 0.01.<br/>
Dois parâmetros adicionais podem ser usados no processo de atualização dos pesos.<br/>
* **Momentum**: Incorpora as propriedades da atualização de pesos anterior e faz com que os pesos continuem sendo atualizados na mesma direção mesmo quando o erro diminui.
* **Learning rate decay**: É usado para diminuir o valor do learning rate conforme os erros diminuem.


**Regularização e Dropout**<br/>
A regularização é um método que busca melhorar a capacidade de generalização dos algoritmos de aprendizado por meio de alguma restrição durante a fase de treinamento. A regularização ajuda a evitar o overfitting e melhora a generalização do modelo.<br/>

O seu objetivo em Deep Learning é encontrar um modelo que seja grande e profundo o suficiente para representar a complexidade nos dados e que possa ser aplicado a novos conjuntos de dados, com um bom desempenho. A regularização é uma das formas usadas para se alcançar esse objetivo.<br/>

A regularização L1 e L2 basicamente penalizam os coeficientes. Mas elas possuem diferentes propriedades e são utilizadas de diferentes maneiras. A magnitude dos coeficientes é penalizada e os erros são minimizados entre os valores previstos e os valores observados.<br/>

Já o Dropout desativa os neurônios da camada associada com alguma probabilidade p. Desativar o neurônio basicamente significa mudar o valor de saída para zero.


## Keras

https://keras.io/

Keras é uma biblioteca para rede neural de alto-nível escrita em Python e roda como frontend em TensorFlow ou Theano. O bom disso é que você pode substituir uma rede neural por outra utilizando Keras. Ela foi desenvolvida para facilitar experimentações rápidas, isto é, sem que você tenha que dominar cada um dos backgrounds, de maneira rápida e eficiente.

In [None]:
!pip install theano

In [None]:
!pip install tensorflow

In [None]:
!pip install keras

In [41]:
# Importa os pacotes
import tensorflow as tf
#from keras.models import Sequential
#from keras.layers import Dense
from tensorflow.keras.optimizers import SGD
from tensorflow.keras.optimizers import Adam
from sklearn.model_selection import train_test_split
import numpy

In [2]:
# Garante a reproducividade do código
seed = 7
numpy.random.seed(seed)

In [3]:
# Carrega os dados e separa as variáveis independentes (x) e dependente (y)
dataset = numpy.loadtxt("pima-indians-diabetes.csv", delimiter = ",")
X = dataset[:,0:8]
Y = dataset[:,8]

In [4]:
# Separa os dados entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.33, random_state = seed)

Os modelos em Keras são definidos como uma sequência de camadas. Isto facilita a criação do modelo, bastando inserir uma camada por vez até que estejamos satisfeitos com a topologia da rede. 

A primeira coisa a se fazer é garantir que a camada de entrada tem o número correto de inputs. Isto pode ser especificado enquanto criando a primeira camada com o argumento ‘input_dim’,  atribuindo-lhe 8, para o variáveis de entrada. No exemplo a estrutura de rede é fully-connected com 3 camadas. Isto é, todos os neurônios se comunicam antes da saída.

Nós podemos especificar o número de neurônios na camada como primeiro argumento, o método de inicialização como segundo argmento sendo ‘init’ e especificar a função de ativação utilizando o argumento ‘activation’.

Neste caso, nós inicializamos o peso da rede para um pequeno número randômico gerado a partir de uma distribuição uniforme (‘uniform’), entre 0 e 0.05, nesse caso, porque esse é o peso padrão da distribuição uniforme no Keras. Uma alternativa tradicional seria o ‘normal’, gerando assim pequenos números randômicos a partir de uma distribuição gaussiana. Também será usada a função de ativação ‘relu’ nas primeiras duas camadas e a função sigmoide na camada de saída. O resultado deverá ser algo entre 0 e 1 com um threshold  padrão de 0.5.

Construindo o código, você pode notar que a primeira camada tem 12 neurônios e espera 8 variáveis de entrada. A segunda camada  possui 8 neurônios e finalmente a saída tem 1 neurônio fazendo a predição da classe alvo (tendência a desenvolver diabetes ou não).

In [88]:
# Cria o modelo
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(units=12, input_shape = (8,), kernel_initializer = 'glorot_uniform', activation = 'relu'))
model.add(tf.keras.layers.Dropout(0.2))
model.add(tf.keras.layers.Dense(units=6, kernel_initializer = 'glorot_uniform', activation = 'relu'))
model.add(tf.keras.layers.Dropout(0.2))
model.add(tf.keras.layers.Dense(units=1, activation = 'sigmoid', kernel_initializer = 'uniform'))

A compilação do modelo usa uma eficiente biblioteca numérica de backend, como Theano or TensorFlow. O backend automaticamente escolhe o melhor caminho para representar a rede e fazer predições.

Será necessário em algum momento especificar a função de perda para avaliar os pesos. Nesse exemplo foi definido o uso da função de perda logarítmica, definido em Keras como “binary_crossentropy”. Também é utilizado o algoritmo Stochastic Gradient Descent para otimização.

In [33]:
# Compila o modelo
model.compile(loss = 'binary_crossentropy', 
              optimizer = SGD(learning_rate = 0.01, momentum = 0.9, nesterov = True), 
              metrics = ['accuracy'])

In [34]:
# Executa o modelo e valida nos mesmos dados em que foi criado (treino)
model.fit(X, Y, epochs = 150, batch_size = 10)

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150

KeyboardInterrupt: 

Podemos utlizar outro algoritmo para otimização, como o Gradient descent adm.

In [89]:
# Compila o modelo com outro otimizador
model.compile(loss = 'binary_crossentropy', 
              optimizer = 'adam', 
              metrics = ['accuracy'])

In [76]:
# Hyperparameters
autotune = tf.data.experimental.AUTOTUNE
batch_size = 8
epochs = 100
lr = 0.1
beta1 = 0.1
beta2 = 0.1
ep = 1e-04

In [86]:
# Model compilation
model.compile(optimizer = Adam(learning_rate = lr), 
                                #beta_1 = beta1, 
                                #beta_2 = beta2, 
                                #epsilon = ep),
               loss = 'binary_crossentropy', 
               metrics=['accuracy'])

In [90]:
# Executa o modelo e valida nos mesmos dados em que foi criado (treino)
model.fit(X, Y, epochs = 150, batch_size = 10)

Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78

<keras.callbacks.History at 0x26995ab8fa0>

In [None]:
model.get_weights()

In [None]:
model.get_weights()[0].shape

In [None]:
model.summary()

O treinamento da rede neural foi feita sobre o conjunto completo de dados e a performance da rede neural pode ser avaliada no mesmo conjunto de dados, o que nos dará uma boa ideia do quão bem modelada foi a rede. Utiliza-se a função evaluate() no modelo, passando o mesmo número de inputs e outputs usados no treinamento. Isto gerará uma predição para cada entrada e saída e coletará pontuação, incluindo média de perda e qualquer métrica que tenha sido configurada, como a acurácia.

In [91]:
# Avalia os resultados do modelo
scores = model.evaluate(X, Y)
print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))

accuracy: 72.27%


In [None]:
# Executa o modelo e faz validação em um conjunto de dados separado automaticamente para teste
model.fit(X, Y, validation_split = 0.33, epochs = 150, batch_size = 10)

In [None]:
# Executa o modelo e faz validação em um conjunto de dados separado manualmente para teste
model.fit(X_train, y_train, validation_data=(X_test,y_test), epochs = 150, batch_size = 10)