# Neural Networks <img src="reports/icon_rna.svg"  align="center" height=auto width=10%/>
_Multilayer perceptron (MLP)_

## Summary
  - [Neural Networks Definition](#neural-networks-definition)
   - [Modeling](#modeling)
   - [Mathematical](#mathematical)
   - [Space Probability](#space-probability)
   - [Adding Weights to Models](#adding-weights-to-models)
  - [Deep Learning Definition](#deep-learning-definition)
  - [Advantages](#advantages)
  - [Disadvantages](#disadvantages)
  - [Machine Learnig X Deep Learning](#machine-learnig-X-deep-learning)
  - [Creating Neural Networks](#)
    - [Adding Weights to Models](#)
  - [Math](#math)
  - [Architecture](#architecture)
    - [Representation of a Linear Model in a Neural Network](#representation-of-a-linear-model-in-a-neural-network)
  - [Deep Architectures](#deep-architectures)
  - [Activate Function](#activate-function)
  - [Mathematic Model](#mathematic-model) 
  - [Deep Learning Frameworks](#deep-learning-frameworks) 

---

In [1]:
# Imports
import keras
import tensorflow as tf

from datetime import datetime

ModuleNotFoundError: No module named 'keras'

## **Neural Networks Definition**
Neural network são uma sequência de modelos lineares e funções de ativação.

### Modeling
Dado 2 modelos lineares

<img src="reports/two_models.png"  align="center" height=auto width=20%/>

É possível conecta-los e criar modelos não lineares

<img src="reports/2perceptrons.png"  align="center" height=auto width=75%/>
<br/>

### Mathematical
A fórmula básica do modelo fica como:

$$\hat{^y} = \sigma(w_1 x_1)\ * \sigma(w_2 x_2) \ $$

O que acontece matematicamente é um **achatamento (flatten) da matriz de dados da layer anterior** para alimentar a layer seguinte.
<br/>

#### Space Probability
Um modelo linear cria um espaço de probabilidade, onde cada ponto retorna um valor probabilístico de ser azul ou vermelho.

<img src="reports/add_perceptrons.png"  align="center" height=auto width=70%/>

A soma das probabilidades de cada ponto dá > 1, mas por ser um espaço amostral, o retorno precisa estar entre 0 e 1. Para isso é utilizado um função de ativação.

<img src="reports/perceptrons_sigmoid.png" align="center" height=auto width=90%/>
<br/>

#### Adding Weights to Models
É através dos pesos (**w**) do modelo que uma neural network pode ser enviezada.

<img src="reports/combining_perceptrons_sigmoind.png" align="center" height=auto width=80%/>

<br/>

## **Deep Learning Definition**

Deep Learning é um método de aprendizado estatístico que extrai features de dados brutos e constrói representações dos dados automaticamente.

### **Universal Approximation Theorem**
Deep learning pode ser definido como uma técnica que segue o teorema de **Universal Approximation**. Este teorema afirma que:

#### **Com uma única layer hidden tendo neurônios finitos, é possível aproximar qualquer função contínua.**

### Proof
Para demonstrar a prova, abaixo há um função de grau n onde não sabemos qual é a equação.

<img src="reports/proof-1.png" align="center" height=auto width=50%/>

Para resolver esse problema, dividirei essa função em várias partes menores para que cada parte seja representada por uma função mais simples.

<img src="reports/proof-2.png" align="center" height=auto width=50%/>

O ponto-chave a ser observado nesse caso é que não preciso me preocupar em apresentar equações complexas para representar a relação entre entrada e saída. Posso apenas criar uma função simples e usar a combinação dessas funções para aproximar o relacionamento do meu verdadeiro relacionamento. Quanto mais funções eu escolher neste método, melhor será a minha aproximação.

<img src="reports/proof-3.png" align="center" height=auto width=50%/>

<br/>

## **Visualize Perceptrons by Layer**
No exemplo abaixo será modelado a função `y = x*sin(x)` usando uma neural network.
Assuma que a neural network está usando funções de ativação ReLU.

### One Perceptron
Uma neural network com uma única layer hidden dá **apenas um grau de liberdade** para brincar. Portanto, acabamos com uma aproximação muito ruim da função.

<img src="reports/one_node.png" align="center" height=auto width=50%/>

### Two Perceptron

<img src="reports/two_node.png" align="center" height=auto width=50%/>

### Three Perceptrons

<img src="reports/three_node.png" align="center" height=auto width=50%/>

### N Perceptrons

<img src="reports/n_nodes.png" align="center" height=auto width=50%/>

<br/>

## **Machine Learning X Deep Learning**
A imagem abaixo compara os tipos de resolução de problemas.

<img src="reports/ml_classic_deep.png" align="center" height=auto width=60%/>

### Data Size
Os métodos de machine learning fazem muito mais sentido com pequenos datasets. Por exemplo, se você tiver apenas 100 pontos de dados, árvores de decisão, vizinhos mais próximos k e outros modelos de aprendizado de máquina serão muito mais valiosos para você do que ajustar uma neural network profunda nos dados.

<img src="reports/Effect-of-training-data-size-on-deep-learning-performance.ppm" align="center" height=auto width=50%/>


### Feature Extractition
O processo de feature importance é algo que demanda conhecimento sobre o domínio do problema. Já na etapa seguinte, de feature extraction, leva em conta as features com mais influência no resultado.

<img src="reports/feature_extractition.png" align="center" height=auto width=80%/>

Deep Learning faz o processo de feature extraction


### Interpretability 
Modelos baseados em neural networks são os que apresentam a maior accuracy. Porém, apresentam alta complexidade o que torna difícil de intepretar os resultado (black box).

<img src="reports/model_interpretability.png" align="center" height=auto width=60%/>


## **Advantages**
- As neural networks artificiais (RNAs) são utilizadas para aprender sobre features representativas de modo automatizado.
- Elas são extremamente simples, uma vez que tenhamos entendido os modelos lineares.
- São bastante intuitivas, pois permitem a interpretação de aprendizado de níveis de abstrações hierárquicos.
- São muito flexíveis, o que as torna ideais para resolver os mais diversos tipos de problemas.
- São absurdamente efetivas quanto a qualidade dos resultados.
- Com um conjunto grande de neurônios, é possível produzir funções contínuas de complexidade arbitrária.

## **Disadvantages**
- Modelos gigantescos, consumindo recurso computacional.
- treinar uma RNA é extremamente difícil, dado o formato não convexo da função custo. 
- Fácil de ter overfit
- Só vale a pena para muitos dados > 100.000

<br/>

## **Types of layer**
Neural network possuem uma arquitetura em layers que são:
- input
- hidden
- output

<img src="reports/layer.png" align="center" height=auto width=60%/>

Quando conectamos essas duas redes, obtemos uma rede com maior flexibilidade devido ao aumento do número de graus de liberdade.

As layers podem ser:
- densas (totalmente conectadas)
- covulacionais: `Conv1D`, `Conv2D` e `Conv3D`



### Dense Layer
- **É quando todas as layers de inputs são conectadas em todos as layers de outputs**. 
- É a arquitetura mais simples em deep learning
- Se a layer de input possuir mais de um perceptron os dados precisam ser achatados (flatten).
- Em cada conexão há um peso (**w**)
- Um problema de layer densas é que o consumo de memória é linear 

<img src="reports/dense_layer_pa3.png" align="center" height=auto width=50%/>

#### In Keras

In [2]:
keras.layers.Dense(100)

NameError: name 'keras' is not defined

#### In TensorFlow

In [3]:
tf.keras.layers.Dense(100)

NameError: name 'tf' is not defined

**units:** integer, dimensionalidade de saída,

### Covulational Layer
Usa filtros de avaliação dos pesos 

<img src="reports/convolution-layer-a.gif" align="center" height=auto width=40%/>

### Logits
- Logits é o logaritmo das probabilidades
- o termo layer de logits é usado para a última layer de perceptrons de uma neural network para tarefas de classificação que produz valores de previsão.
- Exemplo de logits: softmax

### Simple Layers
São layers que podem ser inseridas nas neural networks mas não são perceptrons completos.
- Activation
- Dropout
- Regularization
- Flatten
- Embedding

#### Flatten
<img src="reports/flatten.png" align="center" height=auto width=80%/>

<br/>

## **Neural Networks Architectures**

<img src="reports/linear_perceptrons.png" align="center" height=auto width=50%/>

O **bias pode ser representado como um nodo da rede** ou sendo como o valor resultante de nodos.

<img src="reports/join_models.png" align="center" height=auto width=70%/>

Junção de nodos e adição do nodo de ativação

<img src="reports/neural_network.png" align="center" height=auto width=40%/>

<br/>

## **Deep Neural Networks Architectures**
A partir do momento que se tem muitas hidden layers já é um deep neural network

<br/>
<img src="reports/simple_x_deep.png" align="center" height=auto width=80%/>
<br/>

#### Example
<img src="reports/deep_nw.png" align="center" height=auto width=50%/>

**+**

<img src="reports/multilayer.png" align="center" height=auto width=50%/>

**+**
...

**=**

$$\hat{^y} = \sigma(w_1 x_1)\ * \sigma(w_2 x_2) \ *...* \sigma(w_n x_n) \ + bias $$


<img src="reports/deep_neural_networks.png" align="center" height=auto width=70%/>


<br/>

### Good Pratices
**É uma boa prática usar várias layers hiddens, bem como vários nós nas layers hiddens, pois elas parecem resultar no melhor desempenho.**

<img src="reports/goodfellow.png" align="center" height=auto width=50%/>

Foi demonstrado por Ian Goodfellow (o criador da rede contraditória generativa) que aumentar o número de layers de neural networks tende a melhorar a precisão geral do conjunto de testes.

https://playground.tensorflow.org/?hl=pt_br#activation=tanh&batchSize=10&dataset=xor&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=6,2&seed=0.76476&showTestData=false&discretize=true&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false

<br/>

## **Mathematic Model**

**Neural networks são aninhamentos sucessivos de diversas transformações lineares seguidas por alguma função de ativação**, que é aplicada elemento a elemento da matriz de entrada.

Hypothesis
\begin{align*}
H(x) = Wx + b
\end{align*}

Cost function
\begin{align*}
cost(W,b) = \frac{1}{m} \sum_{i=1}^m (H(x_i) - y_i)^ 2
\end{align*}

Gradient descent
\begin{align*}
W_new = W - \alpha {\frac{1}{m} \sum_{i=1}^m ((W * x_{i}) - y_{i}) * x_i}
\end{align*}

<img src="reports/matriz_neural_network.png" align="center" height=auto width=50%/>

- a matriz **W** é a layer hidden da neural network e cada coluna dessa matriz é um neurônio
- o vetor **w** é o bias
- **x** layer de input
- **y** layer de output

#### Resume Formulas

<img src="reports/resume_formula.png" align="center" height=auto width=50%/>

<img src="reports/chain_rule.png" align="center" height=auto width=70%/>

<br/>

## **Neural Networks Steps** 

<img src="reports/ppipeline_neraul_netowork.png" align="rightr" height=auto width=90%/>

<br/>

## **Deep Learning Frameworks**

<img src="reports/frameworks.png"  align="center" height=auto width=90%/>

- Tutorias das documentações de:
  - tensorFlow
  - pytorch

In [3]:
tf.__version__

'2.0.0-dev20191002'

- Binary Class https://kunicom.blogspot.com/2017/06/09-binary-classification.html

## Implementation <img src="reports/keras-logo-small.jpg" align="center" height=auto width=10%/>

### Visualize Architecture


In [18]:
%%bash
pip3 uninstall tensorboard -y
pip3 install --force-reinstall tf-nightly-2.0-preview

Collecting tf-nightly-2.0-preview
  Using cached https://files.pythonhosted.org/packages/b8/be/e4e2cc0b4896648fe6d5e45dda6d8c3b784823301708cfe4ff96de9e01cf/tf_nightly_2.0_preview-2.0.0.dev20191002-cp36-cp36m-manylinux2010_x86_64.whl
Collecting astor>=0.6.0
  Using cached https://files.pythonhosted.org/packages/d1/4f/950dfae467b384fc96bc6469de25d832534f6b4441033c39f914efd13418/astor-0.8.0-py2.py3-none-any.whl
Collecting tb-nightly<2.2.0a0,>=2.1.0a0
  Downloading https://files.pythonhosted.org/packages/48/6b/b9e735120c77721570aed36cec55390827db0d580b14a5ffd93a4cce5997/tb_nightly-2.1.0a20191206-py3-none-any.whl (3.8MB)
Collecting numpy<2.0,>=1.16.0
  Using cached https://files.pythonhosted.org/packages/d2/ab/43e678759326f728de861edbef34b8e2ad1b1490505f20e0d1f0716c3bf4/numpy-1.17.4-cp36-cp36m-manylinux1_x86_64.whl
Collecting tensorflow-estimator-2.0-preview
  Using cached https://files.pythonhosted.org/packages/db/f5/790508e193121ab301cb40cada7f451c531404051ac9249f21b1f5484450/tensorflow_e

ERROR: tensorflow 2.0.0 requires tensorboard<2.1.0,>=2.0.0, which is not installed.


In [20]:
# Load the TensorBoard notebook extension.
%load_ext tensorboard

# Clear any logs from previous runs
!rm -rf ./logs/ 

!python3 -m pip list | grep tb
# tb-nightly           1.15.0a20190806

The tensorboard extension is already loaded. To reload it, use:
  %reload_ext tensorboard
tb-nightly                        2.1.0a20191206   


In [21]:
# Define the model.
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(32, activation='relu'),
    keras.layers.Dropout(0.2),
    keras.layers.Dense(10, activation='softmax')
])

model.compile(
    optimizer='adam',
    loss='sparse_categorical_crossentropy',
    metrics=['accuracy'])

(train_images, train_labels), _ = keras.datasets.fashion_mnist.load_data()
train_images = train_images / 255.0

# Define the Keras TensorBoard callback.
logdir="logs/fit/" + datetime.now().strftime("%Y%m%d-%H%M%S")
tensorboard_callback = keras.callbacks.TensorBoard(log_dir=logdir)

# Train the model.
model.fit(
    train_images,
    train_labels, 
    batch_size=64,
    epochs=1, 
    callbacks=[tensorboard_callback])

Epoch 1/1


<keras.callbacks.callbacks.History at 0x7ff95c666fd0>

In [22]:
%tensorboard --logdir logs

In [4]:
# !pip3 install keras
# !pip3 install pydot
# !pip3 install pydotplus
# !pip3 install graphviz
# !sudo apt install graphviz -y

Para criar neural network no Keras é necessário seguir estes passos:

<img src="reports/keras_processing.png" align="center" height=auto width=20%/>   

In [11]:
import keras
import pydot
import pydotplus
import numpy as np
import matplotlib.pyplot as plt

from keras.layers import Layer

from keras.utils import plot_model
from keras.utils.vis_utils import model_to_dot

from keras.models import Sequential
from keras.layers.core import Dense, Activation


# X tem formato (num_rows, num_cols), onde os dados de treinamento são armazenados
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=np.float32)

# y deve conter um vetor de saída para cada vetor de entrada
y = np.array([[0], [0], [0], [1]], dtype=np.float32)

print(X.shape)
print(y.shape)

(4, 2)
(4, 1)


Using TensorFlow backend.


### Creating Model

In [6]:
# sequential model
model = Sequential()
model

<keras.engine.sequential.Sequential at 0x7f90445d6390>

### Construct Neural Network Architecture
O keras exige que seja especificado na primeira layer o formato dos tensores.

#### **Input Layer**
Uma layer de entrada de 32 nodos

In [10]:
input_layer = Dense(units=32, input_dim=X.shape[1])

model.add(input_layer)

#### Hidden Layers

In [None]:
model.add(Activation('relu'))

model.add(Dense(1))

#### **Output Layer**

In [None]:
output_layer = Activation('sigmoid')

model.add(output_layer)

### Save Model

Quando invocado a função `model.save()` é salvado as seguintes informações:
- arquitetura da neural network
- weights
- configuração do treinamento

In [None]:
keras_model_path = "/tmp/predict_student_admissions.pkl"
model.save(keras_model_path)

#### Loss Function and Optimizer
- O modelo precisa de uma função loss e um otimizador (optimizer) para treinamento.
- Quando tivermos construído nosso modelo, temos que compilá-lo antes que seja executado. Compilar um modelo do Keras chama o backend (tensorflow, theano, etc.)

`compile()` tem 3 argumentos:

* `optimizer`: This object specifies the training procedure.
* `loss`: The function to minimize during optimization. 
* `metrics`: Used to monitor training. 

In [None]:
model.compile(optimizer='sgd',
              loss='mse',
              metrics=['accuracy'])

### Best Practices

- Gerar um `summary()`
- Gerar um `plt_model()`

In [None]:
layer.input

In [None]:
layer.input_shape

In [None]:
layer.output

In [None]:
layer.output_shape

In [None]:
model.get_config()

In [None]:
model.summary()

In [None]:
# keras.utils.vis_utils.pydot = pydot
# plot_model(model, to_file='reports/model.png', show_shapes=True)

#### Trainning

`fit()` precisa de 3 argumentos:

* `epochs`: Training is structured into *epochs*. 
* `batch_size`: When passed NumPy data, the model slices the data into **smaller batches**
* `validation_data`: When prototyping a model, you want to easily monitor its
  performance on some validation data. 

In [None]:
history = model.fit(X, y, epochs=10, verbose=1)

#### Visualization Trainning

In [None]:
# list all data in history
print(history.history.keys())

In [None]:
# summarize history for accuracy
plt.plot(history.history['acc'])
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

# summarize history for loss
plt.plot(history.history['loss'])
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()

#### Evaluation

In [None]:
accuracy = model.evaluate(X, y, verbose=1)
print(accuracy)

#### Refereces

- [1] https://matheusfacure.github.io/2017/03/05/ann-intro/
- [2] https://youtu.be/Boy3zHVrWB4
- [3] https://www.youtube.com/watch?v=DGNbd2FGw2s
- [4] https://matheusfacure.github.io/2017/07/12/activ-func/
- [5] https://towardsdatascience.com/comprehensive-introduction-to-neural-network-architecture-c08c6d8e5d98
- [6] https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-deep-learning-tips-and-tricks
- [7] https://medium.com/themlblog/getting-started-with-tensorflow-constants-variables-placeholders-and-sessions-80900727b489
- [8] https://en.wikipedia.org/wiki/Universal_approximation_theorem
- [9] https://www.iangoodfellow.com/slides/learn_ai_with_the_best.pdf

---