<a href="https://colab.research.google.com/github/vicotrbb/machine_learning/blob/master/neural_networks/Neural_networks.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Neural networks


### Referencias

* https://matheusfacure.github.io/2017/07/12/activ-func/#sig
* https://iamtrask.github.io/2015/07/12/basic-python-network/
* https://en.wikipedia.org/wiki/Sigmoid_function#Applications
* https://nextjournal.com/gkoehler/machine-translation-seq2seq-cpu

## Oque é uma rede neural

Redes neurais são um sistema de computação inspiradas por redes neurais biologicas que formam o cerebro de seres vivos. Estes sistemas são capazes de "aprender" a efetuar tarefas, geralmente sem a necessidade de programar as rotinas das tarefas previamente.

Um rede neural é composta por 3 tipos de camadas:

* **Camada de entrada** -> A camada de entrada é responsavel por realizar o input de informações;

* **Camada oculta** -> É a camada intermediaria entre a de entrada e de saída e é responsavel por performar toda a computação(pode haver mais de uma);

* **Camada de saída** -> A camada de saída é responsavel por realizar o output da informação.

<img src='https://miro.medium.com/max/500/1*3fA77_mLNiJTSgZFhYnU0Q.png'>


## Principais aplicações de uma rede neural

TO-DO

# Funções de ativação

As funções de ativação tem a responsabilidade de introduzir valores não lineares ao modelo de uma rede neural, habilitando a rede a trabalhar com valores desconhecidos, além das relações lineares entre as variaveis dependentes e independentes.

Para um exemplo prático, vejamos o seguinte modelo de uma rede neural de duas camadas(os vieses foram omitidos):

>$ y = \phi(\phi(\pmb{X}\pmb{W_1})\pmb{W_2})\pmb{w} $

Onde:
* $\pmb{X}$ = Matriz de dados
* $\pmb{W_1}$ = Pesos das camadas oculta
* $\pmb{w}$ = Pesos da camada de saida
* $\phi$ = função de ativação/função não linear

Note que caso nós retiremos as funções não lineares do modelo, temos o seguinte resultado:

>$ y = \pmb{X}\pmb{W_1}\pmb{W_2}\pmb{w} $

Note que se levarmos em consideração que $ \pmb{W_1}\pmb{W_2}\pmb{w} $ é $\pmb{u}$, teremos o seguinte resultado:

>$ y = \pmb{X}\pmb{u} $

Este resultado é exatamente um regressão linear, de forma que essa rede neural sem a função de ativação/função não linear, estára sujeita as mesmas restrições dos modelos lineares.


# Principais tipos de funções de ativação

<img src=https://mlfromscratch.com/content/images/2019/12/activation-functions.gif>

## Função sigmoide
---
A **função sigmoide** é uma função usada amplamente na matemárica ecomica e computacional, é chamada dessa forma por sua caracteristica grafica em forma de "S", chamada de curva de sigmoide. A função sigmoide é utilizada para a criação e transformação de componentes matematicos não lineares.

<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/1280px-Logistic-curve.svg.png width="500">


### Definição da função sigmoide

>$ \sigma(x)=\frac{1}{1+e^x} $

>onde: $ e = 2.718 $, constante de euler

Sua derivada:

> $ \sigma'(x)=\sigma(x)(1-\sigma(x)) $

No caso do primeiro algoritmo de exemplo, a função sigmoide está sendo utilizada para converter os valores em probabilidades. 


## E como fica o código de uma função sigmoide?

No código utilizamos o método numpy.exp, este método realiza uma exponenciação da constante de Euler pelo parametro passado pelo método

* $ euler = 2.718 $

In [None]:
import numpy as np

def sigmoid(x):
  return 1 / (1 + np.exp(-x))

In [None]:
mmatrix = np.array([[1,2,3],[4,0,6]])
print('Valor da matriz [[1,2,3],[4,0,6] ao passar por uma função de ativação ReLu: \n', sigmoid(mmatrix))

Valor da matriz [[1,2,3],[4,0,6] ao passar por uma função de ativação ReLu: 
 [[0.73105858 0.88079708 0.95257413]
 [0.98201379 0.5        0.99752738]]


## ReLu 
---
A ativação linear retificada é extremamente semelhante a função identidade, sendo diferente apenas que a ReLu produz zero em metade de seu dominio e como consequencia, as derivadas se mantêm grandes enquanto a unidade estiver ativa.

<img src=https://matheusfacure.github.io/img/tutorial/activations/RELU.png width="500">

A definição da função ReLu é a seguinte:

> $ ReLU(x) = max(0,x) $

E sua derivada:

> $ ReLU'(x)= \begin{cases}
    	1, & \text{se } x\ge 0\\
    	0, & \text{se } x\leq 0
	    \end{cases} $

Note que as derivadas não são apenas grandes, mas também estáveis, sendo 1, quando $ x>0 $ e 0 quando $ x<0 $. Note tambem que a segunda derivada é zero em todo o domínio.

A ativação ReLu é muito mais eficiente que a ativação sigmoidal por exemplo, contribuindo para popular ainda mais o deep learning e mostrando como algo simples pode ser poderoso.


## E como fica o código de uma função ReLu?

In [None]:
import numpy as np

def relu(x):
  return np.maximum(0,x)

In [None]:
mmatrix = np.array([[1,2,3],[4,0,6]])
print('Valor da matriz [[1,2,3],[4,0,6] ao passar por uma função de ativação ReLu: \n', relu(mmatrix))

Valor da matriz [[1,2,3],[4,0,6] ao passar por uma função de ativação ReLu: 
 [[1 2 3]
 [4 0 6]]


## Softmax
---
A função softmax é utilizada para modelos de predição de multiplas classes principalmente. A função produz saidas entre 0 e 1, sendo que a soma das saidas em modelos de classificação de classes, sera sempre 1.

A definição da função Softmax é a seguinte:

> $ f(x) = \frac{\exp(x_i)}{\sum \exp(x_i))} $

A principal diferença entre uma função sigmoide e uma função softmax é seu objetivo de uso, enquanto a função sigmoide é custumeiramente utilizada pra classificação binaria a função softmax é utilizada para classificações multiplas. 

## E como fica o código de uma função Softmax?

In [None]:
def softmax(X):
    expo = np.exp(X)
    expo_sum = np.sum(np.exp(X))
    return expo/expo_sum

In [None]:
mmatrix = np.array([[1,2,3],[4,0,6]])
print('Valor da matriz [[1,2,3],[4,0,6] ao passar por uma função de ativação \
ReLu: \n', softmax(mmatrix))

Valor da matriz [[1,2,3],[4,0,6] ao passar por uma função de ativação ReLu: 
 [[0.00555636 0.01510375 0.04105626]
 [0.11160249 0.00204407 0.82463706]]


In [None]:
result = softmax(mmatrix)
print('Prova de que a soma dos valores de saida da função sempre será 1: ',
      np.sum(result))

Prova de que a soma dos valores de saida da função sempre será 1:  1.0


## Principais casos de uso para cada função

* Softmax -> Classificação multipla
* Sigmoide -> Classificação binaria
* ReLu -> Redes neurais convolucionais

# Bias/Viés

Um Bias/Viés represeta uma variação fixa no calculo de alguma coisa, no caso de redes neurais, utilizamos um valor de bias durante o calculo dos neuronios.

Exemplo: Ao se pesar em uma balança convencional, o valor nunca sera 100% preciso, pois, existe o peso dos itens que estão no seu corpo(roupas, relogio e etc), esse valor dos itens é uma variancia fixa e é chamado de Bias.

# Funcionamento de uma rede neural


## Neuronios
---
Os neuronios são a unidade mais basica de uma rede neural, cada RN pode ter um numero diferente de neuronios com funcionamentos diferentes, mas basicamente, os neuronios recebem um dado, processam ele e devolvem outro dado processado. O processo realizado dentro de cada neuronio é parte crucial para definir o funcionamento das redes neurais.

<img src=https://victorzhou.com/a74a19dc0599aae11df7493c718abaf9/perceptron.svg width="350">

O exemplo acima representa um neuronio de duas entradas, o processo que está aconcendo dentro dele pode ser definido como o seguinte:

Primeiro, cada entrada é multiplicada por um peso:

* $ x_1 = x_1 * w_1 $
* $ x_2 = x_2 * w_2 $

Segundo, o resusltado das entradas multiplicadas pelo peso são somadas a um bias/viés.

* $ \alpha = x_1 + x_2 + b $

Terceiro, o resultado passa por uma função de ativação/não linearidade(Explicada a diante):

* $ y = f(\alpha) $

No final, a seguinte equação define os neuronios:

* $ y = f(x_1 * w_1 + x_2 * w_2 + b) $

Para melhor entendimento, segue o exemplo:

Parametros:
* $ w_1 = 0, w_2 = 1 $
* $ b = 4 $
* $ f() = \frac{1}{1+e^x} $ (sigma function)

Entradas:
* $ x_1 = 2, x_2 = 3 $

Ex:

* $ y = f(2 * 0 + 3 * 1 + 4) $
* $ y = f(7) $
* $ y \approx 0,999 $



## Como codar um neuronio?

Basicamente, o código de um neuronio compreende todos os processos matematicos que aquele neuronio foi designado pra fazer.

Segue exemplo:

In [None]:
import numpy as np

In [None]:
class Neuron:

  def __init__(self, weights, bias):
    self.weights = weights
    self.bias = bias

  def feedforward(self, inputs):
    total = np.dot(self.weights, inputs) + self.bias
    return sigmoid(total)

In [None]:
neuron = Neuron(np.array([0, 2]), 4)
print('Valor das entradas 2 e 3 depois do processamento no neuronio: ')
print(neuron.feedforward(np.array([2,3])))

Valor das entradas 2 e 3 depois do processamento no neuronio: 
0.9999546021312976


## Relacionamento entre neuronios

TO-DO

## Camadas de uma rede neural

TO-DO

## Criando uma rede neural de duas camadas do zero



In [None]:
import numpy as np

# Função sigmoide
def nonlin(x,deriv=False):
  if(deriv==True):
      return x*(1-x)
  return 1/(1+np.exp(-x))
    
# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])
    
# output dataset            
y = np.array([[0,0,1,1]]).T

# Gera uma seed para os numeros gerados randomicamente, visando a distribuição
# homogenea para todas as interações
np.random.seed(1)

# initialize weights randomly with mean 0
syn0 = 2*np.random.random((3,1)) - 1

for iter in np.arange(10000):

  # forward propagation
  l0 = X
  l1 = nonlin(np.dot(l0,syn0))

  # how much did we miss?
  l1_error = y - l1

  # multiply how much we missed by the 
  # slope of the sigmoid at the values in l1
  l1_delta = l1_error * nonlin(l1,True)

  # update weights
  syn0 += np.dot(l0.T,l1_delta)

print("Output depois do treino:")
print(l1)


# Hyperparametros

Hyperparametros são os atributos que irão definir a arquitetura(Ex: número de neuronios ocultos) do modelo da sua rede neural, bem como como a sua rede neural irá ser treinada(Ex: taxa de treino), esses paraemtros são definidos antes de iniciar o treinamento do modelo e são de extrema importancia para a perfomance, eficacia e acuracia do modelo.




# Principais tipos de Hyperparametros

Estes são alguns dos principais hyperparametros que podemos utilziar para trinar alguns modelos de redes neurais, bem como a sua definição e onde podemos utiliza-los.

### Nº de camadas ocultas
---
Este parametro define o numero de camadas ocultas entre a camada de entrada e a camada de saida da sua rede neural, é amplamante utilizada em todas as redes neurais.

Basicamente, estas camadas ocultas são utilizadas para melhorar a acuracia do seu modelo, pode-se adicionar novas camadas até que não faça mais diferença se adicionar mais alguma.

Varias camadas com boas tecnicas de regularização podem aumentar muito a acuracia do modelo, já se não forem utilizadas ou utilizar poucas, pode acabar gerando um efeito de *underfitting*.

*“Very simple. Just keep adding layers until the test error does not improve anymore.”*

* Utilizado em: Arquitetura do modelo

## Dropout
---
Dropout é um parametro utilizado para evitar *overfitting*, aumentar a acuracia e melhorar o poder de generalização.

Geralmente, se utiliza o dropout com valores entre 10% a 50%(porcentagens fazenbdo sempre referencia ao numero de neuronios), 20% pode ser um ponto pra começar a testar a eficacia do parametro. Caso o valor for muito baixo para o tamanho do modelo, o efeito será quase imperceptivel, caso for muito grande, o modelo irá perder poder de aprendizagem.

Normalmente o dropout tem mais efeito em redes neurais grandes, dando mais oportunidade da rede neural estabelecer novas representações e conexões.

* Utilizado em: Arquitetura do modelo

## Função de ativação
---
Como ja explicado anteriormente, as funções de ativação são utilizadas para introduzir elementos de não linearidade ao modelo de rede neural. 

Para mais informações, consultar "Função de ativação de uma rede neural"

* Utilizado em: Arquitetura do modelo

## Taxa de aprendizado
---
A taxa de aprendizado define o quão rapido o modelo irá atualizar seus parametros durante o treinamento, uma baixa taxa de aprendizado pode atrasar o treinamento, contudo, em algum momento irá normalizar. Altas taxas de treinamento pode acelerar o treinamento do modelo, contudo, pode não haver normalização e o modelo não convergir para sua linha natural.

Normalmente, se prefere uma taxa de aprendizado decadente.

* Utilizado em: Processo de treinamento do modelo

## Momentum
---

Este parametro é utilizado para direcionar o aprendizado do modelo de acordo com o resultado da geração de treinamento anterior, ajudando a reduzir oscilações.

Normalmente, é preferivel manter este parametro entre 0,5 e 0,9.

* Utilizado em: Processo de treinamento do modelo

## Numero de *Epochs*
---

O numero de *epochs* define o numero de vezes que o dataset de treino irá passar pelo modelo e consequentenmente, quantas vezes o modelo irá treinar utilizando esses dados.

Caso o modelo não treine por epocas suficientes, ele não ficará preciso, caso treine por epocas demais, pode ocorrer o efeito de *overfitting*. 

* Utilizado em: Processo de treinamento do modelo

## Batch size
---

O tamanho do *batch* define o tamanho dos subgrupos de dados que serão "entregues" ao modelo depois de cada atualização de parametros.

Normalmente, o tamanho padrão é definido por multiplos de 32 sendo o tamanho 128 o mais utilizado.

* Utilizado em: Processo de treinamento do modelo

# Modelo de rede neural generica

TO-DO

# Exemplos e implementações

# Troubleshooting

Resolução de alguns dos problemas mais comuns que podem acontecer ao definir e treinar seu modelo.

## Input 0 is incompatible with layer lstm_xx: expected ndim=3, found ndim=2 in Keras

Este problema acontece pois as cadamadas do seu modelo não estão compartilhando o mesmo input/output.

Por exemplo, caso você tenha duas camadas LSTM seguidas, onde apenas a primeira tem definida o formato do input e o parametro *return_sequences* não estiver presente, é muito provavel que você tera esse erro, para resolver, apenas passe o parametro *return_sequences* para True, isto fara com que o output da primeira camada esteja de acordo com o input da segunda camada. 