# Vanishing Gradient
- Gradient pode ser interpretado como o delta do Back-Propagation
- Como o Back-Propagation treina os nós de trás para frente, como o erro difícilmente atinge as primeiras camadas, acaba que o peso delas não é ajustado, sendo as camadas mais próximas da entrada não treinadas.
- A solução apresentada pela Vanishing Gradient é a introdução da Rectified Linear Unit (ReLu)

# Overfitting
- O modelo se torna complicado a cada nova camada oculta.
- A solução é treinar apenas alguns nós selecionados aleatóriamente ao invés da rede toda, dessa forma evita sobreajustes.
- Além disso, o uso de dados massivos de treinamento também é muito útil, pois o viés potencial devido a dados específicos é reduzido

# Computational Load
- Esse tópico trata o tempo de processamento e aprendizado da rede. Sendo que o número de pessos aumenta geometricamente com o número de camadas ocultas.
- Este problema foi aliviado em grande medida pelo introdução de hardware de alto desempenho, como GPU, e algoritmos, como normalização em lote.

- O Deep Learning supera todas as técnicas de todas as 3 áreas tratadas

# Example: ReLU and Dropout

## ReLU Function
- A função pega os pesos da rede e os dados de entrada e retorna os pesos treinados
- A função tem falhas e pode produzir saídas erradas, diferente da função sigmoid. A sensibilidade da função ReLU aos valores de peso iniciais parece causar esta anomalia.

In [1]:
import numpy as np

#Implementaçao da função sigmoid
def Sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

#Implementaçao da função softmax
def Softmax(x):
    x  = np.subtract(x, np.max(x))
    ex = np.exp(x)
    
    return ex / np.sum(ex)

#Implementaçao da função ReLu
def ReLU(x):
    return np.maximum(0, x)

#Cálculo dos pesos pela função ReLu
def DeepReLU(W1, W2, W3, W4, X, D):
    
    #Taxa de aprendizado
    alpha = 0.01
    
    N = 5
    #Percorre as matrizes de teste
    for k in range(N):
        x  = np.reshape(X[:, :, k], (25, 1)) #Transforma a matiz em um vetor 25x1
        d = D[k, :].T #Tanspoem a matriz de resultados
        
        #Primeira camada
        v1 = np.matmul(W1, x) #Multiplica W1 (peso) com o array de teste
        y1 = ReLU(v1) #Calcula a saída do neurônio (função de ativação ReLu)
        
        #Segunda camada
        v2 = np.matmul(W2, y1) #Multiplica W2 (peso) com o array gerado pelo primeiro neurônio
        y2 = ReLU(v2) #Calcula a saída do neurônio (função de ativação ReLu)
        
        #Terceira camada
        v3 = np.matmul(W3, y2) #Multiplica W3 (peso) com o array gerado pelo segundo neurônio
        y3 = ReLU(v3) #Calcula a saída do neurônio (função de ativação ReLu)
        
        #Quarta camada
        v = np.matmul(W4, y3) #Multiplica W4 (peso) com o array gerado pelo terceiro neurônio
        y = Softmax(v) #Calcula a saída do neurônio (função de ativação softmax)
        
        #Quarto neurônio
        e = d - y #Calcula o erro
        delta = e #Calculado o delta em cima do erro
        
        #Terceiro neurônio
        e3 = np.matmul(W4.T, delta) #Calcula o erro
        delta3 = (v3 > 0) * e3 #Calculado o delta em cima do erro
        
        #Segundo neurônio
        e2 = np.matmul(W3.T, delta3) #Calcula o erro
        delta2 = (v2 > 0) * e2 #Calculado o delta em cima do erro
        
        #Primeiro neurônio
        e1 = np.matmul(W2.T, delta2) #Calcula o erro
        delta1 = (v1 > 0) * e1 #Calculado o delta em cima do erro
        
        #Quarto neurônio
        dW4 = alpha * delta * y3.T #Calcula a correção do peso
        W4  = W4 + dW4 #Acumula a correção corrigindo o peso
        
        #Terceiro neurônio
        dW3 = alpha * delta3 * y2.T #Calcula a correção do peso
        W3  = W3 + dW3 #Acumula a correção corrigindo o peso
        
        #Segundo neurônio
        dW2 = alpha * delta2 * y1.T #Calcula a correção do peso
        W2  = W2 + dW2 #Acumula a correção corrigindo o peso
        
        #Primeiro neurônio
        dW1 = alpha * delta1 * x.T #Calcula a correção do peso
        W1  = W1 + dW1 #Acumula a correção corrigindo o peso
    
    return W1, W2, W3, W4 #Retorna os pesos calculados

def TestDeepReLU():   
    
    #Inicializa a matriz de testes zerada
    X = np.zeros((5, 5, 5))
    
    #Inicializa a matriz com o número 1
    X[:, :, 0] = [[0,1,1,0,0],
                  [0,0,1,0,0],
                  [0,0,1,0,0],
                  [0,0,1,0,0],
                  [0,1,1,1,0]]
    
    #Inicializa a matriz com o número 2
    X[:, :, 1] = [[1,1,1,1,0],
                  [0,0,0,0,1],
                  [0,1,1,1,0],
                  [1,0,0,0,0],
                  [1,1,1,1,1]]
    
    #Inicializa a matriz com o número 3
    X[:, :, 2] = [[1,1,1,1,0],
                  [0,0,0,0,1],
                  [0,1,1,1,0],
                  [0,0,0,0,1],
                  [1,1,1,1,0]]
    
    #Inicializa a matriz com o número 4
    X[:, :, 3] = [[0,0,0,1,0],
                  [0,0,1,1,0],
                  [0,1,0,1,0],
                  [1,1,1,1,1],
                  [0,0,0,1,0]]
    
    #Inicializa a matriz com o número 5
    X[:, :, 4] = [[1,1,1,1,1],
                  [1,0,0,0,0],
                  [1,1,1,1,0],
                  [0,0,0,0,1],
                  [1,1,1,1,0]]
    
    #Matriz de rsultados espeados
    D = np.array([[[1,0,0,0,0]],
                  [[0,1,0,0,0]],
                  [[0,0,1,0,0]],
                  [[0,0,0,1,0]],
                  [[0,0,0,0,1]]])
    
    # Inicializa um valor aleatório para os pesos
    W1 = 2*np.random.random((20, 25)) - 1
    W2 = 2*np.random.random((20, 20)) - 1
    W3 = 2*np.random.random((20, 20)) - 1
    W4 = 2*np.random.random(( 5, 20)) - 1
    
    #Inicia o aprendizado
    for _epoch in range(10000):
        W1, W2, W3, W4 = DeepReLU(W1, W2, W3, W4, X, D)
        
    N = 5
    for k in range(N):
        x  = np.reshape(X[:, :, k], (25, 1)) #Transforma a matriz em um vetor 25x1
      
        #Primeiro neurônio
        v1 = np.matmul(W1, x) #Multiplica a matriz W1 (pesos) com a matriz de entrada
        y1 = ReLU(v1) #Calcula a saída do neurônio pela função ReLu
        
        #Segundo neurônio
        v2 = np.matmul(W2, y1) #Multiplica a matriz W2 (pesos) com o resultado do neurônio anterior
        y2 = ReLU(v2) #Calcula a saída do neurônio pela função ReLu
        
        #Terceiro neurônio
        v3 = np.matmul(W3, y2) #Multiplica a matriz W3 (pesos) com o resultado do neurônio anterior
        y3 = ReLU(v3) #Calcula a saída do neurônio pela função ReLu
        
        #Quarto neurônio
        v = np.matmul(W4, y3) #Multiplica a matriz W4 (pesos) com o resultado do neurônio anterior
        y = Softmax(v) #Cálcula a saída do neurônio pela função softmax
            
        print("Y = ", k+1 , ": ")
        print(y) #Exibe os resultados
        
if __name__ == '__main__':
    TestDeepReLU()

Y =  1 : 
[[9.99962223e-01]
 [1.30664794e-05]
 [7.90549956e-08]
 [9.75380210e-06]
 [1.48781526e-05]]
Y =  2 : 
[[4.41781717e-09]
 [9.99987952e-01]
 [1.20433276e-05]
 [8.17658706e-12]
 [6.25992992e-12]]
Y =  3 : 
[[1.65354489e-06]
 [6.09878214e-06]
 [9.99982471e-01]
 [9.77581688e-06]
 [5.00957382e-10]]
Y =  4 : 
[[2.58342885e-05]
 [1.05541912e-10]
 [1.67865852e-08]
 [9.99974148e-01]
 [1.21419462e-09]]
Y =  5 : 
[[8.71823735e-06]
 [1.11371330e-06]
 [2.76665499e-08]
 [3.83445151e-11]
 [9.99990140e-01]]


# Dropout
- Utiliza a função sigmoid para ativação dos nós. Esse código é utilizado para mostrar como é feito o desligamentos dos nós que não serão treinados.

In [3]:
import numpy as np

#Implementaçao da função sigmoid
def Sigmoid(x):
    return 1.0 / (1.0 + np.exp(-x))

#Implementaçao da função softmax
def Softmax(x):
    x  = np.subtract(x, np.max(x))
    ex = np.exp(x)
    
    return ex / np.sum(ex)

#Implementação da função Dropout (Sortear os neurônios a ser treinados)
def Dropout(y, ratio):
    ym = np.zeros_like(y)
    
    num = round(y.size*(1-ratio))
    idx = np.random.choice(y.size, num, replace=False)
    ym[idx] = 1.0 / (1.0 - ratio)
    
    return ym


def DeepDropout(W1, W2, W3, W4, X, D):
    
    #Taxa de aprendizado
    alpha = 0.01
    
    N = 5
    #Percorre as matrizes de teste
    for k in range(N):
        x = np.reshape(X[:, :, k], (25, 1)) #Transforma a matiz em um vetor 25x1
        d     = D[k,:].T #Tanspoem a matriz de resultados
       
        #Primeiro nreurônio
        v1 = np.matmul(W1, x) #Multiplica W1 (peso) com o array de teste
        y1 = Sigmoid(v1) #Calcula a saída do neurônio (função de ativação sigmoid)
        y1 = y1 * Dropout(y1, 0.2) #Multiplica pela matriz de ativação do neurônio
        
        #Segundo neurônio
        v2 = np.matmul(W2, y1) #Multiplica W2 (peso) com o array gerado pelo primeiro neurônio
        y2 = Sigmoid(v2) #Calcula a saída do neurônio (função de ativação sigmoid)
        y2 = y2 * Dropout(y2, 0.2) #Multiplica pela matriz de ativação do neurônio
        
        #Terceiro neurônio
        v3 = np.matmul(W3, y2) #Multiplica W3 (peso) com o array gerado pelo segundo neurônio
        y3 = Sigmoid(v3) #Calcula a saída do neurônio (função de ativação sigmoid)
        y3 = y3 * Dropout(y3, 0.2) #Multiplica pela matriz de ativação do neurônio
        
        #Quarto neurônio
        v = np.matmul(W4, y3) #Multiplica W4 (peso) com o array gerado pelo terceiro neurônio
        y = Softmax(v) #Calcula a saída do neurônio (função de ativação softmax)
        
        #Quarto neurônio
        e = d-y #Calcula o erro
        delta = e #Calculado o delta em cima do erro
        
        #Terceiro neurônio
        e3 = np.matmul(W4.T, delta) #Calcula o erro
        delta3 = y3*(1-y3) * e3 #Calculado o delta em cima do erro
        
        #Segundo neurônio
        e2 = np.matmul(W3.T, delta3) #Calcula o erro
        delta2 = y2*(1-y2) * e2 #Calculado o delta em cima do erro
        
        #Primeiro neurônio
        e1 = np.matmul(W2.T, delta2) #Calcula o erro
        delta1 = y1*(1-y1) * e1 #Calculado o delta em cima do erro
        
        #Quarto neurônio
        dW4 = alpha * delta * y3.T #Calcula a correção do peso
        W4  = W4 + dW4 #Acumula a correção corrigindo o peso
         
        #Terceiro neurônio
        dW3 = alpha * delta3 * y2.T #Calcula a correção do peso
        W3  = W3 + dW3 #Acumula a correção corrigindo o peso
        
        #Segundo neurônio
        dW2 = alpha * delta2 * y1.T #Calcula a correção do peso
        W2  = W2 + dW2 #Acumula a correção corrigindo o peso
        
        #Primeiro neurônio
        dW1 = alpha * delta1 * x.T #Calcula a correção do peso
        W1  = W1 + dW1 #Acumula a correção corrigindo o peso
    
    return W1, W2, W3, W4

def TestDeepDropout():
    
    #Inicializa a matriz com zeros
    X = np.zeros((5, 5, 5))
    
    #Inicializa a matriz com o número 1
    X[:, :, 0] = [[0,1,1,0,0],
                  [0,0,1,0,0],
                  [0,0,1,0,0],
                  [0,0,1,0,0],
                  [0,1,1,1,0]]
    
    #Inicializa a matriz com o número 2
    X[:, :, 1] = [[1,1,1,1,0],
                  [0,0,0,0,1],
                  [0,1,1,1,0],
                  [1,0,0,0,0],
                  [1,1,1,1,1]]
    
    #Inicializa a matriz com o número 3
    X[:, :, 2] = [[1,1,1,1,0],
                  [0,0,0,0,1],
                  [0,1,1,1,0],
                  [0,0,0,0,1],
                  [1,1,1,1,0]]
    
    #Inicializa a matriz com o número 4
    X[:, :, 3] = [[0,0,0,1,0],
                  [0,0,1,1,0],
                  [0,1,0,1,0],
                  [1,1,1,1,1],
                  [0,0,0,1,0]]
    
    #Inicializa a matriz com o número 5
    X[:, :, 4] = [[1,1,1,1,1],
                  [1,0,0,0,0],
                  [1,1,1,1,0],
                  [0,0,0,0,1],
                  [1,1,1,1,0]]
    
    #Matriz de rsultados espeados
    D = np.array([[[1,0,0,0,0]],
                  [[0,1,0,0,0]],
                  [[0,0,1,0,0]],
                  [[0,0,0,1,0]],
                  [[0,0,0,0,1]]])
    
    #Inicializa um valor aleatório para os pesos
    W1 = 2*np.random.random((20, 25)) - 1
    W2 = 2*np.random.random((20, 20)) - 1
    W3 = 2*np.random.random((20, 20)) - 1
    W4 = 2*np.random.random(( 5, 20)) - 1
    
    #Inicia o aprendizado
    for _epoch in range(20000):
        W1, W2, W3, W4 = DeepDropout(W1, W2, W3, W4, X, D)
        
    N = 5
    for k in range(N):
        x  = np.reshape(X[:, :, k], (25, 1)) #Transforma a matriz em um vetor 25x1
       
        #Primeiro neurônio
        v1 = np.matmul(W1, x) #Multiplica a matriz W1 (pesos) com a matriz de entrada
        y1 = Sigmoid(v1) #Calcula a saída do neurônio pela função sigmoid
        
        #Segundo neurônio
        v2 = np.matmul(W2, y1) #Multiplica a matriz W2 (pesos) com o resultado do neurônio anterior
        y2 = Sigmoid(v2) #Calcula a saída do neurônio pela função sigmoid
        
        #Terceiro neurônio
        v3 = np.matmul(W3, y2) #Multiplica a matriz W3 (pesos) com o resultado do neurônio anterior
        y3 = Sigmoid(v3) #Calcula a saída do neurônio pela função sigmoid
        
        #Quarto neurônio
        v = np.matmul(W4, y3) #Multiplica a matriz W4 (pesos) com o resultado do neurônio anterior
        y = Softmax(v) #Calcula a saída do neurônio pela função softmax
            
        print("Y = ", k+1, ": ")
        print(y) #Exibe os resultados

if __name__ == '__main__':
    TestDeepDropout()

Y =  1 : 
[[9.99782295e-01]
 [7.15667518e-05]
 [3.22931091e-06]
 [1.42897628e-04]
 [1.17689666e-08]]
Y =  2 : 
[[3.54015106e-05]
 [9.97595922e-01]
 [2.36855548e-03]
 [1.20760919e-07]
 [1.21925434e-10]]
Y =  3 : 
[[2.13503009e-05]
 [1.64924398e-03]
 [9.96828414e-01]
 [3.54080987e-05]
 [1.46558382e-03]]
Y =  4 : 
[[7.56335730e-05]
 [1.13453829e-07]
 [3.83705311e-06]
 [9.99918213e-01]
 [2.20248083e-06]]
Y =  5 : 
[[9.90919935e-08]
 [1.11951963e-09]
 [3.55786315e-03]
 [1.55403981e-04]
 [9.96286633e-01]]
