# <font color = "red">REDES NEURAIS ARTIFICAIS

## Faremos 3 etapas de maneira individual, são elas:

- Desenvolvimento do FOWARD PROPAGATION

- Desenvolvimento da função de erro (LOSS)

- Desenvolvimento da BACKWARD PROPAGATION

## <font color = "green">Parte 1 - Implementando Uma Rede Neural Artifical Somente com Fórmulas Matemáticas (Sem Frameworks)

# Parte 1A - FOWARD PROPAGATION

____________________

### <font color = "red">Função Para Inicialização dos Pesos

In [1]:
import numpy as np

In [2]:
# Função para Inicialização randômmica dos parâmetros do modelo

def inicializa_parametros(dims_camada_entrada):

 # Dicionário para os parâmetros
 parameters = {}

 # Comprimento das dimensões das camadas
 comp = len(dims_camada_entrada)

 # Loop pelo comprimento
 for i in range(1,comp):

  # Inicialização da materiz de pesos
  parameters["W" + str(i)] = np.random.randn(dims_camada_entrada[i],
                                             dims_camada_entrada[i - 1]) * 0.01
  
  # Inicialização do bias
  parameters["b" + str(i)] = np.zeros((dims_camada_entrada[i], 1))

 return parameters   

### <font color = "green">Desenvolvendo a Função Sigmóide </font>

A principal razão pela qual usamos a função sigmóide é porque ela permite converter números para valores entre 0 e 1. 

Portanto, é especialmente usada para modelos em que temos que prever a probabilidade como uma saída. Como a probabilidade de qualquer coisa existir apenas entre o intervalo de 0 e 1, sigmoide é a escolha certa. Algumas caracterísiticas da função sigmóide:

- A função é diferenciável. Isso significa que podemos encontrar a inclinação da curva sigmóide em dois pontos.
- A função sigmóide logística pode fazer com que uma rede neural fique presa no momento do treinamento.
- A função softmax é uma função de ativação logística mais generalizada, utilizada para a classificação em várias classes.

**Afinal, O Que é Derivada?**


No Cálculo, a derivada em um ponto de uma função y = f(x) representa a taxa de variação instantânea de y em relação a x neste ponto. 

Um exemplo típico é a função velocidade que representa a taxa de variação (derivada) da função espaço. Do mesmo modo, a função aceleração é a derivada da função velocidade. Geometricamente, a derivada no ponto x = a de y = f(x) representa a inclinação da reta tangente ao gráfico desta função no ponto (a, f(a)).

A função que a cada ponto x associa a derivada neste ponto de f(x) é chamada de função derivada de f(x).

Em cada ponto, a derivada de f(x) é a tangente do ângulo que a reta tangente à curva faz em relação ao eixo das abscissas. A reta é sempre tangente à curva azul; a tangente do ângulo que ela faz com o eixo das abscissas é a derivada. Note-se que a derivada é positiva quando verde, negativa quando vermelha, e zero quando preta.

A derivada de uma função y = f(x) num ponto x = x0, é igual ao valor da tangente trigonométrica do ângulo formado pela tangente geométrica à curva representativa de y=f(x), no ponto x = x0, ou seja, a derivada é o coeficiente angular da reta tangente ao gráfico da função no ponto x0.

A função derivada é representada por f'(x).

In [3]:
# Função Sigmóide 

def sigmoide(Z):
 A = 1 / (1 + np.exp(-Z)) # exp é o calculo com número de euler
 return A, Z

# Essa função vai entregar resultado entre 0 e 1, 
# se for mais prox de 0, a saida sigmoide será 0, 
# se for mais próximo de 1, a saíde sigmoide será 1

### <font color = "green">Desenvolvendo a Função ReLu </font>

A principal razão pela qual usamos a função sigmóide é porque ela permite converter números para valores entre 0 e 1. 

Portanto, é especialmente usada para modelos em que temos que prever a probabilidade como uma saída. Como a probabilidade de qualquer coisa existir apenas entre o intervalo de 0 e 1, sigmoide é a escolha certa. Algumas caracterísiticas da função sigmóide:

- A função é diferenciável. Isso significa que podemos encontrar a inclinação da curva sigmóide em dois pontos.
- A função sigmóide logística pode fazer com que uma rede neural fique presa no momento do treinamento.
- A função softmax é uma função de ativação logística mais generalizada, utilizada para a classificação em várias classes.


In [4]:
# Função ReLu (Rectified Linear Unit) 

def relu(Z):
 A = abs(Z * (Z > 0)) # exp é o calculo com número de euler
 return A, Z

# Essa função vai entregar resultado entre 0 e 1, 
# se for mais prox de 0, a saida sigmoide será 0, 
# se for mais próximo de 1, a saíde sigmoide será 1

### Desenvolvendo a Ativação Linear da Rellu

In [5]:
# Operação de Ativação
# A é a matriz com os dados de entrada
# W é a matriz de pesos
# b é o bias

def linear_activation(A, W, b):
 Z = np.dot(W, A) + b
 cache = (A, W, b)
 return Z, cache

In [6]:
A = [1,2,3]
W = 0.02
b = 12

In [7]:
linear_activation(A, W, b)

(array([12.02, 12.04, 12.06]), ([1, 2, 3], 0.02, 12))

### <font color = "green">Construindo a Fowrward Propagation</font>

In [8]:
# Movimento para frente (fowrward)

def forward(A_prev, W, b, activation):

 # Se a função de ativação for sigmoid, entramos neste bloco
 if activation == "sigmoid":
  Z, linear_cache = linear_activation(A_prev, W, b)
  A, activation_cache = sigmoide(Z)

 # Se não, se for Relu, entramos nesse bloco
 elif activation == "relu":
  Z, linear_cache = linear_activation(A_prev, W, b)
  A, activation_cache = relu(Z)

 cache = (linear_cache, activation_cache)

 return A, cache 

## <font color = "green">Combinando Ativação e Propagação</font>

In [9]:
# Propagação para frente

# X = addos de entrada
def foward_propagation(X, parameters):

 # Lista de valores anteriores (cache)
 caches = []

 # Dados de entrada
 A = X

 # Comprimento dos parametros
 L = len(parameters) // 2 # divide // para que seja inteira

 # Loop nas camadas intermediarias - por isso se utiliza RELU
 for i in range(1, L):

  # Guarda o valor prévio de A
  A_prev = A

  # Executa o Foward
  A, cache = forward(A_prev, parameters["W" + str(i)], parameters["b" + str(i)], activation= "relu")

  # Grava o cache
  caches.append(cache)

 # Saída nna ultima camada
 A_last, cache = forward(A, parameters["W" + str(L)], parameters["b" + str(i)], activation="sigmoid")

 # Grava o cache

 return(A_last, caches)

## <font color = "yellow">Desenvolvendo a Função de Custo</font>

Onde comparamos os resultados do da passada para frente com os dados históricos

In [10]:
# Função de custos ( Função de Erros )

def calcula_custos(A_last, Y):

 # Ajusta o shape de Y para obter seu comprimento real (total de elementos)
 m = Y.shape[1]

 # Calcula o custo comparando valor real com previsto
 custo = (-1 / m) * np.sum((Y * np.log(A_last)) + ((1 - Y) * np.log(1-A_last)))

 # Ajusta o shape do custo
 custo = np.squeeze(custo)

 return(custo)

## <font color = "red">Desenvolvendo o Backward Propagation - Função Sigmoide Backward</font>

In [11]:
# Função sigmoid para o backpropagation
# Fazemos o cálculo da derivada pois não queremos o valor complexo da função, mas sim sua variação

def sigmoid_backward(da, Z):

 # Calcula a derivada de Z
 dg = (1 / (1 + np.exp(-Z))) * (1 - (1 / (1 + np.exp(-Z))))

 # Encontramos a mudança na derivada de z 
 dz = da * dg
 return dz

# Compare com a função sigmoid do foward propagation
# A = 1 / (1 + np.exp(-Z))

## <font color = "red">Desenvolvendo o Backward Propagation - Função ReLu Backward</font>

In [12]:
# Função Relu para o backpropagation
# Fazemos o cálculo da derivada pois não querermos o valor completo da função, mas sim sua variação 
def relu_backward(da, Z):

 dg = 1 * (Z >= 0)
 dz = da * dg
 return dz

# Compara coma função relu do foward propagation
# A = abs(Z*(Z>0))

## <font color = "red">Desenvolvendo o Backward Propagation - Ativação Linear Backward</font>

In [13]:
# Ativação linear para o backpropagation
def linear_backward_function(dz, cache):
    
    # Recebe os valores do cache (memória)
    A_prev, W, b = cache
    
    # Shape de m
    m = A_prev.shape[1]
    
    # Calcula a derivada de W (resultado da operação com dz)
    dW = (1 / m) * np.dot(dz, A_prev.T)
    
    # Calcula a derivada de b (resultado da operação com dz)
    db = (1 / m) * np.sum(dz, axis = 1, keepdims = True)
    
    # Calcula a derivada da operação
    dA_prev = np.dot(W.T, dz)
    
    return dA_prev, dW, db

## <font color = "red">Desenvolvendo o Backward Propagation - Algorítmo Backpropagation</font>

In [14]:
# Função que define o tipo de ativação (relu ou sigmoid)
def linear_activation_backward(dA, cache, activation):
    
    # Extrai o cache
    linear_cache, activation_cache = cache
    
    # Verifica se a ativação é relu
    if activation == "relu":
        dZ = relu_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward_function(dZ, linear_cache)
        
    # Verifica se a ativação é sigmoid
    if activation == "sigmoid":
        dZ = sigmoid_backward(dA, activation_cache)
        dA_prev, dW, db = linear_backward_function(dZ, linear_cache)
        
    return dA_prev, dW, db

## <font color = "red">Combinando Ativação e Retropropagação - Algorítmo Backpropagation</font>

In [79]:
# Algoritmo Backpropagation (calcula os gradientes para atualização dos pesos)
# AL = Valor previsto no Forward
# Y = Valor real
def backward_propagation(AL, Y, caches):
    
    # Dicionário para os gradientes
    grads = {}
    
    # Comprimento dos dados (que estão no cache)
    L = len(caches)
    
    # Extrai o comprimento para o valor de m
    m = AL.shape[1]
    
    # Ajusta o shape de Y
    Y = Y.reshape(AL.shape)
    
    # Calcula a derivada da previsão final da rede (feita ao final do Forward Propagation)
    dAL = -((Y / AL) - ((1 - Y) / (1 - AL)))
    
    # Captura o valor corrente do cache
    current_cache = caches[L - 1]
    
    # Gera a lista de gradiente para os dados, os pesos e o bias
    # Fazemos isso uma vez, pois estamos na parte final da rede, iniciando o caminho de volta
    grads["dA" + str(L - 1)], grads["dW" + str(L)], grads["db" + str(L)] = linear_activation_backward(dAL, current_cache, activation = "sigmoid")
    
    # Loop para calcular a derivada durante as ativações lineares com a relu
    for l in reversed(range(L - 1)):
        
        # Cache atual
        current_cache = caches[l]
        
        # Calcula as derivadas
        dA_prev, dW, db = linear_activation_backward(grads["dA" + str(l + 1)], current_cache, activation = "relu")
        
        # Alimenta os gradientes na lista, usando o índice respectivo
        grads["dA" + str(l)] = dA_prev
        grads["dW" + str(l + 1)] = dW
        grads["db" + str(l + 1)] = db
        
    return grads

## <font color = "red">Gradiente e Atualizações dos Pesos</font>

In [17]:
# Função de atualização de pesso

def atualiza_pesos(parameters, grads, learning_rate):

 # Comprimento da estrutura de dados com os parâmetros (pesos e bias)
 L = len(parameters)//2

 # Loop para atualização dos pesos
 for l in range(L):

  # Atualização dos pesos
  parameters["W" + str(l + 1)] = parameters["W" + str(l + 1)] - (learning_rate * grads["dW" + str(l +1)])

  # Atualização do bias
  parameters["b" + str(l + 1)] = parameters["b" + str(l + 1)] - (learning_rate * grads["db" + str(l +1)])

 return parameters

# <font color = "yellow">Implementando a Rede Completa</font>

In [58]:
# Modelo completo da rede neural
def modeloNN(X, Y, dims_camada_entrada, learning_rate = 0.0075, num_iterations = 100):
    
    # Lista para receber o custo a cada época de treinamento
    custos = []
    
    # Inicializa os parâmetros
    parametros = inicializa_parametros(dims_camada_entrada)
    
    # Loop pelo número de iterações (épocas)
    for i in range(num_iterations):
        
        # Forward Propagation
        AL, caches = foward_propagation(X, parametros)
        
        # Calcula o custo
        custo = calcula_custos(AL, Y)
        
        # Backward Propagation
        # Nota: ao invés de AL e Y, poderíamos passar somente o valor do custo
        # Estamos passando o valor de AL e Y para fique claro didaticamente o que está sendo feito
        gradientes = backward_propagation(AL, Y, caches)
        
        # Atualiza os pesos
        parametros = atualiza_pesos(parametros, gradientes, learning_rate)
        
        # Print do valor intermediário do custo
        # A redução do custo indica o aprendizado do modelo
        if i % 10 == 0:
            print("Custo Após " + str(i) + " iterações é " + str(custo))
            custos.append(custo)
            
    return parametros, custos 

In [19]:
# Função para fazer previsões 
# Não precisa do Backpropagation pois ao fazer previões com o modelo treinado
#  teremos os melhores valores de pesos (parametros)

def predict(X, parametros):
 AL, caches = foward_propagation(X, parametros)
 return AL

______

# <font color = "green">Usando Rede Neural Para Prever a Ocorrência de Câncer

In [81]:
# Imports
import sklearn
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report # relatório de classificação

#### Carregando os dados

In [82]:
# Carrega o objeto completo
temp = load_breast_cancer()

In [83]:
# tipo
type(temp)

# tipo bunch é um aglomerado de textos

sklearn.utils._bunch.Bunch

In [84]:
dados = pd.DataFrame(columns= load_breast_cancer()["feature_names"], data = load_breast_cancer()["data"])

In [85]:
dados.shape

(569, 30)

In [86]:
dados.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [87]:
# Verifica valores nausentes 
dados.isnull().any()

mean radius                False
mean texture               False
mean perimeter             False
mean area                  False
mean smoothness            False
mean compactness           False
mean concavity             False
mean concave points        False
mean symmetry              False
mean fractal dimension     False
radius error               False
texture error              False
perimeter error            False
area error                 False
smoothness error           False
compactness error          False
concavity error            False
concave points error       False
symmetry error             False
fractal dimension error    False
worst radius               False
worst texture              False
worst perimeter            False
worst area                 False
worst smoothness           False
worst compactness          False
worst concavity            False
worst concave points       False
worst symmetry             False
worst fractal dimension    False
dtype: boo

In [88]:
# Separa a variavel target

target = load_breast_cancer()["target"]

In [89]:
type(target)

numpy.ndarray

In [90]:
# Visualiza a varivael
target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

In [91]:
# Total de registros - Classe cancer benigno
np.count_nonzero(target == 1)

357

In [92]:
# Total de registros - Classe cancer Maligno
np.count_nonzero(target == 0)

212

In [93]:
# Vamos extrari os labels

# Dicionário para labels
labels = {}

# Nome das classses da variável target
target_names = load_breast_cancer()["target_names"]

# Mapeamento
for i in range(len(target_names)):
 labels.update({i:target_names[i]})

In [94]:
labels

{0: 'malignant', 1: 'benign'}

In [95]:
# Oreoarando as variáveis preditoras em X
X = np.array(dados)

In [96]:
# Visualiza os dados de entrada
X

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

In [97]:
# Divide Treino e teste 
X_treino, X_teste, y_treino, y_teste = train_test_split(X,
                                                        target,
                                                        test_size=0.15,
                                                        shuffle = True)

In [98]:
# Shpae dos dadosd e treino
print(X_treino.shape, X_teste.shape)

(483, 30) (86, 30)


In [99]:
# Shpae dos dados de teste
print(y_treino.shape, y_teste.shape)

(483,) (86,)


In [100]:
# Ajusta o shape dos dados de entrada

X_treino = X_treino.T
X_teste = X_teste.T

In [101]:
print(X_treino.shape, X_teste.shape)

(30, 483) (30, 86)


In [102]:
# Precisamos também ajustar os dados de saida
y_treino = y_treino.reshape(1, len(y_treino))
y_teste = y_teste.reshape(1, len(y_teste))

In [103]:
print(y_treino.shape, y_teste.shape)

(1, 483) (1, 86)


In [104]:
# vARIÁVEL COM AS DIMENÕES DE ENTRADA PARA O NÚMERO DE NEURÔNIOS

dims_camada_entrada = [X_treino.shape[0], 50, 20, 5, 1]

In [105]:
dims_camada_entrada

[30, 50, 20, 5, 1]

In [108]:
# Treinamento do Modelo

print("\nIniciando o Treinamento\n")

parametros, custo = modeloNN(X = X_treino,
                             Y = y_treino,
                             dims_camada_entrada = dims_camada_entrada,
                             num_iterations = 3000,
                             learning_rate = 0.0075
                             )

print("\nTreinamento Concluído\n") 


Iniciando o Treinamento



ValueError: cannot reshape array of size 483 into shape (5,483)

In [107]:
# Plot do erro durante o treinamento
plt.plot(custo)

NameError: name 'custo' is not defined

In [None]:
# Previsões com os dados de treino
y_pred_treino = predict(X_treino, parametros)

In [None]:
# Visualiza as previsões
y_pred_treino

In [None]:
# Ajustamos o shape em treino
y_pred_treino = y_pred_treino.reshape(-1)
y_treino = y_treino.reshape(-1)

In [None]:
y_pred_treino > 0.5

In [None]:
# Convertemos as previsões para o valor binário de classe 
# (0 ou 1, usando como threshold o valor de 0.5 da probabilidade)
y_pred_treino = 1 * (y_pred_treino > 0.5)

In [None]:
y_pred_treino

In [None]:
# Calculamos a acurácia comparando valor real com valor previsto
acc_treino = sum(1 * (y_pred_treino == y_treino)) / len(y_pred_treino) * 100

In [None]:
print("Acurácia nos dados de treino: " + str(acc_treino))

In [None]:
print(classification_report(y_treino, y_pred_treino, target_names = ['Maligno', 'Benigno']))

In [None]:
# Previsões com o modelo usando dados de teste
y_pred_teste = predict(X_teste, parametros)

In [None]:
# Visualiza os dados
y_pred_teste

In [None]:
# Ajustamos os shapes
y_pred_teste = y_pred_teste.reshape(-1)
y_teste = y_teste.reshape(-1)

In [None]:
# Convertemos as previsões para o valor binário de classe
y_pred_teste = 1 * (y_pred_teste > 0.5)

In [None]:
y_pred_teste

In [None]:
# Calculamos a acurácia
acuracia = sum(1 * (y_pred_teste == y_teste)) / len(y_pred_teste) * 100

In [None]:
print("Acurácia nos dados de teste: " + str(acuracia))

In [None]:
print(classification_report(y_teste, y_pred_teste, target_names = ['Maligno', 'Benigno']))