   # Implementação algoritmo Rede Neural Artificial

In [1]:
import numpy as np

In [2]:
class RNA:
    
    
    def __init__(self, dims_camada_entrada, learning_rate=0.0075, num_iterations=100):
        self.parameters = {} 
        self.custos = [] 
        self.dims_camada_entrada = dims_camada_entrada
        self.learning_rate = learning_rate
        self.num_iterations = num_iterations
        
        
    def inicializa_parametros(self, dims_camada_entrada):
        """
        Função para Inicialização randômica dos parametros do modelo.
        Inicializa parametros aleatórios para os pesos.
        
        Arg:
            dims_camada_entrada (list): [total de variáveis, nº neuronio camada 1, 
                                         nº neuronio camada 2,
                                         ..., 
                                         nº neuronio camada n,
                                         ]
        Retorna: 
            dict: dicionário com os valores iniciais dos pesos para cada camada do neurônio.
        """
        comp = len(dims_camada_entrada)
        for i in range(1, comp):
            # Inicialização da matriz de pesos
            self.parameters["W" + str(i)] = np.random.randn(dims_camada_entrada[i], dims_camada_entrada[i - 1]) * 0.01
            # Inicialização do bias
            self.parameters["b" + str(i)] = np.zeros((dims_camada_entrada[i], 1))
        return self.parameters
    
    
    def sigmoid(self, Z):
        """
        Função sigmóide: utilizada para ativação da ultima camada
        Converte qualquer valor real de Z para valores no intervalo de 0 e 1.
        
        Args:
            Z (float): qualquer número pertencente ao conjunto dos nº reais.
        
        Retorna:
            tupla : contendo o valor transformado pela função e o próprio valor de entrada
        """
        A = 1 / (1 + np.exp(-Z))
        return A, Z
    
    
    def relu(self, Z):
        """
        Função de ativação ReLu (Rectified Linear Unit): Ativação camadas intermediárias
        Converte qualquer valor real de Z para 0 quando Z menor que 0,
        e retorna a imagem de Z para valores maiores que 0. 
        
        Args:
            Z (float): qualquer número pertencete ao conjunto dos nº reais
        
        Retorna:
            tupla: 
        """
        A = abs(Z * (Z > 0))
        return A, Z
 

    def linear_activation(self, A, W, b):
        """
        Ativação linear
        Realiza a operação de ativação por camada
        
        Args: 
            A (numpy.ndarray): matriz com os dados de entrada da camada
            W (numpy.ndarray): matriz de pesos da camada
            b (numpy.ndarray): bias
        
        Retorna:
            tupla: contendo o valor de ativação e das memórias das matrizes dos pesos. 
        """
        Z = np.dot(W, A) + b
        cache = (A, W, b)
        return Z, cache
    
    
    def forward(self, A_prev, W, b, activation):
        """
        Aplica a função de ativação nos resultados da multiplcaçãdo dos dados pelos coeficientes
        
        Args: 
            A_prev (numpy.ndarray): Dados entrada prévios;
            W (numpy.ndarray): Matriz de coeficientes da camada;
            b (numpy.ndarray): bias da camada;
            activation (str): tipo da função de ativação "sigmoid" ou "relu"
        
        Retorna:
            tupla: A: os resultados dos valores passado pela função de ativação;
                   cache: mémoria dos dados iniciais, matriz de coeficiente e bias
        """

        # Se a função de ativação for Sigmoid, entramos neste bloco
        if activation == "sigmoid":
            Z, linear_cache = self.linear_activation(A_prev, W, b)
            A, activation_cache = self.sigmoid(Z)

        # Se não, se for ReLu, entramos neste bloco    
        elif activation == "relu":
            Z, linear_cache = self.linear_activation(A_prev, W, b)
            A, activation_cache = self.relu(Z)

        cache = (linear_cache, activation_cache)

        return A, cache

    
    def forward_propagation(self, X, parameters):
        """
        Realiza as multiplicações de matrizes de cada camada da rede.
        
        Args:
            X (numpy.ndarray): Valores dos dados de treinamento;
            parameters (dict): dicionario das matrizes de coeficientes e bias
        
        Retorna:
            tupla: A_last -> valores de saida da última camada;
                            caches -> lista com os valores calculados nas camadas internas;
        """
        # Lista de valores anteriores (cache)
        caches = []
        # Dados de entrada
        A = X
        # Comprimento dos parâmetros
        L = len(parameters) // 2
        # Loop
        for i in range(1, L):
            # Guarda o valor prévio de A
            A_prev = A
            # Executa o forward
            A, cache = self.forward(A_prev, parameters["W" + str(i)], parameters["b" + str(i)], activation = "relu")
            # Grava o cache
            caches.append(cache)
        # Saída na última camada
        A_last, cache = self.forward(A, parameters["W" + str(L)], parameters["b" + str(L)], activation = "sigmoid")
        # Grava o cache
        caches.append(cache)
        return(A_last, caches)
    
    
    def calcula_custo(self, A_last, Y):
        """
        Calcula a função custo dado a comparação de valores previstos e valores de treinamento reais
        
        Args: 
            A_last (numpy.ndarray): Matriz da última camada contendo as estimativas do modelo.
            Y (numpy.ndarray): valores reais dos dados de treinamento
        
        Retorna: 
            numpy.ndarray: valor da função custo
        """
        # Ajusta o shape de Y para obter seu comprimento (total de elementos)
        m = Y.shape[1]
        # Calcula o custo comparando valor real e previso (função logit para custo)
        custo = (-1 / m) * np.sum((Y * np.log(A_last)) + ((1 - Y) * np.log(1 - A_last)))
        # Ajusta o shape do custo
        custo = np.squeeze(custo)
        return(custo)
    

    def sigmoid_backward(self, da, Z):
        """
        Função sigmoid para o backpropagation ( Derivada da função sigmoid)
        Calcula a derivada da função de ativação sigmoid, sua taxa de variação.
        
        Args:
            da (float): derivada da previsão final da rede (feita ao final do Forward Propagation).
            Z (float): valores da multiplicação dos pesos pelos dados da camada.
        
        Retorna: 
            float: taxa de variação da função sigmoid.
        """
        # Calculamos a derivada de Z
        dg = (1 / (1 + np.exp(-Z))) * (1 - (1 / (1 + np.exp(-Z))))
        # Encontramos a mudança na derivada de z
        dz = da * dg # regra da cadeia*
        return dz
    
    
    def relu_backward(self, da, Z):
        """
        Função relu para o backpropagation
        Calcula a derivada da função de ativação relu
        
        Args: 
            da (float): derivada da previsão final da rede (feita ao final do Forward Propagation).
            Z (float): valores da multiplicação dos pesos pelos dados da camada.
            
        Retorna: 
            float: taxa de variação da função relu.
        """
        dg = 1 * ( Z >= 0)
        dz = da * dg # regra da cadeia*
        return dz
    
    
    def linear_backward_function(self, dz, cache):
        """
        Ativação linear para o backpropagation
        Calcula as derivadas da operação backward propragation
        
        Args: 
            dz (float): taxa de variação da função de ativação
            cache (tupla): (linear_cache, activation_cache) 
                            linear_cache -> resultado da multiplicação dos pesos pelos dados da camada.
                            activation_cache -> resultado da função de ativação dado o linear_cache como entrada.
        
        Retorna: 
            tupla: derivada da operação (W*dz), derivada da matriz peso W (dz*A_prev), derivada do bias.
        
        """
        # Recebe os valores do cache (memória)
        A_prev, W, b = cache
        # Shape de m
        m = A_prev.shape[1]
        # Calcula a derivada de W (resultado da operação com dz)
        dW = (1 / m) * np.dot(dz, A_prev.T)
        # Calcula a derivada de b (resultado da operação com dz)
        db = (1 / m) * np.sum(dz, axis = 1, keepdims = True)
        # Calcula a derivada da operação
        dA_prev = np.dot(W.T, dz)
        return dA_prev, dW, db


    def linear_activation_backward(self, dA, cache, activation):
        """
        Define o tipo de ativação ( relu ou sigmoid)
        
        Args:
            dA: derivada da previsão final da rede (feita ao final do Forward Propagation)
            cache: cache mémoria dos dados iniciais, matriz de coeficiente e bias
            activation: Define a função de ativação "relu" ou "sigmoid"
        
        Retorna:
            tupla: derivada da operação (W*dz), derivada da matriz peso W (dz*A_prev), derivada do bias.
        """
        # Extrai o cache
        linear_cache, activation_cache = cache
        # Verifica se a ativação é relu
        if activation == "relu":
            dZ = self.relu_backward(dA, activation_cache)
            dA_prev, dW, db = self.linear_backward_function(dZ, linear_cache)
        # Verifica se a ativação é sigmoid
        if activation == "sigmoid":
            dZ = self.sigmoid_backward(dA, activation_cache)
            dA_prev, dW, db = self.linear_backward_function(dZ, linear_cache)
        return dA_prev, dW, db


    def backward_propagation(self, AL, Y, caches):
        """
        Calcula os gradientes para atualização dos pesos
        
        Args:
            AL (numpy.ndarray): matriz das previsões realizadas pelo foward.
            Y (numpy.ndarray): matriz dos resultados reais.
            caches (list): lista com os valores calculados nas camadas internas;
        
        Retorna:
            dict: Dicionário contendo os gradientes dos dados, dos pesos e do bias.
        """
        # Dicionário para os gradientes
        grads = {}
        # Comprimento dos dados (que estão no cache)
        L = len(caches)
        # Extrai o comprimento para o valor de m
        m = AL.shape[1]
        # Ajusta o shape de Y
        Y = Y.reshape(AL.shape)
        # Calcula a derivada da previsão final da rede (feita ao final do Forward Propagation)
        dAL = -((Y / AL) - ((1 - Y) / (1 - AL)))
        # Captura o valor corrente do cache
        current_cache = caches[L - 1]
        # Gera a lista de gradiente para os dados, os pesos e o bias
        # Fazemos isso uma vez, pois estamos na parte final da rede, iniciando o caminho de volta
        grads["dA" + str(L - 1)], grads["dW" + str(L)], grads["db" + str(L)] = self.linear_activation_backward(dAL, current_cache, activation = "sigmoid")
        # Loop para calcular a derivada durante as ativações lineares com a relu
        for l in reversed(range(L - 1)):
            # Cache atual
            current_cache = caches[l]
            # Calcula as derivadas
            dA_prev, dW, db = self.linear_activation_backward(grads["dA" + str(l + 1)], current_cache, activation = "relu")
            # Alimenta os gradientes na lista, usando o índice respectivo
            grads["dA" + str(l)] = dA_prev
            grads["dW" + str(l + 1)] = dW
            grads["db" + str(l + 1)] = db        
        return grads

    
    def atualiza_pesos(self, parameters, grads, learning_rate):
        """
        Função de atualização de pesos
        Realiza a atualização dos pesos em cada camada da rede.
        
        Args:
            parameters (dict): dicionário contendo todas matrizes de pesos.
            grads (dict): dicionário contendo todas as matrizes dos gradientes calculados. 
            learning_rate (float): taxa de aprendizado.
        
        Retorna:
            dict: dicionário contendo as matrizes de pesos atualizados pelo gradiente do backpropagation.
        
        """
        # Comprimento da estrutura de dados com os parâmetros (pesos e bias)
        L = len(parameters)//2
        # Loop para atualização dos pesos
        for l in range(L):
            # Atualização dos pesos
            parameters["W" + str(l + 1)] = parameters["W" + str(l + 1)] - (learning_rate * grads["dW" + str(l + 1)])
            # Atualização do bias
            parameters["b" + str(l + 1)] = parameters["b" + str(l + 1)] - (learning_rate * grads["db" + str(l + 1)])
        return parameters
    
    
    def fit(self, X, Y):
        """
        Executa o treinamento do modelo da Rede Neural Artificial.
        
        Args:
            X (numpy.ndarray): Dados treinamento variáveis independentes.
            Y (numpy.ndarray): Dados treinamento variáveis dependentes.
            dims_camada_entrada: Dimensões das camadas e estruturas de Neurônios.
            learning_rate (float): Taxa de apresendizado do modelo.
            num_iterations (int): Quantidade de iterações para o treinamento do modelo.
            
        Retorna: 
            tupla: dicionário dos parametros treinados, lista dos custos por iteração de treinamento. 
        """
        print('\n Iniciando o treinamento. \n')
        # Inicializa os parâmetros
        parametros = self.inicializa_parametros(self.dims_camada_entrada)

        # Loop pelo número de iterações (épocas)
        for i in range(self.num_iterations):

            # Etapa Forward Propagation
            AL, caches = self.forward_propagation(X, parametros)

            # Calcula o custo
            custo = self.calcula_custo(AL, Y)

            # Etapa Backward Propagation (Atualização dos pesos)
            gradientes = self.backward_propagation(AL, Y, caches)

            # Atualiza os pesos
            parametros = self.atualiza_pesos(parametros, gradientes, self.learning_rate)

            # Print do valor intermediário do custo
            if i % 10 == 0:
                print("Custo Após " + str(i) + " iterações é " + str(custo))
                self.custos.append(custo)

        return 'Treinamento Concluido!'
    
    
    # Função para fazer as previsões
    def predict(X, parametros):
        """
        Funções para fazer as previsões.
        Calcula as previsões.
        
        Args:
            X (numpy.array): Variaveis independentes.
            parametros (dict) : Dicionário contendo as matrizes dos pesos de cada camada.
        
        Returns: 
            tuple : Valor Previsto, dicionário contendo os parametros do modelo. 
        """
        AL, caches = forward_propagation(X, parametros)
        return AL

## Aplicação 

In [3]:
# Imports
import sklearn
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [4]:
# Carregamos o dataset
dados = pd.DataFrame(columns = load_breast_cancer()["feature_names"], data = load_breast_cancer()["data"])

In [5]:
dados.shape

(569, 30)

In [6]:
dados.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [7]:
target = load_breast_cancer()['target']
target.shape

(569,)

In [8]:
# Extraindo os labels
# Dicionário para os labels
labels = {}

# Nomes das classes da variável target
target_names = load_breast_cancer()["target_names"]

# Mapeamento
for i in range(len(target_names)):
    labels.update({i:target_names[i]})

In [9]:
labels

{0: 'malignant', 1: 'benign'}

In [10]:
# Preparando os dados das variáveis preditoras, convertendo de dataframe pandas para array numpy
X = np.array(dados)

In [11]:
X.shape

(569, 30)

In [12]:
# Separando dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, target, test_size=0.15, shuffle=True)

In [13]:
X_train.shape

(483, 30)

In [14]:
y_test.shape

(86,)

In [15]:
# Ajustando os dados de entrada e tbm os dados alvo "target" 
X_train, X_test = X_train.T, X_test.T
y_train, y_test = y_train.reshape(1, len(y_train)), y_test.reshape(1,len(y_test))
print(f'shape dados de treino X:{X_train.shape}')
print(f'shape dados de treino Y:{X_test.shape}')


shape dados de treino X:(30, 483)
shape dados de treino Y:(30, 86)


In [16]:
# Lista com as dimensções de entrada e número de neuronios
# Contém 4 camadas, sendo o primeiro com 50 neuronios, 20, 5 e 1 neuronio de saida.
dims_camada_entrada = [X_train.shape[0],50, 20, 10, 1]

In [19]:
# Treinamento do modelo
modelo = RNA(dims_camada_entrada, learning_rate=0.0075, num_iterations=3000)
modelo.fit(X_train, y_train)


 Iniciando o treinamento. 

Custo Após 0 iterações é 0.6931514550887127
Custo Após 10 iterações é 0.6919941500119884
Custo Após 20 iterações é 0.6908793035212861
Custo Após 30 iterações é 0.6898053476064002
Custo Após 40 iterações é 0.6887707652848751
Custo Após 50 iterações é 0.6877740934905227
Custo Após 60 iterações é 0.6868139198857199
Custo Após 70 iterações é 0.6858888848418266
Custo Após 80 iterações é 0.6849976780915107
Custo Após 90 iterações é 0.6841390281458614
Custo Após 100 iterações é 0.6833117087941802
Custo Após 110 iterações é 0.6825145378610935
Custo Após 120 iterações é 0.6817463864283667
Custo Após 130 iterações é 0.681006166574833
Custo Após 140 iterações é 0.6802928487757658
Custo Após 150 iterações é 0.6796054120088583
Custo Após 160 iterações é 0.67894286420484
Custo Após 170 iterações é 0.6783042709978394
Custo Após 180 iterações é 0.6776887048656508
Custo Após 190 iterações é 0.6770952991868318
Custo Após 200 iterações é 0.6765231873570771
Custo Após 210 iter

Custo Após 1940 iterações é 0.26096426028260666
Custo Após 1950 iterações é 0.2599147109036004
Custo Após 1960 iterações é 0.26483797944479637
Custo Após 1970 iterações é 0.26537311410026193
Custo Após 1980 iterações é 0.26576242681432044
Custo Após 1990 iterações é 0.2627158406624958
Custo Após 2000 iterações é 0.25934771208438445
Custo Após 2010 iterações é 0.2612390463902705
Custo Após 2020 iterações é 0.2654446917507319
Custo Após 2030 iterações é 0.2615032260386541
Custo Após 2040 iterações é 0.2603930090596902
Custo Após 2050 iterações é 0.26422624360902425
Custo Após 2060 iterações é 0.25795065363623676
Custo Após 2070 iterações é 0.25870712025910625
Custo Após 2080 iterações é 0.2574699905378414
Custo Após 2090 iterações é 0.25636033477073455
Custo Após 2100 iterações é 0.2576049881882879
Custo Após 2110 iterações é 0.2602104504822029
Custo Após 2120 iterações é 0.2570351829870947
Custo Após 2130 iterações é 0.25760889409032867
Custo Após 2140 iterações é 0.2585598943917475
Cus

'Treinamento Concluido!'