# Multilayer Perceptron (MLP)

Importando bibliotecas

In [8]:
import sys
import pandas as pd
import numpy as np
from scipy.io import loadmat
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix


# 1. Implementação da classe

In [73]:
class MLP_Facens():
    
    #-------------------------------------------------------------------------
    # PARTE 1 - Feed Forward
    #-------------------------------------------------------------------------
    
    '''
    Inicializa um modelo com hyper-parametros básicos.
    
    Entradas:
        @hidden_layer_sizes
            Uma lista cujo tamanho é o número de camadas internas
            e os elementos representam o número de neurônios respec
            tivos a cada camada.
            Exemplos: 
                [100, 50] = Duas camadas intermediárias, a primeira 
                com 100 e a segunda com 50 neurônios.

                [20] = Uma única camada intermediária com 20 neurô
                nios.
                
        @learning_rate
            Fator que regula a velocidade de aprendizado, ou o tamanho
            do ajuste nos pesos a cada iteração do gradiente.
            
        @epochs
            Número de iterações do gradiente em batch.
            
        @hidden_layer_activation
            Determina a função de ativação usada nas camadas internas 
            da rede, usando a função sigmoid (logistíca) como padrão.
            Para a camada de saída é aplicado, por padrão, a função 
            sigmoid a problemas binários e softmax a problemas multi-
            classe.
            
        @leaky_relu_factor
            Aplicável apenas quando hidden_layer_activation=LeakyReLU
            
    '''
    def __init__(self, hidden_layer_sizes=[100], #100 neuronios, camada unica | [100,50,10] --> exemplo: 3 camadas intermediarias
                 learning_rate=0.001, #quanto mais alto, mais agressiva a atualização; mais baixo, mais de boinha kk
                 epochs=200,
                 hidden_layer_activation="Sigmoid",
                 leaky_relu_factor=0.01):
        
        self.hidden_layer_sizes = hidden_layer_sizes
        self.learning_rate = learning_rate
        self.epochs = epochs
        self.hidden_layer_activation = hidden_layer_activation
        self.leaky_relu_factor = leaky_relu_factor
        
        return
    
    
    '''
    Inicializa os pesos com valores aleatoreos entre 0 e 0.5.
    Entradas:
        @n
            Número de atributos nos dados de treino.
            
    Saidas:
        @self.parameters
            variável membro da classe onde são guardados os pesos e 
            bias para cada uma das camadas.
    '''
    def _initialize_weights(self, n):
        p = {}
        L = len(self.hidden_layer_sizes)

        previous_size = n
        for l in range(1, L+1):
            current_size = self.hidden_layer_sizes[l-1] # PREENCHER
            #Inicia os valores entre 0 e 0.5, cujo tamanho eh (n0,n1) neuronios da camada input=n0 e camanda hidden=n1
            p['W' + str(l)] = np.random.uniform(low=0.0, high=0.5, size=(previous_size,current_size)) # PREENCHER
            #Inicia os valores entre 0 e 0.5, de tamanho 1 x tamanho da camada hidden n1
            p['b' + str(l)] = np.random.uniform(low=0.0, high=0.5, size=(1,current_size)) # PREENCHER
            previous_size = current_size # PREENCHER

        #Inicia os valores entre 0 e 0.5, cujo tamanho eh (n1,n2) neuronios da camada hidden=n1 e camada output=n2
        p['WOut'] = np.random.uniform(low=0.0, high=0.5, size=(current_size,1)) # PREENCHER
        #Inicia os valores entre 0 e 0.5, de tamanho 1 x tamanho da camada output n2
        p['bOut'] = np.random.uniform(low=0.0, high=0.5, size=(1,1)) # PREENCHER
            
        self.parameters = p
        return


    '''
    Dada a consolidação linear dos atributos em z, 
    esta função calcula a ativação do neurônio se-
    gundo a fórmula definida em f.
    Entradas:
        @z
            z = WX + B
        @f
            Tipo de função de ativação: Sigmoid (logística), ReLU etc. 
    '''
    #Formulas no slide 40
    def _activation(self, z, f="Sigmoid"):
        
        if f == "Sigmoid": #função logistica 1 / 1 + ..., slide 40 tbm acho
            # PREENCHER
            # ----------------------------
            return 1 / (1 + np.exp(-z))
            # ----------------------------
        
        elif f == "ReLU": ##slide 40
            # PREENCHER
            # Dica: para definir esta função
            # são necessários dois passos:
            #  1. Definir a função por cálculo lambda
            #  2. Vetorizar o cálculo com np.vectorize
            function = lambda t: 0 if t<0 else t
            vlfunc = np.vectorize(function)
            
            # ----------------------------
            return vlfunc(z)
            # ----------------------------
        
        elif f == "LeakyReLU": #feita pelo prof (pode usar pra preencher a reLu também)
            factor  = self.leaky_relu_factor
            function = lambda t: t*factor if t<0 else t # PREENCHER (prof disse que a ReLu é igual essa linha só que o t*factor muda alguma coisa parece)
            
            vfunc = np.vectorize(function)
            return vfunc(z)
       

    '''
    Propaga os valores de entrada dos atributos até a saída,
    fornendo uma predição para cada registro baseado nos pesos
    e nos bias. 
    Entradas:
        @X
            Conjunto de valores para os atributos de entrada,
            com m linhas e n colunas.
    Saidas:
        @yhat_out
            Vetor com predições para cada um dos m registros.
    '''
    def feedforward(self, X): #slide 35
        self.parameters['A0'] = X
        L = len(self.hidden_layer_sizes) + 1

        # Hidden layers
        for l in range(1, L): #calculo por camada
            # PREENCHER
            # Dica: Estas variáveis podem
            # ser obtidas no dicionário
            # self.parameters
            # ----------------------------
            
            A_previous_h = self.parameters['A' + str(l - 1)]
            #Wh = None # acho que é o dic que foi criado na classe
            Wh = self.parameters['W' + str(l)]
            #bh = None # esse tbm é o dic
            bh = self.parameters['b' + str(l)]
            # ----------------------------
            
            # PREENCHER com a fórmula da 
            # agregação linear do perceptron
            # ----------------------------
            #z_l = None #Calcula o Z -> laranjinha
            z_l = A_previous_h.dot(Wh) + bh
            # ----------------------------
            
            #A elevado a L
            yhat_l = self._activation(z_l, f=self.hidden_layer_activation)
            
            # PREENCHER guardando os valores
            # de A e Z computados para a camada
            # ----------------------------
            self.parameters['A' + str(l)] = yhat_l
            self.parameters['Z' + str(l)] = z_l
            # ----------------------------
        
        # Output layer
        A = self.parameters['A' + str(l)]
        W = self.parameters['WOut']
        b = self.parameters['bOut']
        
        z_out = A.dot(W) + b 
        
        yhat_out = self._activation(z_out, f="Sigmoid")
        
        self.parameters['AOut'] = yhat_out
        self.parameters['ZOut'] = z_out

        return yhat_out
      
    '''
    Converte as saídas decimais da rede em classes binária.
    Entradas:
        @yhat_dec
            Predições da rede, em formato decimal.
    Saidas:     
        @y_pred
            Predições da rede, em formato binário.
    '''
    def _decision_threshold(self, yhat_dec):
        threshold = 0.5
        y_pred = (yhat_dec > threshold) * 1
        return y_pred

    '''
    Usa os pesos calibrados durante o processo de treino para
    predizer novas amostras.
    Entradas:
        @x
            Matriz com registros a serem previstos. Deve apre-
            sentar os mesmos n atributos usados no treino, sob
            o mesmo pré-processamento.
    Saidas:     
        @yhat
            Predições da rede, em formato binário.
    '''
    def predict(self, x):
        yhat = self._decision_threshold(self.feedforward(x))
        return yhat
    

    
    #-------------------------------------------------------------------------
    # PARTE 2 - Back Propagation
    #-------------------------------------------------------------------------
    
    '''
    Função que calcula o custo (erro) do modelo baseada
    em entropia cruzada. 
    Entradas:
        @y
            Valor real (classe) dos registros.
        @yhat
            Valor previsto pelo modelo para os registros.
    Saidas:
        @J
            Custo do modelo, indicando quão próximas do
            real foram as predições.
    '''
    def _cost_function(self, y, yhat):
        m = len(y)
        
        yhat = np.where(yhat==0, 0.000000000000001, yhat)
        yhat = np.where(yhat==1, 0.999999999999999, yhat)
            
        t1 = np.multiply(y, np.log(yhat))
        t2 = np.multiply((1.0 - y), np.log(1.0 - yhat))
        
        J = np.sum(-(t1 + t2))/m
        return J
    
    
    '''
    Calcula as derivadas da função de ativação, para cada ponto.
    Entradas:
        @x
            Dominio de f(x), valores usados na entrada de f.
        @y
            Imagem de f(x), valores de saída de f.
        @f
            Tipo de função de ativação: Sigmoid (logística), ReLU etc. 
    '''
    def _activation_derivative(self, x, y, f="Sigmoid"):
        
        #OLHAR A SEGUNDA COLUNA DO SLIDE 40, DERIVATIVE, PRA FAZER AS EQUAÇÕES ABAIXO
        if f == "Sigmoid":
            # PREENCHER
            # ----------------------------
            return np.multiply(y, (1 - y)) # y * (1-y),. terceira fórmula
            # ----------------------------
        
        elif f == "ReLU": #acho que é a sexta formula
            # PREENCHER
            # Dica: para definir esta função
            # são necessários dois passos:
            #  1. Definir a função por cálculo lambda
            #  2. Vetorizar o cálculo com np.vectorize
            # ----------------------------
            function = lambda t: 0 if t<0 else 1
            vlfunc = np.vectorize(function)
            
            # ----------------------------
            return vlfunc(x)
            # ----------------------------
        
        elif f == "LeakyReLU": #usar na ReLu tbm
            factor  = self.leaky_relu_factor
            function = lambda t: factor if t<0 else 1 # PREENCHER
            
            vfunc = np.vectorize(function)
            return vfunc(x)
    
    
    '''
    Calcula a derivada da função de custo para cada registro.
    Entradas:
        @y
            Valor real (classe) dos registros.
        @yhat
            Valor previsto pelo modelo para os registros.
    '''
    def _cost_derivative(self, y, yhat, f="CrossEntropy"):
        
        if f == "CrossEntropy":
            a = np.where(yhat==0, 0.000000000000001, yhat)
            a = np.where(a==1,    0.999999999999999, a)
            
            function = lambda y,a: -(y/a) + (1-y)/(1-a)
            dA_func = np.vectorize(function)
            
        return dA_func(y, a)
            
    '''
    Executa uma rodada de atualização dos pesos da rede,
    para todas as camadas.
    Entradas:
        @y
            Valor real (classe) dos registros.
        @yhat
            Valor previsto pelo modelo para os registros.
    Saidas:     
        @self.parameters
            Atualiza os parâmetros diretamente na variável 
            interna self.parameters.
    '''
    def backpropagation(self, yhat, y):
        m = len(y)
        L = len(self.hidden_layer_sizes)
    
        # Output layer
        #------------
        A = yhat
        
        A_previous = self.parameters['A' + str(L)]
        Z =  self.parameters['ZOut']
        W =  self.parameters['WOut']
        
        ghat = self._activation_derivative(x=Z, y=yhat, f="Sigmoid")
        dA = self._cost_derivative(y, yhat, f="CrossEntropy")
   
        dZ =  dA * ghat #SLIDE 50, EQUAÇÃO LARANJINHA
        dW = (1/m) * A_previous.T.dot(dZ) # a partir do dZ, vê quanto contribuiu
        dB = (1/m) * np.sum(dZ,axis=0,keepdims=True)
        dA_previous =  dZ.dot(W.T)    
        
        self.parameters['WOut'] -= self.learning_rate * dW
        self.parameters['bOut'] -= self.learning_rate * dB#até aqui é o slide 50

        
        # Hidden layers
        #------------
        for l in reversed(range(1, L+1)): # falando disso no video às 16:20
            A_previous = self.parameters['A' + str(l - 1)]
            A = self.parameters['A' + str(l)]
            Z = self.parameters['Z' + str(l)]
            W = self.parameters['W' + str(l)]
            
            ghat = self._activation_derivative(x=Z, y=A, f=self.hidden_layer_activation)
            
            dA = dA_previous
            dZ =  dA * ghat
            
            # PREENCHER com as derivadas 
            # parciais
            # ----------------------------
            dW = (1/m) * A_previous.T.dot(dZ) #só olhar na parte de cima, só mudando a camada
            dB = (1/m) * np.sum(dZ,axis=0, keepdims=True) #olhar ali em cima, antes do for tbm
            dA_previous = dZ.dot(W.T)           # esse tbm
            # ----------------------------
            
            # PREENCHER com a fórmula de
            # atualização dos pesos e bias
            # ----------------------------
            self.parameters['W' + str(l)] -= self.learning_rate * dW #olhar ali em cima antes do for, pra camada de saida
            self.parameters['b' + str(l)] -= self.learning_rate * dB
            

        return
    
    
    '''
    Para fins de debug, exibe os pesos correntes da rede.
    '''
    def _print_parameters(self):
        L = len(self.hidden_layer_sizes) + 1
        
        print("Layer Output")
        print(self.parameters['WOut'])
        print(self.parameters['bOut'])
        
        for l in reversed(range(1, L)):
            print("Layer %d" %(l))
            print(self.parameters['W' + str(l)])
            print(self.parameters['b' + str(l)])
        
        return
    
    
    '''
    Calibra os parâmetros da rede para os dados fornecidos,
    executando rodadas de propagação (feedforward) e retro-
    propagação (backpropagation) por iterações definadas em
    epochs.
    Entradas:
        @x
            Matriz de treino, com m exemplos e n atributos
        @y
            Atributo alvo z ser previsto.
    Saidas:     
        @self.parameters
            Atualiza os parâmetros diretamente na variável 
            interna self.parameters.
    '''
    def fit(self, x, y):
        (m, n) = x.shape
        self._initialize_weights(n)

        cost = 0 
        for epoch in range(0, self.epochs):
            # PREENCHER com os outputs do
            # MLP.
            # ----------------------------
            yhat = self.feedforward(x) # função pra propagar
            # ----------------------------
            
            cost = self._cost_function(y, yhat)
            
            if (self.epochs > 100):
                if (self.epochs > 1000):
                    if (epoch % 100 == 0):
                        print("*INFO Epoch %d, cost = %.8f" %(epoch, cost))
                else:
                    if (epoch % 10 == 0):
                        print("*INFO Epoch %d, cost = %.8f" %(epoch, cost))
            else:
                print("*INFO Epoch %d, cost = %.8f" %(epoch, cost))
 
            # PREENCHER: Qual procedimento está faltando?
            # ----------------------------
            self.backpropagation(yhat,y) # função pra corrigir os erros
            # ----------------------------
        return

# 2. Testes e aplicações

## 2.1 Dataset: Ocupação de ambiente

In [74]:
df = pd.read_csv("https://raw.githubusercontent.com/brvnl/MultilayerPerceptron/master/datatraining.txt")

X2 = df[["Temperature", "Humidity", "Light", "CO2", "HumidityRatio"]].copy()
Y2 = df["Occupancy"].copy()

scaler = StandardScaler()
numerical_columns = ["Temperature", "Humidity", "Light", "CO2", "HumidityRatio"]
X2[numerical_columns] = scaler.fit_transform(X2[numerical_columns])

X2_train, X2_test, Y2_train, Y2_test = train_test_split(X2, 
                                                    Y2, 
                                                    test_size=0.33, 
                                                    random_state=42)

In [75]:
model2 = MLP_Facens(hidden_layer_sizes=[100],
                   learning_rate=0.5, 
                   epochs=200,
                   hidden_layer_activation="LeakyReLU")
                   #hidden_layer_activation="Sigmoid")

In [76]:
model2.fit(X2_train.values,Y2_train.values.reshape((len(Y2_train),1)))

*INFO Epoch 0, cost = 10.22814485
*INFO Epoch 10, cost = 0.79203324
*INFO Epoch 20, cost = 0.47647558
*INFO Epoch 30, cost = 0.26151456
*INFO Epoch 40, cost = 0.12989133
*INFO Epoch 50, cost = 0.11475066
*INFO Epoch 60, cost = 0.10416449
*INFO Epoch 70, cost = 0.09627376
*INFO Epoch 80, cost = 0.09014958
*INFO Epoch 90, cost = 0.08525222
*INFO Epoch 100, cost = 0.08124771
*INFO Epoch 110, cost = 0.07791759
*INFO Epoch 120, cost = 0.07511184
*INFO Epoch 130, cost = 0.07272317
*INFO Epoch 140, cost = 0.07067214
*INFO Epoch 150, cost = 0.06889833
*INFO Epoch 160, cost = 0.06735471
*INFO Epoch 170, cost = 0.06600402
*INFO Epoch 180, cost = 0.06481629
*INFO Epoch 190, cost = 0.06376714


In [71]:
yh2 = model2.predict(X2_test) 

In [72]:
print(confusion_matrix(Y2_test, yh2))
print(classification_report(Y2_test, yh2))

[[2119    0]
 [ 569    0]]
              precision    recall  f1-score   support

           0       0.79      1.00      0.88      2119
           1       0.00      0.00      0.00       569

    accuracy                           0.79      2688
   macro avg       0.39      0.50      0.44      2688
weighted avg       0.62      0.79      0.70      2688



  _warn_prf(average, modifier, msg_start, len(result))


In [59]:
yh2_2 = model2.predict(X2_train) 
print(confusion_matrix(Y2_train, yh2_2))
print(classification_report(Y2_train, yh2_2))

[[4295    0]
 [1160    0]]
              precision    recall  f1-score   support

           0       0.79      1.00      0.88      4295
           1       0.00      0.00      0.00      1160

    accuracy                           0.79      5455
   macro avg       0.39      0.50      0.44      5455
weighted avg       0.62      0.79      0.69      5455

