<h1>Aula 12 - Regularização L1 e L2 na Regressão Logística</h1>

O programa abaixo implementa uma Regressão Logística com a função de ativação Softmax. Repare que no algoritmo do gradiente descendente a atualiação é feita de acordo com uma chamada para uma função de regularização:

self._regularizer.reg(self._W, alpha, self._m)

Nessa aula você irá implementar a regularização L1 e L2, com o objetivo de ver o comportamento dos pesos resultantes do modelo com os dois esquemas de regularização. Para tal, basta implementar o método 'reg' das classes L1 e L2 no código abaixo. 

Para relembrar, a atualização do gradiente com regularização L1 é o seguinte:
\begin{equation}
w_i \gets w_i - \alpha \frac{\lambda sign(w_i)}{m} - \alpha\frac{1}{m} \bigg(\sum_{x,y} (h_{\theta}(x) - y) x_i \bigg)
\end{equation}

E a atualização L2:
\begin{equation}
w_i \gets w_i \bigg(1 - \alpha \frac{\lambda}{m} \bigg) - \alpha \frac{1}{m} \bigg( \sum_{x, y} (h_{\theta}(x) - y) x_i \bigg ) \,,
\end{equation}

onde $m$ é o tamanho do conjunto de treinamento, $\lambda$ é o parâmetro da regularização que indica a força de regularização e $\alpha$ é a taxa de aprendizagem utilizada no gradiente descendente. A função $sign(x)$ é a função sinal, que retorna $-1$ se $x < 0$, 0 se $x = 0$ e $+1$ se $x > 0$. A biblioteca Numpy oferece uma implementação dessa função, no código abaixo: np.sign(x).






In [None]:
from keras.datasets import mnist
import matplotlib.pyplot as plt
import numpy as np

In [None]:
class Regularizer:
    def __init__(self, lamb):
        self._lamb = lamb
    
    def reg(self, W, alpha, m):
        raise NotImplementedError
        
class L1(Regularizer):
    def reg(self, W, alpha, m):
        #Implemente aqui a regularização L1
        
        # W=W-alpha*(W)/m -alpha*(1/m)
         W = W - (alpha*W/m - alpha*1/W)# ( (E * self.derivative_sigmoid(A)).dot(self._x_train.T) ))

class L2(Regularizer):
    def reg(self, W, alpha, m):
        
        #Implemente aqui a regularização L2
       # W=W*(1 -alpha*self._lamb/m)-alpha*(1/m)
         W=W*(1-alpha*lamb/m)-alpha*(1/m)


In [None]:
class LogisticRegressionSoftmax:
    
    def __init__(self, x_train, y_train, x_test, y_test, regularizer):
        """
        Constructor assumes a x_train matrix in which each column contains an instance.
        Vector y_train contains one integer for each instance, indicating the instance's label. 
        
        Constructor initializes the weights W and B, alpha, and a one-vector Y containing the labels
        of the training set. Here we assume there are 10 labels in the dataset. 
        """
        self._x_train = x_train
        self._y_train = y_train
        self._x_test = x_test
        self._y_test = y_test
        self._m = x_train.shape[1]
        self._regularizer = regularizer
                
        self._W = np.random.randn(10, 784) * 0.01
        self._B = np.zeros((10, 1))
        self._Y = np.zeros((10, m))

        for index, value in enumerate(labels):
            self._Y[value][index] = 1
            
    def plot_digit(self, digit):
        plt.imshow(self._W[digit, :].reshape(28, 28), cmap='gray')
        plt.show()

    def softmax(self, Z):
        """
        Computes the softmax value for all values in vector Z
        """
        Z = Z - np.max(Z)
        temp = np.exp(Z)
        return temp / np.sum(temp, axis=0)

    def h_theta(self, X):
        """
        Computes the value of the hypothesis according to the logistic regression rule
        """
        Z = self._W.dot(X) + self._B
        return self.softmax(Z)     
    
    def train(self, iterations, alpha):
        """
        Performs a number of iterations of gradient descend equals to the parameter 'iterations' passed as input,
        with a learning rate of 'alpha'.
        """
        
        for i in range(iterations):
            A = self.h_theta(self._x_train)

            pure_error = (A - self._Y)
            self._W = self._regularizer.reg(self._W, alpha, self._m) - alpha * pure_error.dot(self._x_train.T) / self._m
            self._B = self._B - alpha * np.sum(pure_error, axis=1, keepdims=True) / self._m

            if i % 100 == 0:
                classified_correctly = np.sum(np.argmax(A, axis=0) == np.argmax(self._Y, axis=0))
                Y_hat_test = self.h_theta(images_test)
                test_correct = np.count_nonzero(np.argmax(Y_hat_test, axis=0) == self._y_test)
                
                print('Train: %.2f \t Validation: %.2f' % ((classified_correctly / m) * 100, (test_correct)/len(self._y_test) * 100))

<h2>Experimento 1: Regularização L1</h2>

O trecho de código abaixo irá executar o treinamento por 1500 iterações do gradiente descendente com $\alpha = 0.01$ sem regularização e com regularização L1 ($\lambda = 0.01$). Em seguida serão impressos na tela as imagens dos pesos da Regressão Logística correspondentes a cada um dos dígitos. 

Você consegue explicar os valores de acurácia e as imagens de pesos impressas na tela? O que acontece quando utilizamos regularização L1? 

In [None]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

m = 10000
images, labels = (x_train[0:m].reshape(m, 28*28) / 255, y_train[0:m])
images = images.T

images_test = x_test.reshape(x_test.shape[0], 28*28) / 255
images_test = images_test.T

print('Without Regularization')
log_reg_softmax = LogisticRegressionSoftmax(images, labels, images_test, y_test, L1(0))
log_reg_softmax.train(1500, 0.01)
for i in range(0, 10):
    log_reg_softmax.plot_digit(i)

print()
print('With Regularization L1')
log_reg_softmax = LogisticRegressionSoftmax(images, labels, images_test, y_test, L1(0.01))
log_reg_softmax.train(1500, 0.01)
for i in range(0, 10):
    log_reg_softmax.plot_digit(i)

<h2>Experimento 2: Regularização L2</h2>

O trecho de código abaixo irá executar o treinamento por 1500 iterações do gradiente descendente com $\alpha = 0.01$ com regularização L2 ($\lambda = 0.01$). Em seguinda serão impressos na tela as imagens dos pesos da Regressão Logística correspondentes a cada um dos dígitos. 

Como você explica as diferenças entre as imagens de pesos do modelo com L1 e com L2? 

In [None]:
log_reg_softmax = LogisticRegressionSoftmax(images, labels, images_test, y_test, L2(0.01))
log_reg_softmax.train(1500, 0.01)

print('With Regularization L2')
for i in range(0, 10):
    log_reg_softmax.plot_digit(i)