# Regressão linear: Regularização

## O que vamos fazer?
- Implementar a função de custo regularizada para a regressão linear multivariável 
- Implementar a regularização para o gradient descent

In [19]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Criação de um dataset sintético

Para comprovar a sua implementação de uma função de custo e gradient descent regularizado, resgatar as suas células dos notebooks anteriores para os dataset sintéticos e gerar um dataset para este exercício.

Não esquecer de acrescentar um termo de bias a *X* e um termo de erro a *Y*, inicializado a 0.

In [20]:
# TODO: Gerar um dataset sintéticos manualmente, com o termo de bias e o termo de erro inicializados a 0.

m = 1000
n = 3

X = np.random.rand(m, n) * 100    # matriz com valores aleatórios de 0 a 100
X = np.insert(X, 0, 1.0, axis=1)  # Adiciona a coluna de 1s

Theta_verd = np.random.rand(n+1)

Y = X @ Theta_verd

# Comprovar os valores e dimensões dos vetores
print('Theta a estimar e as suas dimensões') 
print(Theta_verd, Theta_verd.shape)
print()

print('Primeiras 10 filas e 5 colunas de X e Y:')
print("X:", X[:10])
print("Y:", Y[:10])
print()

print('Dimensões de X e Y:') 
print(X.shape, Y.shape)

Theta a estimar e as suas dimensões
[0.85821972 0.07355824 0.62169114 0.2187661 ] (4,)

Primeiras 10 filas e 5 colunas de X e Y:
X: [[ 1.         73.18466991 22.38385299 42.79131065]
 [ 1.         52.85483023 65.72485892 69.57290066]
 [ 1.         49.82657813 42.28908332 24.3558428 ]
 [ 1.         31.69165285 39.21012308 99.13883681]
 [ 1.         48.66642219 11.90438595 36.27566465]
 [ 1.         92.91569268 77.11973636 88.83824868]
 [ 1.         73.14812027 55.66788444 98.13014093]
 [ 1.         36.48437995 97.26701745 82.3360809 ]
 [ 1.         57.2478898  29.51001085 43.43685771]
 [ 1.          4.85996975 61.24549027  9.61020007]]
Y: [29.51868636 60.82688244 36.14235606 49.25420483 19.77477301 75.07238831
 62.3146454  82.02433251 32.91789788 41.39387492]

Dimensões de X e Y:
(1000, 4) (1000,)


## Função de custo regularizada

Agora vamos modificar a nossa implementação da função de custo para adicionar o termo de regularização. 

Recordar que a função de custo regularizada é:

$J_\theta = \frac{1}{2m} [\sum\limits_{i=0}^{m} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j]$

In [21]:
# TODO: Implementar a função de custo regularizada utilizando o seguinte modelo

def regularized_cost_function(x, y, theta, lambda_=0.):
    """ Computar a função de custo para o dataset e coeficientes considerados.
    
    Argumentos posicionais:
     x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Argumentos numerados:
    lambda -- float com o parâmetro de regularização
    
    Devolver:
     j -- float com o custo regularizado para esse array theta 
     """
    theta = np.array(theta)
    
    m = len(x)
    
    # Recordar de verificar as dimensões da multiplicação da matriz para fazer corretamente.
    # Recordar de não regularizar o coeficiente do parâmetro bias (primeiro valor do theta).
    j = (np.sum((x @ theta.T - y) ** 2) + lambda_ * np.sum(theta**2)) / (2 * m)
    
    return j 

Como o dataset sintético tem o termo de erro a 0, a função de custo para o Theta_verd com o parâmetro lambda 0 deve ser exatamente 0.

Como antes, à medida que nos afastamos com valores diferentes de theta, o custo deve aumentar. Do mesmo modo, quanto maior for o parâmetro de regularização, maior será a penalização e o custo, e quanto maior for o valor do theta, maior será a penalização e o custo.

Comprovar a sua implementação nestas 5 circunstâncias:
- Usando Theta_verd e com lambda a 0, o custo deve continuar a ser 0.
- Com lambda 0 ainda, à medida que os valores theta se afastam de Theta_verd, o custo deve ser maior. 
- Usando Theta_verd e com lambda diferente de 0, o custo deve agora ser superior a 0.
- Com lambda diferente de 0, para um theta diferente de Theta_verd o custo deve ser maior do que com lambda igual a 0.
- Com lambda diferente de 0, quanto mais elevados forem os valores dos coeficientes de theta (positivos ou negativos*), maior será a penalização e maior será o custo.

Recordar que o valor do lambda deve ser sempre positivo e inferior a 0: [0, 1e-1, 3e-1, 1e-2, 3e-2, ...]

- Usando Theta_verd e com lambda a 0, o custo deve continuar a ser 0.

In [24]:
# TODO: Comprovar a implementação da sua função de custos regularizada nessas circunstâncias

theta = Theta_verd 
j = regularized_cost_function(X, Y, theta) 

print('Custo do modelo:', j)
print("Novo Theta", theta)
print("Theta Inicial", Theta_verd)

Custo do modelo: 0.0
Novo Theta [0.85821972 0.07355824 0.62169114 0.2187661 ]
Theta Inicial [0.85821972 0.07355824 0.62169114 0.2187661 ]


- Com lambda 0 ainda, à medida que os valores theta se afastam de Theta_verd, o custo deve ser maior.

In [25]:
theta = Theta_verd + 2 # Modificar e testar vários valores do theta
j = regularized_cost_function(X, Y, theta) 
print('Theta:', theta, '\nCusto do modelo:', j)

Theta: [2.85821972 2.07355824 2.62169114 2.2187661 ] 
Custo do modelo: 48392.13249548377


- Usando Theta_verd e com lambda diferente de 0, o custo deve agora ser superior a 0.

In [26]:
lambda_ = 0.1
j = regularized_cost_function(X, Y, Theta_verd, lambda_)
print("Lambda:", lambda_, "\nCusto do modelo:", j)
print()

Lambda: 0.1 
Custo do modelo: 5.881551900551085e-05



- Com lambda diferente de 0, para um theta diferente de Theta_verd o custo deve ser maior do que com lambda igual a 0.

In [36]:
theta = Theta_verd + 2 # Modificar e testar vários valores do theta
lambda_ = 0.1
j = regularized_cost_function(X, Y, theta, lambda_) 
print("Lambda:", lambda_)
print('Theta:', theta, '\nCusto do modelo:', j)

Lambda: 0.1
Theta: [2.85821972 2.07355824 2.62169114 2.2187661 ] 
Custo do modelo: 48392.13370874633


- Com lambda diferente de 0, quanto mais elevados forem os valores dos coeficientes de theta (positivos ou negativos*), maior será a penalização e maior será o custo.

In [37]:
lambda_ = 0.1
theta = Theta_verd + 1 # Modificar e testar vários valores do theta
j = regularized_cost_function(X, Y, theta, lambda_)
print("Theta:", theta)
print("Lambda:", lambda_)
print("Custo do modelo:", j)

Theta: [1.85821972 1.07355824 1.62169114 1.2187661 ]
Lambda: 0.1
Custo do modelo: 12098.03355990998


### Resultado 1

    theta = Theta_verd
    alpha = 0 
    Custo do modelo: 0.0

### Resultado 2 


    lambda = 0
    Theta: [2.85821972 2.07355824 2.62169114 2.2187661 ] 
    Custo do modelo: 48392.13249548377
 

### Resultado 3

    theta = Theta_verd
    Lambda: 0.1 
    Custo do modelo: 5.881551900551085e-05

### Resultado 4

    
Lambda: 0.1    
Theta: [2.85821972 2.07355824 2.62169114 2.2187661 ]     
Custo do modelo: 48392.13370874633

### Resultado 5

    Theta: [1.85821972 1.07355824 1.62169114 1.2187661 ]
    Lambda: 0.1
    Custo do modelo: 12098.03355990998

## Gradient descent regularizado

Agora vamos regularizar também a formação por gradient descent. Vamos modificar as atualizações de *Theta* para que agora contenham também o parâmetro de regularização *lambda*:

$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i \\
\theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i + \frac{\lambda}{m} \theta_j] \\
\theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i \\
j \in [1, n]$

In [None]:
# TODO: Implementar a função que forma o modelo por gradient descent regularizado

def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e, iter_):
    """ Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    alpha -- float, ratio de formação
    
    Argumentos numerados (keyword):
    lambda -- float com o parâmetro de regularização
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    # TODO: declarar valores por defeito para e e iter_ nos argumentos nomeados (palavra-chave) da função.
    
    iter_ = int(iter_) # Se declarou iter_ em notação científica (1e3) ou float (1000.), converter
    
    # Inicializar j_hist como uma list ou um array Numpy. Recordar que não sabemos que tamanho terá eventualmente
    j_hist = [...]
    
    m, n = [...] # Obter m e n a partir das dimensões de X
   
    for k in [...]: # Iterar sobre o número máximo de iterações
        theta_iter = [...] # Declarar um theta para cada iteração, pois precisamos de a atualizar.
        
        for j in [...]: # Iterar sobre o número de características
            # Atualizar theta_iter para cada característica, de acordo com a derivada da função de custo
            # Incluir o ratio de formação alpha
            # Cuidado com as multiplicações matriciais, a sua ordem e dimensões
            
            if j > 0:
                pass # Regularizar tudo coeficiente exceto o do parâmetro bias (primeiro coef.)
            
            theta_iter[j] = theta[j] - [...] 
            
        theta = theta_iter
        
        cost = cost_function([...]) # Calcular o custo para a atual iteração theta
        
        j_hist[...] # Adicionar o custo da iteração atual ao histórico de custos.
        
        # Comprovar se a diferença entre o custo da iteração atual e o custo da última iteração em valor absoluto é  inferior à diferença mínima para declarar a convergência, e
        # absoluto são inferiores que a diferença mínima para declarar a convergência, e
        if k > 0 and [...]:
            print('Convergir na iteração n.º: ', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

### Teste

In [None]:
def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e=1e-3, iter_=1000):
    """ Formar o modelo otimizando a sua função de custo por gradient descent """
    iter_ = int(iter_)  # Converter para inteiro
    j_hist = []  # Histórico de custos
    
    m, n = x.shape  # Obter m e n a partir das dimensões de X
    
    for k in range(iter_):
        theta_iter = theta.copy()  # Copiar theta para a iteração atual
        
        # Calcular a hipótese
        h = x @ theta_iter
        
        for j in range(n):  # Iterar sobre o número de características
            if j == 0:
                # Atualizar theta_0 (não regularizado)
                theta_iter[j] = theta[j] - (alpha / m) * np.sum(h - y)
            else:
                # Atualizar theta_j (regularizado)
                theta_iter[j] = theta[j] - (alpha / m) * (np.sum(h - y) * x[:, j] + (lambda_ * theta[j]))
        
        theta = theta_iter  # Atualizar theta para a próxima iteração
        
        # Calcular o custo para a iteração atual
        cost = regularized_cost_function(x, y, theta, lambda_)
        j_hist.append(cost)  # Adicionar o custo ao histórico
        
        # Verificar a convergência
        if k > 0 and abs(j_hist[-1] - j_hist[-2]) < e:
            print('Convergir na iteração n.º:', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

## Teste Versao2

In [37]:
def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e=1e-3, iter_=1000):
    """ Formar o modelo otimizando a sua função de custo por gradient descent """
    iter_ = int(iter_)  # Converter para inteiro
    j_hist = []  # Histórico de custos
    
    m, n = x.shape  # Obter m e n a partir das dimensões de X
    
    for k in range(iter_):
        theta_iter = theta.copy()  # Copiar theta para a iteração atual
        
        # Calcular a hipótese
        h = x @ theta_iter
        
        # Atualizar theta_0 (não regularizado)
        theta_iter[0] = theta[0] - (alpha / m) * np.sum(h - y)
        
        # Atualizar theta_j (regularizado) para j = 1, ..., n
        for j in range(1, n):
            theta_iter[j] = theta[j] * (1 - (alpha * lambda_ / m)) - (alpha / m) * np.sum((h - y) * x[:, j])
        
        theta = theta_iter  # Atualizar theta para a próxima iteração
        
        # Calcular o custo para a iteração atual
        cost = regularized_cost_function(x, y, theta, lambda_)
        j_hist.append(cost)  # Adicionar o custo ao histórico
        
        # Verificar a convergência
        if k > 0 and abs(j_hist[-1] - j_hist[-2]) < e:
            print('Convergir na iteração n.º:', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

### Versao 3

In [38]:
def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e=1e-3, iter_=1e3):
    """ Formar o modelo otimizando a sua função de custo por gradient descent regularizado """
    
    iter_ = int(iter_)  # converter para inteiro se necessário
    m, n = x.shape
    j_hist = []

    for k in range(iter_):
        theta_iter = theta.copy()
        h = x @ theta  # predição h(x)
        error = h - y  # erro

        for j in range(n):
            grad = (1 / m) * np.sum(error * x[:, j])
            if j == 0:
                theta_iter[j] = theta[j] - alpha * grad  # sem regularização para θ0
            else:
                reg_term = (lambda_ / m) * theta[j]
                theta_iter[j] = theta[j] * (1 - alpha * lambda_ / m) - alpha * grad

        theta = theta_iter
        cost = regularized_cost_function(x, y, theta, lambda_)
        j_hist.append(cost)

        if k > 0 and abs(j_hist[-2] - j_hist[-1]) < e:
            print('Convergência alcançada na iteração:', k)
            break
    else:
        print('N.º máx. de iterações alcançado')

    return j_hist, theta

*Nota*: Recordar que os modelos de código são apenas uma ajuda. Ocasionalmente, poderá querer usar códigos diferentes com a mesma funcionalidade, por exemplo, iterar sobre elementos de uma forma diferente, etc. Sinta-se à vontade para os modificar como desejar

Para comprovar a sua implementação, mais uma vez, comprovar com *lambda* usando vários valores de *Theta*, tanto o *Theta_verd* como valores cada vez mais afastados do mesmo, e comprovar se eventualmente o modelo converge para o *Theta_verd* :

In [49]:
theta_ini = np.random.randn(n + 1)

print('Theta inicial:')
print(theta_ini)

alpha = 1e-1
lambda_ = 0.1
e = 1e-3
iter_ = 1e3

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, '| Erro máx.:', e, '| Nº iterações:', iter_)

print()
x_ = X[:, 0]
x_mean = np.mean(x_, axis=0)
x_std = np.std(x_, axis=0)
x = (x_ - x_mean) / x_std
print("Media:", x_mean, "\nDesv. Padrao:", x_std, "\nEstabilidade:", x)

print()

# Treinar modelo
t = time.time()
j_hist, theta_final = regularized_gradient_descent(X, Y, theta_ini, alpha, lambda_, e, iter_)
print('Tempo de formação (s):', time.time() - t)

# Resultados
print('\nÚltimos 10 valores da função de custo:')
print(j_hist[-10:])

print('\nCusto final:')
print(j_hist[-1])

print('\nTheta final:')
print(theta_final)

print('\nValores verdadeiros de Theta e diferença:')
print(Theta_verd)
print(theta_final - Theta_verd)

Theta inicial:
[ 0.66200211 -0.25358023 -1.06055696 -0.25274972]
Hiper-parâmetros usados:
Alpha: 0.1 | Erro máx.: 0.001 | Nº iterações: 1000.0

Media: 1.0 
Desv. Padrao: 0.0 
Estabilidade: [nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan

  x = (x_ - x_mean) / x_std
  j = (np.sum((x @ theta.T - y) ** 2) + lambda_ * np.sum(theta**2)) / (2 * m)
  if k > 0 and abs(j_hist[-2] - j_hist[-1]) < e:
  theta_iter[j] = theta[j] * (1 - alpha * lambda_ / m) - alpha * grad


In [None]:
# TODO: Testar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
lambda_ = 0. 
e = 1e-3
iter_ = 1e3 # Verificar se a sua função pode suportar valores de float ou modificá-los.

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent([...]) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist[...])
print('\Custo final:') 
print(j_hist[...]) 
print('\nTheta final:') 
print(theta_final)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final - Theta_verd)

Agora confirmar novamente a formação de um modelo em algumas das circunstâncias acima referidas:

- Usando um theta_ini aleatório e com lambda a 0, o custo final deverá ser ainda próximo de 0 e o theta final próximo de Theta_verd. 
- Usando um theta_ini aleatório e com lambda pequeno e diferente de 0, o custo final deve ser próximo de 0, embora o modelo possa começar a perder precisão.
- À medida que o valor lambda aumenta, o modelo vai perdendo mais precisão.

Lembre-se que pode alterar os valores das células e voltar a executar as células. 

Anotar os seus resultados nesta célula:

1. Resultado1
1. Resultado2
1. Resultado3