# Regressão linear: Regularização

## O que vamos fazer?
- Implementar a função de custo regularizada para a regressão linear multivariável 
- Implementar a regularização para o gradient descent

In [None]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Criação de um dataset sintético

Para comprovar a sua implementação de uma função de custo e gradient descent regularizado, resgatar as suas células dos notebooks anteriores para os dataset sintéticos e gerar um dataset para este exercício.

Não esquecer de acrescentar um termo de bias a *X* e um termo de erro a *Y*, inicializado a 0.

In [None]:
# TODO: Gerar um dataset sintéticos manualmente, com o termo de bias e o termo de erro inicializados a 0.

m = 1000
n = 3

X = [...]

Theta_verd = [...]

Y = [...]

# Comprovar os valores e dimensões dos vetores
print('Theta a estimar e as suas dimensões') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:')
print()
print()

print('Dimensões de X e Y:') 
print()

## Função de custo regularizada

Agora vamos modificar a nossa implementação da função de custo para adicionar o termo de regularização. 

Recordar que a função de custo regularizada é:

$J_\theta = \frac{1}{2m} [\sum\limits_{i=0}^{m} (h_\theta(x^i)-y^i)^2 + \lambda \sum\limits_{j=1}^{n} \theta^2_j]$

In [None]:
# TODO: Implementar a função de custo regularizada utilizando o seguinte modelo

def regularized_cost_function(x, y, theta, lambda_=0.):
    """ Computar a função de custo para o dataset e coeficientes considerados.
    
    Argumentos posicionais:
     x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Argumentos numerados:
    lambda -- float com o parâmetro de regularização
    
    Devolver:
     j -- float com o custo regularizado para esse array theta 
     """
    m = [...]
    
    # Recordar de verificar as dimensões da multiplicação da matriz para fazer corretamente.
    # Recordar de não regularizar o coeficiente do parâmetro bias (primeiro valor do theta).
    j = [...]
    
    return j

Como o dataset sintético tem o termo de erro a 0, a função de custo para o Theta_verd com o parâmetro lambda 0 deve ser exatamente 0.

Como antes, à medida que nos afastamos com valores diferentes de theta, o custo deve aumentar. Do mesmo modo, quanto maior for o parâmetro de regularização, maior será a penalização e o custo, e quanto maior for o valor do theta, maior será a penalização e o custo.

Comprovar a sua implementação nestas 5 circunstâncias:
- Usando Theta_verd e com lambda a 0, o custo deve continuar a ser 0.
- Com lambda 0 ainda, à medida que os valores theta se afastam de Theta_verd, o custo deve ser maior. 
- Usando Theta_verd e com lambda diferente de 0, o custo deve agora ser superior a 0.
- Com lambda diferente de 0, para um theta diferente de Theta_verd o custo deve ser maior do que com lambda igual a 0.
- Com lambda diferente de 0, quanto mais elevados forem os valores dos coeficientes de theta (positivos ou negativos*), maior será a penalização e maior será o custo.

Recordar que o valor do lambda deve ser sempre positivo e inferior a 0: [0, 1e-1, 3e-1, 1e-2, 3e-2, ...]

In [None]:
# TODO: Comprovar a implementação da sua função de custos regularizada nessas circunstâncias

theta = Theta_verd # Modificar e testar vários valores do theta

j = regularized_cost_function(X, Y, theta) 

print('Custo do modelo:')
print(j)
print('Theta comprovado e Theta real:') 
print(theta)
print(Theta_verd)

Anotar os seus resultados nesta célula:

1. Resultado1
1. Resultado2
1. Resultado3
1. Resultado4
1. Resultado5

## Gradient descent regularizado

Agora vamos regularizar também a formação por gradient descent. Vamos modificar as atualizações de *Theta* para que agora contenham também o parâmetro de regularização *lambda*:

$\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_0^i \\
\theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i + \frac{\lambda}{m} \theta_j] \\
\theta_j := \theta_j (1 - \alpha \frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=0}^{m}(h_\theta (x^i) - y^i) x_j^i \\
j \in [1, n]$

In [None]:
# TODO: Implementar a função que forma o modelo por gradient descent regularizado

def regularized_gradient_descent(x, y, theta, alpha, lambda_=0., e, iter_):
    """ Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    alpha -- float, ratio de formação
    
    Argumentos numerados (keyword):
    lambda -- float com o parâmetro de regularização
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    # TODO: declarar valores por defeito para e e iter_ nos argumentos nomeados (palavra-chave) da função.
    
    iter_ = int(iter_) # Se declarou iter_ em notação científica (1e3) ou float (1000.), converter
    
    # Inicializar j_hist como uma list ou um array Numpy. Recordar que não sabemos que tamanho terá eventualmente
    j_hist = [...]
    
    m, n = [...] # Obter m e n a partir das dimensões de X
   
    for k in [...]: # Iterar sobre o número máximo de iterações
        theta_iter = [...] # Declarar um theta para cada iteração, pois precisamos de a atualizar.
        
        for j in [...]: # Iterar sobre o número de características
            # Atualizar theta_iter para cada característica, de acordo com a derivada da função de custo
            # Incluir o ratio de formação alpha
            # Cuidado com as multiplicações matriciais, a sua ordem e dimensões
            
            if j > 0:
                pass # Regularizar tudo coeficiente exceto o do parâmetro bias (primeiro coef.)
            
            theta_iter[j] = theta[j] - [...] 
            
        theta = theta_iter
        
        cost = cost_function([...]) # Calcular o custo para a atual iteração theta
        
        j_hist[...] # Adicionar o custo da iteração atual ao histórico de custos.
        
        # Comprovar se a diferença entre o custo da iteração atual e o custo da última iteração em valor absoluto é  inferior à diferença mínima para declarar a convergência, e
        # absoluto são inferiores que a diferença mínima para declarar a convergência, e
        if k > 0 and [...]:
            print('Convergir na iteração n.º: ', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

*Nota*: Recordar que os modelos de código são apenas uma ajuda. Ocasionalmente, poderá querer usar códigos diferentes com a mesma funcionalidade, por exemplo, iterar sobre elementos de uma forma diferente, etc. Sinta-se à vontade para os modificar como desejar

Para comprovar a sua implementação, mais uma vez, comprovar com *lambda* usando vários valores de *Theta*, tanto o *Theta_verd* como valores cada vez mais afastados do mesmo, e comprovar se eventualmente o modelo converge para o *Theta_verd* :

In [None]:
# TODO: Testar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
lambda_ = 0. 
e = 1e-3
iter_ = 1e3 # Verificar se a sua função pode suportar valores de float ou modificá-los.

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = regularized_gradient_descent([...]) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist[...])
print('\Custo final:') 
print(j_hist[...]) 
print('\nTheta final:') 
print(theta_final)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final - Theta_verd)

Agora confirmar novamente a formação de um modelo em algumas das circunstâncias acima referidas:

- Usando um theta_ini aleatório e com lambda a 0, o custo final deverá ser ainda próximo de 0 e o theta final próximo de Theta_verd. 
- Usando um theta_ini aleatório e com lambda pequeno e diferente de 0, o custo final deve ser próximo de 0, embora o modelo possa começar a perder precisão.
- À medida que o valor lambda aumenta, o modelo vai perdendo mais precisão.

Lembre-se que pode alterar os valores das células e voltar a executar as células. 

Anotar os seus resultados nesta célula:

1. Resultado1
1. Resultado2
1. Resultado3