# Regressão linear multivariável: Função de custo e gradient descent

## O que vamos fazer?

- Implementar a função de custo para regressão linear multivariável 
- Implementar a otimização da função de custo por gradient descent

In [14]:
import time
import numpy as np

from matplotlib import pyplot as plt

## Tarefa 1: Implementar a função de custo para regressão linear multivariável

Nesta tarefa, deve implementar a função de custo para regressão linear multivariável em Python usando o Numpy. A função de 
custo deve seguir a função incluída nos diapositivos e no manual do curso.

Para o fazer, preencher o código na seguinte célula:

In [47]:
#  TODO: Implementar a função de custo utilizando o seguinte modelo

def cost_function(x, y, theta):
    """ Computar a função de custo para o dataset e coeficientes considerados.
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Devolver:j -- float com o custo para esse array theta 
    """
    # Verificar se os dados estão de acordo
    if not (x.ndim == 2 and theta.ndim == 1 and y.ndim == 1): 
        return False
    
    m = len(y)

    # Calcular o produto escalar entre x e theta
    h = np.dot(x, theta.T)  
    
    # Calculando a função de custo
    j = (1 / (2 * m)) * np.sum((h - y) ** 2)  

    return j

Para comprovar a sua implementação, recuperar o seu código do notebook anterior sobre datasets sintéticos e seguir as 
instruções abaixo:

In [48]:
# TODO: Gerar um dataset sintético, sem termo de erro, sob a forma que escolher
from sklearn.datasets import make_regression

# Gerar dados de regressão linear multivariável
X, Y, Theta_verd = make_regression(n_samples=80,  # Número de amostras
                              n_features=3,  # Número de variáveis independentes (features)
                              noise=0,       # Sem ruído
                              coef=True,     # Retorna os coeficientes verdadeiros
                              random_state=42)  # Para resultados reprodutíveis

# Comprovar os valores e dimensões (forma ou "shape") dos vetores
print('Theta a estimar') 
print("Theta shape:", Theta_verd.shape)
print(Theta_verd)

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print('X:\n', X[:10])  # Primeiras 10 linhas e até 5 colunas de X
print()
print('Y:\n', Y[:10])  # Primeiros 10 valores de Y
print()
print()

print('Dimensões de X e Y:') 
print("X shape:", X.shape)
print("Y shape:", Y.shape)

Theta a estimar
Theta shape: (3,)
[43.89714207  7.84563813  2.53507434]
Primeiras 10 filas e 5 colunas de X e Y:
X:
 [[-0.56228753 -1.01283112  0.31424733]
 [ 0.79103195 -0.90938745  1.40279431]
 [-0.90802408 -1.4123037   1.46564877]
 [ 0.09176078 -1.98756891 -0.21967189]
 [ 0.21645859  0.04557184 -0.65160035]
 [-1.37766937 -0.93782504  0.51503527]
 [-0.2257763   0.0675282  -1.42474819]
 [ 0.68626019 -1.61271587 -0.47193187]
 [-0.03582604  1.56464366 -2.6197451 ]
 [ 0.2766908   0.82718325  0.01300189]]

Y:
 [-31.83248167  31.14550473 -47.22455704 -12.12259519   8.2075983
 -66.52793118 -12.99297505  16.27569357   4.06171861  18.66867653]


Dimensões de X e Y:
X shape: (80, 3)
Y shape: (80,)


Uma vez que o dataset sintético não tem termo de erro, a função de custo para o theta correto deve ser exatamente 0, aumentando 
o seu valor à medida que nos afastamos do mesmo.

Comprovar a sua implementação da função de custo comprovando o seu valor com diferentes valores do seu argumento theta, 
comprovando vários valores desde o Theta errado até valores mais afastados do mesmo:

In [50]:
#TODO: Comprovar a implementação da sua função de custos

# Verificando a função de custo com valores de theta reais
j = cost_function(X, Y, Theta_verd)

print('Custo do modelo:') 
print(j)
print('Theta real:') 
print(Theta_verd)

# Verificando a função de custo com valores de theta aleatórios
theta_errado = np.array([5, 2, 3])  # Um theta dado aleatpriamente
j_errado = cost_function(X, Y, theta_errado)

print('\nCusto com o theta errado:')
print(j_errado)
print('Theta errado:') 
print(theta_errado)

Custo do modelo:
0.0
Theta real:
[43.89714207  7.84563813  2.53507434]

Custo com o theta errado:
482.4341600807497
Theta errado:
[5 2 3]


## Tarefa 2: Implementar a otimização desta função de custo por gradient descent

Agora vamos resolver a otimização dessa função de custo para formar o modelo, mediante o método de gradient descent. O 
modelo será considerado formado quando a sua função de custo tiver atingido um valor mínimo.

Para o fazer, preencher novamente o modelo do código na seguinte célula:

In [None]:
# TODO: Implementar a função que forma o modelo por gradient descent
import math

def gradient_descent(x, y, theta, alpha, e=math.e, iter=5000):
    
    """ Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    alpha -- float, ratio de formação
    
    Argumentos numerados (keyword):
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    # TODO: declarar valores por defeito para e e iter_ nos argumentos nomeados (palavra-chave) da função.
    
    iter_ = int(iter_) # Se declarou iter_ em notação científica (1e3) ou float (1000.), converter
    
    # Inicializar j_hist como uma list ou um array Numpy. Recordar que não sabemos que tamanho terá
    j_hist = []
    
    m, n = x.shape[0], x.shape[1] # Obter m e n a partir das dimensões de X
    
    for k in ietr_: # Iterar sobre o número máximo de iterações
        theta_iter = [100, 100, 100]# Declarar um theta para cada iteração, pois precisamos de a atualizar.
        
        for j in [...]: # Iterar sobre n.º de características
            # Atualizar theta_iter para cada característica, de acordo com a derivada da função de custo
            # Incluir a relação de formação alfa
            # Cuidado com as multiplicações matriciais, a sua ordem e dimensões
            theta_iter[j] = theta[j] - [...]
            
        theta = theta_iter
            
        cost = cost_function([...]) # Calcular o custo para a atual iteração theta
            
        j_hist[...] # Adicionar o custo da iteração atual ao histórico de custos
        
        # Comprovar se a diferença entre o custo da iteração atual e o custo da última iteração em valor 
        # absoluto são inferiores que a diferença mínima para declarar a convergência, e
        if k > 0 and [...]:
            print('Convergir na iteração n.º: ', k)
            
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

# Função BlackBox AI:

In [None]:
def gradient_descent(x, y, theta, alpha, e=1e-6, iter_=1000):
    """ Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    alpha -- float, ratio de formação
    
    Argumentos numerados (keyword):
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    """
    iter_ = int(iter_)  # Converter para inteiro
    j_hist = []  # Inicializar histórico de custos
    m, n = x.shape  # Obter m e n a partir das dimensões de X
    
    for k in range(iter_):  # Iterar sobre o número máximo de iterações
        theta_iter = theta.copy()  # Copiar theta para atualização
        
        for j in range(n):  # Iterar sobre o número de características
            # Atualizar theta_iter para cada característica
            theta_iter[j] = theta[j] - (alpha / m) * np.sum((x.dot(theta) - y) * x[:, j])
        
        theta = theta_iter  # Atualizar theta
        
        cost = cost_function(x, y, theta)  # Calcular o custo para a atual iteração theta
        j_hist.append(cost)  # Adicionar o custo da iteração atual ao histórico de custos
        
        # Verificar a convergência
        if k > 0 and abs(j_hist[-1] - j_hist[-2]) < e:
            print('Convergir na iteração n.º:', k)
            break
    else:
        print('N.º máx. de iterações alcançado')
        
    return j_hist, theta

Para comprovar a sua implementação, mais uma vez, utilizar vários valores de Theta, tanto corretos como valores cada vez mais
afastados do mesmo, e verificar se eventualmente o modelo converge para o correto:

In [None]:
# TODO: Testar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
# Primeiro usar o valor theta correto, depois cada vez mais valores periféricos.
# Finalmente, testar também a sua implementação com valores theta_ini aleatórios
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
e = 1e-3
iter_ = 1e3 # Verificar se a sua função pode suportar valores de flutuação ou modificá-los.

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
j_hist, theta_final = gradient_descent([...]) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist[...])
print('\Custo final:') 
print(j_hist[...]) 
print('\nTheta final:') 
print(theta_final)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final - Theta_verd)

### Representar a função de custo

Representar graficamente o histórico da função de custo para comprovar a sua implementação:

In [None]:
#  TOOD: Representar graficamente a função de custo vs. o n.º de iterações

plt.figure()

plt.title('Função de custo') 
plt.xlabel('nº iterações') 
plt.ylabel('custo')

plt.plot([...]) # Completar

plt.grid()
plt.show()

Para comprovar completamente a implementação destas funções, modificar o dataset sintético original para verificar se a função 
de custo e a formação de gradient descent ainda a funcionar corretamente

Por exemplo, modificar o número de exemplos e o número de características

Acrescentar também uma vez mais um termo de erro ao Y. Neste caso, o Theta inicial e o final podem não corresponder exatamente, pois introduzimos erro ou “ruído” no dataset de formação.

Finalmente, verificar todos os hiper-parâmetros da sua implementação. Utilizar vários valores de alfa, e, número de iterações, etc., e comprovar se os resultados são os esperados..