# Regressão linear: Exemplo sobre dataset sintético

## O que vamos fazer?

- Usar um dataset sintético gerado automaticamente para comprovar a nossa implementação 
- Formar um modelo ML de regressão linear multivariável
- Comprovar a evolução da formação do modelo 
- Avaliar o modelo de uma forma simples
- Fazer previsões sobre novos exemplos futuros

In [None]:
import time
import numpy as np
from matplotlib import pyplot as plt

## Criação do dataset sintético

Vamos criar um dataset sintético para comprovar a nossa implementação.

Segundo os métodos que usámos em exercícios anteriores, criar um dataset sintéticos usando o método Numpy.

Incluir um termo de erro controlável nesse dataset mas iniciar a 0, uma vez que para fazer a primeira implementação deste modelo ML de regressão linear multivariável queremos que não haja nenhum erro nos dados que possam ocultar um erro no nosso modelo.

Mais tarde vamos introduzir um termo de erro com um valor distinto de zero, para comprovar que a nossa implementação pode 
também formar o modelo nestas circunstâncias mais reais.

### O termo de bias ou intercept

Desta vez, vamos gerar o dataset sintético com uma pequena modificação: vamos adicionar uma primeira coluna de 1s a X, ou um 1 
como primeiro valor das características de cada exemplo.

Além disso, uma vez que adicionamos mais uma característica à matriz X, adicionamos mais uma característica ou valor ao vetor Theta.

Porque é que adicionamos esta coluna, este novo termo ou característica?

Porque é a forma mais simples de implementar a equação linear numa única operação de álgebra linear

Desta forma convertemos então $Y = m \times X + b$ en $Y = X \times \Theta$, poupando-nos uma operação de soma e implementando a equação numa única operação de multiplicação da matriz.

O termo b é, portanto, incorporado como o primeiro termo do vetor Theta, que quando multiplicado pela primeira coluna de X, sendo de valor 1 para todas as linhas, permite-nos adicionar o termo b a cada exemplo.

In [None]:
# TODO: Gerar um dataset sintético, com termo de erro inicialmente a 0, sob a forma que escolher

m = 100
n = 3

# Criar uma matriz de números aleatórios no intervalo [-1, 1)
X = [...]

# Inserir um vetor de 1s como primeira coluna de X
# Dicas: np.insert(), np.ones(), índice 0, eixo 1...
X = [...]

# Gerar um vetor de números aleatórios no intervalo [0, 1) de tamanho n + 1 (ao adicionar o termo bias
Theta_verd = [...]

# Gerar o vetor Y com um termo de erro aleatório em %, inicializado a 0
error = 0.

Y = np.matmul(X, Theta_verd) 
Y = Y + [...]

# Verificar os valores e dimensões dos vetores
print('Theta a estimar e as suas dimensões') 
print()
print()

print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print()

print('Dimensões de X e Y:') 
print()

Fixar-se na operação de multiplicação da matriz implementada: $Y = X \times \Theta$

Comprovar as dimensões de cada vetor: X, Y, Theta. 

Acredita que é uma operação possível em termos das regras da álgebra linear?

E ainda assim, foi possível fazê-lo em Numpy? Se tiver dúvidas, pode consultar a documentação Numpy sobre a função np.matmul.

Comprovar o resultado, talvez reduzindo o número original de exemplos e características, e assegurar-se de que é um resultado correto.

## Formação do modelo

Cópia do exercício anterior, a sua implementação da função de custos e a sua otimização por gradient descent:

In [None]:
# TODO: Copiar o código das suas funções de custo e descida do gradiente

def cost_function(x, y, theta):
    
    """ Computar a função de custo para o dataset e coeficientes considerados.
    
    Argumentos posicionais:
     x -- array 2D de Numpy com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila)
    
    Devolver:
     j -- float com o custo para esse array theta 
     """
    
    pass

def gradient_descent(x, y, theta, alpha, e, iter_):
    
    """ Formar o modelo otimizando a sua função de custo por gradient descent
    
    Argumentos posicionais:
    x -- array 2D de Numpu com os valores das variáveis independentes dos exemplos, de tamanho m x n 
    y -- array 1D Numpy com a variável dependente/objetivo, de tamanho m x 1
    theta -- array 1D Numpy com os pesos dos coeficientes do modelo, de tamanho 1 x n (vetor fila) 
    alpha -- float, ratio de formação
    
    Argumentos numerados (keyword):
    e -- float, diferença mínima entre iterações para declarar que a formação finalmente convergiu 
    iter_ -- int/float, número de iterações
    
    Devolver:
    j_hist -- list/array com a evolução da função de custo durante a formação 
    theta -- array Numpy com o valor do theta na última iteração
    
    """
    pass

Vamos utilizar estas funções para formar o nosso modelo ML. 

Recordamos os passos que vamos seguir:
- Iniciar theta com valores aleatórios
- Otimizar theta reduzindo o custo associado a cada iteração dos seus valores.
- Quando tivermos encontrado o valor mínimo da função de custo, tomar o theta associado como os coeficientes do nosso modelo.

Portanto, completar o código na seguinte célula:

In [None]:
# TODO: Formar o seu modelo ML otimizando os seus coeficientes theta por gradient descent

# Inicializar theta com n + 1 valores aleatórios
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1 
e = 1e-4 
iter_ = 1e5

print('Hiper-parâmetros a utilizar:') 

t = time.time()
j_hist, theta = gradient_descent([...])

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist[...])
print('\Custo final:') 
print(j_hist[...]) 
print('\nTheta final:') 
print(theta)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta - Theta_verd)

Comprovar que não se modificou a Theta inicial. A sua implementação deve copiar um novo objeto Python em cada iteração e não o 
modificar durante a formação.

In [None]:
# TODO: Comprovar que não se modificou a Theta inicial

print('Theta inicial e theta final:') 
print(theta_ini)
print(theta)

### Comprovar a formação do modelo

Para comprovar a formação do modelo, vamos representar graficamente a evolução da função de custo, para verificar que não houve 
qualquer grande salto e que este avançou firmemente para um valor mínimo:

In [None]:
# TODO: Representar a evolução da função de custo vs. o número de iterações

plt.figure(1)

plt.title('Função de custo') 
plt.xlabel('Iterações') 
plt.ylabel('Custo')

plt.plot([...]) # Completar a função

plt.show()

## Fazer previsões

Vamos utilizar o theta, o resultado do nosso processo de formação modelo, para fazer previsões sobre novos exemplos que virão no futuro.

Vamos gerar um novo conjunto de dados X seguindo os mesmos passos que os acima referidos. Portanto, se X tiver o mesmo número de características e os seus valores estiverem na mesma gama que o X gerado anteriormente, irá comportar-se da mesma forma que os dados utilizados para formar o modelo.

In [None]:
# TODO: Fazer previsões utilizando o theta calculado.

# Gerar uma nova matriz X com novos exemplos. Utilizar o mesmo número de características e a mesma gama de valores aleatórios, mas um número menor de exemplos (por exemplo, 25% do original).
# mas um número menor de exemplos (por exemplo, 25% do original).
# Recordar de acrescentar o termo bias, ou uma primeira coluna de 1s à matriz.

X_pred = [...]

# Calcular as previsões para estes novos dados
y_pred = [...] # Pista: matmul


print('Previsões:')
print(y_pred)    # Vamos imprimir todos os valores

## Avaliação do modelo

Há várias opções para avaliar o modelo. Neste momento, vamos fazer uma avaliação mais simples, mais rápida e mais informal do 
modelo. Nos próximos módulos do curso veremos como avaliar os nossos modelos de uma forma mais formal e precisa.

Faremos uma avaliação gráfica, para simplesmente verificar se a nossa implementação está a funcionar como esperado.

In [None]:
# TODO: Representar os valores do Y inicial vs X, e o Y previsto para o mesmo vs X.

# Realizar previsões para cada valor do X original com o theta formado pelo modelo.
Y_pred = [...] 

plt.figure(2)

plt.title('Dataset original e previsões') 
plt.xlabel('X')
plt.ylabel('Y')

# Usar um gráfico de pontos com cores diferentes para o Y inicial e o Y previsto.
plt.scatter([...])
plt.scatter([...]) 

plt.show()

Representar também a diferença em valor absoluto entre o Y original e o Y previsto. 

Vamos chamar a esta diferença os **resíduos** do nosso modelo:

In [None]:
#  TODO: Calcular e fazer um gráfico dos resíduos do seu modelo no dataset de formação.

resíduos = [...] 

plt.figure(3)

plt.title('Dataset original e previsões') 
plt.xlabel('X')
plt.ylabel('Resíduos') 

plt.plot(resíduos) 

plt.show()

Se a nossa implementação estiver correta, o nosso modelo deveria ter sido capaz de formar corretamente e ter um resíduo quase nulo, uma diferença quase nula entre os resultados originais (Y) e os resultados que o nosso modelo iria calcular.

Contudo, como nos lembramos, no primeiro ponto criámos um conjunto de dados com o termo de erro a 0. Portanto, cada valor de Y 
não tem nenhuma diferença ou variação aleatória em relação ao seu verdadeiro valor.

Na vida real, ou porque não tivemos em conta todas as características que iriam afetar a nossa variável alvo, ou porque os dados contêm algum pequeno erro, ou porque, em geral, os dados não seguem um comportamento completamente preciso, teremos sempre algum termo de erro, mais ou menos aleatório.

Então, e se voltar à primeira célula e modificar o seu termo de erro, e executar novamente as seguintes células para formar e avaliar um novo modelo de regressão linear sobre dados mais próximos da realidade?

Verifique a robustez da sua implementação desta forma.