# Regressão linear: Comparação de valores de regularização

## O que vamos fazer?
- Criar um dataset sintético para regressão linear multivariável com um termo de erro aleatório.
- Formar 3 modelos diferentes de regressão linear neste dataset, com diferentes valores de *lambda*.
- Comparar o efeito do valor de lambda sobre o modelo, a sua precisão e os seus resíduos graficamente 

## Criar um dataset sintético com erro para formação e teste final

Vamos começar, como de costume, por criar um dataset sintético para regressão linear, com termo bias e termo de erro.

Desta vez vamos criar 2 dataset, um para formação e outro para teste final, seguindo o mesmo padrão, embora com tamanhos diferentes. Vamos formar os modelos com o primeiro dataset e depois verificar com o segundo como se comportariam com dados que não “viram” anteriormente no processo de formação, que são completamente novos para eles.

In [None]:
# TODO: Gerar um dataset sintéticos manualmente, com o termo de bias e o termo de erro 

m = 100
n = 3

X_train = [...]
X_test = [...] # O tamanho do dataset do teste deve ser 25% do original.

Theta_verd = [...] 

error = 0.25 

Y_train = [...]
Y_test = [...]

# Comprovar os valores e dimensões dos vetores
print('Theta a estimar e as suas dimensões') 
print()
print()

# Comprovar X_train, X_test, Y_train e Y_test 
print('Primeiras 10 filas e 5 colunas de X e Y:') 
print()
print() 
print() 
print()

print('Dimensões de X e Y:')
print()
print()

## Formar 3 modelos diferentes com diferentes valores de *lambda*

Agora vamos formar 3 modelos diferentes com diferentes valores de *lambda*.

Para o fazer, comece por copiar as suas células com o código que implementa a função de custo e o gradient descent regularizados:

In [None]:
# TODO: Copiar aqui as células ou o código para implementar 2 funções com a função de custo e o gradient.
# descent regularizados

Vamos formar os modelos. Para o fazer, recordar que com Jupyter pode simplesmente modificar as células de código e as variáveis irão permanecer na memória.

Assim, pode, por exemplo, modificar o nome das seguintes variáveis, mudando “1” para “2” e “3” e simplesmente reavaliar a célula para armazenar os resultados dos 3 modelos.

Se encontrar alguma dificuldade, pode também copiar duas vezes a célula de código e ter 3 células para formar 3 modelos com nomes variáveis diferentes.

In [None]:
# TODO: Comprovar a sua implementação através da formação de um modelo no dataset sintético anteriormente criado.

# Criar um theta inicial com um determinado valor.
theta_ini = [...]

print('Theta inicial:') 
print(theta_ini)

alpha = 1e-1
lambda_ = [1e-3, 1e-1, 1e1] # Vamos usar 3 valores diferentes
e = 1e-3
iter_ = 1e3 # Comprovar se a sua função pode suportar valores de flutuação ou modificá-los.

print('Hiper-parâmetros usados:')
print('Alpha:', alpha, 'Error máx.:', e, 'Nº iter', iter_)

t = time.time()
# Usar lambda_[i],com i na gama [0, 1, 2] para cada modelo
j_hist_1, theta_final_1 = gradient_descent([...]) 

print('Tempo de formação (s):', time.time() - t)

# TODO: completar
print('\nÚltimos 10 valores da função de custo') 
print(j_hist_1[...])
print('\Custo final:') 
print(j_hist_1[...]) 
print('\nTheta final:') 
print(theta_final_1)

print('Valores verdadeiros de Theta e diferença com valores formados:') 
print(Theta_verd)
print(theta_final_1 - Theta_verd)

## Comprovar graficamente o efeito de lambda sobre os modelos

Agora vamos comprovar os 3 modelos entre si.

Vamos começar por comprovar o custo final, uma representação da precisão dos mesmos:

In [None]:
#  TODO: Mostrar o custo final dos 3 modelos:

print('Custo final dos 3 modelos:')
print(j_hist_1[...])
print(j_hist_2[...])
print(j_hist_3[...])

*Como afeta um maior valor de **lambda** ao custo final neste dataset?*

Vamos representar os dataset de formação e teste, para comprovar que seguem um padrão similar:

In [None]:
# TODO: Representar X_train vs Y_train e X_test vs Y_test graficamente

plt.figure(1) 

plt.title([...])
plt.xlabel([...])
plt.ylabel([...])

# Recordar usar cores diferentes
plt.scatter([...])
plt.scatter([...])

# Atreve-se? Procurar na documentação como criar uma legenda das diferentes séries e das suas cores.

plt.show()

Vamos agora comprovar as previsões de cada modelo no dataset de formação, para ver até que ponto a linha se ajusta aos valores de formação em cada caso:

In [None]:
# TODO: Calcular previsões para cada modelo no X_train

Y_train_pred1 = [...]
Y_train_pred2 = [...]
Y_train_pred3 = [...]

In [None]:
# TODO: Para cada modelo, representar graficamente as suas previsões sobre X_train

# Se obtiver um erro com outros gráficos do notebook, usar a linha abaixo ou deixar comentada.
plt.figure(2)

fig, (ax1, ax2, ax3) = plt.subplots(3, sharex=True, sharey=True)
fig.suptitle([...])

ax1.plot()
ax1.scatter()

ax2.plot()
ax2.scatter()

ax3.plot()
ax3.scatter()

Como o dataset de formação tem um termo de erro de 25%, pode haver diferenças significativas entre os dados do dataset de formação e do dataset de teste.

Vamos verificar o que acontece às previsões quando as representamos no dataset do teste, em dados que os modelos não tenham visto antes:

In [None]:
# TODO: Calcular previsões para cada modelo no X_test

Y_test_pred1 = [...]
Y_test_pred2 = [...]
Y_test_pred3 = [...]

In [None]:
# TODO: Para cada modelo, representar graficamente as suas previsões sobre X_test

# Se obtiver um erro com outros gráficos do notebook, usar a linha abaixo ou deixar comentada.
plt.figure(2)

fig, (ax1, ax2, ax3) = plt.subplots(3, sharex=True, sharey=True)
fig.suptitle([...])

ax1.plot()
ax1.scatter()

ax2.plot()
ax2.scatter()

ax3.plot()
ax3.scatter()

O que acontece? Em alguns casos, dependendo dos parâmetros utilizados, pode ser mais ou menos fácil de apreciar.

Quando o modelo tem um fator de regulação lambda baixo ou nulo, ajusta-se demasiado aos dados sobre os quais é formado, conseguindo uma curva muito apertada e a máxima precisão... nesse dataset.

Contudo, na vida real, os dados sobre os quais não formámos o modelo podem chegar mais tarde e ter algumas pequenas variações sobre os dados originais.

Em tal situação, preferimos um valor lambda mais elevado, o que nos permite ter uma maior precisão para os novos dados, mesmo que percamos alguma precisão para os dados do dataset de formação.

Podemos, portanto, pensar na regularização como um estudante que tem as perguntas do exame antes:

- Se depois receber essas perguntas, terá uma pontuação muito alta (ou precisão), uma vez que já “viu” as perguntas de antemão. 
- Se as perguntas forem diferentes, pode obter uma nota muito alta, dependendo de quão semelhantes são.
- No entanto, se as perguntas forem totalmente diferentes, receberá uma nota muito baixa, porque não é que tenha estudado muito o assunto, mas sim que as suas notas eram altas só porque sabia o resultado de antemão

## Comprovar os resíduos no subset de teste final

Para este último ponto não lhe daremos mais instruções, mas será um desafio para si, mesmo que já o tenha resolvido anteriormente.

Ousa calcular os resíduos para os 3 modelos e representá-los graficamente?

Desta forma, poderá comparar os seus 3 modelos nos 2 datasets.

Calcule-os tanto para os dataset de formação como de testes. Pode fazê-lo com células diferentes para poder apreciar as suas diferenças à vez.

Conselhos:
- Tenha cuidado com as escalas dos eixos X e Y ao fazer comparações.
- Para poder vê-los ao mesmo tempo, pode criar 3 subgráficos horizontais, em vez de verticais, com “plt.subplots(1, 3)”.


Se não vir claramente estes efeitos nos seus conjuntos de dados, pode tentar modificar os valores iniciais:

- Com um maior número de exemplos m, para que os modelos possam ser mais precisos.
- Com um termo de erro maior, para que haja mais diferença e variação entre os exemplos.
- Com um dataset de teste menor em relação ao dataset de formação, para que haja mais diferenças entre ambos os dataset (mais dados significa que os valores podem ser mais suavizados).
- Etc.