# Regressão linear: Exemplo sintético com Scikit-learn

## O que vamos fazer?

- Resolver um modelo de regressão linear multivariável usando o Scikit-learn.

Após desenvolver uma implementação manual do algoritmo de regressão linear multivariável exclusivamente em Numpy, pudemos ver em 
profundidade os passos a seguir, como funciona o algoritmo matemático interno, e como todos os hiper-parâmetros o afetam.

Tendo uma boa compreensão de como estes modelos ML funcionam, vamos ver como utilizá-los com as funções do framework do ML da 
Scikit-learn

Neste exercício, terá um modelo em branco com os passos que seguimos nos exercícios anteriores, que terá de completar com o seu código seguindo esses passos, mas desta vez utilizando algumas funções Scikit-learn.

Em cada célula iremos sugerir uma função Scikit-learn que poderá utilizar. Não lhe daremos mais informações sobre o assunto aqui, porque queremos que o procure na documentação: como funciona, os algoritmos que implementa (alguns deles serão ligeiramente diferentes dos que vimos no curso, não se preocupe uma vez que o importante é a base), argumentos, exemplos, etc.

Parece óbvio, mas estou certo de que concordará connosco que a capacidade de saber como encontrar a informação relevante na documentação é muito importante, e muitas vezes pode custar-nos um pouco mais do que deveria :).

Aproveite a oportunidade para mergulhar mais profundamente na documentação e descobrir aspetos interessantes do framework. Iremos continuar a trabalhar com ele em exercícios posteriores.

In [None]:
# TODO: Importar de todos os módulos necessários para esta célula

import numpy as np
from matplotlib import pyplot as plt

## Criar um dataset sintético para regressão linear

- Adicionar um termo de bias e de erro modificável.

In [None]:
# TODO: Criar um dataset sintético para regressão linear com Scikit-learn
# Pode usar a função sklearn.datasets.make_regression()
# Recordar de usar sempre um dado estado inicial aleatório para manter a reprodutibilidade.

## Pré-processar os dados

- Reordená-los aleatoriamente. 
- Normalizá-los.
- Dividi-los em subsets de formação e testes.

*Nota*:  Porque é que utilizamos 2 subsets de formação e testamos apenas uma vez, sem CV? Porque vamos utilizar a *k-fold* para a nossa validação cruzada.

In [None]:
# TODO: Reordenar os dados aleatoriamente
# Pode usar a função sklearn.utils.shuffle()

In [None]:
# TODO: Normalizar os exemplos
# Pode usar a classe sklearn.preprocessing.StandardScaler()

*Nota*:  Esta escalada é equivalente à normalização básica que vimos durante o curso. Outra normalização mais conveniente em modelos mais avançados mas mais complexa de compreender seria a implementada em *sklearn.preprocessing.normalize.*

Pode encontrar todas as classes e funções de pré-processamento disponíveis aqui: [Sklearn docs: 6.3. Preprocessing data](https://scikit-learn.org/stable/modules/preprocessing.html)

E um gráfico de comparação:: [Compare the effect of different scalers on data with outliers](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html)

In [1]:
# TODO: Dividir os dataset e os subset de formação e testes
# Pode usar a função sklearn.model_selection.train_test_split()

## Formar um modelo inicial

- Formar um modelo inicial sobre o subset de formação sem regularização. 
- Comprovar a adequação do modelo.
- Comprovar se há desvio ou sobreajuste

Para formar um modelo simples de regressão linear multivariável, pode utilizar a classe [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)

Pode consultar um exemplo completo de formação: [Linear Regression Example](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py)

In [None]:
# TODO: Formar um modelo de regressão linear mais simples sobre o subset de formação sem regularização.
# Ajustar o termo intercept/bias e não normalizar as características, uma vez que já as normalizámos.

Comprovar a adequação do modelo aplicado a este dataset. Para isso pode-se usar:
- O coeficiente de determinação R^2 do método [LinearRegression.score()](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.score)
- A função [sklearn.metrics.mean_squared_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error)
- A função [sklearn.metrics.r2_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score)

Testar os 3 métodos para os conhecer melhor e ver as suas possíveis diferenças:

In [None]:
# TODO: Comprovar a adequação do modelo, avaliando-o no subset de teste:
# Comprovar as 3 métricas anteriores

A fim de comprovar se pode haver desvio ou sobreajuste, podemos calcular, por exemplo, o erro médio ao quadrado nas previsões do subset de formação e do subset de teste:

In [2]:
# TODO: Comprovar se a avaliação sobre ambos os subsets é semelhante com o mean_squared_error

## Encontrar a regularização ótima através de validação cruzada

- Formar um modelo por cada valor de regularização a considerar.
- Forma-os e avalia-os sobre uma divisão do subset de formação por K-fold. 
- Escolher o modelo e a sua regularização ótimos.

Vamos agora utilizar um algoritmo de regressão linear mais complexo, o [sklearn.linear_model.Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge)  que nos permite definir um parâmetro de regularização L2

Nesta função, este parâmetro é chamado *alpha*, embora não deva ser confundido com a ratio de aprendizagem.

A regularização L2 é ligeiramente diferente do parâmetro *lambda* que vimos durante o curso, embora partilhem uma base comum. É a regularização implementada pela maioria dos algoritmos de Scikit-learn, embora pela sua complexidade não a vamos estudar aqui.

Embora, claro, possa fazer mais investigação sobre o assunto, se quiser!

Considerar uns parâmetros de regularização L2 no intervalo logarítmico [0, 0,1]: 0,1, 0,01, 0,001, 0,0001, 0,0001, etc. 

Pode ser guiado por esta ligação: [K-fold](https://scikit-learn.org/stable/modules/cross_validation.html#k-fold)

In [None]:
# TODO: Formar um modelo diferente por cada alpha sobre um fold de K-fold diferente

# Utilizar uma função Numpy para criar um espaço logarítmico de 5 valores entre [0, 0.,].
alphas = [...]

# Criar 5 splits de K-fold
kf = [...]

# Itera sobre os 5 splits, para os seus modelos e avalia-os no subset do CV gerado
linear_models = [] 
best_model = None
for train, cv in kf.split(X):
    # Formar um modelo sobre o subset train
    # Recordar estabelecer o parâmetro alfa correspondente, ajustar o bias e não normalizar
    # Avaliar sobre o subset cv usando o seu método de score()
    # Guardar o modelo com a melhor score na variável best_model e exibir o alfa do melhor modelo.
    alpha = [...]
    print('Regularização L2 usada:', alpha) 
    
    linear_models[...] = [...]
    
    # Se o modelo for melhor do que o melhor modelo até agora.
    best_model = [...]
    print('Regularização L2 do melhor modelo até agora:', alpha))

## Avaliar o modelo finalmente sobre o subset de teste

- Mostrar os coeficientes e intercept do melhor modelo. 
- Avaliar o melhor modelo sobre o subset de teste inicial. 
- Calcular os resíduos no subset de teste e representá-los.

In [None]:
# TODO: Avaliar o melhor modelo sobre o subset de teste inicial

# Mostrar os coeficientes e intercept do melhor modelo formado
print('Coeficientes de intercept do modelo formado') print()
    # Mostra o intercept como o primeiro coeficiente

# Realizar as previsões sobre o subset de teste
y_test_pred = [...]

# Calcular a métrica de avaliação do modelo: erro quadrático médio e coeficiente de determinação.
mse = [...]
r2_score = [...]

print('Erro quadrático médio: %.2f' % mse) 
print('Coeficiente de determinação: %.2f' % r2_score)

# Calcular os resíduos no subset de teste
res = [...]

# Representar graficamente
plt.figure(1)

# Completar com o seu código
plt.show()

## Fazer previsões sobre novos exemplos

- Gerar um novo exemplo seguindo o mesmo padrão que o dataset original. 
- Normalizar as suas características.
- Gerar uma previsão para esse exemplo.

In [None]:
#  TODO: Fazer previsões sobre um novo exemplo criado manualmente

# Criar o novo exemplo
X_pred = [...]

# Normalizar as suas características
X_pred = [...]

# Gerar uma previsão para esse exemplo.
y_pred = [...]