# Laboratório #6

### Instruções

1. Quando você terminar os exercícios do laboratório, vá ao menu do Jupyter ou Colab e selecione a opção para fazer download do notebook.
    * Os notebooks tem extensão .ipynb. 
    * Este deve ser o arquivo que você irá entregar.
    * No Jupyter vá até a opção **File** -> **Download as** -> **Notebook (.ipynb)**.
    * No Colab vá até a opção **File** -> **Download .ipynb**.
2. Após o download do notebook, vá até a aba de tarefas do MS Teams, localize a tarefa referente a este laboratório e faça o upload do seu notebook. Veja que há uma opção de anexar arquivos à tarefa.
3. Não se esqueça de colocar seu **nome** e **matrícula** na célula de texto abaixo.

**Nome**:

**Matrícula**:

## Exercícios

#### 1)  Neste exercício, iremos utilizar duas das estratégias de validação cruzada para encontrar a ordem ideal para uma função hipótese polinomial que será usada para aproximar um conjunto de dados ruidoso.

Dada a seguinte **função observável**

$$y_{noisy}(n) = y(n) + w(n),$$

onde $w$ é vetor coluna com $N = 1000$ (ou seja, o número de exemplos) valores retirados de uma distribuição aleatória Gaussiana com média igual a 0 e variância igual a 9 e $y$ é a **função objetivo**. Neste exercício, a **função objetivo** (ou **modelo gerador**) é dada por:

$$y(n) = 31.5 + 2.0x + 10\cos(2\pi f_{0}x),  $$

onde $x$ é um vetor coluna com $N$ valores linearmente espaçados entre 0 e 25.

A **função hipótese** para este exercício é **polinomial** e tem a seguinte forma

$$h(n) = a_0 + a_1 x(n) + a_2 x(n)^2 + \cdots + a_M x(n)^M.$$

A tarefa aqui é encontrar os pesos e o valor ideal para $M$, ou seja, a ordem da função hipótese polinomial de tal forma que ela consiga aproximar bem os dados observados.

**DICAS**:

+ Para resolver as questões deste laboratório, se baseie no código do seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/master/notebooks/regression/validacao_cruzada.ipynb).
+ Todas as funções usadas para gerar gráficos neste laboratório estão definidas no arquivo `lab6_functions.py`, que se encontra na mesma pasta que este notebook.

De posse destas informações, faça o seguinte:

1. Execute o trecho de código abaixo e analise os resultados gerados.

**DICAS**

+ A execução da célula de código abaixo leva um certo tempo, pois é necessário baixar o repositório do github.

In [None]:
# Import all the necessary libraries.
import numpy as np
import timeit
import matplotlib.pyplot as plt
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from sklearn.model_selection import LeavePOut
import urllib
# Retrieve file.
url = 'https://raw.githubusercontent.com/zz4fap/t319_aprendizado_de_maquina/main/labs/lab6_functions.py'
urllib.request.urlretrieve(url, filename='./lab6_functions.py')
import lab6_functions as lab6

# Reset PN sequence generator.
seed = 42
np.random.seed(seed)

# Number of examples.
N = 1000

# Frequency of the sinusoidal signal.
f0 = 200

# Attribute.
x = np.linspace(0, 25, N).reshape(N, 1)

# True model.
y = 31.5 + 2.0*x + 10.0*np.cos(2.0*np.pi*f0*x)

# Noise.
w = 3*np.random.randn(N,1)

# Observable function.
y_noisy = y + w

# Plot comparison between true and noisy model.
plt.plot(x, y_noisy, '.', label='Noisy signal')
plt.plot(x, y, linewidth=4, label='True signal')
plt.xlabel('$x$', fontsize=14)
plt.ylabel('$y$', fontsize=14)
plt.grid()
plt.legend()
plt.show()

2. Usando a estratégia de validação cruzada conhecida como **holdout**, encontre a ordem ideal para que uma função hipótese polinomial aproxime bem o conjunto de dados gerado no exercício anterior. Para avaliar qual é a ordem ideal para o polinômio aproximador, plote a curva do erro quadrático médio (MSE) versus a ordem do polinômio.

**DICAS**
+ Use o **holdout** com 70% do conjunto original para treinamento e 30% para validação.
+ Analise polinômios com ordens variando de 1 até 30 **incluso**.
+ Configure o parâmetro `include_bias` para `True`, ou seja, `include_bias=True`.
+ Use a função `plotHoldOutResults` do módulo `lab6_functions` que foi importado como `lab6` para plotar os resultados obtidos com o **holdout**. A função espera 3 parâmetros de entrada, na seguinte sequência: 
    * **poly_orders**: lista com as ordens dos polinômios sendo testados.
    * **mse_train_vec**: lista com os valores do MSE obtido com o conjunto de treinamento para cada uma das ordens testadas.
    * **mse_val_vec**: lista com os valores do MSE obtido com o conjunto de validação para cada uma das ordens testadas.

In [None]:
# Digite o código do exercício aqui.

3. Usando a estratégia de validação cruzada conhecida como **k-Fold**, encontre a ordem ideal para que uma função hipótese polinomial aproxime bem o conjunto de dados gerado no exercício anterior. Para avaliar qual é a ordem ideal para o polinômio aproximador, plote as curvas da média do erro quadrático médio (MSE) de validação versus a ordem do polinômio e do desvio padrão versus a ordem do polinômio.

**DICAS**
+ Use o **k-Fold** com **k** igual a 5.
+ Configure o parâmetro `shuffle` da classe `KFold` como `True`, ou seja, `shuffle=True`.
+ Analise polinômios com ordens variando de 1 até 30 **incluso**.
+ Configure o parâmetro `include_bias` para `True`, ou seja, `include_bias=True`.
+ Use a função `plotKFoldResults` do módulo `lab6_functions` que foi importado como `lab6` para plotar os resultados obtidos com o **holdout**. A função espera 3 parâmetros de entrada, na seguinte sequência: 
    * **poly_orders**: lista com as ordens dos polinômios sendo testados.
    * **kfold_mean_vec**: lista com os valores da média do MSE obtidos para cada ordem testada.
    * **kfold_std_vec**: lista com os valores do desvio padrão do MSE obtidos para cada ordem testada.

In [None]:
# Digite o código do exercício aqui.

4. Após analisar os resultados obtidos com as validações cruzadas do **holdout** e do **k-Fold**, reponda qual é a melhor ordem de polinômio para aproximar os dados. **Justifique sua resposta.**

**DICAS**
* Lembre-se do princípio da navalha de Occam para escolher a melhor ordem.

<span style="color:blue">Digite aqui a resposta do exercício.</span>

**Resposta**

5. Em seguida, de posse da melhor ordem de polinômio que aproxima os dados observados, treine um modelo com esta ordem e faça predições (ou seja, use o modelo treinado para **predizer** os valores de $y$ com os valores de $x$.) com todos os dados observados.

**DICAS**

* Utilize **padronização de atributos** com a classe `StandardScaler` da biblioteca SciKit-Learn.
* Voce pode criar uma sequência de ações (`PolynomialFeatures`, `StandardScaler` e `LinearRegression`) utilizando a classe `Pipeline` da biblioteca SciKit-Learn. Veja o notebook de exemplo.

In [None]:
# Digite o código do exercício aqui.

6. Plote um gráfico que compare o mapeamento verdadeiro com as versões ruidosa e predita dos dados.

In [None]:
# Digite o código do exercício aqui.

7. O que aconteceria se você tivesse escolhido uma ordem de polinômio igual a 5? Treine um modelo com ordem igual a 5, faça predições (ou seja, use o modelo treinado para **predizer** os valores de $y$ com os valores de $x$.) com todos os dados observados e, em seguida, plote um gráfico que compare o mapeamento verdadeiro com as versões ruidosa e predita dos dados.

In [None]:
# Digite o código do exercício aqui.

8. Explique o resultado obtido, ou seja, explique se o modelo foi capaz ou não de aproximar o modelo gerador. **Justifique** sua resposta com base na flexibilidade e no grau de generalização do modelo.

<span style="color:blue">Digite aqui a resposta do exercício.</span>

**Resposta**