# Projeto Final - T319 (1S2025)

### Instruções

1. Quando você terminar os exercícios do projeto, vá até o menu do Colab ou Jupyter e selecione a opção para fazer download do notebook.
    * Os notebooks tem extensão .ipynb.
    * Este deve ser o arquivo que você irá entregar.
    * No Colab vá até a opção **File** -> **Download .ipynb**.
    * No Jupyter vá até a opção **File** -> **Download as** -> **Notebook (.ipynb)**.
2. Após o download do notebook, vá até a aba de tarefas do MS Teams, localize a tarefa referente a este projeto e faça o upload do seu notebook. Veja que há uma opção para anexar arquivos à tarefa.
3. Atente-se ao prazo de entrega definido na tarefa do MS Teams. Entregas fora do prazo não serão consideradas.
4. **O projeto pode ser resolvido em grupos de no MÁXIMO 3 alunos**.
5. Todas as questões têm o mesmo peso.
6. Questões copiadas de outros grupos serão anuladas em todos os grupos com a mesma resposta.
7. Não se esqueça de colocar seu(s) nome(s) e número(s) de matrícula no campo abaixo. Coloque os nomes dos integrantes do grupo no campo de texto abaixo.
8. Você pode consultar todo o material de aula e laboratórios.
9. A interpretação faz parte do projeto. Leia o enunciado de cada questão atentamente!
10. Boa sorte!

**Nomes e matrículas**:

1. Nome do primeiro aluno - Matrícula do primeiro aluno
2. Nome do segundo aluno - Matrícula do segundo aluno
3. Nome do terceiro aluno - Matrícula do terceiro aluno

## Exercícios

### 1) Previsão do Desempenho de Hardware de Computadores

O conjunto de dados Computer Hardware contém informações sobre características técnicas de computadores de diferentes fabricantes, com o objetivo de estimar seu desempenho medido pelo ERP (Estimated Relative Performance). Sua tarefa será desenvolver um modelo de regressão para prever o ERP com base nas características técnicas dos sistemas. A tabela abaixo aprenta os atributos e o rótulo.


| Nome do Atributo | Descrição                                 | Tipo        | Unidade/Faixa                   |
|-------------------|-------------------------------------------|-------------|---------------------------------|
| **vendor**        | Fabricante do computador                  | Categórico  | Strings, 30 valores (ex: IBM, HP, Siemens) |
| **model** | Modelo | Categórico | Strings com os nomes dos modelos |
| **MYCT**          | Tempo do ciclo da máquina (Machine Cycle Time) | Numérico    | Nanossegundos (ns)             |
| **MMIN**          | Memória principal mínima                  | Numérico    | Kilobytes (KB)                 |
| **MMAX**          | Memória principal máxima                  | Numérico    | Kilobytes (KB)                 |
| **CACH**          | Memória cache                             | Numérico    | Kilobytes (KB)                 |
| **CHMIN**         | Número mínimo de canais de I/O            | Numérico    | Unidades                        |
| **CHMAX**         | Número máximo de canais de I/O            | Numérico    | Unidades                        |
| **PRP**           | *Published Relative Performance* (desempenho relativo publicado) | Numérico | Escala adimensional           |
| **ERP**           | **Rótulo (Target):** *Estimated Relative Performance* (desempenho relativo estimado) | Numérico | Escala adimensional |


1. Execute a célula de código abaixo para baixar e criar a base de dados.

In [None]:
# Importando bibliotecas necessárias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pandas import DataFrame
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# Carregamento dos Dados
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/machine.data"
columns = ['vendor', 'model', 'MYCT', 'MMIN', 'MMAX', 'CACH', 'CHMIN', 'CHMAX', 'PRP', 'ERP']
df = pd.read_csv(url, header=None, names=columns)

# Imprime as 5 primeiras linhas da base de dados.
print(df.head())

# Criando a matriz de atributos, removendo as colunas vendor e model, pois são strings, e as colunas PRP e ERP, pois são os possíveis rótulos. Entretanto, usaremos apenas a coluna ERP como rótulo.
X = df.drop(["vendor", "model", "PRP", "ERP"], axis=1)
# Criando o vetor de rótulos.
y = df.ERP

2. Divida o conjunto de dados em 80% para validação e 20% para teste.

In [None]:
# Digite o código do item aqui.

3. Padronize os conjuntos de treinamento e teste.

**DICAS**
+ Use a classe `StandardScaler`.
+ Não se esqueça que os parâmetros de padronização devem ser calculados com o conjunto de treinamento e aplicados aos conjuntos de treinamento e teste.

In [None]:
# Digite o código do item aqui.

4. Treine um regressor linear com o conjunto de treinamento e calcule o erro quadrático médio com o conjunto de teste. Imprima o valor do erro.

**DICAS**
+ Use a classe `LinearRegression`.
+ Você pode usar a função `mean_squared_error` para calcular o erro.

In [None]:
# Digite o código do item aqui.

5. Neste item, verificaremos se um regressor polinomial consegue apresentar um desempenho melhor, ou seja, apresentar um erro menor.

Portanto, usando a estratégia de validação cruzada **k-Fold**, encontre a ordem ideal para que uma função hipótese polinomial aproxime bem o conjunto de dados. Para avaliar qual é a ordem ideal para o polinômio aproximador, plote gráficos com a média e o desvio padrão do erro quadrático médio (EQM) em função dos graus de polinômio considerados. Para isso:

   1. Use o **k-Fold** com **k** igual a 5.
   2. Configure o parâmetro `shuffle` da classe `KFold` como `True`, ou seja, `shuffle=True`.
   3. Faça a análise de polinômios de ordem 1 até 7, **inclusive**.
   4. Desabilite a inclusão da coluna do atributo de bias ao instanciar a classe `PolynomialFeatures` utilizando o parâmetro `include_bias=False`.
   5. Use a classe `StandardScaler` para padronizar os atributos.
   6. Use todo o conjunto de dados, ou seja, `X` e `y`, para realizar a validação cruzada.

**DICAS**

+ Crie um pipeline de ações com objetos das classes `PolynomialFeatures`, `StandardScaler` e `LinearRegression`.
+ O tempo de execução desse exercício é de aproximadamente 10 minutos, mas pode variar de computador para computador, portanto, pegue um café e tenha paciência.
+ Para resolver este item, se baseie no seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/main/notebooks/regression/validacao_cruzada.ipynb).
+ **Atenção, não basta apenas copiar o código do exemplo dado, você precisa alterá-lo.**

In [None]:
# Digite o código do item aqui.

6. Após analisar os resultados obtidos com a validação cruzada **k-Fold**, responda qual é a melhor ordem de polinômio para aproximar os dados. **Justifique sua resposta.**

**DICA**

* Lembre-se do princípio da navalha de Occam para escolher a melhor ordem.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

7. De posse da melhor ordem, treine um novo modelo considerando esta ordem e ao final imprima o valor do erro quadrático médio para o conjunto de teste.

**DICAS**

+ Treine com o conjunto de treinamento e cacule o erro com o conjunto de teste.
+ Desabilite a inclusão da coluna do atributo de bias ao instanciar a classe `PolynomialFeatures` utilizando o parâmetro `include_bias=False`.
+ Use a classe `StandardScaler` para normalizar os dados.

In [None]:
# Digite o código do item aqui.

8. O erro obtido no item anterior é menor do que o erro obtido no item 4 deste exercício? **Justifique sua resposta**.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

9. Neste item, iremos remover valores discrepantes dos atributos. Valores discrepantes podem distorcer modelos de regressão (e.g., aumentar o erro quadrático médio), especialmente em datasets pequenos.

Para identificar e remover tais valores, usaremos o Intervalo Interquartil (IQR). O IQR é uma medida estatística robusta para identificar valores discrepantes. Valores fora do intervalo $[Q1 - 1.5*IQR, Q3 + 1.5*IQR]$ são considerados discrepantes. A remoção de valores discrepantes melhora a generalização do modelo e reduz o impacto de valores extremos em algoritmos sensíveis (e.g., regressão).

Execute a célula de código abaixo para remover os valores discrepantes.

**DICAS**
+ Além de remover os valores discrepantes, o código abaixo cria uma nova base de daos, sem tais valores, e a divide em novos conjuntos de treinamento e validação.

In [None]:
# Selecionar features numéricas
numeric_features = ['MYCT', 'MMIN', 'MMAX', 'CACH', 'CHMIN', 'CHMAX']

df = df.drop(["vendor", "model", "PRP"], axis=1)

# Calcular IQR para cada feature
Q1 = df[numeric_features].quantile(0.25)
Q3 = df[numeric_features].quantile(0.75)
IQR = Q3 - Q1

# Definir limites
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrar dados
df_clean = df[
    ~((df[numeric_features] < lower_bound) | (df[numeric_features] > upper_bound)).any(axis=1)
]

# Criando um novo dataset, mas desta vez sem amostras discrepantes.
X = df_clean.drop(["ERP"], axis=1)
y = df_clean.ERP

# Divide o novo conjunto em conjuntos de treinamento e validação.
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size = 0.2, random_state=42)

# Criar figura com 2 subplots lado a lado
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Plotar boxplot antes da remoção (subplot esquerdo)
sns.boxplot(data=df[numeric_features], ax=axes[0])
axes[0].set_title("Antes da Remoção de Outliers")
axes[0].tick_params(axis='x', rotation=45)  # Rotacionar labels se necessário

# Plotar boxplot após remoção (subplot direito)
sns.boxplot(data=df_clean[numeric_features], ax=axes[1])
axes[1].set_title("Após Remoção de Outliers (IQR)")
axes[1].tick_params(axis='x', rotation=45)

# Ajustar layout e mostrar
plt.tight_layout()
plt.show()

10. De posse dos novos conjuntos de treinamento e teste sem valores discrepantes e da melhor ordem encontrada no item 5 deste exercício, treine um novo modelo considerando os novos conjuntos e esta ordem e ao final imprima o valor do erro quadrático médio para o conjunto de teste.

**DICAS**

+ Treine com o conjunto de treinamento e cacule o erro com o conjunto de teste.
+ Desabilite a inclusão da coluna do atributo de bias ao instanciar a classe `PolynomialFeatures` utilizando o parâmetro `include_bias=False`.
+ Use a classe `StandardScaler` para normalizar os dados.

In [None]:
# Digite o código do item aqui.

11. O erro obtido no item anterior é menor do que o erro obtido no item 7 deste exercício? **Justifique sua resposta**.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

### 2) Exercício sobre validação cruzada

Neste exercício, você irá utilizar uma estratégia de **validação cruzada** para encontrar a ordem ideal para uma função hipótese que será usada para aproximar um conjunto de dados ruidosos.

A **função observável** deste exercício é gerada utilizando-se a função `generateDataSetv3` do módulo `util_functions_aux`.

A **função hipótese** para este exercício é **polinomial** em uma únicavariável, $x$, e tem a seguinte forma

$$h(n) = a_0 + a_1 x(n) + a_2 x(n)^2 + \cdots + a_M x(n)^M,$$

onde $n$ é o número da amostra e $M$ a ordem do polinômio.

A tarefa aqui é encontrar o valor ideal para $M$, ou seja, a ordem da função hipótese polinomial de tal forma que ela consiga aproximar bem os dados observados.

**DICAS**:

+ Para gerar os valores de $x$, $y$ e $y_{noisy}$ usaremos a função `generateDataSetv3` passando como parâmetro de entrada o número de amostras que devem ser geradas (o número de amostras já é definido no item 1).
+ Para resolver as questões deste exercício, se baseie no código do seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/master/notebooks/regression/validacao_cruzada.ipynb).
+ Todas as funções usadas neste exercício estão definidas no arquivo `util_functions.py`, que se encontra na mesma pasta que este notebook. 
+ **SOB NENHUMA HIPÓTESE ALTERE O ARQUIVO `util_functions_aux.py`**

1. Execute o trecho de código abaixo e analise os resultados gerados.

In [None]:
# importing libraries
import numpy as np
import matplotlib.pyplot as plt
import timeit
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
import urllib
urllib.request.urlretrieve('https://raw.githubusercontent.com/zz4fap/t319_aprendizado_de_maquina/main/projeto/util_functions.py', 'util_functions_aux.py')
import util_functions_aux as util

# Reset PN sequence generator.
seed = 42
np.random.seed(seed)

# Number of examples.
N = 2000

# Generate datase.
x, y, y_noisy = util.generateDatasetsv3(555, N)

# Plot comparison between true and noisy model.
plt.plot(x, y_noisy, '.', label='Função observável')
plt.plot(x, y, label='Função objetivo', linewidth=4)
plt.xlabel('$x$', fontsize=14)
plt.ylabel('$y$', fontsize=14)
plt.grid()
plt.legend()
plt.show()

2. Usando a estratégia de validação cruzada **k-Fold**, encontre a ordem ideal para que uma função hipótese polinomial aproxime bem o conjunto de dados gerado no item anterior. Para avaliar qual é a ordem ideal para o polinômio aproximador, plote gráficos com a média e o desvio padrão do erro quadrático médio (MSE) em função dos graus de polinômio considerados. Para isso:

   1. Use o **k-Fold** com **k** igual a 10.
   2. Configure o parâmetro `shuffle` da classe `KFold` como `True`, ou seja, `shuffle=True`.
   3. Faça a análise de polinômios de ordem 1 até 30, **inclusive**.
   4. Desabilite a inclusão da coluna do atributo de bias ao instanciar a classe `PolynomialFeatures` utilizando o parâmetro `include_bias=False`.
   5. Use a classe `StandardScaler` para padronizar os atributos.

**DICAS** 

+ Para resolver este item, se baseie no seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/main/notebooks/regression/validacao_cruzada.ipynb).
+ **Atenção, não basta apenas copiar o código do exemplo dado, você precisa alterá-lo.**

In [None]:
# Digite o código do item aqui.

3. Após analisar os resultados obtidos com a validação cruzada **k-Fold**, responda qual é a melhor ordem de polinômio para aproximar os dados. **Justifique sua resposta.**

**DICA**

* Lembre-se do princípio da navalha de Occam para escolher a melhor ordem.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

4. De posse da melhor ordem, treine um novo modelo de regressão considerando esta ordem e plote um gráfico que compare a função objetivo com as funções observável (i.e., ruidosa) e hipótese.

**DICAS**

+ Inclua o termo de bias ao instanciar a classe `PolynomialFeatures` utilizando o parâmetro `include_bias=False`.
+ Use a classe `StandardScaler` para padronizar os atributos.
+ Use o conjunto total de amostras para calcular o erro.
+ Para resolver este item, se baseie no seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/main/notebooks/regression/validacao_cruzada.ipynb).
+ **Atenção, não basta apenas copiar o código do exemplo dado, você precisa alterá-lo.**

In [None]:
# Digite o código do item aqui.

5. O que aconteceria se a ordem do modelo aproximador fosse bem maior do que a que você escolheu (por exemplo, vinte vezes maior)? **Justifique sua resposta.**

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

6. Escolha uma ordem bem maior do que a que você usou no item 4 (por exemplo, vinte vezes maior) e apresente uma figura comparando a predição feita por esse modelo com ordem bem menor com os dados originais.

In [None]:
# Digite o código do item aqui.

7. O que aconteceria se a ordem do modelo aproximador fosse igual a 1, ou seja, uma reta? **Justifique sua resposta.**

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

8. Faça a ordem do modelo aproximador igual a 1 e apresente uma figura comparando a predição feita por esse modelo com ordem igual a 1 com os dados originais.

In [None]:
# Digite o código do item aqui.

### 3) Usando regressão para estimar calorias queimadas.

Neste exercício, você utilizará uma técnica de **validação cruzada** para encontrar um modelo que estime a quantidade de calorias queimadas após uma atividade física com base em um conjunto de dados coletados. As informações das **colunas** contidas no conjunto de dados seguem abaixo. O objetivo é utilizar os atributos para estimar a quantidade de calorias queimadas.

|            |                   **Atributos**                   |
|:----------:|:-------------------------------------------------:|
|   User_ID  |              Identificação do usuário             |
|   Gender   |                       Gênero                      |
|     Age    |                       Idade                       |
|   Height   |                       Altura                      |
|   Weight   |                        Peso                       |
|  Duration  |            Duração da atividade física            |
| Heart_Rate | Média de batimentos cardíacos durante a atividade física |
|  Body_Temp | Média da temperatura coporal durante a atividade física |
|            |                     **Rótulo**                    |
|  Calories  |       Calorias queimadas durante a atividade física       |

1. Execute a célula de código abaixo para importar o conjunto de dados e as bibliotecas necessárias.

**DICAS**

+ Após a execução bem sucedida da célula abaixo, você visualizará as 5 primeiras linhas do arquivo.

In [None]:
# Importe todas as bibliotecas necessárias.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, GridSearchCV, KFold, cross_val_score
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
import urllib

# Reseta o gerador de sequências pseudo aleatórias.
seed = 42
np.random.seed(seed)

# Baixa as bases de dados do dropbox.
urllib.request.urlretrieve('https://www.dropbox.com/s/1zka46bw4f4z5xq/exercise.csv?dl=1', 'exercise.csv')
urllib.request.urlretrieve('https://www.dropbox.com/s/45gtml94o97bhz8/calories.csv?dl=1', 'calories.csv')

# Importa os arquivos CSV.
exercise_data = pd.read_csv('./exercise.csv')
calories_data = pd.read_csv('./calories.csv')

# Une as duas bases de dados.
df = exercise_data.join( calories_data.set_index('User_ID'), on='User_ID', how='left')

# Mostra uma tabela com as 5 primeiras linhas.
df.head()

2. Execute a célula de código abaixo para aplicar um pré-processamento aos dados do conjunto.

+ Como os modelos de regressão esperam valores numéricos, devemos alterar os valores textuais da coluna `Gender` em valores numéricos. A string `male` é alterada para o valor 0 e a string `female` é alterada para o valor 1.
+ Na sequência, a coluna `User_ID` é removida, pois ela não é um atributo e, portanto, não traz informação útil para a regressão.

In [None]:
# Mapeia as strings em valores numéricos.
df.replace({'Gender':{'male':0, 'female':1}}, inplace=True)

# Remove a coluna 'User_ID'.
del df[ 'User_ID' ]

# Mostra uma tabela com as 5 primeiras linhas.
df.head()

3. Execute a próxima célula de código abaixo para criar a matriz de atributos, $\textbf{X}$, e o vetor de rótulos, $\textbf{y}$.

**DICAS**

+ A primeira linha de comando remove da matriz de atributos a coluna `Calories`, pois ela será nosso rótulo.
+ A segunda linha cria o vetor de rótulos contendo apenas a coluna `Calories`.
+ A célula imprimirá as dimensões da matriz de atributos e do vetor de rótulos.

In [None]:
# Criando a matriz de atributos e o vetor de rótulos.
X = df.drop('Calories', axis=1)
y = df['Calories']

# Atributos.
print('Dimensão da matriz de atributos:', X.shape)
# Rótulos.
print('Dimensão do vetor de rótulos:',y.shape)

4. Com a matriz de atributos, $\textbf{X}$, e o vetor de rótulos, $\textbf{y}$, obtidos no item anterior, utilize a técnica de validação cruzada k-Fold para escolher a melhor ordem para um modelo de regressão polinomial. 

Para isso, faça o seguinte:

1. Use o **k-Fold** instanciado com os seguintes parâmetros `n_splits=10`, `shuffle=True` e `random_state=seed`.
2. Faça a análise de **polinômios** de ordem 1 até 7, **inclusive**.
3. Para realizar a validação cruzada com o **k-Fold**, use a função `cross_val_score` com o seguinte parâmetro `scoring='neg_mean_squared_error'`.
4. Use a classe `StandardScaler` para padronizar os dados.
5. Use a classe `LinearRegression` para realizar a regressão propriamente dita.
6. Plote gráficos com a média e o desvio padrão do erro quadrático médio em função do grau do polinômio.

**DICAS** 

+ O tempo de execução desse exercício é de aproximadamente 10 minutos, mas pode variar de computador para computador, portanto, pegue um café e tenha paciência.
+ Use o princípio da navalha de Occam para escolher a ordem do polinômio.
+ Para resolver este item, se baseie no seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/main/notebooks/regression/validacao_cruzada.ipynb).
+ **Atenção, não basta apenas copiar o código do exemplo dado, você precisa alterá-lo.**

In [None]:
# Digite o código do item aqui.

5. Após analisar os resultados do item anterior responda: Qual a melhor ordem do polinômio para esse problema? **Justifique sua resposta**.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

6. De posse da melhor ordem, treine um novo modelo considerando esta ordem e no final imprima o valor do erro quadrático médio (MSE) para os conjuntos de treinamento e de validação.

Para isso, faça o seguinte

1. Separe 75% do conjunto de dados para o treinamento e 25% para o conjunto de validação com o parâmetro `random_state=seed`.
2. Crie um pipeline com as seguintes ações:
    + `PolynomialFeatures` com a ordem escolhida.
    + `StandardScaler` para padronizar os dados.
    + `LinearRegression` para encontrar os pesos da função hipótese polinomal.
3. Treine o modelo com o conjunto de treinamento.
4. Faça predições com o modelo treinando usando os conjuntos de treinamento e validação.
5. Calcule e imprima o MSE entre as predições feitas pelo modelo e os rótulos dos conjuntos de treinamento e validação.

**DICAS**

+ Para resolver este item, se baseie no seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/main/notebooks/regression/validacao_cruzada.ipynb).
+ **Atenção, não basta apenas copiar o código do exemplo dado, você precisa alterá-lo.**

In [None]:
# Digite o código do item aqui.

7. Comparando os dois erros obtidos no item anterior, erros de treinamento e validação. Você diria que o modelo está subajustando, sobreajustando ou encontrou uma relação de compromisso entre generalização e flexibilidade (ou capacidade)? **Justifique sua resposta**.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>

8. Treine um novo modelo considerando uma ordem igual a 10 e no final imprima o valor do erro quadrático médio (MSE) para os conjuntos de treinamento e de validação.

Para isso, faça o seguinte

1. Separe 75% do conjunto de dados para o treinamento e 25% para o conjunto de validação com o parâmetro `random_state=seed`.
2. Crie um pipeline com as seguintes ações:
    + `PolynomialFeatures` com a ordem escolhida.
    + `StandardScaler` para padronizar os dados.
    + `LinearRegression` para encontrar os pesos da função hipótese polinomal.
3. Treine o modelo com o conjunto de treinamento.
4. Faça predições com o modelo treinando usando os conjuntos de treinamento e de validação.
5. Calcule e imprima o MSE entre as predições feitas pelo modelo e os rótulos dos conjuntos de treinamento e validação.

**DICAS**

+ Para resolver este item, se baseie no seguinte exemplo: [validacao_cruzada.ipynb](https://colab.research.google.com/github/zz4fap/t319_aprendizado_de_maquina/blob/main/notebooks/regression/validacao_cruzada.ipynb).
+ **Atenção, não basta apenas copiar o código do exemplo dado, você precisa alterá-lo.**

In [None]:
# Digite o código do item aqui.

9. Comparando os dois erros obtidos no item anterior, erros de treinamento e de validação. Você diria que o modelo está subajustando, sobreajustando ou encontrou uma relação de compromisso entre capacidade de generalização e flexibilidade (ou capacidade)? **Justifique sua resposta**.

**Resposta**

<span style="color:blue">Digite abaixo a resposta do exercício.</span>