1. Carregue o conjunto de dados [Resistência à Compressão do Concreto](https://archive.ics.uci.edu/dataset/165/concrete+compressive+strength) do *UC Irvine Machine Learning Repository*. Este conjunto de dados contém informações sobre a composição e propriedades do concreto:

- **Variável alvo:** Resistência à compressão (MPa)  
- **Número de amostras:** 1.030  
- **Número de atributos:** 8 (todos numéricos)  

Este conjunto de dados pode ser carregado utilizando:
```python
from ucimlrepo import fetch_ucirepo
# carregar os dados
concrete_compressive_strength = fetch_ucirepo(id=165)
# dataframes do Pandas
X = concrete_compressive_strength.data.features
y = concrete_compressive_strength.data.targets
```


In [1]:
pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl.metadata (5.5 kB)
Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [2]:
import matplotlib.pyplot as plt                                       # Biblioteca de visualização: cria gráficos/figuras; convenção usar o alias 'plt'.
import numpy as np                                                    # Operações numéricas e vetoriais; arrays N-d e funções matemáticas.
from sklearn.linear_model import LinearRegression                     # Modelo de Regressão Linear do scikit-learn.
from sklearn.preprocessing import PolynomialFeatures, StandardScaler  # Gera termos polinomiais e padroniza features (z-score).
from sklearn.model_selection import train_test_split                  # Divide o conjunto de dados.
from sklearn.metrics import mean_squared_error                        # Erro Quadrático Médio (MSE).
from ucimlrepo import fetch_ucirepo                                   # Função utilitária para baixar datasets do UCI ML Repository.

In [3]:
from ucimlrepo import fetch_ucirepo
# carregar os dados
concrete_compressive_strength = fetch_ucirepo(id=165)
# dataframes do Pandas
X = concrete_compressive_strength.data.features
y = concrete_compressive_strength.data.targets

2. Divida os dados em três partes:

- Treinamento: 60%
- Validação: 20%
- Teste: 20%


## Separar em treino(60%), validação(20%) e teste(20%)

In [4]:
from sklearn.model_selection import train_test_split #Divide o Conjunto de Dados

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.40, random_state=42)
X_validation, X_test, y_validation, y_test = train_test_split(X_temp, y_temp, test_size=0.50, random_state=42)

## Usando o StandardScaler no conjunto treino

In [5]:
scaler = StandardScaler()
scaler.fit_transform(X_train)

array([[ 0.27051894,  2.09412082, -0.8028862 , ...,  0.94755187,
        -1.9780896 ,  0.15190854],
       [ 0.32180423,  1.53420666, -0.8028862 , ..., -1.5802778 ,
         1.38653034,  0.71531417],
       [ 0.89246959,  0.21046593, -0.8028862 , ..., -0.54345239,
        -2.20106143,  5.12597538],
       ...,
       [-0.87640654, -0.85979253,  1.17223789, ...,  1.36409875,
         0.36561997,  0.8601899 ],
       [ 1.77830635,  0.47859384, -0.8028862 , ..., -1.5802778 ,
         0.14765874, -0.29881597],
       [ 0.27704616, -0.85979253,  0.97977373, ..., -0.63428815,
         0.1664485 , -0.29881597]])

3. Treine modelos de regressão polinomial com graus 1, 2, 3 e 4.

 - Calcule o Erro Quadrático Médio (MSE) no conjunto de validação para cada grau e selecione aquele com menor erro.

 - Retreine o modelo final utilizando os dados de treinamento + validação com o grau selecionado.

 - Avalie o modelo final no conjunto de teste e compute o MSE de teste.

  - Dica: Utilize [`PolynomialFeatures(degree=d)`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html), [`StandardScaler()`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html), [`LinearRegression()`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) e [`mean_squared_error()`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html).


## Treinando o modelo de regressão polinomial com graus 1, 2, 3 e 4; calculando o Erro quadrático mério e selecionando o com o menor erro.

In [6]:
from sklearn.linear_model import LinearRegression                     # Modelo de Regressão Linear do scikit-learn.

for i in range(1, 5):
    lin_reg = LinearRegression()
    poly_features = PolynomialFeatures(degree=i, include_bias=False)
    X_poly_train = poly_features.fit_transform(X_train)
    X_poly_validation = poly_features.fit_transform(X_validation)
    lin_reg.fit(X_poly_train, y_train)
    y_predict = lin_reg.predict(X_poly_validation)
    MSE = mean_squared_error(y_validation, y_predict)
    print("MSE para o grau: " + str(i))
    print(MSE)
    print("\n")


MSE para o grau: 1
114.38470630338527


MSE para o grau: 2
61.950069371539826


MSE para o grau: 3
49.10243549577568


MSE para o grau: 4
931780.3981136507




## Retreine o modelo final utilizando os dados de treinamento + validação com o grau selecionado.

In [7]:
X_train.merge(X_validation)
y_train.merge(y_validation)
poly_features = PolynomialFeatures(degree=3, include_bias=False)
X_poly_train = poly_features.fit_transform(X_train)
X_poly_test = poly_features.fit_transform(X_test)
lin_reg.fit(X_poly_train, y_train)
y_predict = lin_reg.predict(X_poly_test)
MSE = mean_squared_error(y_test, y_predict)
print("MSE para o grau: 3 com o conjunto de teste")
print(MSE)
print("\n")

MSE para o grau: 3 com o conjunto de teste
93.12479155394358


