# Exemplo de um problema de regressão
A intenção desse notebook é exemplificar um pipeline de um problema de regressão. Ainda não se preocupe muito sobre o código. O intuito é observar os conceitos (por enquanto). Na próxima aula já vamos avançar com codificação.

Em resumo, vamos fazer o seguinte:
- Carregar a base *Diabetes*
- Separar os dados em conjunto de treino e teste (por enquanto não vamos usar validação)
- Treinar uma regressão linear
- Calcular as métricas de erro

## Importandos as bibliotecas
Vamos usar basicamente a `sklearn`. No módulo 2 já vamos aprender mais sobre ela. Por enquanto, aceita que ela existe e observe apenas o pipeline.

In [3]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

## Carregando os dados

In [4]:
diabetes_dataset = load_diabetes()
X = diabetes_dataset['data']
y = diabetes_dataset['target']
desc = diabetes_dataset['DESCR']
print(desc)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

## Pre-processamento dos dados
- Dividir o dataset me treino e teste
- Não vamos normalizar por que segundo a descrição já está normalizado

In [5]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.15, shuffle=True, random_state=32)
print(f"Tamanho do conjunto de treino: {len(X_treino)}")
print(f"Tamanho do conjunto de teste: {len(X_teste)}")

Tamanho do conjunto de treino: 375
Tamanho do conjunto de teste: 67


## Configurando e treinando uma regressão linear

In [6]:
modelo = LinearRegression()
modelo.fit(X_treino, y_treino)

### Obtendo a predição para uma dada amostra

In [11]:
k = 13
amostra = X_teste[k]
print("Amostra:\n", amostra)
print("Score:", y_teste[k])

Amostra:
 [-0.03457486  0.05068012 -0.05578531 -0.01599898 -0.00982468 -0.00789
  0.03759519 -0.03949338 -0.05296264  0.02791705]
Score: 39.0


In [22]:
score_pred = modelo.predict([amostra])
print("Score predito:", score_pred)

Score predito: [69.14108718]


# Obtendo métricas globais



In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
pred_teste = modelo.predict(X_teste)

print(f"MAE: {mean_absolute_error(y_teste, pred_teste):.2f}")
print(f"MSE: {mean_squared_error(y_teste, pred_teste, squared=True):.2f}")
print(f"RMSE: {mean_squared_error(y_teste, pred_teste, squared=False):.2f}")

MAE: 40.76
MSE: 2626.77
RMSE: 51.25
