---
<img src="https://ead.ufes.br/pluginfile.php/188418/course/summary/Banner%20IA%20e%20CD.png" style="float: right;">


#  Aprendizado Supervisionado

Utiliza conjuntos de dados rotulados que fazem o treinamento de algoritmos para classificar dados ou prever resultados com precisão. O modelo utiliza rótulos de dados para avaliar a relevância de diferentes características e melhorar gradualmente o desempenho dos resultados esperados.

O aprendizado supervisionado é classificado em duas categorias principais:

- **Classificação**: Problemas de classificação empregam algoritmos para classificar dados em segmentos específicos. Alguns algoritmos de classificação comuns:
   - regressão logística (l*ogistic regression*);
   - k-vizinhos mais próximos (KNN);
   - floresta aleatória (*Random-Forest*);
   - Naïve Bayes,
   - gradiente descendente estocástico
   - árvores de decisão (*decision tree*).


- **Regressão**: Este é um método estatístico de ML que utiliza algoritmos para avaliar a relação entre uma variável dependente e, um ou diversos fatores isolados. Com modelos de regressão, é possível fazer previsões de causa e efeito com base em múltiplos pontos de dados. Em uma empresa, por exemplo, isso pode incluir a projeção do crescimento da receita publicitária. Entre alguns algoritmos de regressão comuns estão a regressão ridge, lasso, regressão de redes neurais e regressão logística.




**Objetivo**

A intenção desse notebook é exemplificar um pipeline de um problema de regressão.

Não se apegue aqui com os detalhes da linguagem, você verá Python na próxima disciplina.

**Resultados Esperados**

1. Conceitos aprendizado não supervisionado
1. Primeiro contato com a scikit Learn
1. Carregar um conjunto de dados padrão: a base de dados  *Diabetes*
1. Separar os dados em conjunto de treino e teste (por enquanto não vamos usar validação)
1. Treinar uma regressão linear
1. Calcular as métricas de erro

Esse Colab é apresentado em  https://www.youtube.com/watch?v=jwxL9jQ9qss&t

# Aprendizado Supervisionado

## Introdução

Aprendizado não supervisionado é uma área de aprendizado de máquina que tem o objetivo de **aprender** de dados rotulados.

Hoje, daremos foco aos problemas de regressão:

**Regressão** é uma técnica que permite quantificar e inferir a relação de uma variável dependente (variável de resposta) com variáveis independentes (variáveis explicativas). A análise da regressão pode ser usada como um método descritivo da análise de dados (por exemplo, o ajustamento de curvas).

Veja o cheat-sheet da sci-kit learn de quando usar regressão!


# Scikit-Learn - Mapa de algoritmos disponíves

[<img src="https://scikit-learn.org/1.3/_static/ml_map.png" style="float: right;">](https://scikit-learn.org/1.3/tutorial/machine_learning_map/index.html)


# Exemplo de um problema de regressão
A intenção desse notebook é exemplificar um pipeline de um problema de regressão. Ainda não se preocupe muito sobre o código. O intuito é observar os conceitos (por enquanto). Na próxima aula já vamos avançar com codificação.

Em resumo, vamos fazer o seguinte:
- Carregar a base *Diabetes*
- Separar os dados em conjunto de treino e teste (por enquanto não vamos usar validação)
- Treinar uma regressão linear
- Calcular as métricas de erro

## Importandos as bibliotecas
Vamos usar basicamente a `sklearn`.  Por enquanto, aceita que ela existe e observe apenas o pipeline.

In [None]:
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

## Carregando os dados

In [None]:
diabetes_dataset = load_diabetes()
X = diabetes_dataset['data']
y = diabetes_dataset['target']
desc = diabetes_dataset['DESCR']
print(desc)

.. _diabetes_dataset:

Diabetes dataset
----------------

Ten baseline variables, age, sex, body mass index, average blood
pressure, and six blood serum measurements were obtained for each of n =
442 diabetes patients, as well as the response of interest, a
quantitative measure of disease progression one year after baseline.

**Data Set Characteristics:**

  :Number of Instances: 442

  :Number of Attributes: First 10 columns are numeric predictive values

  :Target: Column 11 is a quantitative measure of disease progression one year after baseline

  :Attribute Information:
      - age     age in years
      - sex
      - bmi     body mass index
      - bp      average blood pressure
      - s1      tc, total serum cholesterol
      - s2      ldl, low-density lipoproteins
      - s3      hdl, high-density lipoproteins
      - s4      tch, total cholesterol / HDL
      - s5      ltg, possibly log of serum triglycerides level
      - s6      glu, blood sugar level

Note: Each of these 1

In [None]:
diabetes_dataset

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
          0.01990749, -0.01764613],
        [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
         -0.06833155, -0.09220405],
        [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
          0.00286131, -0.02593034],
        ...,
        [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
         -0.04688253,  0.01549073],
        [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
          0.04452873, -0.02593034],
        [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
         -0.00422151,  0.00306441]]),
 'target': array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
         69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
         68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
         87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
        259.,  53., 190., 142.,  75., 142., 155., 225.,  59

## Pre-processamento dos dados
- Dividir o dataset me treino e teste
- Não vamos normalizar por que segundo a descrição já está normalizado

In [None]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.15, shuffle=True, random_state=32)
print(f"Tamanho do conjunto de treino: {len(X_treino)}")
print(f"Tamanho do conjunto de teste: {len(X_teste)}")

Tamanho do conjunto de treino: 375
Tamanho do conjunto de teste: 67


## Configurando e treinando uma regressão linear

In [None]:
modelo = LinearRegression()
modelo.fit(X_treino, y_treino)

### Obtendo a predição para uma dada amostra

In [None]:
k = 13
amostra = X_teste[k]
print("Amostra:\n", amostra)
print("Target:", y_teste[k])

Amostra:
 [-0.03457486  0.05068012 -0.05578531 -0.01599898 -0.00982468 -0.00789
  0.03759519 -0.03949338 -0.05296264  0.02791705]
Target: 39.0


In [None]:
score_pred = modelo.predict([amostra])
print("Targe predito:", score_pred)

Targe predito: [69.14108718]


### Erro da predição para uma dada amostra

O erro de uma amostra $y_i$ é dado pela diferença entre o valor de $y_i$ e o valor predito $\hat{y}_i$:

\begin{align}
  \mathbf{Erro}_{i} &= | \hat{y}_i - y_i |
\end{align}


# Obtendo métricas globais

**MAE =  Mean Absolute Error - A média de todos os erros de predição**

$MAE = \frac{1}{n}\sum_{i=1}^{n}|\hat{y}_i-y_i|$

**MSE = Mean Square Error - A média dos quadrados dos erros de predição**

$MSE = \frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i-y_i)^2$

**RMSE= Mean Square Error - A Raiz do MSE**

$RMSE = \frac{1}{n}\sqrt{\sum_{i=1}^{n}(\hat{y}_i-y_i)^2}$

## Intepretando estas métricas

O MAE retorna a média do valor absoluto, mas esta média pode ser mascarada caso existam muitos erros de valores pequenos e poucos erros com valores grandes.

Como o MSE eleva os erros ao quadrado, erros grandes causam um maior impacto na média.

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error
pred_teste = modelo.predict(X_teste)

print(f"MAE: {mean_absolute_error(y_teste, pred_teste):.2f}")
print(f"MSE: {mean_squared_error(y_teste, pred_teste, squared=True):.2f}")
print(f"RMSE: {mean_squared_error(y_teste, pred_teste, squared=False):.2f}")

MAE: 40.76
MSE: 2626.74
RMSE: 51.25
