# **M√©tricas de Regress√£o ‚Äî M√≥dulo 2, Notebook 3/4**

---

## √çndice

1. [Problema de Regress√£o](#problema-regressao)
2. [Regressor](#regressor)

---

<a id='problema-regressao'></a>
### **O que √© um problema de regress√£o?**

Problemas de regress√£o √© outro tipo de problemas dentro do campo do **aprendizado supervisionado**

Se problemas de classifica√ß√£o √© quando queremos prever uma vari√°vel discreta (tamb√©m chamada de vari√°vel categ√≥rica), em problemas de **Regress√£o** o objetivo √© fazer previs√£o de uma **vari√°vel cont√≠nua**, ou uma vari√°vel do tipo float em termos de programa√ß√£o (ou uma vari√°vel real em termos matem√°ticos).

Um exemplo cl√°ssico de um problema de regress√£o √© prever o sal√°rio de uma pessoa com base em um vetor de caracter√≠sticas como a idade, anos de educa√ß√£o, √°rea de trabalho, entre outros.

üí° **Dica**: Uma maneira f√°cil de distinguir entre problemas de classifica√ß√£o e regress√£o √© pensar se h√° continuidade ou se h√° algum "salto" na vari√°vel que voc√™ est√° tentando prever. No caso da renda de uma pessoa h√° claramente uma continuidade: uma pessoa pode ganhar R$ 3.000,00 ou R$ 3.001,00, e assim por diante. Teoricamente, h√° um conjunto infinito de valores que a vari√°vel renda pode assumir.

Por√©m, em problemas de classifica√ß√£o, h√° um claro salto na vari√°vel target. Se queremos prever, por exemplo, se uma pessoa ter√° um cr√©dito aprovado ou n√£o, s√≥ h√° duas respostas poss√≠veis: sim ou n√£o.

<a id='regressor'></a>
### **O que √© um regressor?**

De maneira semelhante a um classificador, um **regressor** √© um algoritmo de Machine Learning que mapeia cada vetor de caracter√≠sticas na base de dados a um output. Por√©m, neste caso, n√£o estamos mais falando de categorias e sim a um output cont√≠nuo. 

Os regressores tamb√©m se utilizam de m√©todos matem√°ticos e estat√≠sticos para regredir uma vari√°vel target (tamb√©m chamada de vari√°vel dependente) a um vetor de caracter√≠sticas (vari√°veis independentes).

Alguns dos principais regressores s√£o:
- Regress√£o Linear
- Lasso Regression
- Ridge Regression
- M√°quinas de Vetores de Suporte para Regress√£o (SVR)
- √Årvores de Regress√£o

#### **Pr√°tica**

De maneira semelhante ao t√≥pico de classifica√ß√£o, iremos mostrar como implementar alguns t√≥picos de regress√£o em python.

**Descri√ß√£o do Dataset: California Housing Prices**

Origem e Objetivo:

Este dataset √© baseado em dados do censo de 1990 dos Estados Unidos, especificamente para grupos de quarteir√µes (block groups) na Calif√≥rnia. O objetivo principal ao utilizar este dataset √© prever o valor mediano das casas em cada um desses grupos de quarteir√µes, com base em um conjunto de caracter√≠sticas demogr√°ficas e geogr√°ficas.

**Caracter√≠sticas (Features) Analisadas:**

Renda Mediana: Renda m√©dia dos moradores da regi√£o.

Idade Mediana das Casas: Idade m√©dia das casas na regi√£o.

M√©dia de C√¥modos: N√∫mero m√©dio de c√¥modos nas casas da regi√£o.

M√©dia de Quartos: N√∫mero m√©dio de quartos nas casas da regi√£o.

Popula√ß√£o: N√∫mero total de pessoas que vivem na regi√£o.

Ocupa√ß√£o M√©dia: N√∫mero m√©dio de moradores por casa na regi√£o.

Latitude: Posi√ß√£o geogr√°fica da regi√£o (norte-sul).

Longitude: Posi√ß√£o geogr√°fica da regi√£o (leste-oeste).

Valor Mediano das Casas (target): Pre√ßo mediano das casas na regi√£o (geralmente em unidades de $100.000).

In [None]:
# Come√ßamos importando as bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Importa o dataset
from sklearn.datasets import fetch_california_housing

# Carrega o dataset
california_housing = fetch_california_housing()
# Transforma em um DataFrame
df_california = pd.DataFrame(data=california_housing.data, columns=california_housing.feature_names)
# Adiciona a coluna de classes
df_california['target'] = california_housing.target

# Tradu√ß√£o das colunas para o portugues
df_california = df_california.rename(columns={'MedInc': 'Renda Mediana',
                                               'HouseAge': 'Idade M√©dia',
                                               'AveRooms': 'N√∫mero M√©dio de C√¥modos',
                                               'AveBedrms': 'N√∫mero M√©dio de Quartos',
                                               'Population': 'Popula√ß√£o',
                                               'AveOccup': 'Ocupa√ß√£o M√©dia',
                                               'Latitude': 'Latitude',
                                               'Longitude': 'Longitude',
                                               'target': 'Valor Mediano da Casa'
                                               })

# E exibe as 5 primeiras linhas
df_california.head()

Da mesma forma que no exemplo de classifica√ß√£o, iremos treinar um modelo simples de **Regress√£o Linear**, um m√©todo que ser√° explicado em detalhes no M√≥dulo 3. Por ora, basta saber que ela estabelece uma rela√ß√£o linear entre as vari√°veis independentes e a vari√°vel dependente que queremos prever.

O bloco de c√≥digo abaixo cria, treina e faz previs√µes de um modelo de maneira simples para ilustrar os t√≥picos seguintes.

In [None]:
# Importa o modelo de regress√£o linear
from sklearn.linear_model import LinearRegression

# Instancia o modelo de regress√£o linear
lin_reg = LinearRegression()

# Separa os dados em vari√°veis independentes (X) e dependentes (y)
X_california = df_california.drop(columns=['Valor Mediano da Casa'])
y_california = df_california['Valor Mediano da Casa']

# Utiliza o m√©todo train_test_split para dividir os dados em conjuntos de treino e teste
from sklearn.model_selection import train_test_split

# Divide os dados em 80% para treino e 20% para teste
X_train, X_test, y_train, y_test = train_test_split(X_california, y_california, test_size=0.2, random_state=42)

# Treina o modelo de regress√£o linear com os dados de treino
lin_reg.fit(X_train, y_train)

# Faz previs√µes com os dados de teste
y_pred_california = lin_reg.predict(X_test)

### **M√©tricas de Avalia√ß√£o para Regress√£o**

#### **MAE**

O Erro M√©dio Absoluto (MAE ‚Äî Mean Absolute Error) mede a diferen√ßa m√©dia entre o valor predito pelo modelo e o valor real observado. Como h√° valores positivos e negativos, adiciona-se o m√≥dulo da diferen√ßa. Assim, queremos que o MAE tenha o menor valor poss√≠vel.

A f√≥rmula do MAE √© a seguinte:

$$
MAE(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
$$

Uma vantagem do MAE √© que sua escala √© a mesma dos dados, facilitando sua interpreta√ß√£o. Por exemplo, se estamos prevendo o sal√°rio e temos um MAE de 100, significa que, em m√©dia, o modelo tem um erro de R$100.00.

Uma desvantagem do MAE √© que ele n√£o √© muito afetado por outliers. Isso acontece porque cada erro possui o mesmo peso.

In [None]:
# Importa a fun√ß√£o de erro m√©dio absoluto do sklearn metrics
from sklearn.metrics import mean_absolute_error

# Calcula o erro m√©dio absoluto
mae = mean_absolute_error(y_test, y_pred_california)
print(f'Erro M√©dio Absoluto do modelo: {mae:.5f}')

#### **MSE**

O erro quadr√°tico m√©dio (MSE ‚Äî Mean Squared Error) √© semelhante a m√©trica MAE, tamb√©m calculado o erro m√©dio do modelo entre o valor predito e o valor real. Por√©m, no MSE elevamos a diferen√ßa ao quadrado. A ideia por tr√°s disto √© penalizarmos valores que sejam muito diferentes entre o valor previsto e o valor real. Tamb√©m queremos que o MSE tenha o menor valor poss√≠vel.

A f√≥rmula do MSE √© a seguinte:

$$
MSE(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

Uma desvantagem do MSE √© que, por elevarmos o valor ao quadrado, sua escala fica distorcida. Para contornar esse problema, podemos extrair a raiz do MSE. O que nos leva √† pr√≥xima m√©trica:

In [None]:
# Importa a fun√ß√£o de erro quadr√°tico m√©dio do sklearn metrics
from sklearn.metrics import mean_squared_error

# Calcula o erro quadr√°tico m√©dio
mse = mean_squared_error(y_test, y_pred_california)
print(f'Erro Quadr√°tico M√©dio do modelo: {mse:.5f}')

#### **RMSE**

A raiz do erro quadr√°tico m√©dio (RMSE ‚Äî Root Mean Squared Error) √© basicamente o mesmo c√°lculo do MSE, onde queremos penalizar grandes diferen√ßas entre o valor previsto e o valor real. Mas, como j√° comentamos, extra√≠mos a raiz quadrado desse valor para lidar com o problema de interpreta√ß√£o das unidades. Ao fazermos isso, unidade fica na mesma escala do dado original.

$$
RMSE(y, \hat{y}) = \sqrt[]{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2)}
$$

üìù **Observa√ß√£o**: Apesar de estar na mesma unidade que o MAE, as m√©tricas costumam n√£o ter o mesmo valor. Isso vem do fato do RMSE estar capturando os outliers.

In [None]:
# Importa a fun√ß√£o de raiz do erro quadr√°tico m√©dio do sklearn metrics
from sklearn.metrics import mean_squared_error

# Calcula a raiz do erro quadr√°tico m√©dio
rmse = np.sqrt(mse)
print(f'Raiz do Erro Quadr√°tico M√©dio do modelo: {rmse:.5f}')

#### **MAPE**

O erro percentual absoluto m√©dio (MAPE ‚Äî Mean Absolute Percentual Error) √© uma m√©trica que mostra a porcentagem de erro em rela√ß√£o aos valores reais. A ideia √© bastante parecida com as m√©tricas de erro m√©dio apresentadas anteriormente, por√©m aqui estamos pensando em termos percentuais. Ent√£o se tivermos um MAPE de 12% por exemplo, significa que o modelo faz, em m√©dia, previs√µes que diferem em 12% dos valores reais.

A f√≥rmula do MAPE √©:

$$
MAPE(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} |\frac{y_i - \hat{y}_i}{y_i}| \times 100
$$

In [None]:
# Importa a fun√ß√£o de erro percentual absoluto m√©dio do sklearn metrics
from sklearn.metrics import mean_absolute_percentage_error

# Calcula o erro percentual absoluto m√©dio
mape = mean_absolute_percentage_error(y_test, y_pred_california)
print(f'Erro Percentual Absoluto M√©dio do modelo: {mape:.5f}')

#### **$R^{2}$**

A m√©trica $R^2$, representa o percentual de vari√¢ncia que √© explicada pelo modelo. Os resultados v√£o de 0 a 1 (ou de 0% a 100% em termos percentuais). Quanto maior o $R^2$, mais explicativo √© o modelo. 

A f√≥rmula √© a seguinte:

$$
R^2(y,\hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)2}{\sum_{i=1}^{n} (y_i - \overline{y}_i)^2}
$$

Podemos pensar no $R^2$ como o poder explicativo do seu modelo. No exemplo do sal√°rio, regredindo contra idade, anos de educa√ß√£o e setor de atividade. Se tivermos um $R^2$ de 60%, significa que nosso modelo explica 60% da varia√ß√£o do sal√°rio.

Se isso for alto ou baixo, vai depender de outras m√©tricas e outros benchmarks.

In [None]:
# Importa a fun√ß√£o de R¬≤ do sklearn metrics
from sklearn.metrics import r2_score

# Calcula o R¬≤
r2 = r2_score(y_test, y_pred_california)
print(f'R¬≤ do modelo: {r2:.5f}')

---

<-- [**Anterior: M√©tricas de Classifica√ß√£o**](02_metricas_classificacao.ipynb) | [**Pr√≥ximo: Feature Engineering**](04_feature_engineering.ipynb) -->