<a href="https://colab.research.google.com/github/JulioFMDB/portfolio/blob/main/Regressao_Linear_aplicada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/billy-ds/ds-course.git/prod?filepath=notebooks%2FAula_11_Regressao_Linear.ipynb)
<br>
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/billy-ds/ds-course/blob/prod/notebooks/Aula_11_Regressao_Linear.ipynb)

<a id='section-zero'></a>

**Por Júlio Felipe Monteiro De Bem De Bem**

**[My LinkedIn](https://www.linkedin.com/in/juliodebem/)**

**[My GitHub](https://github.com/JulioFMDB)**

**[My personal Instagram](https://www.instagram.com/juliodebem)**


# Regressão Linear

**Objetivos**: Aprender o que é Regressão Linear e introduzir intuições sobre o Método do Gradiente e o Método do Gradiente Estocástico assim como os problemas de regressão de aprendizagem de máquina. Apresentar a biblioteca `SciKit-Learn`.

## Definição - Regressão Linear

> Uma regressão linear faz uma predição simplesmente computando uma soma ponderada dos atributos (*features*), mais uma constante chamada viés (*bias*), também chamado de constante (*intercept*).

<img src="https://github.com/billy-ds/ds-course/blob/prod/notebooks/images/reg-linear.png?raw=1" alt="reg-linear" style="width: 400px;"/>

$$ \hat{y} = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n$$

$\hat{y}$ - valor previsto

$\theta$ - parâmetro do modelo

$n$ - número de atributos (*features*)

$x_i$ - o valor do *inésimo* atributo (*feature*)

### Exemplo

$$\mathrm{preço~de~residência} = 4500 + 1000\times \mathrm{quartos} + 120 \times \mathrm{m}^2 + 3000 \times \mathrm{banheiros} - 1500 \times \mathrm{distância~do~centro~km}$$

## Métricas de Desempenho de uma Regressão

<img src="https://github.com/billy-ds/ds-course/blob/prod/notebooks/images/erro-reg.png?raw=1" alt="erro-reg" style="width: 400px;"/>

### *Mean Absolute Error* (MAE) - Erro Absoluto Médio

O erro médio absoluto, MAE (da sigla em inglês Mean Absolute Error), é calculado a partir da **média dos erros absolutos**, ou seja, utilizamos o módulo de cada erro para evitar a subestimação, isso porque, o valor é menos afetado por pontos especialmente extremos (outliers).

Cada erro, pode ser interpretado como a diferença entre Y e Ŷ e assim, temos:

$$MAE = \frac{1}{m}\Sigma_{i=1}^{m}{|\hat{y}_i - y_i|}$$

Utilizamos essa medida em séries temporais, pois há casos em que o erro negativo pode zerar o positivo ou dar uma ideia de que o modelo é preciso. Mas aqui, medimos apenas a distância do valor real, independente de ser acima ou abaixo.

### *Mean Squared Error* (MSE) - Erro Quadrático Médio

O erro quadrático médio, MSE (da sigla em inglês Mean Squared Error), é comumente usado para verificar a **acurácia de modelos** e dá um maior peso aos maiores erros, já que, ao ser calculado, cada erro é elevado ao quadrado individualmente e, após isso, a média desses erros quadráticos é calculada.

Usando o mesmo conceito de erro utilizado anteriormente, temos a equação abaixo:

$$MSE = \frac{1}{m}\Sigma_{i=1}^{m}{(\hat{y}_i - y_i)^2}$$

Por conta do expoente ao quadrado que o erro assume, essa métrica é bastante sensível a outliers (valores discrepantes) e, caso tenha muitos erros significativos em sua análise, essa métrica poderá ser extrapolada.

<img src="https://github.com/billy-ds/ds-course/blob/prod/notebooks/images/gradient-descent.gif?raw=1" alt="gradient-descent-animation" style="width: 60%;"/>

<img src="https://github.com/billy-ds/ds-course/blob/prod/notebooks/images/gradient-descent-2.gif?raw=1" alt="gradient-descent-animation" style="width: 60%;"/>

## Exemplo com o dataset [Boston House Prices](https://scikit-learn.org/stable/datasets/toy_dataset.html#boston-house-prices-dataset)


* $N = 506$
* Atributos: 13
    * `CRIM` crime per capita da região
    * `ZN` proporção de terra residencial
    * `INDUS` proporção terra comercial não-varejista
    * `CHAS` *Dummy* se fica as margens do Charles River (1 ou 0)
    * `NOX` concentração de óxido nítrico (partes por 10 milhões)
    * `RM` número de quartos
    * `AGE` idade da residência
    * `DIS` distância dos cinco centros de emprego de Boston
    * `RAD` acessibilidade às rodovias radiais
    * `TAX` valor do IPTU por 10,000 USD
    * `PTRATIO` relação professor-aluno (*pupil-teacher ratio*) da região
    * `B` proporção de afro-descendentes na região
    * `LSTAT` porcentagem de população de baixa-renda
* **Variável resposta**: valor da casa por 10,000 USD

In [None]:
from sklearn.datasets import load_boston

boston = load_boston()
X = boston['data']
y = boston['target']


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [None]:
print(f"Nomes dos Atributos: {boston['feature_names']}")
print(f"Tamanho de X: {X.shape}")
print(f"Tamanho de y: {y.shape}")

Nomes dos Atributos: ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']
Tamanho de X: (506, 13)
Tamanho de y: (506,)


### Quebrando dataset em `train` e `test`

Usar a função do Scikit-Learn [`sklearn.model_selection.train_test_split()`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

#### Argumentos:

* matriz a ser dividida - `X` ou `y`
* `test_size` - `float` ou `int` do tamanho do dataset de teste (padrão $0.25$)
* `train_size` - padrão `1 - test_size`
* `random_state` - `int` - seed do gerador de número randômicos (replicabilidade)

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.25,
                                                    random_state=123)

In [None]:
print(f"Tamanho de X_train: {X_train.shape}")
print(f"Tamanho de X_test: {X_test.shape}")
print(f"Tamanho de y_train: {y_train.shape}")
print(f"Tamanho de y_test: {y_test.shape}")

Tamanho de X_train: (379, 13)
Tamanho de X_test: (127, 13)
Tamanho de y_train: (379,)
Tamanho de y_test: (127,)


### Regressão Linear
Usar o estimador do Scikit-Learn [`sklearn.linear_model.LinearRegression()`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

#### Retorna:
* Objeto `estimator` do Scikit-Learn

In [None]:
from sklearn.linear_model import LinearRegression

clf = LinearRegression()

### Classe `Estimators`

* `.fit()` - Treina o Modelo
    * `X`
    * `y`
* `.predict()` - Gera predições do modelo
    * `X`
* `.coef_` - Retorna os coeficientes do modelo ($\theta_i$)
* `.intercept_` - Retorna o viés/constante (*bias/intercept*) do modelo ($\theta_0$)

In [None]:
clf.fit(X_train, y_train)

LinearRegression()

In [None]:
clf.coef_.tolist()

[-0.09789103522256483,
 0.04277893477009086,
 0.05914935073037015,
 1.2314983223913518,
 -15.490255817247963,
 4.352157244999679,
 -0.00046913679732233423,
 -1.3772064509938118,
 0.28208574937893033,
 -0.012491944544221194,
 -0.9400115034030585,
 0.006622607126908393,
 -0.5485510540708755]

In [None]:
# Coeficientes do modelo
for feature, coef in zip(boston['feature_names'].tolist(), clf.coef_.tolist()):
    print(f"{feature}: {round(coef, 2)}")

# Constante do modelo
print(f"Constante: {round(clf.intercept_, 2)}")

CRIM: -0.1
ZN: 0.04
INDUS: 0.06
CHAS: 1.23
NOX: -15.49
RM: 4.35
AGE: -0.0
DIS: -1.38
RAD: 0.28
TAX: -0.01
PTRATIO: -0.94
B: 0.01
LSTAT: -0.55
Constante: 32.48


### Erro do Modelo


In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

y_pred = clf.predict(X_test)

print(f"MSE de Teste: {mean_squared_error(y_test, y_pred):1.1f}")
print(f"MAE de Teste: {mean_absolute_error(y_test, y_pred):1.1f}")

MSE de Teste: 24.8
MAE de Teste: 3.4


In [None]:
from sklearn.metrics import r2_score

r_quadrado = r2_score(y_test, y_pred)

print('O R² é de {0}. Isto é, {1}% dos casos são explicados pelo modelo.'.format(round(r_quadrado,3), round(r_quadrado*100,1)))

O R² é de 0.686. Isto é, 68.6% dos casos são explicados pelo modelo.


## Atividade - Regressão com o dataset [Diabetes](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset)

* $N = 442$
* Atributos: 10
    * `age`
    * `sex`
    * `bmi` Índice de Massa Corpórea (IMC) - *Body Mass Index* (BMI)
    * `bp` pressão arterial média *blood pressure* (bp)
    * `s1` colesterol total
    * `s2` colesterol LDL
    * `s3` colesterol HDL
    * `s4` colesterol VLDL
    * `s5` triglicerides
    * `s6` glicose
* Variável dependente: medida quantitativa de progressão da diabetes

* Rodem o `LinearRegression()` nos dados de treino e mensure o desempenho nos dados de teste.

>Obs: usar `test_size = 0.25` e `random_state = 123`

In [None]:
from sklearn.datasets import load_diabetes

diabetes = load_diabetes()
X = diabetes['data']
y = diabetes['target']

In [None]:
print(f"Nomes dos Atributos: {diabetes['feature_names']}")
print(f"Tamanho de X: {X.shape}")
print(f"Tamanho de y: {y.shape}")

Nomes dos Atributos: ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']
Tamanho de X: (442, 10)
Tamanho de y: (442,)


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=123)

In [None]:
print(f"Tamanho de X_train: {X_train.shape}")
print(f"Tamanho de X_test: {X_test.shape}")
print(f"Tamanho de y_train: {y_train.shape}")
print(f"Tamanho de y_test: {y_test.shape}")

Tamanho de X_train: (331, 10)
Tamanho de X_test: (111, 10)
Tamanho de y_train: (331,)
Tamanho de y_test: (111,)
