## Apresentação ✒️

Notebook destinado ao estudo de regressão linear no contexto de machine learning (ML). Os modelos de regressão linear são um tipo de modelo de regressão, dentre outros, associados ao tema de regressão no contexto de aprendizagem supervisionada no escopo de ML e se destacam por ser tidos como modelos paramétricos. 

Isso significa que apresentam um determinado conjunto fixo de preditores (features, variáveis explicativas e afins), assumem que os dados obedecem uma determinada distribuição dos dados (linear, polinomial, normal) e possuem elevada interpretabilidade, o que significa que por meio deles é possível compreender de forma elucidativa o nível de contribuição de cada preditor acerca da explicação da variável target (Y). 

Para a sua construção, pode-se ser adotada duas principais formas : 

- regressão linear simples :

```Y = Bo + B'*x1 + e```

- regressão linear múltipla :

```Y = Bo + B'*x1 B"*x2 + e```

✨ regressão linear múltipla inter-relacionada :

Utilizada para compreender a presença da sinergia entre os preditores do conjunto de dados. Por sinergia, pode compreender o nível de contribuição, que, em conjunto, dois ou mais preditores exercem na explicação de Y. Para fins didáticos, pense num cenário em que uma empresa de marketing deseja compreender o nível de contribuição dos campos TV e rádio. Cada um pode exercer a sua respectiva influência, porém em conjunto outra, de modo a conseguir - possivelmente - promover melhor o produto. 

```Y = Bo + B'*x1 B''*x2 + B'''(x1*x2) + e```

##### Utilização 

A adoção de tais modelos está intimamente relacionada a uma necessidade de se compreender, com base em um determinado conjunto de dados, de valores futuros acerca de um determinado cenário, como valor de casas, veículos, preço de corrida e etc, ao mesmo tempo que busca-se compreender o nível de influência de cada preditor ou seu conjunto. 

Um ponto de atenção é que no emprego de tais modelos deve estar atento a linearidade dos dados - se seguem uma distribuição linear - e com a presença de colinearidade. 

##### Em síntese... 

Feito uma breve introdução sobre os modelos de regressão linear, irei passar adiante sobre os principais tópicos relacionados ao tema, compreendendo :

- Verificação da distribuição linear 
- Significância estatística entre os preditores
- Presença de sinergia
- Qualidade do modelo (ajuste)
- Colinearidade 

Para isso, irei utilizar um dataset oriundo de um pacote do livro Introduction Statistical Learning, que poderá ser utilizada, bastando realizar a importação da biblioteca, semelhante a mim. 

### Library 📚

In [None]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import statsmodels.api as sm

from ISLP import load_data
from ISLP.models import ModelSpec as MS, summarize, poly

from statsmodels.stats.anova import anova_lm
from statsmodels.stats.outliers_influence import variance_inflation_factor as VIF

from sklearn.model_selection import train_test_split

### Loading Dataset 💾

In [4]:
boston_df = load_data("Boston")

In [5]:
boston_df.head()

Unnamed: 0,crim,zn,indus,chas,nox,rm,age,dis,rad,tax,ptratio,lstat,medv
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296,15.3,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,5.33,36.2


In [6]:
boston_df.shape

(506, 13)

In [7]:
boston_df.isna().sum()

crim       0
zn         0
indus      0
chas       0
nox        0
rm         0
age        0
dis        0
rad        0
tax        0
ptratio    0
lstat      0
medv       0
dtype: int64

In [8]:
boston_df.duplicated().sum()

0