# Regressão Linear

In [5]:
import numpy as np
import pandas as pd
from matplotlib.pyplot import subplots
import statsmodels.api as sm

from statsmodels.stats.outliers_influence \
import variance_inflation_factor as VIF
from statsmodels.stats.anova import anova_lm

from ISLP import load_data
from ISLP.models import (ModelSpec as MS, summarize, poly)

In [6]:
dir()

['In',
 'MS',
 'Out',
 'VIF',
 '_',
 '__',
 '___',
 '__builtin__',
 '__builtins__',
 '__doc__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__vsc_ipynb_file__',
 '_dh',
 '_i',
 '_i1',
 '_i2',
 '_i3',
 '_i4',
 '_i5',
 '_i6',
 '_ih',
 '_ii',
 '_iii',
 '_oh',
 'anova_lm',
 'exit',
 'get_ipython',
 'load_data',
 'np',
 'open',
 'pd',
 'poly',
 'quit',
 'sm',
 'subplots',
 'summarize']

Vamos construir uma regressão linear para o dataFrame Boston onde queremos prever medv baseado nos outros preditores. medv representa a mediana do valor das casas em uma vizinhança de Boston, MA.

In [7]:
boston = load_data("Boston")
boston.columns

Index(['crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'lstat', 'medv'],
      dtype='object')

Numa primeira etapa, vamos utilizar um único preditor entre os disponíveis nas colunas do dataframe. Vamos selecionar lstat, o percentual de casas de baixo valor na vizinhança.

In [11]:
X = pd.DataFrame({'intercept': np.ones(boston.shape[0]), 
                  'lstat': boston[ 'lstat']})
X.head(4)

Unnamed: 0,intercept,lstat
0,1.0,4.98
1,1.0,9.14
2,1.0,4.03
3,1.0,2.94


In [12]:
y = boston[ 'medv']
model = sm.OLS(y, X)
results = model.fit()

In [13]:
summarize(results)

Unnamed: 0,coef,std err,t,P>|t|
intercept,34.5538,0.563,61.415,0.0
lstat,-0.95,0.039,-24.528,0.0


Ao construirmos uma regressão linear de y(medv) sobre X (lstat), obtemos um coeficiente linear (intercept) e uma inclinação da reta (lstat). O que este resultado nos diz é que quando há zero casas de baixo valor economico na vizinhança, a mediana do preço é em torno de 34,000 dólares e para cada percentual que aumenta a partir de 0 o valor é depreciado, em média, em 950 dólares.

In [14]:
results.summary()

0,1,2,3
Dep. Variable:,medv,R-squared:,0.544
Model:,OLS,Adj. R-squared:,0.543
Method:,Least Squares,F-statistic:,601.6
Date:,"Wed, 09 Apr 2025",Prob (F-statistic):,5.08e-88
Time:,21:25:31,Log-Likelihood:,-1641.5
No. Observations:,506,AIC:,3287.0
Df Residuals:,504,BIC:,3295.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
intercept,34.5538,0.563,61.415,0.000,33.448,35.659
lstat,-0.9500,0.039,-24.528,0.000,-1.026,-0.874

0,1,2,3
Omnibus:,137.043,Durbin-Watson:,0.892
Prob(Omnibus):,0.0,Jarque-Bera (JB):,291.373
Skew:,1.453,Prob(JB):,5.36e-64
Kurtosis:,5.319,Cond. No.,29.7


In [15]:
results.params

intercept    34.553841
lstat        -0.950049
dtype: float64