# Capítulo 12 - Modelos lineares

## Seção 12.2 Regressão linear simples

O livro usa duas bibliotecas para testes de regressão linear. A statsmodels e o sklearn.

Inicialmente vamos abrir a base de dados de gorjeta e visualizar a tabela.

In [1]:
import pandas as pd
import seaborn as sns
import statsmodels.formula.api as smf

tips = sns.load_dataset('tips')
print(tips.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


Agora vamos calcular a regressão linear simples entre o valor da gorjeta e o valor da conta usando statsmodels.
 
Para isso, vamos usar a função ols (ordinary least squares). O resultado será no formato y = ax + b. Ou seja, temos o preditor (x) de uma variável de resposta (y). Na linguagem da biblioteca, escrevemos 'y ~ x'. No nosso caso, o preditor (x) é total_bill e a variável de resposta é a gorjeta (y = tip).
 
Depois de definido o modelo, temos que efetivamente estimar o modelo (ou seja, calcular 'a' e 'b' em 'y = ax + b'). Para isso usamos o método fit().

In [2]:
model = smf.ols(formula='tip ~ total_bill', data=tips)
results = model.fit()

print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.457
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     203.4
Date:                Tue, 03 May 2022   Prob (F-statistic):           6.69e-34
Time:                        18:43:38   Log-Likelihood:                -350.54
No. Observations:                 244   AIC:                             705.1
Df Residuals:                     242   BIC:                             712.1
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.9203      0.160      5.761      0.0

Na equação y = ax + b o valor de 'b' no sumário é o campo Intercept. E o valor de 'a', total_bill. Esses dados podem ser acessados usando results.params (esse results.params é um objeto do tipo Series do pandas). O método fit já calcula também facilmente o intervalo de confiança de 95%:

In [3]:
print(results.params)

print('-'*70)
print('Tipo do objeto:', type(results.params))
print('Intercept:', results.params.Intercept)
print('total_bill:', results.params.total_bill)

print('-'*70)
print(results.conf_int())


Intercept     0.920270
total_bill    0.105025
dtype: float64
----------------------------------------------------------------------
Tipo do objeto: <class 'pandas.core.series.Series'>
Intercept: 0.9202696135546724
total_bill: 0.10502451738435338
----------------------------------------------------------------------
                   0         1
Intercept   0.605622  1.234918
total_bill  0.090517  0.119532


A ideia usando a sklearn é parecida, mas usa um idioma diferente (e mais simples). Entretanto, um complicador é que ele trabalha com arrays numpy, então é necessário converter o objeto Series para um nparray na passagem do X (não precisa no Y):

In [4]:
from sklearn import linear_model

lr = linear_model.LinearRegression()

predicted = lr.fit(X=tips.total_bill.values.reshape(-1,1), y=tips.tip)

# Funciona assim também, bem mais simples:
predicted = lr.fit(X=tips[['total_bill']], y=tips['tip'])

Não há a tabela de sumário igual no statsmodels. Aqui temos que pegar os elementos que quisermos:

In [5]:
print(predicted.coef_)
print(predicted.intercept_)

[0.10502452]
0.9202696135546731


## Seção 12.3 - Regressão múltipla

Regressão múltiplas com variáveis numéricas é semelhante. No caso da statsmodels, o formato de entrada da fórmula é 'y ~ x1 + x2 + ... + xn'. Para sklearn basta usarmos o dataframe com as colunas x1, x2, ... xn. Não é necessário reformatar nada igual no caso de regressão simples.

Usando statsmodel:

In [6]:
model = smf.ols(formula='tip ~ total_bill + size', data=tips).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.468
Model:                            OLS   Adj. R-squared:                  0.463
Method:                 Least Squares   F-statistic:                     105.9
Date:                Tue, 03 May 2022   Prob (F-statistic):           9.67e-34
Time:                        18:43:39   Log-Likelihood:                -347.99
No. Observations:                 244   AIC:                             702.0
Df Residuals:                     241   BIC:                             712.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.6689      0.194      3.455      0.0

Usando sklearn:

In [7]:
predicted = lr.fit(X=tips[['total_bill', 'size']], y=tips['tip'])
print(predicted.coef_)
print(predicted.intercept_)

[0.09271334 0.19259779]
0.6689447408125022


Regressões podem ser feitas também com variáveis categorizadas. Nesse exemplo temos algumas variáveis desse tipo: sex, smoker, day e time. Vamos ver primeiro o conteúdo dessas variáveis e depois fazer a regressão usando variáveis dummy para elas. No caso do statsmodels isso já é automático. Já para o sklearn é necessário fazer manualmente

In [8]:
print('Info das variáveis do dataframe:')
print(tips.info())

print('-'*80)
print('sex:', tips.sex.unique())
print('-'*80)
print('smoker:', tips.smoker.unique())
print('-'*80)
print('day:', tips.day.unique())
print('-'*80)
print('time:', tips.time.unique())

Info das variáveis do dataframe:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.3 KB
None
--------------------------------------------------------------------------------
sex: ['Female', 'Male']
Categories (2, object): ['Female', 'Male']
--------------------------------------------------------------------------------
smoker: ['No', 'Yes']
Categories (2, object): ['No', 'Yes']
--------------------------------------------------------------------------------
day: ['Sun', 'Sat', 'Thur', 'Fri']
Categories (

In [9]:
model = smf.ols(formula='tip ~ total_bill + size + sex + smoker + day + time', data=tips).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.470
Model:                            OLS   Adj. R-squared:                  0.452
Method:                 Least Squares   F-statistic:                     26.06
Date:                Tue, 03 May 2022   Prob (F-statistic):           1.20e-28
Time:                        18:43:39   Log-Likelihood:                -347.48
No. Observations:                 244   AIC:                             713.0
Df Residuals:                     235   BIC:                             744.4
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------
Intercept          0.5908      0.256      2.

In [10]:
# Usa o pandas pra calcular variáveis dummy. Ele não descarta a primeira (de referência) por padrão:
tips_dummy = pd.get_dummies(tips[['total_bill', 'size', 'sex', 'smoker', 'day', 'time']])
print('-'*80)
print('Variáveis dummy calculadas pelo Pandas')
print(tips_dummy.head())

# Descarta as variáveis dummies de referência:
x_tips_dummy_ref = pd.get_dummies(tips[['total_bill', 'size', 'sex', 'smoker', 'day', 'time']], drop_first=True)
print('-'*80)
print('Variáveis dummy calculadas pelo Pandas descartando a variável de referência')
print(x_tips_dummy_ref.head())

--------------------------------------------------------------------------------
Variáveis dummy calculadas pelo Pandas
   total_bill  size  sex_Male  sex_Female  smoker_Yes  smoker_No  day_Thur  \
0       16.99     2         0           1           0          1         0   
1       10.34     3         1           0           0          1         0   
2       21.01     3         1           0           0          1         0   
3       23.68     2         1           0           0          1         0   
4       24.59     4         0           1           0          1         0   

   day_Fri  day_Sat  day_Sun  time_Lunch  time_Dinner  
0        0        0        1           0            1  
1        0        0        1           0            1  
2        0        0        1           0            1  
3        0        0        1           0            1  
4        0        0        1           0            1  
---------------------------------------------------------------------------

In [11]:
predicted = lr.fit(X=x_tips_dummy_ref, y=tips['tip'])
print(predicted.coef_)
print(predicted.intercept_)

[ 0.09448701  0.175992    0.03244094  0.08640832  0.1622592   0.04080082
  0.13677854 -0.0681286 ]
0.5908374259513769


## Seção 12.4 - Mantendo os rótulos dos índices com a sklearn

Os atributos coef_ e intercept_ do resultado da sklearn são do tipo nparray. Logo, não possuem um índice associado, o que torna mais difícil de interpretar os resultados com um print simples nesses atributos. Entretanto, podemos criar um dataframe com esse resultado indexando tudo:

In [12]:
import numpy as np

values = np.append(predicted.intercept_, predicted.coef_)

names = np.append('intercept', x_tips_dummy_ref.columns)

results = pd.DataFrame(values, index = names, columns=['coef'])

print(results)

                 coef
intercept    0.590837
total_bill   0.094487
size         0.175992
sex_Female   0.032441
smoker_No    0.086408
day_Fri      0.162259
day_Sat      0.040801
day_Sun      0.136779
time_Dinner -0.068129
