CAPÍTULO 12 - Modelos lineares
-


Esta parte do livro segue os métodos descritos no livro R for Erevyone. O raciocínio é o seguindo: como você já conhece os métodos de manipulação de dados em python usando Pandas, poderá salvar o conjunto de dados limpo caso sejá nescessário usar um método de outra linguagem de análise

12.2 Regressão linear.

O objetivo da regessão lienar é estabelecer uma relação direta entre uma  
variável de resposta (também conhecida como variável resultante ou dependente) e uma variável preditora (também conhecida como variável covariante ou independente).

In [1]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
print(tips.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


Em nossa regresão linear simples, gorataríamos de ver como total_bill se relaciona com a gorjeta (tip), ou como ele a prevê.

12.2.1 Usando a statsmodels 

Podemos usar a biblioteca statsmodels para fazer nossa regressão linear simples. Usaremos a API formula da statsmodels.

In [2]:
import statsmodels.formula.api as smf

Para essa regressão linear simples, usaremos a função ols, que calcula o valor dos mínimos quadrados ordinários; é um método para estimar parâmetros em uma regressão linear.

Lembre-se de que a fórmula para uma linha é y = mx + b, em que y é nossa  variável composta, x é o preditor, b é o intercepto e m é a inclinação, o parâmetro que estamos estimando.

A nptação para fórmula contém duas partes separadas por um til, ~. À esquerda do til, está a variavel de resposta, e à direita, o preditor

In [3]:
model = smf.ols(formula='tip ~ total_bill', data=tips)
results  = model.fit()

In [4]:
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.457
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     203.4
Date:                Wed, 26 Jun 2024   Prob (F-statistic):           6.69e-34
Time:                        16:41:36   Log-Likelihood:                -350.54
No. Observations:                 244   AIC:                             705.1
Df Residuals:                     242   BIC:                             712.1
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.9203      0.160      5.761      0.0

Nesse caso, vemos o intercept do modelo e total_bill. Esses parâmetros podem ser usados um nossa fórmula para a linha, y = (0.105)x + 0.920.   
Para interpretar esses números, dizemos que a cada incremento de uma unidade em total_bill a gorjeta aumentará (ou seja, sempre a conta aumentar em um dolar a gorjeta aumentará em 10,5 centavos)

Se quisermos apena o coeficiente podemos chamar o atributo params em results.

In [5]:
print(results.params)

Intercept     0.920270
total_bill    0.105025
dtype: float64


Dependo da sua área, você pode querer informar um intervalo de confiança, que indentifica os possíveis valores que os valores estimados poderão assumir. O intervalo de confiança inclui valores menores que [0.025 0.975].  
Também podemos obter esses valores usando o método conf_int.

In [6]:
print(results.conf_int())

                   0         1
Intercept   0.605622  1.234918
total_bill  0.090517  0.119532


12.2.2 Usando a sklearn

A biblioteca sklearn também pode ser usada para a adequação de varios modelos de machine learning. Para fazer a mesma análise da seção passada vamos importar o módulo linear_model dessa biblioteca.

In [7]:
from sklearn import linear_model

In [8]:
#cria o nosso objeto LinearRegression
lr = linear_model.LinearRegression()

Depois demos especificar o preditor, X e a resposta y

In [10]:
'''predicted = lr.fit(X=tips['total_bill'], y=tips['tip'])'''
#isso gerá uma falha  porque nosso X tem apenas 1 váriavel

sklearn foi projetada para aceitar arrays numpy, então haverá ocasiões que você terá que fazer algumas manipulações de dados.   
Conforme tenhamos uma única característica ou uma amostragem única, especificamos reshape(-1, 1) ou reshape(1, -1) respectivamente.

Chamar  reshpae diretamente na coluna causará um aviso de erro, para evitar isso devemos usar o atributo values.

In [12]:
predicted = lr.fit(X=tips['total_bill'].values.reshape(-1, 1),
                   y=tips['tip'])

Como sklearn trabalha com ndarrays do numpy, você poderá ver cádigos que passem explicitamente o vetor numpy nos parâmetros X ou y: t=tips['tip'].values.

Para obter coeficientes na sklearn, chamamos o atributo coef_ no modelo em que adequação é feita

In [14]:
print(predicted.coef_)

[0.10502452]


Para obtermos o intercepto, chamamos o atributo intercept_.

In [15]:
print(predicted.intercept_)

0.9202696135546731


12.3 Regressão múltipla

Na regressão linear simples fazemos a regressão de um preditor em uma variável de resposta contínua. De modo alternativo, podemos usar a regressão múltipla para colocar vários preditores em um modelo.

12.3.1 Usando a statsmodels

Fazer a adequação de um modelo de regressão linear múltipla é semelhante a fazer um modelo de regressão linear simples.  
Usando a interface da fórmula, adicionamos as outras variáveis covariantes do lado direito.

In [17]:
model = smf.ols(formula='tip ~ total_bill + size', data=tips).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.468
Model:                            OLS   Adj. R-squared:                  0.463
Method:                 Least Squares   F-statistic:                     105.9
Date:                Wed, 26 Jun 2024   Prob (F-statistic):           9.67e-34
Time:                        17:23:09   Log-Likelihood:                -347.99
No. Observations:                 244   AIC:                             702.0
Df Residuals:                     241   BIC:                             712.5
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.6689      0.194      3.455      0.0

As interpretações são exatamente as mesmas de antes, embora cada parâmetro seja interpretado "com todas as outras variáveis mantidas como constantes".  
Ou seja a cada um dolar a gorjeta aumenta em 0.09 cents, desde que o tamanho do grupo não mude.

12.3.2 Usando a statsmodels com variáveis categorizadas

Até agora só usamos preditores contínuos em nosso modelo, mas se observarmos veremos que o conjunto tips possuí variáveis categorizadas.

In [18]:
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB
None


Se quisermos modelar as variáveis categorizadas precisamos criar variáveis dummy. Isso significa que cada valor único da categoria se tornará uma nova característica binaria.

Por exemplom sex em nossos dados pode armazenar um de dois valores: Famale ou Male.

In [19]:
print(tips.sex.unique())

['Female', 'Male']
Categories (2, object): ['Male', 'Female']


A statsmodel criará automaticamente variáveis dummy para nós. Para evitar multicolinearidade, em geral descartamos uma das variáveis dummy.  
Em outras palavras se tivermos uma coluna que informe se a pessoa é do sexo feminino, então saberemos que se a pessoa não for do sexo feminino, ela será do sexo masculino.

In [20]:
model = smf.ols(formula='tip ~ total_bill + size + sex + smoker + day + time',
                data=tips).fit()

A partir do resumo podemos ver que statsmodel cria automaticamente variáveis dummy, além de descartar a váviavel de referência para evitar multicolinearidade.

In [21]:
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    tip   R-squared:                       0.470
Model:                            OLS   Adj. R-squared:                  0.452
Method:                 Least Squares   F-statistic:                     26.06
Date:                Wed, 26 Jun 2024   Prob (F-statistic):           1.20e-28
Time:                        17:44:26   Log-Likelihood:                -347.48
No. Observations:                 244   AIC:                             713.0
Df Residuals:                     235   BIC:                             744.4
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                     coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------
Intercept          0.5908      0.256      2.