# Introdução ao statsmodels

Objetivos:
- Introduzir o Patsy (especificação de modelo similar ao R)
- Introduzir modelagem com o Statsmodels

## Índice <a name="topo"></a>

1. [Introdução ao Patsy](#1)
    1. [Definindo a matriz de modelagem no Patsy](#1.1)
    2. [Retirando o intercepto](#1.2)
    3. [Transformações de dados no Patsy](#1.3)
    4. [Aplicando patsy a dados novos](#1.4)
5. [Introdução ao statsmodels](#2)
    1. [Usando o API base do statsmodels](#2.1)
    2. [Usando o API *formula* do statsmodels](#2.2)

In [6]:
import pandas as pd
import numpy as np
from seaborn import load_dataset

import patsy
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [7]:
tips = load_dataset("tips")
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips['net_bill'] = tips['total_bill'] - tips['tip']
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct,net_bill
0,16.99,1.01,Female,No,Sun,Dinner,2,0.063204,15.98
1,10.34,1.66,Male,No,Sun,Dinner,3,0.191244,8.68
2,21.01,3.5,Male,No,Sun,Dinner,3,0.199886,17.51
3,23.68,3.31,Male,No,Sun,Dinner,2,0.162494,20.37
4,24.59,3.61,Female,No,Sun,Dinner,4,0.172069,20.98


## <span style="color:blue">1. Introdução ao Patsy</span><a name="1"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>

O Patsy é um pacote que permite especificar uma matriz de modelagem de uma forma prática como no R, com a seguinte sintaxe:
```
'y ~ x1 + x2 + x3'
```

Ele possui diversos recursos como:
- inclui intercepto (ou exclui utilizando +0)
- inserir funções das variáveis de forma prática
- trabalhar com dados categorizados
- facilita a aplicação a novos dados

### <span style="color:blue">1.1 Definindo a matriz de modelagem com Patsy</span><a name="1.1"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div> 

In [8]:
y, X = patsy.dmatrices('tip_pct ~ sex + smoker + size + total_bill + 1', tips[:5])
X

DesignMatrix with shape (5, 5)
  Intercept  sex[T.Female]  smoker[T.No]  size  total_bill
          1              1             1     2       16.99
          1              0             1     3       10.34
          1              0             1     3       21.01
          1              0             1     2       23.68
          1              1             1     4       24.59
  Terms:
    'Intercept' (column 0)
    'sex' (column 1)
    'smoker' (column 2)
    'size' (column 3)
    'total_bill' (column 4)

In [9]:
y

DesignMatrix with shape (5, 1)
  tip_pct
  0.06320
  0.19124
  0.19989
  0.16249
  0.17207
  Terms:
    'tip_pct' (column 0)

### <span style="color:blue">1.2 Retirando o intercepto</span><a name="1.2"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>  

Podemos retirar o intercepto no Patsy simplesmente com a instrução ```+0```. Ou, alternativamente, podemos colocá-lo de forma explícita com ```+1```.

In [10]:
y, X = patsy.dmatrices('tip_pct ~ sex + smoker + size + total_bill + 0', tips[:5])
X

DesignMatrix with shape (5, 5)
  sex[Male]  sex[Female]  smoker[T.No]  size  total_bill
          0            1             1     2       16.99
          1            0             1     3       10.34
          1            0             1     3       21.01
          1            0             1     2       23.68
          0            1             1     4       24.59
  Terms:
    'sex' (columns 0:2)
    'smoker' (column 2)
    'size' (column 3)
    'total_bill' (column 4)

### <span style="color:blue">1.3 Transformações de dados no Patsy</span><a name="1.3"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>  

#### Aplicando funções

Podemos aplicar funções vetorizadas no Patsy de forma transparente, dentro do string. Em especial, a maioria das funções do Numpy são vetorizadas e podem ser usadas normalmente, como o ```np.log()``` e ```np.exp()``` que fazem logaritmo e função exponencial ($e^x$) respectivamente.

In [11]:
y, X = patsy.dmatrices('tip_pct ~ np.log(size) + standardize(total_bill) + center(tip)', tips[:5])
X


DesignMatrix with shape (5, 4)
  Intercept  np.log(size)  standardize(total_bill)  center(tip)
          1       0.69315                 -0.44762       -1.608
          1       1.09861                 -1.72407       -0.958
          1       1.09861                  0.32401        0.882
          1       0.69315                  0.83651        0.692
          1       1.38629                  1.01118        0.992
  Terms:
    'Intercept' (column 0)
    'np.log(size)' (column 1)
    'standardize(total_bill)' (column 2)
    'center(tip)' (column 3)

In [12]:

y, X = patsy.dmatrices('tip ~ sex + smoker + standardize(size) + center(total_bill)  + 0', tips[:5])
X

DesignMatrix with shape (5, 5)
  sex[Male]  sex[Female]  smoker[T.No]  standardize(size)  center(total_bill)
          0            1             1           -1.06904              -2.332
          1            0             1            0.26726              -8.982
          1            0             1            0.26726               1.688
          1            0             1           -1.06904               4.358
          0            1             1            1.60357               5.268
  Terms:
    'sex' (columns 0:2)
    'smoker' (column 2)
    'standardize(size)' (column 3)
    'center(total_bill)' (column 4)

#### Somando variáveis dentro do Patsy

Como o caractere ```+``` é interpretado dentro do contexto da construção da matriz de modelagem, se quisermos somar variáveis no Patsy podemos usar a função ```I()``` como abaixo. 



In [13]:
y, X = patsy.dmatrices('tip ~ I(size + total_bill) + size + total_bill', tips[:5])
X

DesignMatrix with shape (5, 4)
  Intercept  I(size + total_bill)  size  total_bill
          1                 18.99     2       16.99
          1                 13.34     3       10.34
          1                 24.01     3       21.01
          1                 25.68     2       23.68
          1                 28.59     4       24.59
  Terms:
    'Intercept' (column 0)
    'I(size + total_bill)' (column 1)
    'size' (column 2)
    'total_bill' (column 3)

#### Dados categorizados no Patsy

Já vimos que o Patsy calcula as variáveis dummy para variáveis tipo **str**. Mas se quisermos tratar uma variável numérica como categorizada temos que usar a função ```C()```.



In [14]:
y, X = patsy.dmatrices('tip ~ sex  + C(size) + total_bill', tips[:5])
X

DesignMatrix with shape (5, 5)
  Intercept  sex[T.Female]  C(size)[T.3]  C(size)[T.4]  total_bill
          1              1             0             0       16.99
          1              0             1             0       10.34
          1              0             1             0       21.01
          1              0             0             0       23.68
          1              1             0             1       24.59
  Terms:
    'Intercept' (column 0)
    'sex' (column 1)
    'C(size)' (columns 2:4)
    'total_bill' (column 4)

#### Definindo interações com Patsy
Podemos inserir interações no Patsy da mesma forma que em boa parte dos softwares estatísticos programáveis com a sintaxe ```var1*var2```.


In [19]:
y, X = patsy.dmatrices('tip ~ sex  + time + sex*time', tips[:5])
X

DesignMatrix with shape (5, 4)
  Intercept  sex[T.Female]  time[T.Dinner]  sex[T.Female]:time[T.Dinner]
          1              1               1                             1
          1              0               1                             0
          1              0               1                             0
          1              0               1                             0
          1              1               1                             1
  Terms:
    'Intercept' (column 0)
    'sex' (column 1)
    'time' (column 2)
    'sex:time' (column 3)

In [21]:
y, X = patsy.dmatrices('tip ~ sex:time + 0', tips[:5])
X

DesignMatrix with shape (5, 4)
  Columns:
    ['sex[Male]:time[Lunch]',
     'sex[Female]:time[Lunch]',
     'sex[Male]:time[Dinner]',
     'sex[Female]:time[Dinner]']
  Terms:
    'sex:time' (columns 0:4)
  (to view full data, use np.asarray(this_obj))

### <span style="color:blue">1.4 Aplicando patsy a dados novos</span><a name="1.4"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>  

Como vimos, a função ```patsy.dmatrices()``` constroi a matriz de modelagem de acordo com as instruções do string que é passado como parâmetro. Com bastante frequência, vamos precisar aplicar o nosso modelo a dados novos, vamos portanto, precisar construir a mesma matriz de dados para esses dados novos. 

A função ```patsy.build_design_matrices()``` cumpre com essa tarefa de construir a matriz de modelagem para novos dados, de modo a facilitar bastante a implantação do modelo.

In [22]:
novos_Dados = tips[20:30]

new_X = patsy.build_design_matrices([X.design_info], novos_Dados)
new_X

[DesignMatrix with shape (10, 4)
   Columns:
     ['sex[Male]:time[Lunch]',
      'sex[Female]:time[Lunch]',
      'sex[Male]:time[Dinner]',
      'sex[Female]:time[Dinner]']
   Terms:
     'sex:time' (columns 0:4)
   (to view full data, use np.asarray(this_obj))]

## <span style="color:blue">2 Introdução ao Statsmodels</span><a name="2"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>  


### <span style="color:blue">2.1 Usando a api do statsmodels</span><a name="2.1"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>  

O statsmodels tem o API padrão, que é compatível com o Patsy, ou seja, você pode inserir a matriz de modelagem fornecida pelo ```patsy.dmatrices()```, bem como um objeto do numpy ou do pandas, como fizemos com o scikitlearn.

In [23]:
y, X = patsy.dmatrices('tip ~ sex  + time + smoker + day', tips)
X

DesignMatrix with shape (244, 7)
  Columns:
    ['Intercept',
     'sex[T.Female]',
     'time[T.Dinner]',
     'smoker[T.No]',
     'day[T.Fri]',
     'day[T.Sat]',
     'day[T.Sun]']
  Terms:
    'Intercept' (column 0)
    'sex' (column 1)
    'time' (column 2)
    'smoker' (column 3)
    'day' (columns 4:7)
  (to view full data, use np.asarray(this_obj))

In [24]:
modelo = sm.OLS(y,X).fit()

modelo.summary()

0,1,2,3
Dep. Variable:,tip,R-squared:,0.027
Model:,OLS,Adj. R-squared:,0.003
Method:,Least Squares,F-statistic:,1.117
Date:,"Wed, 04 Aug 2021",Prob (F-statistic):,0.353
Time:,10:55:21,Log-Likelihood:,-421.55
No. Observations:,244,AIC:,857.1
Df Residuals:,237,BIC:,881.6
Df Model:,6,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.9124,0.244,11.941,0.000,2.432,3.393
sex[T.Female],-0.1702,0.190,-0.896,0.371,-0.544,0.204
time[T.Dinner],0.5034,0.595,0.846,0.398,-0.669,1.675
smoker[T.No],-0.0843,0.193,-0.437,0.662,-0.464,0.296
day[T.Fri],-0.3972,0.528,-0.753,0.452,-1.437,0.642
day[T.Sat],-0.3243,0.632,-0.513,0.609,-1.570,0.921
day[T.Sun],-0.0571,0.633,-0.090,0.928,-1.304,1.189

0,1,2,3
Omnibus:,80.856,Durbin-Watson:,1.979
Prob(Omnibus):,0.0,Jarque-Bera (JB):,226.887
Skew:,1.466,Prob(JB):,5.4e-50
Kurtosis:,6.703,Cond. No.,19.8


### <span style="color:blue">2.2 Usando a api *formula* do statsmodels</span><a name="2.2"></a>

<div style="text-align: right"
     
[Voltar ao índice](#topo) </div>  

O statsmodels possui um pacote *formula*, que já integra a interface do Patsy. Com ele podemos indicar a sintaxe do modelo diretamente na função do modelo, ```ols()``` no caso. Repare que a função vem com letras minúsculas, em contraste com o API padrão do statsmodels, propositalmente, para deixar claro qual o API que está sendo utilizado.

In [25]:
results = smf.ols('''
                    tip_pct ~ sex 
                                + size 
                                + np.log(total_bill)
                  ''', tips).fit()

results.summary()

0,1,2,3
Dep. Variable:,tip_pct,R-squared:,0.09
Model:,OLS,Adj. R-squared:,0.079
Method:,Least Squares,F-statistic:,7.953
Date:,"Wed, 04 Aug 2021",Prob (F-statistic):,4.46e-05
Time:,10:56:54,Log-Likelihood:,107.89
No. Observations:,244,AIC:,-207.8
Df Residuals:,240,BIC:,-193.8
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,0.5401,0.071,7.618,0.000,0.400,0.680
sex[T.Female],-0.0105,0.021,-0.496,0.620,-0.052,0.031
size,0.0176,0.013,1.345,0.180,-0.008,0.043
np.log(total_bill),-0.1313,0.029,-4.589,0.000,-0.188,-0.075

0,1,2,3
Omnibus:,460.749,Durbin-Watson:,1.977
Prob(Omnibus):,0.0,Jarque-Bera (JB):,214315.295
Skew:,10.735,Prob(JB):,0.0
Kurtosis:,146.594,Cond. No.,31.0
