# Regressão em Dados de Painel


Neste notebook apresentamos conceitos de regressão em dados de painel usando um caso prático de análise de dados reais. A análise descrita usa dados sobre a pandemia de Covid-19 em algumas das maiores cidades brasileiras, incluindo mobilidade, políticas públicas e casos de Covid. Os dados foram obtidos das seguintes fontes:

- Mobilidade: [Google Mobility Reports](https://www.google.com/covid19/mobility/)

- Políticas públicas: [Brazilian Sub-National Covid-19 Policy Responses](https://github.com/OxCGRT/Brazil-covid-policy)

- Casos e mortes: [Brasil.io](https://brasil.io/)


A análise é baseada nas bibliotecas [StatsModels](https://www.statsmodels.org) e [linearmodels](https://bashtage.github.io/linearmodels/index.html). A biblioteca `linearmodels` tem funcionalidades específicas para regressão em dados de painel.

O objetivo da análise é entender como o índice de rigidez das políticas de uma cidade (StringencyIndex) e o número de mortes afeta a mobilidade das pessoas.

In [47]:
# Importação de pacotes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()
import statsmodels.api as sm
import statsmodels.formula.api as smf
import linearmodels as lm

## Lendo dados de um arquivo

Os dados coletados foram agregados em um arquivo CSV, exibido abaixo e disponibilizado no reposítório deste tutorial.

In [48]:
# lê o arquivo CSV
df = pd.read_csv('../../data/covid_politicas_mobilidade.csv', parse_dates=['Date'])
# mostra o conteúdo do DataFrame
df.head(3)

Unnamed: 0,State,City,Date,StringencyIndex,city_ibge_code,new_confirmed,new_deaths,confirmed,deaths,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline,avg_mobility
0,para,ananindeua,2020-03-25,80.56,1500800,2,0,6,0,-51.0,-17.0,-59.0,-70.0,-40.0,17.0,-47.4
1,para,ananindeua,2020-03-26,80.56,1500800,2,0,8,0,-50.0,-14.0,-54.0,-69.0,-39.0,17.0,-45.2
2,para,ananindeua,2020-03-27,83.33,1500800,0,0,10,0,-51.0,-11.0,-58.0,-71.0,-36.0,18.0,-45.4


## Pooled OLS

O primeiro modelo construído representa uma regressão usual, considerando cada linha do nosso dataframe como uma observação. Os resultados são apresentados abaixo. Percebe-se que tanto a rigidez das políticas quanto o número de mortes ajudam a diminuir a mobilidade das pessoas.

Este tipo de regressão simples não é indicado para estes casos. A razão principal é que o modelo não considera fatores não observados que podem estar associados à dinâmica estudada. Por exemplo, cidades com níveis econômicos mais baixos podem ter menos capacidade para a prática de distanciamento social.

In [49]:
model = smf.ols("avg_mobility ~ StringencyIndex  + new_deaths", data=df)
response = model.fit()
response.summary()

0,1,2,3
Dep. Variable:,avg_mobility,R-squared:,0.282
Model:,OLS,Adj. R-squared:,0.282
Method:,Least Squares,F-statistic:,4880.0
Date:,"Mon, 17 Oct 2022",Prob (F-statistic):,0.0
Time:,08:39:24,Log-Likelihood:,-106850.0
No. Observations:,24851,AIC:,213700.0
Df Residuals:,24848,BIC:,213700.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,41.3338,0.587,70.412,0.000,40.183,42.484
StringencyIndex,-0.8277,0.009,-96.712,0.000,-0.844,-0.811
new_deaths,-0.1399,0.006,-25.091,0.000,-0.151,-0.129

0,1,2,3
Omnibus:,97.946,Durbin-Watson:,0.368
Prob(Omnibus):,0.0,Jarque-Bera (JB):,133.6
Skew:,0.019,Prob(JB):,9.75e-30
Kurtosis:,3.357,Cond. No.,356.0


## Efeitos Fixos

Uma forma de se considerar estes fatores não observados é usar efeitos fixos (fixed effects). Para isto, adocionamos variáveis que representam todos os efeitos relacionados com nossas entidades que podem estar afetando o modelo. 

### Variáveis dummies

Uma forma simples de se fazer isto é adicionar dummies das nossas entidades (no caso, cidades). O exemplo abaixo mostra isso. Os coeficientes das cidades no modelo representam todos os fatores específicos de cada cidade que podem afetar o nível de mobilidade, como questões econômicas ou a matriz de transporte.

In [50]:
model = smf.ols("avg_mobility ~ StringencyIndex  + new_deaths + C(City)", data=df)
response = model.fit()
response.summary()

0,1,2,3
Dep. Variable:,avg_mobility,R-squared:,0.559
Model:,OLS,Adj. R-squared:,0.558
Method:,Least Squares,F-statistic:,581.2
Date:,"Mon, 17 Oct 2022",Prob (F-statistic):,0.0
Time:,08:39:25,Log-Likelihood:,-100810.0
No. Observations:,24851,AIC:,201700.0
Df Residuals:,24796,BIC:,202200.0
Df Model:,54,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,66.6522,0.806,82.731,0.000,65.073,68.231
C(City)[T.aparecida de goiania],-10.8433,0.905,-11.984,0.000,-12.617,-9.070
C(City)[T.aracaju],-28.2396,0.904,-31.255,0.000,-30.011,-26.469
C(City)[T.araguaina],-8.2407,0.911,-9.050,0.000,-10.026,-6.456
C(City)[T.arapiraca],-13.5524,0.920,-14.730,0.000,-15.356,-11.749
C(City)[T.belem],-12.5698,0.906,-13.867,0.000,-14.346,-10.793
C(City)[T.belo horizonte],-17.7445,0.906,-19.581,0.000,-19.521,-15.968
C(City)[T.boa vista],-3.0422,0.908,-3.349,0.001,-4.822,-1.262
C(City)[T.campina grande],-13.4059,0.909,-14.742,0.000,-15.188,-11.624

0,1,2,3
Omnibus:,1535.498,Durbin-Watson:,0.568
Prob(Omnibus):,0.0,Jarque-Bera (JB):,2580.583
Skew:,-0.489,Prob(JB):,0.0
Kurtosis:,4.239,Cond. No.,3650.0


Também podemos pensar em efeitos que são especícos para os períodos de tempo. Por exemplo, é rezoável imaginar que no início da pandemia as pessoas reagiam com mais intensidade às notícias de número de mortes e com isso tinham maior tendência a se distanciar. Para capturar estes efeitos que são fixos nos períodos de tempo podemos também adicionar dummies para a variável de tempo:

In [51]:
model = smf.ols("avg_mobility ~ StringencyIndex  + new_deaths + C(City) + C(Date)", data=df)
response = model.fit()
response.summary()

0,1,2,3
Dep. Variable:,avg_mobility,R-squared:,0.837
Model:,OLS,Adj. R-squared:,0.833
Method:,Least Squares,F-statistic:,223.9
Date:,"Mon, 17 Oct 2022",Prob (F-statistic):,0.0
Time:,08:39:40,Log-Likelihood:,-88430.0
No. Observations:,24851,AIC:,178000.0
Df Residuals:,24293,BIC:,182500.0
Df Model:,557,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-6.3696,8.615,-0.739,0.460,-23.255,10.516
C(City)[T.aparecida de goiania],-9.2825,0.556,-16.704,0.000,-10.372,-8.193
C(City)[T.aracaju],-27.9878,0.555,-50.437,0.000,-29.075,-26.900
C(City)[T.araguaina],-10.0349,0.559,-17.943,0.000,-11.131,-8.939
C(City)[T.arapiraca],-15.8110,0.565,-27.975,0.000,-16.919,-14.703
C(City)[T.belem],-9.0502,0.557,-16.244,0.000,-10.142,-7.958
C(City)[T.belo horizonte],-21.1440,0.558,-37.917,0.000,-22.237,-20.051
C(City)[T.boa vista],-9.1477,0.560,-16.339,0.000,-10.245,-8.050
C(City)[T.campina grande],-10.8941,0.559,-19.499,0.000,-11.989,-9.799

0,1,2,3
Omnibus:,2021.127,Durbin-Watson:,0.687
Prob(Omnibus):,0.0,Jarque-Bera (JB):,6929.477
Skew:,-0.386,Prob(JB):,0.0
Kurtosis:,5.469,Cond. No.,4.59e+16


Esta abordagem de se adicionar dummies para os efeitos tem dois problemas: (i) adiciona muitas variáveis, aumentando muito o grau de liberdade do modelo, fazendo com que fique menos confiável; e (ii) pode criar problemas de endogeneidade, com o coeficiente da entidade fazendo com que o erro do modelo seja correlacionado com os preditores.

### Within transformation

Para tratar estes problemas, of modelos de fixed effects fazem transformações matemáticas que eliminam os termos das variáveis não observadas, criando modelos mais consistentes. A transformação mais comum é chamada de within transformation, e é usada na biblioteca `linearmodels` como mostram os exemplos abaixo.

In [52]:
# é preciso indicar as entities e o time no índice do dataframe
df_fe = df.set_index(["City", "Date"])

df_fe.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,State,StringencyIndex,city_ibge_code,new_confirmed,new_deaths,confirmed,deaths,retail_and_recreation_percent_change_from_baseline,grocery_and_pharmacy_percent_change_from_baseline,parks_percent_change_from_baseline,transit_stations_percent_change_from_baseline,workplaces_percent_change_from_baseline,residential_percent_change_from_baseline,avg_mobility
City,Date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
ananindeua,2020-03-25,para,80.56,1500800,2,0,6,0,-51.0,-17.0,-59.0,-70.0,-40.0,17.0,-47.4
ananindeua,2020-03-26,para,80.56,1500800,2,0,8,0,-50.0,-14.0,-54.0,-69.0,-39.0,17.0,-45.2
ananindeua,2020-03-27,para,83.33,1500800,0,0,10,0,-51.0,-11.0,-58.0,-71.0,-36.0,18.0,-45.4
ananindeua,2020-03-28,para,83.33,1500800,0,0,13,0,-56.0,-16.0,-57.0,-70.0,-29.0,15.0,-45.6
ananindeua,2020-03-29,para,83.33,1500800,0,0,14,0,-60.0,-18.0,-56.0,-77.0,-20.0,14.0,-46.2


O código abaixo aplica o fixed effects para entidades:

In [53]:
exog_vars = ["StringencyIndex", "new_deaths"]
exog = sm.add_constant(df_fe[exog_vars])
endog = df_fe["avg_mobility"]
mod_entity = lm.PanelOLS(endog, exog, entity_effects=True, time_effects=False)
res_entity = mod_entity.fit()
print(fe_res)

Inputs contain missing values. Dropping rows with missing observations.


                          PanelOLS Estimation Summary                           
Dep. Variable:           avg_mobility   R-squared:                        0.0504
Estimator:                   PanelOLS   R-squared (Between):              0.0342
No. Observations:               24851   R-squared (Within):               0.1672
Date:                Thu, Oct 13 2022   R-squared (Overall):              0.1349
Time:                        10:53:54   Log-likelihood                -8.843e+04
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      644.92
Entities:                          53   P-value                           0.0000
Avg Obs:                       468.89   Distribution:                 F(2,24293)
Min Obs:                       293.00                                           
Max Obs:                       504.00   F-statistic (robust):             644.92
                            

Podemos também incluir time effects:

In [54]:
exog_vars = ["StringencyIndex", "new_deaths"]
exog = sm.add_constant(df_fe[exog_vars])
endog = df_fe["avg_mobility"]
mod_entity_time = lm.PanelOLS(endog, exog, entity_effects=True, time_effects=True)
res_entity_time = mod_entity_time.fit()
print(res_entity_time)

                          PanelOLS Estimation Summary                           
Dep. Variable:           avg_mobility   R-squared:                        0.0504
Estimator:                   PanelOLS   R-squared (Between):              0.0342
No. Observations:               24851   R-squared (Within):               0.1672
Date:                Mon, Oct 17 2022   R-squared (Overall):              0.1349
Time:                        08:39:42   Log-likelihood                -8.843e+04
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      644.92
Entities:                          53   P-value                           0.0000
Avg Obs:                       468.89   Distribution:                 F(2,24293)
Min Obs:                       293.00                                           
Max Obs:                       504.00   F-statistic (robust):             644.92
                            

O `linearmodels` tem uma função para se comparar modelos lado a lado. Abaixo podemos ver os dois modelos criados. No modelo com os dois efeitos, as duas variáveis são estatisticamente significativas.

In [55]:
from linearmodels.panel import compare

print(compare({"Entity effects": res_entity, "Entity and Time effects": res_entity_time},
             precision= 'std_errors', stars=True))

                        Model Comparison                        
                          Entity effects Entity and Time effects
----------------------------------------------------------------
Dep. Variable               avg_mobility            avg_mobility
Estimator                       PanelOLS                PanelOLS
No. Observations                   24851                   24851
Cov. Est.                     Unadjusted              Unadjusted
R-squared                         0.4205                  0.0504
R-Squared (Within)                0.4205                  0.1672
R-Squared (Between)              -0.2308                  0.0342
R-Squared (Overall)               0.2527                  0.1349
F-statistic                       8997.8                  644.92
P-value (F-stat)                  0.0000                  0.0000
const                          51.712***                  0.3058
                                (0.5056)                (0.5075)
StringencyIndex          