# As mulheres perderam mais renda do trabalho durante a pandemia? Uma análise em painel usando a PNAD COVID para o Sudeste

----

## Leitura dos Dados

In [None]:
## Importando o que for necessário
import pandas as pd
import numpy as np
from scipy import stats
from zipfile import ZipFile
import statsmodels.api as sm
import statsmodels.stats.api as sms
from IPython.display import clear_output # limpa o output de uma célula

In [None]:
## Modelos de painel
#! pip install linearmodels  # já atualiza o statsmodels (caso precise)
from linearmodels import PooledOLS, PanelOLS, RandomEffects
from linearmodels.panel import compare

## Para funções com modelos de painel, ver:
# https://bashtage.github.io/linearmodels/panel/introduction.html

In [None]:
## Montando o Google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
## Lendo todos os dados de maio a novembro
sCaminho = "/content/drive/Othercomputers/Meu modelo MacBook Air/Documents/IPEA/Curso IDP/Dados/"

# Lista contendo todos os DataFrames
lDataFrames = []

# Loop para ler cada mês (maio a novembro) e adicionando cada base de cada mês a uma lista
for i in range(5, 12):
  sMes = str(i).zfill(2)  # colocando 0, caso precise
  with ZipFile(sCaminho + 'PNAD_COVID_'+sMes+'2020.zip') as z:
    with z.open('PNAD_COVID_'+sMes+'2020.csv') as f:
      lDataFrames.append(pd.read_csv(f))

## Criando um DataFrame com todos os dados usando o concat
PNAD_COVID = pd.concat(lDataFrames)

# Vendo o tamanho da base
print(f"Linhas: {PNAD_COVID.shape[0]}; Colunas: {PNAD_COVID.shape[1]}")

Linhas: 2650459; Colunas: 148


In [None]:
## Vendo observações por mês
PNAD_COVID.groupby('V1013').size()

V1013
5     349306
6     381270
7     384166
8     386520
9     387298
10    380461
11    381438
dtype: int64

## Taxa de Desocupação, Taxa de Participação e Nível de Ocupação

- A **taxa de desocupação** é calculada em relação à **força de trabalho**, ou seja, pessoas que trabalham ou estão procurando emprego.

- A **taxa de participação** é calculada como a força de trabalho frente à população total.

- O **nível de ocupação** é calculado como a razão da população ocupada frente à total.

In [None]:
## Queremos determinar se uma pessoa é ocupada/desocupada
## Ocupado
PNAD_COVID["Ocupado"] = PNAD_COVID["C007"].apply(lambda i: 1 if i <= 8 else np.nan)

## Desocupado
PNAD_COVID["Desocupado"] = PNAD_COVID["C015"].apply(lambda i: 1 if i == 1 else np.nan)

## Fora da Força de Trabalho
PNAD_COVID["Fora_FT"] = PNAD_COVID["C015"].apply(lambda i: 1 if i == 2 else np.nan)

In [None]:
## Vendo Ocupados e Desocupados por Mês (sem pesos)
# V1013: mês!
dfOcupacao = pd.DataFrame(PNAD_COVID.groupby("V1013")[["Ocupado","Desocupado","Fora_FT", "V1032"]].count())
dfOcupacao["Taxa_Desocupacao"] = dfOcupacao["Desocupado"] / (dfOcupacao["Ocupado"] + dfOcupacao["Desocupado"])
dfOcupacao["Taxa_Participacao"] = (dfOcupacao["Ocupado"] + dfOcupacao["Desocupado"]) / dfOcupacao["V1032"]
dfOcupacao["Nivel_Ocupacao"] = dfOcupacao["Ocupado"] / dfOcupacao["V1032"]
dfOcupacao[["Taxa_Desocupacao", "Taxa_Participacao", "Nivel_Ocupacao"]]*100

Unnamed: 0_level_0,Taxa_Desocupacao,Taxa_Participacao,Nivel_Ocupacao
V1013,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9.937047,43.338219,39.03168
6,11.366228,43.236552,38.322186
7,11.969057,42.230442,37.175856
8,12.472072,42.614095,37.299234
9,12.93865,43.168051,37.582688
10,13.020968,43.710393,38.018877
11,13.301538,44.086064,38.221939


### Desafio: como calcular com pesos?

Resultados do IBGE: https://agenciabrasil.ebc.com.br/economia/noticia/2020-12/pnad-covid-19-desemprego-chega-142-em-novembro

In [None]:
## Calculando variáveis com pesos por mês
# V1032: peso!
ocupados_mes = PNAD_COVID.groupby(["V1013", "Ocupado"])["V1032"].sum()
desocupados_mes = PNAD_COVID.groupby(["V1013", "Desocupado"])["V1032"].sum()
pia_mes = PNAD_COVID.query("A002 >= 14").groupby(["V1013", "Ano"])["V1032"].sum()
# PIA: população em idade ativa

In [None]:
## Número de Desocupados (milhões)
desocupados_mes / 1000000

V1013  Desocupado
5      1.0           10.129077
6      1.0           11.815274
7      1.0           12.253093
8      1.0           12.926400
9      1.0           13.486289
10     1.0           13.763069
11     1.0           14.038444
Name: V1032, dtype: float64

In [None]:
## Taxa de Desocupação
100 * desocupados_mes / (desocupados_mes + ocupados_mes)

V1013  Desocupado
5      1.0           10.714827
6      1.0           12.402611
7      1.0           13.071819
8      1.0           13.597067
9      1.0           13.986948
10     1.0           14.058701
11     1.0           14.223454
Name: V1032, dtype: float64

In [None]:
## Taxa de Participação
100 * (desocupados_mes + ocupados_mes) / pia_mes

V1013  Desocupado
5      1.0           55.642742
6      1.0           55.989828
7      1.0           55.071697
8      1.0           55.819533
9      1.0           56.541493
10     1.0           57.383688
11     1.0           57.806241
Name: V1032, dtype: float64

In [None]:
## Nível de Ocupação
100 * ocupados_mes / pia_mes

V1013  Ocupado
5      1.0        49.680718
6      1.0        49.045627
7      1.0        47.872824
8      1.0        48.229714
9      1.0        48.633064
10     1.0        49.316287
11     1.0        49.584198
Name: V1032, dtype: float64

## Criando o Painel

In [None]:
## Filtrando apenas para o Sudeste
PNAD_COVID = PNAD_COVID.loc[PNAD_COVID["UF"].isin([31, 32, 33, 35])]

In [None]:
# Vendo o tamanho da base
print(f"Linhas: {PNAD_COVID.shape[0]}; Colunas: {PNAD_COVID.shape[1]}")

Linhas: 781890; Colunas: 151


In [None]:
## Vendo observações por mês com a base filtrada
PNAD_COVID.groupby('V1013').size()

V1013
5     105074
6     113335
7     113801
8     113647
9     113135
10    111527
11    111371
dtype: int64

### Identificando e Balanceado o *Dataset*

In [None]:
## Criando id do domicílio e do indivíduo
# Operador '+' com strings: concatenação
PNAD_COVID['iddom'] = PNAD_COVID["UPA"].astype(str) + PNAD_COVID["V1008"].astype(str)
PNAD_COVID['idind'] = PNAD_COVID['iddom'].astype(str) + PNAD_COVID['A001'].astype(str) + \
  PNAD_COVID['A001B1'].astype(str) + PNAD_COVID['A001B2'].astype(str) + PNAD_COVID['A001B3'].astype(str) # data de aniversário

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [None]:
## Contando quantos indivíduos tem
nIndividuos = PNAD_COVID['idind'].unique().size
nIndividuos

141175

In [None]:
PNAD_COVID[["iddom","idind"]]

Unnamed: 0,iddom,idind
145694,3101405851,3101405851125111968
145695,3101405851,3101405851229121969
145696,3101405852,310140585212711991
145697,3101405853,310140585311151982
145698,3101405853,310140585323131984
...,...,...
275192,35028078113,35028078113214111980
275193,35028078113,3502807811332822001
275194,35028078114,3502807811411561970
275195,35028078114,35028078114226111972


In [None]:
## Ordenando o DataFrame por id do indivíduo e mês (V1013)
PNAD_COVID.sort_values(by=['idind', 'V1013'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
## Vendo o número de aparições de cada indivíduo e adicionando como coluna usando transform
PNAD_COVID["Aparições"] = PNAD_COVID.groupby('idind')['idind'].transform('count')
PNAD_COVID[["idind", "Aparições"]].head(10)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,idind,Aparições
158183,3100005091012331984,6
175367,3100005091012331984,6
179282,3100005091012331984,6
180200,3100005091012331984,6
176455,3100005091012331984,6
177556,3100005091012331984,6
158184,3100005091022692004,6
175368,3100005091022692004,6
179283,3100005091022692004,6
180201,3100005091022692004,6


In [None]:
## Vendo distribuição de aparições (xtdescribe)
PNAD_COVID.drop_duplicates(subset=['idind'], keep='first')["Aparições"].value_counts(normalize=True)

7    0.509814
6    0.153136
5    0.085093
1    0.070189
4    0.066974
3    0.057794
2    0.057000
Name: Aparições, dtype: float64

In [None]:
## Pegando apenas as pessoas com pelo menos 5 entrevistas
# Evita problemas que surgem com paineis muito desbalanceados
PNAD_COVID = PNAD_COVID.query("Aparições >= 5")

In [None]:
## Vendo o novo tamanho da base
print(f"Linhas: {PNAD_COVID.shape[0]}; Colunas: {PNAD_COVID.shape[1]}")

Linhas: 693590; Colunas: 154


### Montando a Estrutura do Painel

- Primeiro Nível: idind (indivíduo)
- Segundo Nível: mês/V1013 (tempo)

In [None]:
## Renomeando coluna de mês
PNAD_COVID.rename(columns={"V1013":"Mês"}, inplace=True)

In [None]:
## Montando a estrutura do painel
PNAD_COVID = PNAD_COVID.set_index(["idind", "Mês"], drop=False)

In [None]:
## Vendo o resultado
PNAD_COVID.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,Ano,UF,CAPITAL,RM_RIDE,V1008,V1012,Mês,V1016,Estrato,UPA,V1022,V1023,V1030,V1031,V1032,posest,A001,A001A,A001B1,A001B2,A001B3,A002,A003,A004,A005,B0011,B0012,B0013,B0014,B0015,B0016,B0017,B0018,B0019,B00110,B00111,B00112,B002,B0031,B0032,...,A006,A007,A008,A009,B00113,B008,B009A,B009B,B009C,B009D,B009E,B009F,B0101,B0102,B0103,B0104,B0105,B0106,B011,C007F,C009A,E001,E0021,E0022,E0023,E0024,F002A1,F002A2,F002A3,F002A4,F002A5,A006A,A006B,A007A,Ocupado,Desocupado,Fora_FT,iddom,idind,Aparições
idind,Mês,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1,Unnamed: 82_level_1
3100005091012331984,5,2020,31,,,10,4,5,1,3151013,310000509,1,4,1703213,416.911609,459.624226,3124,1,1,23,3,1984,36,2,4,7,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,,,31000050910,3100005091012331984,6
3100005091012331984,6,2020,31,,,10,4,6,2,3151013,310000509,1,4,1703316,400.964171,443.479443,3124,1,1,23,3,1984,36,2,4,7,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,,,31000050910,3100005091012331984,6
3100005091012331984,8,2020,31,,,10,4,8,4,3151013,310000509,1,4,1703320,380.188825,426.285453,3124,1,1,23,3,1984,36,2,4,7,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,2.0,2.0,,,,,,,2.0,2.0,1.0,2.0,2.0,2.0,2.0,,2.0,3.0,,,,,1.0,1.0,1.0,2.0,1.0,,,,1.0,,,31000050910,3100005091012331984,6
3100005091012331984,9,2020,31,,,10,4,9,5,3151013,310000509,1,4,1703265,382.168975,434.216525,3124,1,1,23,3,1984,36,2,4,7,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,2.0,2.0,,,,,,,2.0,2.0,1.0,2.0,2.0,2.0,3.0,,2.0,3.0,,,,,1.0,1.0,1.0,2.0,1.0,,,,1.0,,,31000050910,3100005091012331984,6
3100005091012331984,10,2020,31,,,10,4,10,6,3151013,310000509,1,4,1703236,382.168975,435.592554,3124,1,1,23,3,1984,36,2,4,7,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,2.0,2.0,,,,,,,2.0,2.0,1.0,2.0,2.0,2.0,2.0,,2.0,3.0,,,,,1.0,1.0,1.0,2.0,1.0,,,,1.0,,,31000050910,3100005091012331984,6
3100005091012331984,11,2020,31,,,10,4,11,7,3151013,310000509,1,4,1703177,388.235149,440.433907,3124,1,1,23,3,1984,36,2,4,7,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,2.0,2.0,,,,,,,2.0,2.0,1.0,2.0,2.0,2.0,3.0,,2.0,3.0,,,,,1.0,1.0,1.0,2.0,1.0,,,,1.0,,,31000050910,3100005091012331984,6
3100005091022692004,5,2020,31,,,10,4,5,1,3151013,310000509,1,4,1454210,416.911609,444.264545,3112,2,5,26,9,2004,15,1,4,4,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,31000050910,3100005091022692004,6
3100005091022692004,6,2020,31,,,10,4,6,2,3151013,310000509,1,4,1451277,400.964171,427.469452,3112,2,5,26,9,2004,15,1,4,4,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,31000050910,3100005091022692004,6
3100005091022692004,8,2020,31,,,10,4,8,4,3151013,310000509,1,4,1446179,380.188825,403.823137,3112,2,5,26,9,2004,15,1,4,4,2,2,2,2,2,2,2,1,2,2,2,2,2.0,2.0,2.0,...,1.0,1.0,5.0,3.0,2.0,2.0,,,,,,,2.0,2.0,2.0,2.0,2.0,2.0,2.0,,,3.0,,,,,1.0,1.0,1.0,2.0,1.0,,,,,,1.0,31000050910,3100005091022692004,6
3100005091022692004,9,2020,31,,,10,4,9,5,3151013,310000509,1,4,1443692,382.168975,410.625855,3112,2,5,26,9,2004,16,1,4,4,2,2,2,2,2,2,2,2,2,2,2,2,,,,...,1.0,1.0,5.0,4.0,2.0,2.0,,,,,,,2.0,2.0,2.0,2.0,2.0,2.0,3.0,,,3.0,,,,,1.0,1.0,1.0,2.0,1.0,,,,,,1.0,31000050910,3100005091022692004,6


### Investigando emprego, renda e horas trabalhadas

In [None]:
## Descrevendo horas normalmente trabalhadas (C008) e de fato trabalhadas na semana passada (C009)
PNAD_COVID.rename(columns={"C008":"horas_hab", "C009":"horas_efet"}, inplace=True)
PNAD_COVID[["horas_hab","horas_efet"]].describe()

# Média caiu, ao mesmo tempo que desvio-padrão aumentou

Unnamed: 0,horas_hab,horas_efet
count,284387.0,284387.0
mean,40.410261,33.302626
std,10.698643,16.864397
min,1.0,0.0
25%,40.0,24.0
50%,40.0,40.0
75%,44.0,44.0
max,120.0,120.0


In [None]:
## Descrevendo renda em dinheiro (C01012) ou em produtos (C01022)
PNAD_COVID[["C01012","C01022"]].describe()

Unnamed: 0,C01012,C01022
count,279265.0,2181.0
mean,2482.285918,1048.70564
std,3348.634414,2114.875346
min,6.0,5.0
25%,1045.0,284.0
50%,1500.0,420.0
75%,2500.0,900.0
max,200000.0,20000.0


In [None]:
## Somando renda do mês
# Jeito errado (como descobrir que está errado? ver count!):
PNAD_COVID["Salário"] = PNAD_COVID["C01012"] + PNAD_COVID["C01022"]
PNAD_COVID["Salário"].describe()

count     1235.000000
mean      2846.259109
std       2362.557221
min        110.000000
25%       1600.000000
50%       2100.000000
75%       2950.000000
max      20060.000000
Name: Salário, dtype: float64

In [None]:
# Jeito certo: dois NaNs resultam em um NaN, um valor e outro NaN resulta no valor
PNAD_COVID["Salário"] = PNAD_COVID[["C01012","C01022"]].sum(axis=1, min_count=1)
PNAD_COVID[["Salário", "C01012","C01022"]].describe()

Unnamed: 0,Salário,C01012,C01022
count,280211.0,279265.0,2181.0
mean,2482.06817,2482.285918,1048.70564
std,3348.12067,3348.634414,2114.875346
min,6.0,6.0,5.0
25%,1045.0,1045.0,284.0
50%,1500.0,1500.0,420.0
75%,2500.0,2500.0,900.0
max,200000.0,200000.0,20000.0


In [None]:
## Contando números de pessoas que perderam o emprego durante a pandemia
# Criando uma coluna com a contagem de NaNs por grupo
# Usamos o transform para o resultado vir para uma coluna do próprio DataFrame (ao invés de uma série separada com apenas valores do grupo)
PNAD_COVID['quantidade_nas'] = PNAD_COVID.Salário.isnull().groupby('idind').transform('sum').astype(int)

## Vendo o DataFrame
PNAD_COVID['quantidade_nas']

idind                Mês
3100005091012331984  5      0
                     6      0
                     8      0
                     9      0
                     10     0
                           ..
350723620922131965   7      6
                     8      6
                     9      6
                     10     6
                     11     6
Name: quantidade_nas, Length: 693590, dtype: int64

In [None]:
## quantidade_nas indica o número de vezes que a pessoa não declarou renda, ou seja
## ou estava sem emprego ou estava afastado sem remuneração

## Se esse valor for positivo e for menor que o número de vezes que ela aparece na pesquisa,
## significa que em algum momento ou ela ganhou emprego, ou perdeu, ou foi afastada

PNAD_COVID['perdeu_ganhou_afastado_emprego'] = np.where(
    (PNAD_COVID.quantidade_nas > 0) & (PNAD_COVID.quantidade_nas < PNAD_COVID.Aparições),
    1,
    0
)

# Alternativa: usar DataFrame.apply, mas demora cerca de 100x mais (não é brincadeira)
# Com apply: 2min30s; com np.where, 0.3s

In [None]:
## Contando
PNAD_COVID['perdeu_ganhou_afastado_emprego'].value_counts(dropna=False, normalize=True)

0    0.868042
1    0.131958
Name: perdeu_ganhou_afastado_emprego, dtype: float64

In [None]:
## Restringindo a base apenas a quem esteve empregado em algum momento
# (será útil para algumas análises mais a frente)
PNAD_COVID_EMPREGADOS = PNAD_COVID.query('perdeu_ganhou_afastado_emprego == 1 or quantidade_nas == 0')

## Tamanho total da base
print(f"EMPREGADOS\nLinhas: {PNAD_COVID_EMPREGADOS.shape[0]}; Colunas: {PNAD_COVID_EMPREGADOS.shape[1]}")
print(f"TOTAL\nLinhas: {PNAD_COVID.shape[0]}; Colunas: {PNAD_COVID.shape[1]}")

EMPREGADOS
Linhas: 326039; Colunas: 157
TOTAL
Linhas: 693590; Colunas: 157


## Modelos de Painel

### Preparação e Variáveis

In [None]:
## Criando dummies de cor e gênero
# Feminino
PNAD_COVID['feminino'] = PNAD_COVID['A003'] - 1
PNAD_COVID_EMPREGADOS['feminino'] = PNAD_COVID_EMPREGADOS['A003'] - 1

# Cor
PNAD_COVID.rename(columns={"A004":"cor"}, inplace=True)
PNAD_COVID["cor"].replace([1,2,3,4,5,9], ['a_branca','preta','amarela','parda','indigena', "nao_declarada"], inplace=True)
PNAD_COVID = pd.concat([PNAD_COVID, pd.get_dummies(PNAD_COVID['cor'])], axis=1)

PNAD_COVID_EMPREGADOS.rename(columns={"A004":"cor"}, inplace=True)
PNAD_COVID_EMPREGADOS["cor"].replace([1,2,3,4,5,9], ['a_branca','preta','amarela','parda','indigena',"nao_declarada"], inplace=True)
PNAD_COVID_EMPREGADOS = pd.concat([PNAD_COVID_EMPREGADOS, pd.get_dummies(PNAD_COVID_EMPREGADOS['cor'])], axis=1)

clear_output()

In [None]:
## Contando valores
# Feminino
PNAD_COVID['feminino'].value_counts(dropna=False, normalize=True)

1    0.524512
0    0.475488
Name: feminino, dtype: float64

In [None]:
# Cor
PNAD_COVID['cor'].value_counts(dropna=False, normalize=True)

a_branca         0.481496
parda            0.411197
preta            0.098245
amarela          0.007189
indigena         0.001783
nao_declarada    0.000089
Name: cor, dtype: float64

In [None]:
## Remapeando Educação
Valores_Educ = ["A_SI", "Fund Inc", "Fund Comp", "Méd Inc", "Med Comp", "Sup Inc", "Sup Comp", "Pós"]
PNAD_COVID["Educação"] = PNAD_COVID["A005"].replace([1, 2, 3, 4, 5, 6, 7, 8], Valores_Educ)
PNAD_COVID_EMPREGADOS["Educação"] = PNAD_COVID_EMPREGADOS["A005"].replace([1, 2, 3, 4, 5, 6, 7, 8], Valores_Educ)

In [None]:
# Log da renda por hora
PNAD_COVID["lsalariohora"] = np.log(PNAD_COVID["Salário"] / (PNAD_COVID["horas_hab"]*4))
PNAD_COVID_EMPREGADOS["lsalariohora"] = np.log(PNAD_COVID_EMPREGADOS["Salário"] / (PNAD_COVID_EMPREGADOS["horas_hab"]*4))

In [None]:
# Colocando Mês como dummies (e não valores contínuos)
PNAD_COVID["Mês"] = pd.Categorical(PNAD_COVID.Mês)
PNAD_COVID_EMPREGADOS["Mês"] = pd.Categorical(PNAD_COVID_EMPREGADOS.Mês)

In [None]:
# Imputando valores 0 nos salários nulos (será útil na análise de PNAD_COVID_EMPREGADOS)
PNAD_COVID["lsalariohora0"] = PNAD_COVID["lsalariohora"].fillna(value=0)
PNAD_COVID_EMPREGADOS["lsalariohora0"] = PNAD_COVID_EMPREGADOS["lsalariohora"].fillna(value=0)

### OLS Agrupados

#### Armadilha da Composição

In [None]:
## Definindo formula
# No linearmodels, precisamos incluir explicitamente um intercepto usando o 1+ (menos quando usarmos primeiras diferenças)
formula_mes = "lsalariohora ~ 1 + Mês"

## Modelo
# Importante: DataFrame tem que estar no modelo MultiIndex indivíduo-tempo!
modelo_mes = PooledOLS.from_formula(formula=formula_mes, data=PNAD_COVID)
modelo_mes = modelo_mes.fit()

## Sumário: note que não há o () ao final
print(modelo_mes.summary)

## Dummies de tempo: salário médio aumentou em julho frente a maio?
# Efeito-Composição: mais afetados pela crise foram os mais vulneráveis;
# como pessoas demitidas tem renda NaN, essas linhas são retiradas da análise, deixando apenas pessoas mais bem-remuneradas

# Mais detalhes: https://blogdoibre.fgv.br/posts/decomposicao-mostra-que-impacto-da-pandemia-influenciou-renda-media-positivamente

Inputs contain missing values. Dropping rows with missing observations.


                          PooledOLS Estimation Summary                          
Dep. Variable:           lsalariohora   R-squared:                     6.613e-05
Estimator:                  PooledOLS   R-squared (Between):             -0.0033
No. Observations:              280211   R-squared (Within):               0.0002
Date:                Fri, Oct 22 2021   R-squared (Overall):           6.613e-05
Time:                        00:44:11   Log-likelihood                -3.305e+05
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      3.0885
Entities:                       49602   P-value                           0.0050
Avg Obs:                       5.6492   Distribution:                F(6,280204)
Min Obs:                       1.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             3.0885
                            

In [None]:
## Imputando os 0s como proxy para coletar pessoas que perderam o emprego
formula_mes_0 = "lsalariohora0 ~ 1 + Mês"

## Modelo
modelo_mes_0 = PooledOLS.from_formula(formula=formula_mes_0, data=PNAD_COVID_EMPREGADOS)
modelo_mes_0 = modelo_mes_0.fit()
print(modelo_mes_0.summary)

## Note que, ao considerar apenas pessoas que tinham emprego em algum momento (podendo tê-lo perdido, 
# o que é captado pelo 0 no lugar do NaN), houve perda de renda na pandemia frente a maio (junho a setembro)
# Não se pode usar lsalario0 com a base toda em virtude de existirem pessoas nunca empregadas

                          PooledOLS Estimation Summary                          
Dep. Variable:          lsalariohora0   R-squared:                        0.0004
Estimator:                  PooledOLS   R-squared (Between):          -5.142e-05
No. Observations:              326039   R-squared (Within):               0.0014
Date:                Fri, Oct 22 2021   R-squared (Overall):              0.0004
Time:                        00:47:18   Log-likelihood                -4.962e+05
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      19.399
Entities:                      105605   P-value                           0.0000
Avg Obs:                       3.0873   Distribution:                F(6,326032)
Min Obs:                       0.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             19.399
                            

#### Modelos

In [None]:
## Definindo formula
# No linearmodels, precisamos incluir explicitamente um intercepto usando o 1+ (menos quando usarmos primeiras diferenças)
formula = "lsalariohora0 ~ 1 + Mês + C(Educação) + feminino + C(cor)"

## Modelo
modelo_olsagrup = PooledOLS.from_formula(formula=formula, data=PNAD_COVID_EMPREGADOS)
modelo_olsagrup = modelo_olsagrup.fit(cov_type="robust")  # controlando para heteroscedasticidade

In [None]:
print(modelo_olsagrup.summary)

                          PooledOLS Estimation Summary                          
Dep. Variable:          lsalariohora0   R-squared:                        0.2083
Estimator:                  PooledOLS   R-squared (Between):              0.2836
No. Observations:              326039   R-squared (Within):              -0.0015
Date:                Fri, Oct 22 2021   R-squared (Overall):              0.2083
Time:                        00:48:57   Log-likelihood                -4.582e+05
Cov. Estimator:                Robust                                           
                                        F-statistic:                      4514.7
Entities:                      105605   P-value                           0.0000
Avg Obs:                       3.0873   Distribution:               F(19,326019)
Min Obs:                       0.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             3960.3
                            

### Efeitos Fixos

In [None]:
## Criando modelo
# Definindo fórmula
formula_ef = f"{formula} + EntityEffects"

# Criando o modelo
# drop_absorbed: se tiver alguma variável constante no tempo, pulá-la
modelo_ef = PanelOLS.from_formula(formula=formula_ef, data=PNAD_COVID_EMPREGADOS, drop_absorbed=True)
modelo_ef = modelo_ef.fit(cov_type='robust')

# Printando resultado
print(modelo_ef.summary)

# feminino é estatisticamente insignificante por conta da baixa variação da amostra
# (ou erro de preenchimento ou pessoas que mudaram sua identificação de gênero)

# R2: "porcentagem da variação temporal em y explicada pela variação temporal em X"

                          PanelOLS Estimation Summary                           
Dep. Variable:          lsalariohora0   R-squared:                        0.0030
Estimator:                   PanelOLS   R-squared (Between):              0.0801
No. Observations:              326039   R-squared (Within):               0.0030
Date:                Fri, Oct 22 2021   R-squared (Overall):              0.0604
Time:                        00:52:12   Log-likelihood                -2.795e+05
Cov. Estimator:                Robust                                           
                                        F-statistic:                      43.051
Entities:                      105605   P-value                           0.0000
Avg Obs:                       3.0873   Distribution:               F(19,276418)
Min Obs:                       0.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             27.781
                            

In [None]:
## Discriminacao feminina teve alguma mudança ao longo do tempo?
# Interação entre variáveis!
formula_ef_interacao = "lsalariohora0 ~ 1 + Mês + feminino + feminino:Mês + C(Educação) + C(cor) + EntityEffects"

## Modelo
modelo_ef_interacao = PanelOLS.from_formula(formula=formula_ef_interacao, data=PNAD_COVID_EMPREGADOS, drop_absorbed=True)
modelo_ef_interacao = modelo_ef_interacao.fit(cov_type='robust')

# Printando resultado
print(modelo_ef_interacao.summary)

                          PanelOLS Estimation Summary                           
Dep. Variable:          lsalariohora0   R-squared:                        0.0037
Estimator:                   PanelOLS   R-squared (Between):              0.0791
No. Observations:              326039   R-squared (Within):               0.0037
Date:                Fri, Oct 22 2021   R-squared (Overall):              0.0599
Time:                        00:54:00   Log-likelihood                -2.793e+05
Cov. Estimator:                Robust                                           
                                        F-statistic:                      40.970
Entities:                      105605   P-value                           0.0000
Avg Obs:                       3.0873   Distribution:               F(25,276412)
Min Obs:                       0.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             26.632
                            

### Efeitos Aleatórios

In [None]:
## Criando modelo
# Definindo fórmula
formula_ea = "lsalariohora0 ~ 1 + Mês + feminino + C(Educação) + C(cor)"

# Criando o modelo
modelo_ea = RandomEffects.from_formula(formula=formula_ea, data=PNAD_COVID_EMPREGADOS)
modelo_ea = modelo_ea.fit(cov_type='robust')

# Printando resultado
print(modelo_ea.summary)

                        RandomEffects Estimation Summary                        
Dep. Variable:          lsalariohora0   R-squared:                        0.0574
Estimator:              RandomEffects   R-squared (Between):              0.2811
No. Observations:              326039   R-squared (Within):              -0.0003
Date:                Fri, Oct 22 2021   R-squared (Overall):              0.2068
Time:                        00:55:46   Log-likelihood                -3.069e+05
Cov. Estimator:                Robust                                           
                                        F-statistic:                      1044.0
Entities:                      105605   P-value                           0.0000
Avg Obs:                       3.0873   Distribution:               F(19,326019)
Min Obs:                       0.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             838.85
                            

In [None]:
## Criando modelo (consome MUITA memória e o Colab dá erro)
# Definindo fórmula
formula_ea_interacao = "lsalariohora0 ~ 1 + Mês + feminino + feminino:Mês + C(Educação) + C(cor)"

# Criando o modelo
modelo_ea_interacao = RandomEffects.from_formula(formula=formula_ea_interacao, data=PNAD_COVID_EMPREGADOS)
modelo_ea_interacao = modelo_ea_interacao.fit(cov_type='robust')

# Printando resultado
print(modelo_ea_interacao.summary)

                        RandomEffects Estimation Summary                        
Dep. Variable:          lsalariohora0   R-squared:                        0.0579
Estimator:              RandomEffects   R-squared (Between):              0.2811
No. Observations:              326039   R-squared (Within):               0.0005
Date:                Fri, Oct 22 2021   R-squared (Overall):              0.2070
Time:                        00:56:23   Log-likelihood                -3.068e+05
Cov. Estimator:                Robust                                           
                                        F-statistic:                      801.98
Entities:                      105605   P-value                           0.0000
Avg Obs:                       3.0873   Distribution:               F(25,326013)
Min Obs:                       0.0000                                           
Max Obs:                       7.0000   F-statistic (robust):             649.17
                            

### Teste de Hausman

Ideia: comparar os resultados de efeitos fixos e efeitos aleatórios.
Se forem muito diferentes, é sinal que há correlação da variável independente com a característica não-observável, o que torna EA inconsistente.
Caso contrário, EF ainda é consistente, mas EA é mais eficiente (possui menores erros-padrão dos estimadores, resultando em estimativas mais precisas)

In [None]:
##### Modelo sem interação
## Calculando estatística de Hausman
# Variância Assintótica
var_assin = modelo_ef.cov - modelo_ea.cov

# Diferença entre os parâmetros
dif_parametros = modelo_ef.params - modelo_ea.params

# Calculando a estatística de Hausman
H = dif_parametros.dot(np.linalg.inv(var_assin)).dot(dif_parametros)

# Grau de Liberdade
graus_liberdade = modelo_ea.params.size - 1

# Calculando p-valor
# H0: não há correlação entre as variáveis independentes e as características não-observáveis
# Não-rejeitar H0: prefere-se EA, mas EF ainda é consisteente
# Rejeitar: prefere-se EF e EA é inconsistente
p = stats.chi2(graus_liberdade).sf(H)

print(p)

1.38821855520985e-69


In [None]:
##### Modelo com interação
## Calculando estatística de Hausman
# Variância Assintótica
var_assin = modelo_ef_interacao.cov - modelo_ea_interacao.cov

# Diferença entre os parâmetros
dif_parametros = modelo_ef_interacao.params - modelo_ea_interacao.params

# Calculando a estatística de Hausman
H = dif_parametros.dot(np.linalg.inv(var_assin)).dot(dif_parametros)

# Grau de Liberdade
graus_liberdade = modelo_ea_interacao.params.size - 1

# Calculando p-valor
# H0: não há correlação entre as variáveis independentes e as características não-observáveis
# Não-rejeitar H0: prefere-se EA, mas EF ainda é consisteente
# Rejeitar: prefere-se EF e EA é inconsistente
p = stats.chi2(graus_liberdade).sf(H)

print(p)

4.8229138544701644e-64
