### Tratamento de dados da PNAD COVID

Notebook para filtrar dados da PNAD COVID. Selecionar as variáveis de interesse e variável que captura a realização de trabalho remoto.

**Variáveis da PNAD Covid que serão filtradas:**

<img src="../Anexos/var_estudo.png" width="600" height="500">

In [1]:
import pandas as pd

In [2]:
filtro_conferencia = ["C002","C003","C005", "C007", "C012", "C013"]

In [3]:
p_covid5 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_052020.feather', columns=filtro_conferencia)

In [13]:
p_covid5[p_covid5['C012']=='Não']['C013']

9         Não
40        Sim
51        Sim
59        Sim
87        Não
         ... 
349237    Sim
349252    Sim
349258    Sim
349266    Sim
349267    Sim
Name: C013, Length: 16878, dtype: category
Categories (2, object): ['Sim', 'Não']

In [6]:
p_covid5['C013'].value_counts()

C013
Sim    11897
Não     4981
Name: count, dtype: int64

In [14]:
filtro = ['Ano','V1013', 'V1012', 'UPA', 'Estrato', 'V1032',  'V1008', 'V1016', 'A003', 'A001B1','A001B2','A001B3', 'A004', 'A002', 'A005', 'UF', 'C007','C007B', 'C007D', 'C001', 'C002', 'C003', 'C005', 'C012', 'C013', 'F006']

In [15]:
p_covid5 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_052020.feather', columns=filtro)
p_covid6 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_062020.feather', columns=filtro)
p_covid7 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_072020.feather', columns=filtro)
p_covid8 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_082020.feather', columns=filtro)
p_covid9 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_092020.feather', columns=filtro)
p_covid10 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_102020.feather', columns=filtro)
p_covid11 = pd.read_feather('../Dados/pnad_covid/original/PNAD_COVID_112020.feather', columns=filtro)

In [4]:
#Chave para pessoa: UPA + V1008 + V2003 + V2007 + V2008 + V20081 + V20082 

# Variáveis que identificam os domicílios:
# UPA: Unidade Primária de Amostragem
# V1008: Número de seleção do domicílio
# V1014: Painel (grupo da amostra) - sera substituita por 

#Variáveis que identificam os indivíduos:
# V2007: Sexo (A003)
# V2008: Dia de nascimento (A001B1)
# V20081: Mês de nascimento (A001B2)
# V20082: Ano de nascimento (A001B3)

In [16]:
pnad_covid = pd.concat([p_covid5, p_covid6, p_covid7, p_covid8, p_covid9, p_covid10, p_covid11])

In [17]:
pnad_covid.shape

(2650459, 26)

In [18]:
pnad_covid = pnad_covid[pnad_covid['A001B3'] != 9999]

In [19]:
pnad_covid.shape

(2508686, 26)

In [20]:
pnad_covid['domicilio_id'] = pnad_covid['UPA'].values + pnad_covid['V1008'].values + pnad_covid['A003'].astype(str) + pnad_covid['A001B1'].values.astype(str) + pnad_covid['A001B2'].values.astype(str) + pnad_covid['A001B3'].values.astype(str)

In [32]:
pnad_covid[pnad_covid['domicilio_id']=='5300417275Homem2051989'][["Ano","V1013", "V1012","C002","C003","C005", "C007", "C012", "C013"]]

Unnamed: 0,Ano,V1013,V1012,C002,C003,C005,C007,C012,C013
349287,2020,5,1,,,,Empregado do setor privado,Sim,
381242,2020,6,1,,,,Empregado do setor privado,Não,Não
384141,2020,7,1,,,,Empregado do setor privado,Não,Não
386501,2020,8,1,,,,Empregado do setor privado,Não,Não
387273,2020,9,1,,,,Empregado do setor privado,Não,Não
380442,2020,10,1,,,,Empregado do setor privado,Não,Não
381418,2020,11,1,,,,Empregado do setor privado,Não,Não


In [29]:
pnad_covid[pnad_covid['C013']=='Não']

Unnamed: 0,Ano,V1013,V1012,UPA,Estrato,V1032,V1008,V1016,A003,A001B1,...,C007B,C007D,C001,C002,C003,C005,C012,C013,F006,domicilio_id
9,2020,5,1,110000016,1110011,222.234159,13,1,Homem,12,...,,,Sim,,,,Não,Não,2.0,11000001613Homem1211980
87,2020,5,1,110000153,1110011,192.108958,9,1,Mulher,1,...,"Sim, é servidor público estatutário","Administração pública (governo federal, estadu...",Sim,,,,Não,Não,4.0,1100001539Mulher171964
198,2020,5,1,110002929,1110011,389.111693,6,1,Mulher,19,...,,"Cabeleireiros, tratamento de beleza e serviços...",Sim,,,,Não,Não,1.0,1100029296Mulher1961982
248,2020,5,2,110005390,1110011,125.574482,2,1,Homem,22,...,,Comércio no atacado e varejo;,Sim,,,,Não,Não,1.0,1100053902Homem22101955
249,2020,5,3,110005390,1110011,141.019395,4,1,Mulher,30,...,,"Cabeleireiros, tratamento de beleza e serviços...",Sim,,,,Não,Não,1.0,1100053904Mulher30101990
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381292,2020,11,1,530029800,5310220,69.539435,4,7,Homem,26,...,,"Serviço de alimentação (bares, restaurantes, a...",Sim,,,,Não,Não,6.0,5300298004Homem2621958
381293,2020,11,1,530029800,5310220,66.610659,4,7,Mulher,15,...,,"Serviço de alimentação (bares, restaurantes, a...",Sim,,,,Não,Não,6.0,5300298004Mulher1581960
381295,2020,11,1,530029800,5310220,100.431775,4,7,Homem,22,...,Não,Outro,Sim,,,,Não,Não,6.0,5300298004Homem2271983
381417,2020,11,1,530041727,5310220,811.346708,5,7,Homem,15,...,Não,Reparação de veículos automotores e motocicletas,Sim,,,,Não,Não,3.0,5300417275Homem1571987


In [21]:
pnad_covid.to_parquet('../Dados/pnad_covid/pnad_covid_filtrada.parquet')