# Introdução

Este documento é primeira parte de uma análise de dados sobre a Pesquisa Nacional por Amostra de Domicílios - PNAD COVID19, acerca dos dados coletados pelo IBGE no ano de 2020 para compreender a situação das famílias em relação à pandemia do Sars-cov19

# Dados

Os dados dessa análise foram retirados da divulgação oficial do IBGE, disponível do [site do instituto](https://www.ibge.gov.br/estatisticas/sociais/saude/27947-divulgacao-mensal-pnadcovid2.html?edicao=28351&t=downloads)

Os dados são disponibilizados mensalmente do mês 05 ao mês 11 de 2020. 
Para essa análise, foi feito um recorte dos 3 últimos meses da pesquisa - 11, 10 e 09 de 2020.

O dicionário completo dos dados pode ser encontrado no [link](https://www.ibge.gov.br/#) e traz informações importantes sobre os dados. 

OBS: Os dados foram coletados do site do IBGE na data 05/12/2022

## Importando as bases de dados

In [125]:
import pandas as pd

In [126]:
setembro = pd.read_csv('/content/PNAD_COVID_092020.csv')
outubro = pd.read_csv('/content/PNAD_COVID_102020.csv')
novembro = pd.read_csv('/content/PNAD_COVID_112020.csv')

In [127]:
setembro.shape

(387298, 145)

In [128]:
outubro.shape

(380461, 145)

In [129]:
novembro.shape

(381438, 148)

# ATENÇÃO - Aqui há um número diferente de colunas para o dataset de novembro em comparação à setembro e outubro.



In [130]:
colunas_outubro = set(outubro.columns.to_list())
colunas_novembro = set(novembro.columns.to_list())

In [131]:
colunas_novembro- colunas_outubro

{'A006A', 'A006B', 'A007A'}

Comparando os conjuntos com as colunas, temos as colunas 'A006A', 'A006B', 'A007A' exclusivamente no dataset do mês de novmebro.

Pesquisando no dicionário, entende-se que elas compõe perguntas relacionadas a parte **A - Características gerais dos moradores**

- A006A - A escola / escola ou faculdade que frequenta é pública ou privada?
- A006B - Você está tendo aulas presenciais?
- A007A - Por que não realizou as atividades disponibilizadas na semana passada?

In [132]:
setembro.head()

Unnamed: 0,Ano,UF,CAPITAL,RM_RIDE,V1008,V1012,V1013,V1016,Estrato,UPA,...,F001,F0021,F0022,F002A1,F002A2,F002A3,F002A4,F002A5,F0061,F006
0,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,,,1,1,1,2,1,1,1.0
1,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,,,1,1,1,2,1,1,1.0
2,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,,,1,1,1,2,1,1,1.0
3,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,,,1,1,1,2,1,1,1.0
4,2020,11,11.0,,2,1,9,5,1110011,110015970,...,1,,,1,1,1,2,1,1,1.0


## Agregando dados em um único dataset

In [133]:
pnad_covid = pd.concat([setembro, outubro, novembro])

In [134]:
pnad_covid

Unnamed: 0,Ano,UF,CAPITAL,RM_RIDE,V1008,V1012,V1013,V1016,Estrato,UPA,...,F002A1,F002A2,F002A3,F002A4,F002A5,F0061,F006,A006A,A006B,A007A
0,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
1,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
2,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
3,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
4,2020,11,11.0,,2,1,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381433,2020,53,53.0,,6,3,11,7,5310220,530009738,...,1,1,1,2,1,1,3.0,,,
381434,2020,53,53.0,,6,3,11,7,5310220,530009738,...,1,1,1,2,1,1,3.0,,,
381435,2020,53,53.0,,6,3,11,7,5310220,530009738,...,1,1,1,2,1,1,3.0,1.0,4.0,
381436,2020,53,53.0,,10,2,11,7,5310220,530009738,...,1,1,1,1,1,1,2.0,,,


In [136]:
pnad_covid[pnad_covid.Estrato == 1110011]

Unnamed: 0,Ano,UF,CAPITAL,RM_RIDE,V1008,V1012,V1013,V1016,Estrato,UPA,...,F002A1,F002A2,F002A3,F002A4,F002A5,F0061,F006,A006A,A006B,A007A
0,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
1,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
2,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
3,2020,11,11.0,,1,4,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
4,2020,11,11.0,,2,1,9,5,1110011,110015970,...,1,1,1,2,1,1,1.0,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1518,2020,11,11.0,,13,2,11,7,1110011,110007735,...,1,1,1,1,1,1,2.0,,,
1519,2020,11,11.0,,13,2,11,7,1110011,110007735,...,1,1,1,1,1,1,2.0,,,
1520,2020,11,11.0,,13,2,11,7,1110011,110007735,...,1,1,1,1,1,1,2.0,2.0,4.0,
1521,2020,11,11.0,,14,3,11,7,1110011,110007735,...,1,1,1,1,1,1,1.0,,,


Como resultado, tem-se um dataset com 587075 linhas e 148 colunas, sendo que 3 delas (A006A	A006B	A007A), só possuem dados do mês de novembro. Por conta disso, essas colunas serão retiradas do dataset

In [103]:
pnad_covid = pnad_covid.drop(['A006A', 'A006B', 'A007A'], axis=1)

# Escopo de trabalho

Agora, conhecendo melhor os dados e tendo uma base única, é necessário entender quais perguntas orientam essa análise para compreender melhor como trabalhar com os dados de forma a responder essas perguntas

Diante disso, o objetivo dessa análise será compreender, através dos dados da PNAD - COVID a situação socioeconômica das famílias que foram de alguma forma afetadas pelo coronavírus. 

Mais especificamente, esse objetivo será atingido analisando:
1. Quantas famílias foram acometidas por pelo menos 2 (dois) sintomas do Coronavírus, que serão doravante denominadas famílias sintomáticas;
1. Quantas dessas famílias sintomáticas por dois ou mais sintomas possuem plano de saúde;
1. Quantas das famílias sintomáticas fizeram o teste de COVID;
1. Quantas das famílias sintomáticas que fizeram o teste de COVID testaram positivo;
1. Quais os estados com  mais e menos famílias sintomáticas;
1. Qual foi o comportamento do número de famílias sintomáticas no tempo escolhido;
1. Qual a situação das famílias sintomáticas em relação à empréstimos;




## Selecionando de Features

Uma vez definido o escopo de trabalho, é necessário realizar a seleção de features que serão importantes para a análise, retirando do dataset dados que não correspondem ao escopo do estudo.

Selecionando as colunas importantes e renomeando-as para facilitar o trabalho

In [104]:
var_relevantes = {
    'UF': 'UF',
    'V1013': 'mes',
    'V1022': 'urbano_rural',
    'B0011': 'sintoma_febre',
    'B0012': 'sintoma_tosse',
    'B0013': 'sintoma_dor_garganta',
    'B0014': 'sintoma_dificuldade_respirar',
    'B0015': 'sintoma_dor_cabeca',
    'B0016': 'sintoma_dor_peito',
    'B0017': 'sintoma_nausea',
    'B0018': 'sintoma_nariz_entupido',
    'B0019': 'sintoma_fadiga',
    'B00110': 'sintoma_dor_olhos',
    'B00111': 'sintoma_perda_sentido',
    'B00112': 'sintoma_dor_muscular',
    'B00113': 'sintoma_diarreia',
    'B007' : 'possui_plano_saude',
    'B009A': 'fez_teste_covid',
    'B009B': 'resultado_exame_swab',
    'B009D': 'resultado_furo',
    'B009F': 'resultado_sangue',
    'C001' : 'trabalhou_na_ultima_semana',
    'C002' : 'asfastado_na_ultima_semana',
    'C004' : 'continuou_remunerado',
    'C006' : 'mais_de_1_trabalho',
    'C01011' : 'faixa_salarial',
    'D0043' : 'salario_familiar',
    'E001': 'possui_emprestimo',    
}

Selecionando apenas as informações desejadas

In [105]:
pnad_covid = pnad_covid[var_relevantes.keys()]

Renomeando as colunas

In [106]:
pnad_covid.columns = var_relevantes.values()

In [107]:
pnad_covid

Unnamed: 0,UF,mes,urbano_rural,sintoma_febre,sintoma_tosse,sintoma_dor_garganta,sintoma_dificuldade_respirar,sintoma_dor_cabeca,sintoma_dor_peito,sintoma_nausea,...,resultado_exame_swab,resultado_furo,resultado_sangue,trabalhou_na_ultima_semana,asfastado_na_ultima_semana,continuou_remunerado,mais_de_1_trabalho,faixa_salarial,salario_familiar,possui_emprestimo
0,11,9,1,2,2,2,2,2,2,2,...,,,,1.0,,,2.0,4.0,,3
1,11,9,1,2,2,2,2,2,2,2,...,,,,1.0,,,2.0,4.0,,3
2,11,9,1,2,2,2,2,2,2,2,...,,,,,,,,,,3
3,11,9,1,2,2,2,2,2,2,2,...,,,,,,,,,,3
4,11,9,1,2,2,2,2,2,2,2,...,,,,2.0,2.0,,,,1045.0,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
381433,53,11,2,2,2,2,2,2,2,2,...,,,,2.0,1.0,1.0,2.0,4.0,,3
381434,53,11,2,2,2,2,2,2,2,2,...,,,,2.0,1.0,1.0,2.0,4.0,,3
381435,53,11,2,2,2,2,2,2,2,2,...,,,,2.0,2.0,,,,,3
381436,53,11,2,2,2,2,2,2,2,2,...,,,,2.0,2.0,,,,,3


## Tratamento de dados

Uma vez escolhidas as features que serão usadas na análise, ainda há uma necessidade de tratamento para que seja mais fácil lidar com as informações.
Especialmente em relação aos sintomas, uma vez que o foco desse estudo não é nos sintomas em si, e sim em elencar as famílias que contem suspeitas de covid.

Tratando sintomas

A partir da consulta no dicionário de dados, entende-se que os resultados são de acordo com a seguinte tabela:

| Cod| Descrição        |
|:-:|------------|
| 1 | Sim        |
| 2 | Não        |
| 3 | Não   sabe |
| 9 | Ignorado   |

Para trabalhar melhor com os sintomas, as informações serão transformadas em um tipo booleano

In [108]:
mapeia_sintoma = {
    1 : True,
    2 : False,
    3 : False,
    9 : False
}

## Criando subset apenas com sintomas

In [109]:
sintomas = pnad_covid.iloc[:, 3:16]

In [110]:
lista_sintomas = sintomas.columns.to_list()
lista_sintomas

['sintoma_febre',
 'sintoma_tosse',
 'sintoma_dor_garganta',
 'sintoma_dificuldade_respirar',
 'sintoma_dor_cabeca',
 'sintoma_dor_peito',
 'sintoma_nausea',
 'sintoma_nariz_entupido',
 'sintoma_fadiga',
 'sintoma_dor_olhos',
 'sintoma_perda_sentido',
 'sintoma_dor_muscular',
 'sintoma_diarreia']

In [111]:
for elemento in lista_sintomas:
    pnad_covid[elemento] = pnad_covid[elemento].map(mapeia_sintoma)
    

## Criando coluna número de sintomas

Agora que os sintomas foram mapeados em valores booleanos (verdadeiro ou falso), será feita a soma de quantos sintomas existem por cada linha do dataset 

In [112]:
sintomas = pnad_covid.iloc[:, 3:16]

In [113]:
sintomas.head()

Unnamed: 0,sintoma_febre,sintoma_tosse,sintoma_dor_garganta,sintoma_dificuldade_respirar,sintoma_dor_cabeca,sintoma_dor_peito,sintoma_nausea,sintoma_nariz_entupido,sintoma_fadiga,sintoma_dor_olhos,sintoma_perda_sentido,sintoma_dor_muscular,sintoma_diarreia
0,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False


In [114]:
qtd_sintomas = sintomas.sum(axis=1)

In [115]:
qtd_sintomas.value_counts()

0     1104247
1       19437
2       10467
3        5703
4        3112
5        1892
6        1131
7         873
8         661
9         452
13        371
10        336
11        273
12        242
dtype: int64

In [116]:
pnad_covid['qtd_sintomas'] = qtd_sintomas

Mantendo apenas o número de sintomas no dataset

In [117]:
pnad_covid.columns.to_list()

['UF',
 'mes',
 'urbano_rural',
 'sintoma_febre',
 'sintoma_tosse',
 'sintoma_dor_garganta',
 'sintoma_dificuldade_respirar',
 'sintoma_dor_cabeca',
 'sintoma_dor_peito',
 'sintoma_nausea',
 'sintoma_nariz_entupido',
 'sintoma_fadiga',
 'sintoma_dor_olhos',
 'sintoma_perda_sentido',
 'sintoma_dor_muscular',
 'sintoma_diarreia',
 'possui_plano_saude',
 'fez_teste_covid',
 'resultado_exame_swab',
 'resultado_furo',
 'resultado_sangue',
 'trabalhou_na_ultima_semana',
 'asfastado_na_ultima_semana',
 'continuou_remunerado',
 'mais_de_1_trabalho',
 'faixa_salarial',
 'salario_familiar',
 'possui_emprestimo',
 'qtd_sintomas']

In [118]:
pnad_covid = pnad_covid[['UF',
 'mes',
 'urbano_rural',
 'possui_plano_saude',
 'fez_teste_covid',
 'resultado_exame_swab',
 'resultado_furo',
 'resultado_sangue',
 'trabalhou_na_ultima_semana',
 'asfastado_na_ultima_semana',
 'continuou_remunerado',
 'mais_de_1_trabalho',
 'faixa_salarial',
 'salario_familiar',
 'possui_emprestimo',
 'qtd_sintomas']]

Agora é mais simples trabalhar com um dataset que tem menos colunas e que as informações mais importantes para o escopo do estudo estão contidas.

In [119]:
pnad_covid.head()

Unnamed: 0,UF,mes,urbano_rural,possui_plano_saude,fez_teste_covid,resultado_exame_swab,resultado_furo,resultado_sangue,trabalhou_na_ultima_semana,asfastado_na_ultima_semana,continuou_remunerado,mais_de_1_trabalho,faixa_salarial,salario_familiar,possui_emprestimo,qtd_sintomas
0,11,9,1,1,,,,,1.0,,,2.0,4.0,,3,0
1,11,9,1,2,,,,,1.0,,,2.0,4.0,,3,0
2,11,9,1,1,,,,,,,,,,,3,0
3,11,9,1,1,,,,,,,,,,,3,0
4,11,9,1,2,,,,,2.0,2.0,,,,1045.0,3,0


## Analisando problemas com o dataset

In [120]:
pnad_covid.shape

(1149197, 16)

Verificando a quantidade de nulos

In [121]:
pnad_covid.isnull().sum()

UF                                  0
mes                                 0
urbano_rural                        0
possui_plano_saude                  0
fez_teste_covid               1015655
resultado_exame_swab          1098266
resultado_furo                1086297
resultado_sangue              1110474
trabalhou_na_ultima_semana     200619
asfastado_na_ultima_semana     624881
continuou_remunerado          1123153
mais_de_1_trabalho             697692
faixa_salarial                 726462
salario_familiar              1107524
possui_emprestimo                   0
qtd_sintomas                        0
dtype: int64

verificando a quantidade percentual de nulos

In [122]:
(pnad_covid.isnull().sum())/pnad_covid.shape[0]*100

UF                             0.000000
mes                            0.000000
urbano_rural                   0.000000
possui_plano_saude             0.000000
fez_teste_covid               88.379538
resultado_exame_swab          95.568123
resultado_furo                94.526613
resultado_sangue              96.630430
trabalhou_na_ultima_semana    17.457320
asfastado_na_ultima_semana    54.375447
continuou_remunerado          97.733722
mais_de_1_trabalho            60.711262
faixa_salarial                63.214749
salario_familiar              96.373729
possui_emprestimo              0.000000
qtd_sintomas                   0.000000
dtype: float64

# Atenção

O dataset possui diversas colunas com uma quantidade muitíssimo grande de dados faltantes. Este fato deverá ser levado em consideração para toda e qualquer análise futura.

## Criando um dataset para análise

In [123]:
pnad_covid.to_csv('dados_pnad_tratados.csv', sep=';', index=False)