## COVID-19: Paraíba 2020-2022

### Integrantes

* [João Henrique de Araújo Pereira](https://github.com/joaoh224488)&nbsp;&nbsp;&nbsp;&nbsp;|&nbsp;&nbsp;&nbsp;Matrícula: 20210026705 
* [Maria Raquel Souza Martinez](https://github.com/maria-raquel)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;|&nbsp;&nbsp; Matrícula: 20200025900
* [Maxwel de Andrade Barbosa](https://github.com/maxbarbosa)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;|&nbsp;&nbsp; Matrícula: 20210067083



<p align="center"><img src="https://www.camara.leg.br/midias/image/2020/10/img20201022140139807-768x512.jpg" width="70%" height="70%"/></p>

Fonte: https://www.camara.leg.br/midias/image/2020/10/img20201022140139807-768x512.jpg

## Introdução e objetivos

No final do ano de 2019, iniciou-se uma epidemia (escala local) do vírus SARS-CoV-2 na China, que, rapidamente evoluiu para uma pandemia (escala continental/global), ficando mundialmente conhecido como COVID-19.

O primeiro caso dessa doença confirmado no Brasil foi datado em 25 de fevereiro de 2020, conforme os detalhes da [matéria](https://www.unasus.gov.br/noticia/coronavirus-brasil-confirma-primeiro-caso-da-doenca#:~:text=O%20Ministério%20da%20Saúde%20confirmou,para%20Itália%2C%20região%20da%20Lombardia.) disponibilizada pela plataforma UNA-SUS.
No estado da Paraíba, o primeiro caso confirmado foi divulgado em 25 de março do mesmo ano, assim como mostra a [notícia](https://g1.globo.com/pb/paraiba/noticia/2020/03/18/paraiba-confirma-primeiro-caso-do-novo-coronavirus-diz-secretaria.ghtml) do Portal G1.

Com base nessas informações, é válido analisar os dados gerados por esse cenário caótico de mais de 2 anos de pandemia e como campanhas de vacinação auxiliaram no processo de retomada de atividades abortadas pela circulação do vírus afim de evitar uma maior contaminação especificamente em terras paraibanas.

### Objetivo geral:

Expor e discorrer os dados dos municípios paraibanos acerca do COVID-19 afim de explorar diversas variavéis ao longo de 3 bases de dados valendo-se de variáveis como casos confirmados, mortes, idade, etnia, etc.
Ao final da análise esperamos obter informações coerentes capazes de apresentar algo novo ao leitor.


### Objetivos específicos:

### Dados - Principais váriaveis utilizadas:

Open Data SUS (dados_vacinacao.csv):

* paciente_idade (idade do vacinado)
* paciente_endereco_nmMunicipio (nome do município de endereço do vacinado)
* paciente_racaCor_valor (descrição da raça/cor do vacinado)
* vacina_descricao_dose (descrição da dose. Exemplo: "2ª dose")
* vacina_nome (nome da vacina/produto)

Brasil IO - PB (dados_casos.csv):

* city (município paraibano que detém tais dados)
* confirmed (quantidade de casos confirmados)
* confirmed_per_100k_inhabitants (casos confirmados a cada 100 mil habitantes)
* deaths (número de mortes)
* death_rate (taxa de morte)




## Pré-processamento e limpeza dos dados

O dataset disponível pela plataforma Open Data SUS possui algumas células com mais de um valor. Tais células ocasionam um erro de leitura do Python e outros frameworks. Infelizmente só é possível corrigir tal erro através de um processo pseudo-manual, processo este que foi resolvido por esta equipe e que está detalhado o passo a passo nesse link [aqui](https://github.com/maxbarbosa/data-science-final-project/tree/main/datasets#readme).

O dataset original possui 2.806.755 de linhas e 32 colunas, das quais 15 foram removidas por apresentar informações pouco ou nada relevantes para este trabalho. Restando 17 colunas a serem utilizadas.

O código abaixo explicita o processo de remoção das 15 colunas do dataset original:


```python
import pandas as pd
df = pd.read_csv('dados_vacinacao.csv')

df = df.drop(
        ['document_id',  
        'paciente_endereco_coIbgeMunicipio', 
        'paciente_endereco_coPais',
        'paciente_endereco_nmPais',
        'paciente_endereco_uf', 
        'paciente_nacionalidade_enumNacionalidade', 
        'estabelecimento_valor',
        'estabelecimento_razaoSocial', 
        'estalecimento_noFantasia',
        'estabelecimento_municipio_codigo', 
        'estabelecimento_uf', 
        'vacina_fabricante_nome',
        'vacina_fabricante_referencia', 
        'sistema_origem'], 
	axis= 1
)

print(df.columns)

df = df.iloc[: , [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16, 0]]

df.to_csv("dados_vacinacao.csv", index = False)

```

Após a realização da etapa descrita acima, algumas colunas do novo dataset gerado foram criadas com o tipo _float_, sendo incicialmente _int_ seu tipo de dado, para realizar a correção em tais colunas, o seguinte trecho de código foi executado:

```python
df.paciente_idade = df.paciente_idade.fillna(0)
df.paciente_racaCor_codigo = df.paciente_racaCor_codigo.fillna(0)
df.vacina_grupoAtendimento_codigo = df.vacina_grupoAtendimento_codigo.fillna(0)
df.vacina_categoria_codigo = df.vacina_categoria_codigo.fillna(0)


df.paciente_idade = df.paciente_idade.astype(int)
df.paciente_racaCor_codigo = df.paciente_racaCor_codigo.astype(int)
df.vacina_grupoAtendimento_codigo = df.vacina_grupoAtendimento_codigo.astype(int)
df.vacina_categoria_codigo = df.vacina_categoria_codigo.astype(int)

df.to_csv("dados_vacinacao.csv", index = False)
```