# Notebook 02 - Limpeza da Base de Doses por COVID
Este notebook realiza o carregamento, inspeção e limpeza da base de dados contendo informações sobre as doses das vacinas por COVID-19 no Brasil por estado (UF).

A ideia é deixar os dados prontos para a fusão com a base de vacinação no próximo passo.

In [2]:
import pandas as pd
import numpy as np

In [3]:
path = '../data/raw/dosesCovid19Brasil.xlsx'
BrasilDoses = pd.read_excel(path)
BrasilDoses.head()

Unnamed: 0,UF,Total de Doses Aplicadas,1ª Dose,2ª Dose,3ª Dose,Dose Reforço,1° Dose Reforço,2° Dose Reforço,3° Dose Reforço,Dose Adicional,Dose Única
0,AC,1761508,714326,597758,6115,297942,6082,94092,1271,22653,19629
1,AL,6885011,2691088,2341666,13749,1276855,26073,446753,2883,11642,71242
2,AM,9064809,3584346,3051038,996581,834689,141562,302764,2572,22140,118060
3,AP,1646871,669886,549627,16055,263735,19904,79300,869,26309,19530
4,BA,36229601,12867305,11398066,226267,7357841,71874,3430083,58212,460767,345784


## Verificação das Colunas
Avaliaremos os nomes das colunas para identificar quais precisam ser renomeadas ou tratadas.

In [4]:
BrasilDoses.columns

Index(['UF', 'Total de Doses Aplicadas', '1ª Dose', '2ª Dose', '3ª Dose',
       'Dose Reforço', '1° Dose Reforço', '2° Dose Reforço', '3° Dose Reforço',
       'Dose Adicional', 'Dose Única'],
      dtype='object')

## Renomeando as Colunas
Vamos padronizar os nomes das colunas para o formato `snake_case`, que é o padrão recomendado para nomes de variáveis e colunas em Python.

In [8]:
BrasilDoses.columns = [
    'uf', 'total_doses_aplicadas', '1_dose', '2_dose',
    '3_dose', 'dose_reforco', '1_dose_reforco', '2_dose_reforço', '3_dose_reforco',
       'dose_adicional', 'dose_unica'
]
BrasilDoses.head()

Unnamed: 0,uf,total_doses_aplicadas,1_dose,2_dose,3_dose,dose_reforco,1_dose_reforco,2_dose_reforço,3_dose_reforco,dose_adicional,dose_unica
0,AC,1761508,714326,597758,6115,297942,6082,94092,1271,22653,19629
1,AL,6885011,2691088,2341666,13749,1276855,26073,446753,2883,11642,71242
2,AM,9064809,3584346,3051038,996581,834689,141562,302764,2572,22140,118060
3,AP,1646871,669886,549627,16055,263735,19904,79300,869,26309,19530
4,BA,36229601,12867305,11398066,226267,7357841,71874,3430083,58212,460767,345784


## Padronização de Tipos e Valores
- Garantimos que a coluna `uf` esteja em letras maiúsculas.
- Verificamos se colunas numéricas estão corretamente tipadas.

In [10]:
BrasilDoses['uf'] = BrasilDoses['uf'].str.upper().str.strip()
BrasilDoses = BrasilDoses.astype({
    'total_doses_aplicadas': int,
    '1_dose': int,
    '2_dose': int,
    '3_dose': int,
    'dose_reforco': int,
    '1_dose_reforco': int,
    '2_dose_reforço': int,
    '3_dose_reforco': int,
    'dose_adicional': int,
    'dose_unica': int,
})
BrasilDoses.dtypes

uf                       object
total_doses_aplicadas     int64
1_dose                    int64
2_dose                    int64
3_dose                    int64
dose_reforco              int64
1_dose_reforco            int64
2_dose_reforço            int64
3_dose_reforco            int64
dose_adicional            int64
dose_unica                int64
dtype: object

## Salvando os Dados Limpos
Vamos salvar os dados limpos em formato CSV na pasta `processed/` para uso futuro.

In [11]:
output_path = '../data/processed/doses_covid_limpo.csv'
BrasilDoses.to_csv(output_path, index=False)
print(f'Dados salvos em: {output_path}')

Dados salvos em: ../data/processed/doses_covid_limpo.csv
