# Notebook 01 - Limpeza da Base de Mortes por COVID
Este notebook realiza o carregamento, inspeção e limpeza da base de dados contendo informações sobre as mortes por COVID-19 no Brasil por estado (UF).

A ideia é deixar os dados prontos para a fusão com a base de vacinação no próximo passo.

In [1]:
import pandas as pd
import numpy as np

## Leitura dos Dados Originais
Vamos carregar a planilha `.xlsx` que contém as informações sobre mortes por COVID-19.

In [3]:
path = '../data/raw/MortesCovid19Brasil.xlsx'
BrasilMortes = pd.read_excel(path)
BrasilMortes.head()

Unnamed: 0,UF,População,Casos novos notificados na semana epidemiológica,Casos Acumulados,Incidência covid-19 (100 mil hab),Óbitos novos notificados na semana epidemiológica,Óbitos Acumulados,Taxa mortalidade (100 mil hab)
0,AC,881935,0,174740,19813.251543,0,2115,239.813592
1,AL,3337357,161,350936,10515.386877,0,7375,220.983251
2,AM,4144597,7,648018,15635.247528,0,14556,351.20423
3,AP,845731,0,192019,22704.500604,0,2178,257.528694
4,BA,14873064,66,1853103,12459.456908,1,32126,216.001222


## Verificação das Colunas
Avaliaremos os nomes das colunas para identificar quais precisam ser renomeadas ou tratadas.

In [4]:
BrasilMortes.columns

Index(['UF', 'População', 'Casos novos notificados na semana epidemiológica',
       'Casos Acumulados', 'Incidência covid-19 (100 mil hab)',
       'Óbitos novos notificados na semana epidemiológica',
       'Óbitos Acumulados', 'Taxa mortalidade (100 mil hab)'],
      dtype='object')

## Renomeando as Colunas
Vamos padronizar os nomes das colunas para o formato `snake_case`, que é o padrão recomendado para nomes de variáveis e colunas em Python.

In [5]:
BrasilMortes.columns = [
    'uf', 'populacao', 'casos_novos', 'casos_acumulados',
    'incidencia_100mil', 'obitos_novos', 'obitos_acumulados',
    'mortalidade_100mil'
]
BrasilMortes.head()

Unnamed: 0,uf,populacao,casos_novos,casos_acumulados,incidencia_100mil,obitos_novos,obitos_acumulados,mortalidade_100mil
0,AC,881935,0,174740,19813.251543,0,2115,239.813592
1,AL,3337357,161,350936,10515.386877,0,7375,220.983251
2,AM,4144597,7,648018,15635.247528,0,14556,351.20423
3,AP,845731,0,192019,22704.500604,0,2178,257.528694
4,BA,14873064,66,1853103,12459.456908,1,32126,216.001222


## Padronização de Tipos e Valores
- Garantimos que a coluna `uf` esteja em letras maiúsculas.
- Verificamos se colunas numéricas estão corretamente tipadas.

In [6]:
BrasilMortes['uf'] = BrasilMortes['uf'].str.upper().str.strip()
BrasilMortes = BrasilMortes.astype({
    'populacao': int,
    'casos_novos': int,
    'casos_acumulados': int,
    'obitos_novos': int,
    'obitos_acumulados': int
})
BrasilMortes.dtypes

uf                     object
populacao               int64
casos_novos             int64
casos_acumulados        int64
incidencia_100mil     float64
obitos_novos            int64
obitos_acumulados       int64
mortalidade_100mil    float64
dtype: object

## Salvando os Dados Limpos
Vamos salvar os dados limpos em formato CSV na pasta `processed/` para uso futuro.

In [7]:
output_path = '../data/processed/mortes_covid_limpo.csv'
BrasilMortes.to_csv(output_path, index=False)
print(f'Dados salvos em: {output_path}')

Dados salvos em: ../data/processed/mortes_covid_limpo.csv
