# Etapa 1: Preparando o Ambiente de Trabalho

In [88]:
import pandas as pd          # Para manipular tabelas de dados
import numpy as np           # Para cálculos matemáticos
import matplotlib.pyplot as plt  # Para criar visualizações

# Configuração para melhor visualização
pd.options.display.float_format = '{:,.2f}'.format

# Etapa 2: Carregando os Dados de Casos e População

In [89]:
# Dados de casos e óbitos
url_casos = "https://raw.githubusercontent.com/wcota/covid19br/master/cases-brazil-states.csv"
df = pd.read_csv(url_casos, parse_dates=["date"])

# Observe o formato do dataframe
df.head()

Unnamed: 0,epi_week,date,country,state,city,newDeaths,deaths,newCases,totalCases,deathsMS,...,tests,tests_per_100k_inhabitants,vaccinated,vaccinated_per_100_inhabitants,vaccinated_second,vaccinated_second_per_100_inhabitants,vaccinated_single,vaccinated_single_per_100_inhabitants,vaccinated_third,vaccinated_third_per_100_inhabitants
0,9,2020-02-25,Brazil,SP,TOTAL,0,0,1,1,0,...,,,,,,,,,,
1,9,2020-02-25,Brazil,TOTAL,TOTAL,0,0,1,1,0,...,,,,,,,,,,
2,9,2020-02-26,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,
3,9,2020-02-26,Brazil,TOTAL,TOTAL,0,0,0,1,0,...,,,,,,,,,,
4,9,2020-02-27,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,


## Parsing
Parse (ou fazer o **_parsing_**) é o processo de pegar um conjunto de dados brutos (como um texto) e analisá-lo para extrair informações estruturadas que um programa consiga entender.No contexto do Pandas, o parâmetro **parse_dates** é usado para indicar ao computador que determinadas colunas devem ser tratadas como datas reais e não apenas como textos (strings) comuns.

Quando você carrega um arquivo CSV, o Pandas lê quase tudo como texto ou números simples por padrão. Se uma coluna contém **"2026-02-11"**, para o computador isso é apenas uma sequência de caracteres. Ao usar **parse_dates=["date"]**, você está instruindo o Pandas a realizar o **parsing** para converter esse texto em um objeto do tipo **datetime64**.

### Por que isso é importante?
- **Acessa partes da data**: Você pode extrair facilmente o dia da semana, o mês ou o ano de cada linha.

- **Ordenação Lógica**: O computador entende que "Janeiro de 2026" vem antes de "Fevereiro de 2026", o que nem sempre acontece na ordenação alfabética de textos.

- **Cálculos de Tempo**: Você pode subtrair uma data de outra para descobrir quantos dias se passaram entre dois eventos.

In [90]:
# Padronizando nomes das colunas
df = df.rename(columns={
    'state':'uf',
    'newCases':'novos_casos',
    'newDeaths':'novos_obitos'
})

df.head()

Unnamed: 0,epi_week,date,country,uf,city,novos_obitos,deaths,novos_casos,totalCases,deathsMS,...,tests,tests_per_100k_inhabitants,vaccinated,vaccinated_per_100_inhabitants,vaccinated_second,vaccinated_second_per_100_inhabitants,vaccinated_single,vaccinated_single_per_100_inhabitants,vaccinated_third,vaccinated_third_per_100_inhabitants
0,9,2020-02-25,Brazil,SP,TOTAL,0,0,1,1,0,...,,,,,,,,,,
1,9,2020-02-25,Brazil,TOTAL,TOTAL,0,0,1,1,0,...,,,,,,,,,,
2,9,2020-02-26,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,
3,9,2020-02-26,Brazil,TOTAL,TOTAL,0,0,0,1,0,...,,,,,,,,,,
4,9,2020-02-27,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,


In [91]:
# Removendo dados agregados nacionais
df = df[df['uf']!='TOTAL']
display(df.head())

print('✅ Dados carregados!')
print(f'{len(df)} linhas de dados')
print(f'{df['uf'].nunique()-1} estados + DF')
print(f'Período: {df['date'].min().date()} até {df['date'].max().date()}')

Unnamed: 0,epi_week,date,country,uf,city,novos_obitos,deaths,novos_casos,totalCases,deathsMS,...,tests,tests_per_100k_inhabitants,vaccinated,vaccinated_per_100_inhabitants,vaccinated_second,vaccinated_second_per_100_inhabitants,vaccinated_single,vaccinated_single_per_100_inhabitants,vaccinated_third,vaccinated_third_per_100_inhabitants
0,9,2020-02-25,Brazil,SP,TOTAL,0,0,1,1,0,...,,,,,,,,,,
2,9,2020-02-26,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,
4,9,2020-02-27,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,
6,9,2020-02-28,Brazil,SP,TOTAL,0,0,1,2,0,...,,,,,,,,,,
8,9,2020-02-29,Brazil,SP,TOTAL,0,0,0,2,0,...,,,,,,,,,,


✅ Dados carregados!
29724 linhas de dados
26 estados + DF
Período: 2020-02-25 até 2023-03-18


In [92]:
#População por UF — Censo 2022 (SIDRA tabela 4714)
url_pop = "https://apisidra.ibge.gov.br/values/t/4714/p/2022/n3/all/v/93?formato=json"
pop = pd.read_json(url_pop)
pop.head()

Unnamed: 0,NC,NN,MC,MN,V,D1C,D1N,D2C,D2N,D3C,D3N
0,Nível Territorial (Código),Nível Territorial,Unidade de Medida (Código),Unidade de Medida,Valor,Ano (Código),Ano,Unidade da Federação (Código),Unidade da Federação,Variável (Código),Variável
1,3,Unidade da Federação,45,Pessoas,1581196,2022,2022,11,Rondônia,93,População residente
2,3,Unidade da Federação,45,Pessoas,830018,2022,2022,12,Acre,93,População residente
3,3,Unidade da Federação,45,Pessoas,3941613,2022,2022,13,Amazonas,93,População residente
4,3,Unidade da Federação,45,Pessoas,636707,2022,2022,14,Roraima,93,População residente


In [93]:
# A primeira linha do SIDRA é metadado; removemos com iloc[1:]
pop = pop.rename(columns={"D2C": "uf_cod", "D2N": "uf_nome", "V": "populacao"}).iloc[1:]
pop.head()

Unnamed: 0,NC,NN,MC,MN,populacao,D1C,D1N,uf_cod,uf_nome,D3C,D3N
1,3,Unidade da Federação,45,Pessoas,1581196,2022,2022,11,Rondônia,93,População residente
2,3,Unidade da Federação,45,Pessoas,830018,2022,2022,12,Acre,93,População residente
3,3,Unidade da Federação,45,Pessoas,3941613,2022,2022,13,Amazonas,93,População residente
4,3,Unidade da Federação,45,Pessoas,636707,2022,2022,14,Roraima,93,População residente
5,3,Unidade da Federação,45,Pessoas,8120131,2022,2022,15,Pará,93,População residente


In [94]:
# Garantindo tipos numéricos corretos
pop["uf_cod"] = pd.to_numeric(pop["uf_cod"], errors="coerce").astype("Int64")
pop["populacao"] = pd.to_numeric(pop["populacao"], errors="coerce").astype("Int64")

print(f"✅ População carregada: {len(pop)} UFs")

✅ População carregada: 27 UFs


In [95]:
# Mapa de códigos para siglas de UF
url_ufs = "https://servicodados.ibge.gov.br/api/v1/localidades/estados"
ufs = pd.read_json(url_ufs)[["id", "sigla", "nome"]].rename(
    columns={"id": "uf_cod", "sigla": "uf", "nome": "uf_nome"}
)
ufs["uf_cod"] = ufs["uf_cod"].astype("Int64")
display(ufs)

Unnamed: 0,uf_cod,uf,uf_nome
0,11,RO,Rondônia
1,12,AC,Acre
2,13,AM,Amazonas
3,14,RR,Roraima
4,15,PA,Pará
5,16,AP,Amapá
6,17,TO,Tocantins
7,21,MA,Maranhão
8,22,PI,Piauí
9,23,CE,Ceará


## O que fizemos aqui?
Carregamos os dados com ``read_json`` e já aplicamos algumas transformações importantes:

- **Seleção de Colunas**: Filtramos apenas o nescessário (``id``, ``sigla``, ``nome``)
- **Renomeação**: Padronizamos os nomes
- **Tipagem**: Garantiu que o código da UF seja tratado como um inteiro que aceita valores nulos (``Int64``).

In [96]:
# Une população (por código) com sigla de UF
pop = pop.merge(ufs[["uf_cod", "uf"]], on="uf_cod", how="left")
pop = pop[["uf_cod", "uf", "uf_nome", "populacao"]]
display(pop)

print("✅ Dados prontos para análise!")

Unnamed: 0,uf_cod,uf,uf_nome,populacao
0,11,RO,Rondônia,1581196
1,12,AC,Acre,830018
2,13,AM,Amazonas,3941613
3,14,RR,Roraima,636707
4,15,PA,Pará,8120131
5,16,AP,Amapá,733759
6,17,TO,Tocantins,1511460
7,21,MA,Maranhão,6776699
8,22,PI,Piauí,3271199
9,23,CE,Ceará,8794957


✅ Dados prontos para análise!


# Etapa 3: Unindo Dados com Merge

## Como funciona o Merge ?
No merge existe o **DataFrame da esquerda** e o **DataFrame da direita**.

``pop``(esquerda) ➡️ ``.merge()`` (ação) ➡️ ``ufs`` (direita)

Isso define a "âncora" da sua operação, especialmente quando usamos o ``how="left"``.

- **DataFrame da Esquerda (pop)**: É a sua base principal. O Pandas garante que todas as linhas dele permaneçam no resultado final, não importa o que aconteça.

- **DataFrame da Direita (ufs)**: É a tabela de consulta. O Pandas vai lá apenas para buscar informações que se encaixem na "ponte" (uf_cod) que você definiu.

### Mas como de fato isso funciona?
Para acontecer o **merge** o Pandas vai precisar de um parâmetro **"ponte"** que é passado para o o argumento 
**on="uf_cod"** e que indica ao Pandas que essa é a coluna comum entre os dois DataFrames (``pop`` e ``ufs``) que deve ser usada para alinhar as linhas corretamente.

Fazendo ``ufs[["uf_cod", "uf"]]`` filtramos e garantimos que apenas as colunas ``uf_cod`` e ``uf`` do **uf** serão puxadas para o DataFrame da esquerda. Como passamos ``"uf_cod"`` como parâmetro ponte, o pandas entende que essa coluna deve servir como **elo de ligação** entre as duas tabelas. Então, em vez de criar duas colunas idênticas, ele as "funde" em uma única coluna no DataFrame final.

### Como a união funciona?
Existem quatro formas principais de combinar os dados, definidas pelo parâmetro ``how``:

- **inner**: Mantém apenas as chaves que existem em ambos os DataFrames.
- **left**: Mantém todas as linhas do DataFrame da esquerda e adiciona correspondências da direita.
- **right**: Mantém todas as linhas do DataFrame da direita e adiciona correspondências da esquerda.
- **outer** : Mantém todas as linhas de ambos, preenchendo com NaN onde não há correspondência.


In [97]:
# Unindo Dados de Casos com Populações
df = df.merge(pop[['uf','populacao']], on='uf', how='left')
df.head()

Unnamed: 0,epi_week,date,country,uf,city,novos_obitos,deaths,novos_casos,totalCases,deathsMS,...,tests_per_100k_inhabitants,vaccinated,vaccinated_per_100_inhabitants,vaccinated_second,vaccinated_second_per_100_inhabitants,vaccinated_single,vaccinated_single_per_100_inhabitants,vaccinated_third,vaccinated_third_per_100_inhabitants,populacao
0,9,2020-02-25,Brazil,SP,TOTAL,0,0,1,1,0,...,,,,,,,,,,44411238
1,9,2020-02-26,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,44411238
2,9,2020-02-27,Brazil,SP,TOTAL,0,0,0,1,0,...,,,,,,,,,,44411238
3,9,2020-02-28,Brazil,SP,TOTAL,0,0,1,2,0,...,,,,,,,,,,44411238
4,9,2020-02-29,Brazil,SP,TOTAL,0,0,0,2,0,...,,,,,,,,,,44411238


In [100]:
# Verificando o resultado
exemplo = df[df["uf"] == "SP"].iloc[0]
print(f"   São Paulo em {exemplo['date'].date()}:")
print(f"   • Novos casos: {exemplo['novos_casos']:,.0f}")
print(f"   • População: {exemplo['populacao']:,.0f}")

   São Paulo em 2020-02-25:
   • Novos casos: 1
   • População: 44,411,238


In [101]:
# Limpeza de dados
df["populacao"] = df["populacao"].replace(0, np.nan)
df["novos_casos"] = df["novos_casos"].clip(lower=0).fillna(0)
df["novos_obitos"] = df["novos_obitos"].clip(lower=0).fillna(0)

# Etapa 4: Criando Indicadores Comparáveis