### Protótipo de ETL para o csv (all.csv)

In [132]:
import pandas as pd

# Configurações globais de exibição
pd.set_option('display.max_columns', None)  # mostra todas as colunas
pd.set_option('display.max_rows', None)     # mostra todas as linhas
pd.set_option('display.width', None)        # ajusta a largura total
pd.set_option('display.max_colwidth', None) # mostra todo o conteúdo das células

# Leitura do arquivo
raw_dataframe = pd.read_csv('../data/all.csv', index_col=0)
all_dataframe = raw_dataframe.copy()

all_dataframe


Unnamed: 0,updated,cases,todayCases,deaths,todayDeaths,recovered,todayRecovered,active,critical,casesPerOneMillion,deathsPerOneMillion,tests,testsPerOneMillion,population,oneCasePerPeople,oneDeathPerPeople,oneTestPerPeople,activePerOneMillion,recoveredPerOneMillion,criticalPerOneMillion,affectedCountries
0,1761609295568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


## Verificando colunas

In [133]:
all_dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, 0 to 0
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   updated                 1 non-null      int64  
 1   cases                   1 non-null      int64  
 2   todayCases              1 non-null      int64  
 3   deaths                  1 non-null      int64  
 4   todayDeaths             1 non-null      int64  
 5   recovered               1 non-null      int64  
 6   todayRecovered          1 non-null      int64  
 7   active                  1 non-null      int64  
 8   critical                1 non-null      int64  
 9   casesPerOneMillion      1 non-null      int64  
 10  deathsPerOneMillion     1 non-null      float64
 11  tests                   1 non-null      int64  
 12  testsPerOneMillion      1 non-null      float64
 13  population              1 non-null      int64  
 14  oneCasePerPeople        1 non-null      int64  
 15

## Renomeando colunas

In [134]:
colunas_traducao = {
    "updated": "atualizado_em",
    "cases": "casos_total",
    "todayCases": "casos_hoje",
    "deaths": "mortes_total",
    "todayDeaths": "mortes_hoje",
    "recovered": "recuperados_total",
    "todayRecovered": "recuperados_hoje",
    "active": "casos_ativos",
    "critical": "casos_críticos",
    "casesPerOneMillion": "casos_por_milhão",
    "deathsPerOneMillion": "mortes_por_milhão",
    "tests": "testes_total",
    "testsPerOneMillion": "testes_por_milhão",
    "population": "população",
    "oneCasePerPeople": "um_caso_por_pessoas",
    "oneDeathPerPeople": "uma_morte_por_pessoas",
    "oneTestPerPeople": "um_teste_por_pessoas",
    "activePerOneMillion": "ativos_por_milhão",
    "recoveredPerOneMillion": "recuperados_por_milhão",
    "criticalPerOneMillion": "críticos_por_milhão",
    "affectedCountries": "países_afetados"
}

all_dataframe = all_dataframe.rename(columns=colunas_traducao)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,1761609295568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


### Validando cada coluna
#### ### ✅ Checklist de Atualização de Colunas

- [x] updated — atualizado_em  
- [x] cases — casos_total  
- [x] todayCases — casos_hoje  
- [x] deaths — mortes_total  
- [x] todayDeaths — mortes_hoje  
- [x] recovered — recuperados_total  
- [x] todayRecovered — recuperados_hoje  
- [x] active — casos_ativos  
- [x] critical — casos_críticos  
- [x] casesPerOneMillion — casos_por_milhão  
- [x] deathsPerOneMillion — mortes_por_milhão  
- [x] tests — testes_total  
- [x] testsPerOneMillion — testes_por_milhão  
- [x] population — população  
- [x] oneCasePerPeople — um_caso_por_pessoas  
- [x] oneDeathPerPeople — uma_morte_por_pessoas  
- [x] oneTestPerPeople — um_teste_por_pessoas  
- [x] activePerOneMillion — ativos_por_milhão  
- [x] recoveredPerOneMillion — recuperados_por_milhão  
- [x] criticalPerOneMillion — críticos_por_milhão  
- [x] affectedCountries — países_afetados


In [135]:
all_dataframe['atualizado_em'] = pd.to_datetime(all_dataframe['atualizado_em'], unit='ms')
all_dataframe['atualizado_em'].fillna(0)
all_dataframe['atualizado_em']

0   2025-10-27 23:54:55.568
Name: atualizado_em, dtype: datetime64[ns]

In [136]:
all_dataframe['casos_total'] = all_dataframe['casos_total'].astype('int32')
all_dataframe['casos_total'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [137]:
all_dataframe['casos_hoje'] = all_dataframe['casos_hoje'].astype('int32')
all_dataframe['casos_hoje'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [138]:
all_dataframe['mortes_total'] = all_dataframe['mortes_total'].astype('int32')
all_dataframe['mortes_total'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [139]:
all_dataframe['recuperados_total'] = all_dataframe['recuperados_total'].astype('int32')
all_dataframe['recuperados_total'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [140]:
all_dataframe['recuperados_hoje'] = all_dataframe['recuperados_hoje'].astype('int16')
all_dataframe['recuperados_hoje'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [141]:
all_dataframe['casos_ativos'] = all_dataframe['casos_ativos'].astype('int32')
all_dataframe['casos_ativos'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [142]:
all_dataframe['casos_críticos'] = all_dataframe['casos_críticos'].astype('int32')
all_dataframe['casos_críticos'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [143]:
all_dataframe['casos_por_milhão'] = all_dataframe['casos_por_milhão'].astype('float32')
all_dataframe['casos_por_milhão'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.4,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [144]:
all_dataframe['mortes_por_milhão'] = all_dataframe['mortes_por_milhão'].astype('float32')
all_dataframe['mortes_por_milhão'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [145]:
all_dataframe['testes_total'] = all_dataframe['testes_total'].astype('int64')
all_dataframe['testes_total'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.59,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [146]:
all_dataframe['testes_por_milhão'] = all_dataframe['testes_por_milhão'].astype('float32')
all_dataframe['testes_por_milhão'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [147]:
all_dataframe['população'] = all_dataframe['população'].astype('int64')
all_dataframe['população'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [148]:
all_dataframe['um_caso_por_pessoas'] = all_dataframe['um_caso_por_pessoas'].astype('int16')
all_dataframe['um_caso_por_pessoas'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [149]:
all_dataframe['uma_morte_por_pessoas'] = all_dataframe['uma_morte_por_pessoas'].astype('int16')
all_dataframe['uma_morte_por_pessoas'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.59,85037.8,4.38,231


In [150]:
all_dataframe['ativos_por_milhão'] = all_dataframe['ativos_por_milhão'].astype('float32')
all_dataframe['ativos_por_milhão'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.590088,85037.8,4.38,231


In [151]:
all_dataframe['recuperados_por_milhão'] = all_dataframe['recuperados_por_milhão'].astype('float32')
all_dataframe['recuperados_por_milhão'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.590088,85037.796875,4.38,231


In [152]:
all_dataframe['críticos_por_milhão'] = all_dataframe['críticos_por_milhão'].astype('float32')
all_dataframe['críticos_por_milhão'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.590088,85037.796875,4.38,231


In [153]:
all_dataframe['países_afetados'] = all_dataframe['países_afetados'].astype('int16')
all_dataframe['países_afetados'].fillna(0)
all_dataframe

Unnamed: 0,atualizado_em,casos_total,casos_hoje,mortes_total,mortes_hoje,recuperados_total,recuperados_hoje,casos_ativos,casos_críticos,casos_por_milhão,mortes_por_milhão,testes_total,testes_por_milhão,população,um_caso_por_pessoas,uma_morte_por_pessoas,um_teste_por_pessoas,ativos_por_milhão,recuperados_por_milhão,críticos_por_milhão,países_afetados
0,2025-10-27 23:54:55.568,704753890,0,7010681,0,675619811,790,22123398,34794,90413.0,899.400024,7026505313,884400.5625,7944935131,0,0,0,2784.590088,85037.796875,4.38,231
