### Protótipo de ETL para o csv (continents.csv)

In [31]:
import pandas as pd

# Configurações globais de exibição
pd.set_option('display.max_columns', None)  # mostra todas as colunas
pd.set_option('display.max_rows', None)     # mostra todas as linhas
pd.set_option('display.width', None)        # ajusta a largura total
pd.set_option('display.max_colwidth', None) # mostra todo o conteúdo das células

# Leitura do arquivo
raw_dataframe = pd.read_csv('../data/states.csv', index_col=0)
all_dataframe = raw_dataframe.copy()

all_dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 63 entries, 0 to 62
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   state                63 non-null     object
 1   updated              63 non-null     int64 
 2   cases                63 non-null     int64 
 3   deaths               63 non-null     int64 
 4   recovered            63 non-null     int64 
 5   casesPerOneMillion   63 non-null     int64 
 6   deathsPerOneMillion  63 non-null     int64 
 7   population           63 non-null     int64 
dtypes: int64(7), object(1)
memory usage: 4.4+ KB


### Renomeando colunas para pt-BR

In [32]:
traducao_dict = {
    "state": "estados",
    "updated": "atualizado",
    "cases": "casos",
    "deaths": "óbitos",
    "recovered": "recuperados",
    "casesPerOneMillion": "casosPorMilhão",
    "deathsPerOneMillion": "óbitosPorMilhão",
    "population": "população",
    "object": "texto",
    "int64": "inteiro"
}

all_dataframe = all_dataframe.rename(columns=traducao_dict)

### ✅ Checklist de Atualização de Colunas

#### 1. estado
- [x] Conferir consistência de nomes (sem abreviações inconsistentes)
- [x] Checar valores nulos

#### 2. atualizado
- [x] Confirmar formato de timestamp ou data
- [x] Garantir que não há valores faltantes

#### 3. casos
- [x] Conferir se os números são inteiros e não negativos
- [x] Checar valores duplicados ou inconsistentes

#### 4. óbitos
- [x] Conferir se os números são inteiros e não negativos
- [x] Validar consistência com casos

#### 5. recuperados
- [x] Conferir se os números são inteiros e não negativos
- [x] Verificar consistência com casos e óbitos
- [x] Checar registros nulos

#### 6. casosPorMilhão
- [ ] Verificar cálculo correto a partir de casos e população
- [ ] Conferir valores extremos
- [ ] Validar atualizações recentes

#### 7. óbitosPorMilhão
- [ ] Conferir cálculo correto a partir de óbitos e população
- [ ] Validar consistência com casosPorMilhão
- [ ] Verificar valores discrepantes

#### 8. população
- [ ] Confirmar números inteiros e positivos
- [ ] Checar se há duplicidades
- [ ] Verificar atualização da população


In [33]:
all_dataframe['estados'].dtype
all_dataframe['estados'].isna().value_counts()
# False    63

all_dataframe['estados'].duplicated().value_counts()
# False    63

all_dataframe['estados'] = all_dataframe['estados'].fillna('Não informado')
all_dataframe['estados'].unique()

array(['California', 'Texas', 'Florida', 'New York', 'Illinois', 'Ohio',
       'Pennsylvania', 'North Carolina', 'Michigan', 'New Jersey',
       'Georgia', 'Tennessee', 'Arizona', 'Massachusetts', 'Virginia',
       'Indiana', 'Washington', 'Wisconsin', 'Minnesota', 'Colorado',
       'South Carolina', 'Kentucky', 'Missouri', 'Louisiana', 'Alabama',
       'Maryland', 'Oklahoma', 'Utah', 'Arkansas', 'Iowa', 'Mississippi',
       'Oregon', 'Connecticut', 'Kansas', 'Nevada', 'New Mexico',
       'West Virginia', 'Nebraska', 'Idaho', 'Rhode Island', 'Hawaii',
       'New Hampshire', 'Delaware', 'Maine', 'Montana', 'North Dakota',
       'Alaska', 'South Dakota', 'Wyoming', 'District Of Columbia',
       'Vermont', 'Puerto Rico', 'Guam', 'United States Virgin Islands',
       'Northern Mariana Islands', 'American Samoa', 'Veteran Affairs',
       'US Military', 'Navajo Nation', 'Federal Prisons',
       'Grand Princess Ship', 'Wuhan Repatriated',
       'Diamond Princess Ship'], dtype=ob

In [34]:
all_dataframe['atualizado'] = pd.to_datetime(all_dataframe['atualizado'], unit='ms')
all_dataframe['atualizado'].fillna(pd.NaT)

all_dataframe['atualizado']

0    2025-10-27 23:54:55.352
1    2025-10-27 23:54:55.352
2    2025-10-27 23:54:55.352
3    2025-10-27 23:54:55.352
4    2025-10-27 23:54:55.352
5    2025-10-27 23:54:55.352
6    2025-10-27 23:54:55.352
7    2025-10-27 23:54:55.352
8    2025-10-27 23:54:55.352
9    2025-10-27 23:54:55.352
10   2025-10-27 23:54:55.352
11   2025-10-27 23:54:55.352
12   2025-10-27 23:54:55.352
13   2025-10-27 23:54:55.352
14   2025-10-27 23:54:55.352
15   2025-10-27 23:54:55.352
16   2025-10-27 23:54:55.352
17   2025-10-27 23:54:55.352
18   2025-10-27 23:54:55.352
19   2025-10-27 23:54:55.352
20   2025-10-27 23:54:55.352
21   2025-10-27 23:54:55.352
22   2025-10-27 23:54:55.352
23   2025-10-27 23:54:55.352
24   2025-10-27 23:54:55.353
25   2025-10-27 23:54:55.353
26   2025-10-27 23:54:55.353
27   2025-10-27 23:54:55.353
28   2025-10-27 23:54:55.353
29   2025-10-27 23:54:55.353
30   2025-10-27 23:54:55.353
31   2025-10-27 23:54:55.353
32   2025-10-27 23:54:55.353
33   2025-10-27 23:54:55.353
34   2025-10-2

In [None]:
all_dataframe.query('casos < 0')
# não existe casos com valores negativos
all_dataframe['casos'].dtype
# dtype('int64')
all_dataframe['casos'].isna().value_counts()
#False    63
all_dataframe['casos'].duplicated().value_counts()
#False    63
all_dataframe['casos'] = all_dataframe['casos'].fillna(0)

all_dataframe['casos']

dtype('int64')

In [85]:
all_dataframe.query('óbitos < 0')
# não existe casos com valores negativos
all_dataframe['óbitos'].dtype

all_dataframe['óbitos'].isna().value_counts()
#False    63
all_dataframe['óbitos'].duplicated().value_counts()
#False    63

all_dataframe['óbitos'] = all_dataframe['óbitos'].fillna(0)

all_dataframe[['casos','óbitos']]

Unnamed: 0,casos,óbitos
0,12711918,112443
1,9190299,104793
2,8048191,95206
3,7587861,83374
4,4136659,42005
5,3741277,43896
6,3565499,51480
7,3501404,29059
8,3306221,44762
9,3295020,36873


In [None]:
all_dataframe.query('recuperados < 0')
# não existe casos com valores negativos
all_dataframe['recuperados'].dtype
# dtype('int64')
all_dataframe['recuperados'].isna().value_counts()
# False    63
all_dataframe['recuperados'].unique()

array([      0, 3684603, 1288527,  934730,  566979,  329725,   60681,
         26002,  931580,     115,       3,      46])