### Protótipo de ETL para o csv (continents.csv)

In [52]:

import pandas as pd
import numpy as np

# Configurações globais de exibição
pd.set_option('display.max_columns', None)  # mostra todas as colunas
pd.set_option('display.max_rows', None)     # mostra todas as linhas
pd.set_option('display.width', None)        # ajusta a largura total
pd.set_option('display.max_colwidth', None) # mostra todo o conteúdo das células

# Leitura do arquivo
raw_dataframe = pd.read_csv('../data/states.csv', index_col=0)
all_dataframe = raw_dataframe.copy()

all_dataframe.info()
all_dataframe

<class 'pandas.core.frame.DataFrame'>
Index: 63 entries, 0 to 62
Data columns (total 8 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   state                63 non-null     object
 1   updated              63 non-null     int64 
 2   cases                63 non-null     int64 
 3   deaths               63 non-null     int64 
 4   recovered            63 non-null     int64 
 5   casesPerOneMillion   63 non-null     int64 
 6   deathsPerOneMillion  63 non-null     int64 
 7   population           63 non-null     int64 
dtypes: int64(7), object(1)
memory usage: 4.4+ KB


Unnamed: 0,state,updated,cases,deaths,recovered,casesPerOneMillion,deathsPerOneMillion,population
0,California,1761609295352,12711918,112443,0,321721,2846,39512223
1,Texas,1761609295352,9190299,104793,0,316952,3614,28995881
2,Florida,1761609295352,8048191,95206,0,374722,4433,21477737
3,New York,1761609295352,7587861,83374,0,390050,4286,19453561
4,Illinois,1761609295352,4136659,42005,0,326446,3315,12671821
5,Ohio,1761609295352,3741277,43896,3684603,320065,3755,11689100
6,Pennsylvania,1761609295352,3565499,51480,0,278511,4021,12801989
7,North Carolina,1761609295352,3501404,29059,0,333846,2771,10488084
8,Michigan,1761609295352,3306221,44762,0,331057,4482,9986857
9,New Jersey,1761609295352,3295020,36873,0,370969,4151,8882190


### Renomeando colunas para pt-BR

In [None]:
traducao_dict = {
    "state": "estados",
    "updated": "atualizado",
    "cases": "casos",
    "deaths": "óbitos",
    "recovered": "recuperados",
    "casesPerOneMillion": "casosPorMilhão",
    "deathsPerOneMillion": "óbitosPorMilhão",
    "population": "população",
}

all_dataframe = all_dataframe.rename(columns=traducao_dict)

### ✅ Checklist de Atualização de Colunas

#### 1. estado
- [x] Conferir consistência de nomes (sem abreviações inconsistentes)
- [x] Checar valores nulos

#### 2. atualizado
- [x] Confirmar formato de timestamp ou data
- [x] Garantir que não há valores faltantes

#### 3. casos
- [x] Conferir se os números são inteiros e não negativos
- [x] Checar valores duplicados ou inconsistentes

#### 4. óbitos
- [x] Conferir se os números são inteiros e não negativos
- [x] Validar consistência com casos

#### 5. recuperados
- [x] Conferir se os números são inteiros e não negativos
- [x] Verificar consistência com casos e óbitos
- [x] Checar registros nulos

#### 6. casosPorMilhão
- [ ] Verificar cálculo correto a partir de casos e população
- [ ] Conferir valores extremos
- [ ] Validar atualizações recentes

#### 7. óbitosPorMilhão
- [ ] Conferir cálculo correto a partir de óbitos e população
- [ ] Validar consistência com casosPorMilhão
- [ ] Verificar valores discrepantes

#### 8. população
- [ ] Confirmar números inteiros e positivos
- [ ] Checar se há duplicidades
- [ ] Verificar atualização da população


In [54]:
all_dataframe['estados'].dtype
all_dataframe['estados'].isna().value_counts()
# False    63

all_dataframe['estados'].duplicated().value_counts()
# False    63

all_dataframe['estados'] = all_dataframe['estados'].fillna('Não informado')
all_dataframe['estados'].unique()

array(['California', 'Texas', 'Florida', 'New York', 'Illinois', 'Ohio',
       'Pennsylvania', 'North Carolina', 'Michigan', 'New Jersey',
       'Georgia', 'Tennessee', 'Arizona', 'Massachusetts', 'Virginia',
       'Indiana', 'Washington', 'Wisconsin', 'Minnesota', 'Colorado',
       'South Carolina', 'Kentucky', 'Missouri', 'Louisiana', 'Alabama',
       'Maryland', 'Oklahoma', 'Utah', 'Arkansas', 'Iowa', 'Mississippi',
       'Oregon', 'Connecticut', 'Kansas', 'Nevada', 'New Mexico',
       'West Virginia', 'Nebraska', 'Idaho', 'Rhode Island', 'Hawaii',
       'New Hampshire', 'Delaware', 'Maine', 'Montana', 'North Dakota',
       'Alaska', 'South Dakota', 'Wyoming', 'District Of Columbia',
       'Vermont', 'Puerto Rico', 'Guam', 'United States Virgin Islands',
       'Northern Mariana Islands', 'American Samoa', 'Veteran Affairs',
       'US Military', 'Navajo Nation', 'Federal Prisons',
       'Grand Princess Ship', 'Wuhan Repatriated',
       'Diamond Princess Ship'], dtype=ob

In [55]:
all_dataframe['atualizado'] = pd.to_datetime(all_dataframe['atualizado'], unit='ms')

all_dataframe['atualizado'] = all_dataframe['atualizado'].fillna(pd.NaT)

all_dataframe['atualizado']

0    2025-10-27 23:54:55.352
1    2025-10-27 23:54:55.352
2    2025-10-27 23:54:55.352
3    2025-10-27 23:54:55.352
4    2025-10-27 23:54:55.352
5    2025-10-27 23:54:55.352
6    2025-10-27 23:54:55.352
7    2025-10-27 23:54:55.352
8    2025-10-27 23:54:55.352
9    2025-10-27 23:54:55.352
10   2025-10-27 23:54:55.352
11   2025-10-27 23:54:55.352
12   2025-10-27 23:54:55.352
13   2025-10-27 23:54:55.352
14   2025-10-27 23:54:55.352
15   2025-10-27 23:54:55.352
16   2025-10-27 23:54:55.352
17   2025-10-27 23:54:55.352
18   2025-10-27 23:54:55.352
19   2025-10-27 23:54:55.352
20   2025-10-27 23:54:55.352
21   2025-10-27 23:54:55.352
22   2025-10-27 23:54:55.352
23   2025-10-27 23:54:55.352
24   2025-10-27 23:54:55.353
25   2025-10-27 23:54:55.353
26   2025-10-27 23:54:55.353
27   2025-10-27 23:54:55.353
28   2025-10-27 23:54:55.353
29   2025-10-27 23:54:55.353
30   2025-10-27 23:54:55.353
31   2025-10-27 23:54:55.353
32   2025-10-27 23:54:55.353
33   2025-10-27 23:54:55.353
34   2025-10-2

In [56]:
all_dataframe.query('casos < 0')
# não existe casos com valores negativos
all_dataframe['casos'].dtype
# dtype('int64')
all_dataframe['casos'].isna().value_counts()
#False    63
all_dataframe['casos'].duplicated().value_counts()
#False    63
all_dataframe['casos'] = all_dataframe['casos'].fillna(0)

all_dataframe['casos']

0     12711918
1      9190299
2      8048191
3      7587861
4      4136659
5      3741277
6      3565499
7      3501404
8      3306221
9      3295020
10     3287483
11     2729641
12     2607545
13     2367542
14     2315784
15     2208419
16     2070848
17     2043838
18     1900794
19     1874746
20     1857853
21     1808735
22     1780715
23     1684058
24     1659936
25     1451442
26     1306350
27     1137615
28     1062606
29     1058274
30     1000415
31      992925
32      983652
33      946564
34      923059
35      725653
36      703856
37      574399
38      525825
39      443803
40      418369
41      382013
42      350706
43      346182
44      333758
45      309990
46      301513
47      282895
48      196126
49      178747
50      155080
51     1473460
52       61139
53       26148
54       14341
55        8359
56      958962
57      742808
58       89106
59       71485
60         122
61           3
62          46
Name: casos, dtype: int64

In [57]:
all_dataframe.query('óbitos < 0')
# não existe casos com valores negativos
all_dataframe['óbitos'].dtype

all_dataframe['óbitos'].isna().value_counts()
#False    63
all_dataframe['óbitos'].duplicated().value_counts()
#False    63

all_dataframe['óbitos'] = all_dataframe['óbitos'].fillna(0)

all_dataframe[['casos','óbitos']]

Unnamed: 0,casos,óbitos
0,12711918,112443
1,9190299,104793
2,8048191,95206
3,7587861,83374
4,4136659,42005
5,3741277,43896
6,3565499,51480
7,3501404,29059
8,3306221,44762
9,3295020,36873


In [58]:
all_dataframe.query('recuperados < 0')
# não existe casos com valores negativos
all_dataframe['recuperados'].dtype
# dtype('int64')
all_dataframe['recuperados'].isna().value_counts()
# False    63
all_dataframe['recuperados'].unique()

array([      0, 3684603, 1288527,  934730,  566979,  329725,   60681,
         26002,  931580,     115,       3,      46])

In [None]:
import numpy as np

# calcula o valor esperado
esperado = (all_dataframe['casos'] / all_dataframe['população']) * 1_000_000

# diferença entre o valor da coluna e o esperado
diferenca = (all_dataframe['casosPorMilhão'] - esperado).abs()

# tolerância numérica
tolerancia = 1e-6

# verifica se todos os valores batem
valido = np.all(diferenca < tolerancia)

print(diferenca, tolerancia)


0     0.154489
1     0.119835
2     0.485893
3     0.024060
4     0.495443
5     0.445586
6     0.331325
7     0.084960
8     0.208489
9     0.321755
10    0.028341
11    0.049101
12    0.393543
13    0.244035
14    0.445736
15    0.308353
16    0.091049
17    0.109550
18    0.204172
19    0.175850
20    0.259806
21    0.459663
22    0.267226
23    0.036151
24    0.396422
25    0.197046
26    0.113463
27    0.012305
28    0.330688
29    0.133309
30    0.124505
31    0.472132
32    0.003523
33    0.292361
34    0.301957
35    0.384241
36    0.431614
37    0.125467
38    0.437290
39    0.378091
40    0.043846
41    0.386017
42    0.027296
43    0.269734
44    0.005764
45    0.073795
46    0.197315
47    0.418648
48    0.347974
49    0.235887
50    0.022164
51    0.468423
52         inf
53         inf
54         inf
55         inf
56         inf
57         inf
58         inf
59         inf
60         inf
61         inf
62         inf
dtype: float64 1e-06
