### Prot√≥tipo de ETL no contexto dos dados estat√≠sticos da covid-19 nos paises

In [49]:
import pandas as pd

df = pd.read_csv(r'../csv/covid_countries.csv', index_col=0)

dataframe = df.copy()

# pd.set_option('display.max_columns', None)   
# pd.set_option('display.max_rows', None)      
# pd.set_option('display.width', 300)         
# pd.set_option('display.max_colwidth', None) 
# pd.set_option('display.float_format', '{:.2f}'.format)

dataframe.info()


<class 'pandas.core.frame.DataFrame'>
Index: 231 entries, 0 to 230
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   updated                 231 non-null    int64  
 1   country                 231 non-null    object 
 2   countryInfo             231 non-null    object 
 3   cases                   231 non-null    int64  
 4   todayCases              231 non-null    int64  
 5   deaths                  231 non-null    int64  
 6   todayDeaths             231 non-null    int64  
 7   recovered               231 non-null    int64  
 8   todayRecovered          231 non-null    int64  
 9   active                  231 non-null    int64  
 10  critical                231 non-null    int64  
 11  casesPerOneMillion      231 non-null    int64  
 12  deathsPerOneMillion     231 non-null    int64  
 13  tests                   231 non-null    int64  
 14  testsPerOneMillion      231 non-null    int64  


---

# üß™ Atividade Pr√°tica ‚Äì Tratamento e Padroniza√ß√£o de Dados COVID-19 por Pa√≠s

## üéØ Objetivo geral

Tratar, validar e padronizar cada coluna do dataset garantindo:

* Tipos corretos (`dtype`)
* Consist√™ncia sem√¢ntica
* Aus√™ncia de valores inv√°lidos
* Prontid√£o para an√°lise

---

## 1Ô∏è‚É£ Tradu√ß√£o e compreens√£o das colunas (snake_case)

### Objetivo

Padronizar os nomes das colunas para `snake_case` e garantir entendimento sem√¢ntico
antes do tratamento dos dados.

| Coluna original        | Coluna tratada (snake_case)        | Significado                                   |
| ---------------------- | ---------------------------------- | --------------------------------------------- |
| Unnamed: 0             | id_linha                           | √çndice original do CSV                        |
| updated                | ultima_atualizacao                 | Timestamp da √∫ltima atualiza√ß√£o (epoch em ms) |
| country                | pais                               | Nome do pa√≠s                                  |
| countryInfo            | pais_info                          | Informa√ß√µes geogr√°ficas e c√≥digos do pa√≠s     |
| cases                  | casos_totais                       | Total de casos acumulados                     |
| todayCases             | casos_hoje                         | Casos registrados no dia                      |
| deaths                 | obitos_totais                      | Total de √≥bitos acumulados                    |
| todayDeaths            | obitos_hoje                        | √ìbitos registrados no dia                     |
| recovered              | recuperados                        | Total de recuperados                          |
| todayRecovered         | recuperados_hoje                   | Recuperados no dia                            |
| active                 | casos_ativos                       | Casos ativos                                  |
| critical               | casos_criticos                     | Casos cr√≠ticos                                |
| casesPerOneMillion     | casos_por_milhao_habitantes        | Casos por milh√£o de habitantes                |
| deathsPerOneMillion    | obitos_por_milhao_habitantes       | √ìbitos por milh√£o de habitantes               |
| tests                  | total_testes                       | Total de testes realizados                    |
| testsPerOneMillion     | testes_por_milhao_habitantes       | Testes por milh√£o de habitantes               |
| population             | populacao_total                    | Popula√ß√£o total do pa√≠s                       |
| continent              | continente                         | Continente do pa√≠s                            |
| oneCasePerPeople       | pessoas_por_caso                   | Pessoas por caso                              |
| oneDeathPerPeople      | pessoas_por_obito                  | Pessoas por √≥bito                             |
| oneTestPerPeople       | pessoas_por_teste                  | Pessoas por teste                             |
| activePerOneMillion    | casos_ativos_por_milhao_habitantes | Casos ativos por milh√£o                       |
| recoveredPerOneMillion | recuperados_por_milhao_habitantes  | Recuperados por milh√£o                        |
| criticalPerOneMillion  | criticos_por_milhao_habitantes     | Casos cr√≠ticos por milh√£o                     |

### Atividades

* [x] Renomear todas as colunas para `snake_case`
* [x] Confirmar que os nomes refletem corretamente o significado dos dados

---

## 2Ô∏è‚É£ Coluna: `ultima_atualizacao` (`int64`)

**Descri√ß√£o:** timestamp em epoch (milissegundos).

* [x] Garantir tipo `int64`
* [x] Verificar se os valores possuem **13 d√≠gitos**
* [x] Identificar valores nulos ou zero
* [x] Converter para `datetime` (`pd.to_datetime(unit="ms", utc=True)`)

---

## 3Ô∏è‚É£ Coluna: `casos_totais` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `casos_totais ‚â• casos_ativos`

---

## 4Ô∏è‚É£ Coluna: `casos_hoje` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `casos_hoje ‚â§ casos_totais`

---

## 5Ô∏è‚É£ Coluna: `obitos_totais` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `obitos_totais ‚â§ casos_totais`

---

## 6Ô∏è‚É£ Coluna: `obitos_hoje` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `obitos_hoje ‚â§ obitos_totais`

---

## 7Ô∏è‚É£ Coluna: `recuperados` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `recuperados ‚â§ casos_totais`

---

## 8Ô∏è‚É£ Coluna: `recuperados_hoje` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `recuperados_hoje ‚â§ recuperados`

---

## 9Ô∏è‚É£ Coluna: `casos_ativos` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## üîü Coluna: `casos_criticos` (`int64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `casos_criticos ‚â§ casos_ativos`

---

## 1Ô∏è‚É£1Ô∏è‚É£ Coluna: `casos_por_milhao_habitantes` (`float64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£2Ô∏è‚É£ Coluna: `obitos_por_milhao_habitantes` (`float64`)

* [x] Garantir tipo `int32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£3Ô∏è‚É£ Coluna: `total_testes` (`int64`)

* [x] Garantir tipo `int64`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`
* [x] Validar: `total_testes ‚â• casos_totais`

---

## 1Ô∏è‚É£4Ô∏è‚É£ Coluna: `testes_por_milhao_habitantes` (`float64`)

* [x] Garantir tipo `float64`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£5Ô∏è‚É£ Coluna: `populacao_total` (`int64`)

* [x] Garantir tipo `int64`
* [x] Tratar valores nulos
* [x] Substituir valores ‚â§ 0 por `NaN`

---

## 1Ô∏è‚É£6Ô∏è‚É£ Coluna: `continente` (`object`)

* [x] Converter para `string`
* [x] Remover espa√ßos extras
* [x] Padronizar capitaliza√ß√£o
* [x] Validar valores permitidos:

  * √Åfrica
  * Am√©rica do Norte
  * Am√©rica do Sul
  * Europa
  * √Åsia
  * Oceania

---

## 1Ô∏è‚É£7Ô∏è‚É£ Coluna: `casos_ativos_por_milhao_habitantes` (`float64`)

* [x] Garantir tipo `float32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£8Ô∏è‚É£ Coluna: `recuperados_por_milhao_habitantes` (`float64`)

* [x] Garantir tipo `float32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£9Ô∏è‚É£ Coluna: `criticos_por_milhao_habitantes` (`float64`)

* [x] Garantir tipo `float32`
* [x] Tratar valores nulos
* [x] Substituir valores negativos por `0`

---

## 2Ô∏è‚É£0Ô∏è‚É£ Coluna: `pais_info` (`object`)

* [x] Converter string para dicion√°rio (`ast.literal_eval`)
* [x] Extrair:

  * `iso2`
  * `iso3`
  * `lat`
  * `long`
* [x] Validar intervalos geogr√°ficos
* [x] Remover coluna original `pais_info`

---

## 2Ô∏è‚É£1Ô∏è‚É£ Colunas de raz√£o populacional (`int64`)

### `pessoas_por_caso`, `pessoas_por_obito`, `pessoas_por_teste`

* [ ] Garantir tipo `int32`
* [ ] Tratar valores nulos
* [ ] Substituir valores ‚â§ 0 por `NaN`
---


# Tradu√ß√£o e padroniza√ß√£o das colunas

In [50]:
translate_columns = {
    'updated': 'ultima_atualizacao',
    'country': 'pais',
    'countryInfo': 'pais_info', 
    'cases': 'casos_totais', 
    'todayCases': 'casos_hoje',
    'deaths': 'obitos_totais',
    'todayDeaths': 'obitos_hoje',
    'recovered': 'recuperados', 
    'todayRecovered': 'recuperados_hoje',
    'active': 'casos_ativos', 
    'critical': 'casos_criticos',
    'casesPerOneMillion': 'casos_por_milhao_habitantes',
    'deathsPerOneMillion': 'obitos_por_milhao_habitantes', 
    'tests': 'total_testes',
    'testsPerOneMillion': 'testes_por_milhao_habitantes',
    'population': 'populacao_total',
    'continent': 'continente',
    'oneCasePerPeople': 'pessoas_por_caso',
    'oneDeathPerPeople': 'pessoas_por_obito',
    'oneTestPerPeople': 'pessoas_por_teste',
    'activePerOneMillion': 'casos_ativos_por_milhao_habitantes',
    'recoveredPerOneMillion': 'recuperados_por_milhao_habitantes',
    'criticalPerOneMillion': 'criticos_por_milhao_habitantes'
}


dataframe = dataframe.rename(columns=translate_columns)
dataframe.columns

Index(['ultima_atualizacao', 'pais', 'pais_info', 'casos_totais', 'casos_hoje',
       'obitos_totais', 'obitos_hoje', 'recuperados', 'recuperados_hoje',
       'casos_ativos', 'casos_criticos', 'casos_por_milhao_habitantes',
       'obitos_por_milhao_habitantes', 'total_testes',
       'testes_por_milhao_habitantes', 'populacao_total', 'continente',
       'pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste',
       'casos_ativos_por_milhao_habitantes',
       'recuperados_por_milhao_habitantes', 'criticos_por_milhao_habitantes'],
      dtype='object')

# Coluna `Pais`

In [51]:
dataframe['pais'] = (dataframe['pais'].astype('str').str.title().str.strip())
dataframe['pais'] = dataframe['pais'].fillna('N√£o informado')

# Coluna `ultima_atualizacao`

In [52]:
dataframe['ultima_atualizacao'] = dataframe['ultima_atualizacao'].astype('int64')

print('O comprimento est√° correto' if dataframe['ultima_atualizacao'].astype('str').str.len().unique() == 13 else 'O comprimento essta falso')

dataframe['ultima_atualizacao'].isna().value_counts()

# ultima_atualizacao
# False    231
# Name: count, dtype: int64

dataframe['ultima_atualizacao'] = pd.to_datetime(dataframe['ultima_atualizacao'], unit='ms', utc=True, errors='coerce')

O comprimento est√° correto


# Coluna `casos_totais`

In [53]:
dataframe['casos_totais'] = dataframe['casos_totais'].astype('int32')

dataframe['casos_totais'] = dataframe['casos_totais'].fillna(0)

(dataframe['casos_totais'] >= dataframe['casos_ativos']).value_counts()

# True    231
# Name: count, dtype: int64

True    231
Name: count, dtype: int64

# Coluna `casos_hoje`

In [54]:
dataframe['casos_hoje'] = dataframe['casos_hoje'].astype('int32')

dataframe['casos_hoje'] = dataframe['casos_hoje'].fillna(0)

(dataframe['casos_ativos'] <= dataframe['casos_totais']).value_counts()

# True    231
# Name: count, dtype: int64

True    231
Name: count, dtype: int64

# Coluna `obitos_totais`

In [55]:
dataframe['obitos_totais'] = dataframe['obitos_totais'].astype('int32')

dataframe['obitos_totais'] = dataframe['obitos_totais'].fillna(0)

(dataframe['obitos_totais'] <= dataframe['casos_totais']).value_counts()

# True    231
# Name: count, dtype: int64

True    231
Name: count, dtype: int64

# Coluna `obitos_hoje`

In [56]:
dataframe['obitos_hoje'] = dataframe['obitos_hoje'].astype('int32')

dataframe['obitos_hoje'] = dataframe['obitos_hoje'].fillna(0)

(dataframe['obitos_hoje'] <= dataframe['obitos_totais']).value_counts()

# True    231
# Name: count, dtype: int64

True    231
Name: count, dtype: int64

# Coluna `recuperados`

In [57]:
dataframe['recuperados'] = dataframe['recuperados'].astype('int32')

dataframe['recuperados'] = dataframe['recuperados'].fillna(0)

(dataframe['recuperados'] <= dataframe['casos_totais']).value_counts()

# True    231
# Name: count, dtype: int64


True    231
Name: count, dtype: int64

# Coluna `recuperados_hoje`

In [58]:
dataframe['recuperados_hoje'] = dataframe['recuperados_hoje'].astype('int32')

dataframe['recuperados_hoje'] = dataframe['recuperados_hoje'].fillna(0)

(dataframe['recuperados_hoje'] <= dataframe['recuperados']).value_counts()

# True    231
# Name: count, dtype: int64

True    231
Name: count, dtype: int64

# Coluna `casos_ativos`

In [59]:
dataframe['casos_ativos'] = dataframe['casos_ativos'].astype('int32')

dataframe['casos_ativos'] = dataframe['casos_ativos'].fillna(0)

dataframe['casos_ativos'].unique()

array([   15098,     1025,    82068,    47850,     1971,     3892,
              6,      746,     7892,     1494,     8716,     3811,
            745,      874,       60,  2019884,     1283,     1327,
            521,    70721,       26,       10,     1112,    12579,
           8143,      788,  1783377,     7328,    99893,     8159,
            118,     1114,      305,        3,      125,     5744,
           1168,    22882,      127,     2633,      168,    67906,
         118977,    44821,        9,      983,       51,  1229455,
          32609,       61,      971,        0,      318,       52,
          13381,       74,      190,    49228,    18215,      139,
         625069,     5412,    34630,     1006,      170,    86367,
          78604,       70,       65,  1844533,   405368,        2,
          20437,  6063510,     9189,       97,   202214,     1113,
            347,      508,      824,       73,   463425,     6680,
          29029,   209677, 44501823,    20054,  7480375,      

# Coluna `casos_criticos`

In [60]:
dataframe['casos_criticos'] = dataframe['casos_criticos'].astype('int32')

dataframe['casos_criticos'] = dataframe['casos_criticos'].fillna(0)

mask_invalidos = dataframe['casos_criticos'] > dataframe['casos_ativos']

mask_invalidos.value_counts()

dataframe = dataframe[~mask_invalidos]

dataframe.head()



Unnamed: 0,ultima_atualizacao,pais,pais_info,casos_totais,casos_hoje,obitos_totais,obitos_hoje,recuperados,recuperados_hoje,casos_ativos,...,total_testes,testes_por_milhao_habitantes,populacao_total,continente,pessoas_por_caso,pessoas_por_obito,pessoas_por_teste,casos_ativos_por_milhao_habitantes,recuperados_por_milhao_habitantes,criticos_por_milhao_habitantes
0,2025-12-14 21:25:38.225000+00:00,Afghanistan,"{'_id': 4, 'iso2': 'AF', 'iso3': 'AFG', 'lat':...",234174,0,7996,0,211080,0,15098,...,1390730,34125,40754388,Asia,174,5097,29,370.46,5179.32,0.0
1,2025-12-14 21:25:38.218000+00:00,Albania,"{'_id': 8, 'iso2': 'AL', 'iso3': 'ALB', 'lat':...",334863,0,3605,0,330233,0,1025,...,1941032,677173,2866374,Europe,9,795,1,357.59,115209.32,0.0
2,2025-12-14 21:25:38.221000+00:00,Algeria,"{'_id': 12, 'iso2': 'DZ', 'iso3': 'DZA', 'lat'...",272010,0,6881,0,183061,0,82068,...,230960,5093,45350148,Africa,167,6591,196,1809.65,4036.61,0.0
3,2025-12-14 21:25:38.270000+00:00,Andorra,"{'_id': 20, 'iso2': 'AD', 'iso3': 'AND', 'lat'...",48015,0,165,0,0,0,47850,...,249838,3225256,77463,Europe,2,469,0,617714.26,0.0,0.0
4,2025-12-14 21:25:38.244000+00:00,Angola,"{'_id': 24, 'iso2': 'AO', 'iso3': 'AGO', 'lat'...",107327,0,1937,0,103419,0,1971,...,1499795,42818,35027343,Africa,326,18083,23,56.27,2952.52,0.0


# Coluna `casos_por_milhao_habitantes`

In [61]:
dataframe['casos_por_milhao_habitantes'] = dataframe['casos_por_milhao_habitantes'].astype('int32')

dataframe['casos_por_milhao_habitantes'] = dataframe['casos_por_milhao_habitantes'].fillna(0)

dataframe['casos_por_milhao_habitantes']

0        5746
1      116825
2        5998
3      619844
4        3064
        ...  
226    323256
227        16
228       383
229     17940
230     17373
Name: casos_por_milhao_habitantes, Length: 227, dtype: int32

# Coluna `obitos_por_milhao_habitantes`

In [62]:
dataframe['obitos_por_milhao_habitantes'] = dataframe['obitos_por_milhao_habitantes'].astype('int32')

dataframe['obitos_por_milhao_habitantes'] = dataframe['obitos_por_milhao_habitantes'].fillna(0)

dataframe['obitos_por_milhao_habitantes']

0       196
1      1258
2       152
3      2130
4        55
       ... 
226     728
227       2
228      69
229     209
230     374
Name: obitos_por_milhao_habitantes, Length: 227, dtype: int32

# Coluna `total_testes`

In [63]:
dataframe['total_testes'] = dataframe['total_testes'].astype('int64')

dataframe['total_testes'] = dataframe['total_testes'].fillna(0)


mask_invalidos = dataframe['total_testes'] < dataframe['casos_totais']

mask_invalidos.value_counts()

dataframe = dataframe[~mask_invalidos]

dataframe.head()


Unnamed: 0,ultima_atualizacao,pais,pais_info,casos_totais,casos_hoje,obitos_totais,obitos_hoje,recuperados,recuperados_hoje,casos_ativos,...,total_testes,testes_por_milhao_habitantes,populacao_total,continente,pessoas_por_caso,pessoas_por_obito,pessoas_por_teste,casos_ativos_por_milhao_habitantes,recuperados_por_milhao_habitantes,criticos_por_milhao_habitantes
0,2025-12-14 21:25:38.225000+00:00,Afghanistan,"{'_id': 4, 'iso2': 'AF', 'iso3': 'AFG', 'lat':...",234174,0,7996,0,211080,0,15098,...,1390730,34125,40754388,Asia,174,5097,29,370.46,5179.32,0.0
1,2025-12-14 21:25:38.218000+00:00,Albania,"{'_id': 8, 'iso2': 'AL', 'iso3': 'ALB', 'lat':...",334863,0,3605,0,330233,0,1025,...,1941032,677173,2866374,Europe,9,795,1,357.59,115209.32,0.0
3,2025-12-14 21:25:38.270000+00:00,Andorra,"{'_id': 20, 'iso2': 'AD', 'iso3': 'AND', 'lat'...",48015,0,165,0,0,0,47850,...,249838,3225256,77463,Europe,2,469,0,617714.26,0.0,0.0
4,2025-12-14 21:25:38.244000+00:00,Angola,"{'_id': 24, 'iso2': 'AO', 'iso3': 'AGO', 'lat'...",107327,0,1937,0,103419,0,1971,...,1499795,42818,35027343,Africa,326,18083,23,56.27,2952.52,0.0
5,2025-12-14 21:25:38.337000+00:00,Anguilla,"{'_id': 660, 'iso2': 'AI', 'iso3': 'AIA', 'lat...",3904,0,12,0,0,0,3892,...,51382,3373736,15230,North America,4,1269,0,255548.26,0.0,0.0


# Coluna `testes_por_milhao_habitantes`

In [64]:
dataframe['testes_por_milhao_habitantes'] = dataframe['testes_por_milhao_habitantes'].astype('int64')

dataframe['testes_por_milhao_habitantes'] = dataframe['testes_por_milhao_habitantes'].fillna(0)

dataframe['testes_por_milhao_habitantes'].unique()

array([   34125,   677173,  3225256,    42818,  3373736,   189943,
         776264,  1091164,  1653068,  3142326, 23302116,   752223,
         643767,  6137138,    90862,  2826715,  1446722,  3209915,
        1397453,    47268, 16622128,  2923739,   225993,   580036,
         830300,   296146,  3508269,  1611437,  1705147,    11265,
          27386,   707482,   180062,    62762,  1734189,  1130559,
        3311280,    16205,    10988,  7099551,  2617225,   110461,
         717327,    59991,  1120596,   899158,  1394355,  1273936,
        3000640,  7879860,  5386552,    60951,     8890, 22165247,
         301094,  3170187,   338350,   170173,    34792,   398467,
         244342,     6470,  5271239,    46066,  2439107, 15802409,
         739866,  2179850,  4139547,  2072951,   695641,    60851,
        4263340,  1458359,    78456, 15852213,  9909078,  2894810,
        1612523,  2346306,   408622,    47607,    70385,   923396,
          11337,   162472, 10011143,  1186160,  5780036,   665

# Coluna `populacao_total`

In [65]:
dataframe['populacao_total'] = dataframe['populacao_total'].astype('int64')

dataframe['populacao_total'] = dataframe['populacao_total'].fillna(0)

dataframe['populacao_total'] = dataframe['populacao_total'].clip(lower=0)

dataframe['populacao_total'].unique()

array([  40754388,    2866374,      77463,   35027343,      15230,
            99509,   46010234,    2971966,     107609,   26068792,
          9066710,   10300205,     400516,    1783983,  167885689,
           288023,    9432800,   11668278,     412190,   12784726,
            61939,     787941,   11992656,    3249317,    2441162,
        215353593,      30596,     445431,    6844597,   22102838,
         12624840,     567678,   17168639,   27911548,   38388419,
            26647,      67277,    5016678,   17413580,     176463,
         19250195, 1448471400,   51512762,    5797805,      17571,
          5182354,    4059286,   11305652,     165529,    1223387,
         10736784,   27742298,   95240792,    5834950,    1016097,
            72344,   11056370,   18113361,  106156692,    6550389,
          1496662,    3662244,    1321910,  120812698,       3539,
            49233,     909466,    5554960,   65584518,     314169,
          2331533,    2558482,    3968738,   83883596,   32395

# Coluna `continente`

In [66]:
import numpy as np

valores_faltantes_possiveis = [
    '', ' ', '  ',
    'null', 'NULL',
    'none', 'None', 'NONE',
    'undefined', 'UNDEFINED',
    'nan', 'NaN', 'NAN',
    'na', 'NA',
    'n/a', 'N/A',
    '#N/A',
    '-', '--', '---',
    '?', '??',
    None, pd.NA, np.nan
]


continente_translate = {
    'Asia': "√Åsia", 
    'Europe': 'Europa', 
    'Africa': '√Åfrica', 
    'North America': 'Am√©rica do Norte',
    'South America': 'Am√©rica do Sul',
    'Australia-Oceania ': 'Oceania'
}


dataframe['continente'].unique()

dataframe['continente'] = dataframe['continente'].replace(valores_faltantes_possiveis, 'N√£o Informado')

dataframe['continente'] = dataframe['continente'].replace(continente_translate)

dataframe['continente'] = (dataframe['continente'].astype('str').str.title().str.strip())

dataframe['continente'].unique()


array(['√Åsia', 'Europa', '√Åfrica', 'Am√©rica Do Norte', 'Am√©rica Do Sul',
       'Australia-Oceania'], dtype=object)

# Coluna: `casos_ativos_por_milhao_habitantes`

In [67]:
dataframe['casos_ativos_por_milhao_habitantes'] = dataframe['casos_ativos_por_milhao_habitantes'].astype('float64')

dataframe['casos_ativos_por_milhao_habitantes'] = dataframe['casos_ativos_por_milhao_habitantes'].fillna(0)

dataframe['casos_ativos_por_milhao_habitantes'] = dataframe['casos_ativos_por_milhao_habitantes'].clip(lower=0)

dataframe['casos_ativos_por_milhao_habitantes']

0         370.46
1         357.59
3      617714.26
4          56.27
5      255548.26
         ...    
225      9509.70
226    282644.33
228        21.25
229       201.28
230       112.91
Name: casos_ativos_por_milhao_habitantes, Length: 206, dtype: float64

# Coluna: `recuperados_por_milhao_habitantes`

In [68]:
dataframe['recuperados_por_milhao_habitantes'] = dataframe['recuperados_por_milhao_habitantes'].astype('float64')

dataframe['recuperados_por_milhao_habitantes'] = dataframe['recuperados_por_milhao_habitantes'].fillna(0)

dataframe['recuperados_por_milhao_habitantes'] = dataframe['recuperados_por_milhao_habitantes'].clip(lower=0)

dataframe['recuperados_por_milhao_habitantes']

0        5179.32
1      115209.32
3           0.00
4        2952.52
5           0.00
         ...    
225    107535.02
226     39883.45
228       292.86
229     17530.14
230     16886.10
Name: recuperados_por_milhao_habitantes, Length: 206, dtype: float64

# Coluna: `criticos_por_milhao_habitantes`

In [69]:
dataframe['criticos_por_milhao_habitantes'] = dataframe['criticos_por_milhao_habitantes'].astype('float64')

dataframe['criticos_por_milhao_habitantes'] = dataframe['criticos_por_milhao_habitantes'].fillna(0)

dataframe['criticos_por_milhao_habitantes'] = dataframe['criticos_por_milhao_habitantes'].clip(lower=0)

dataframe['criticos_por_milhao_habitantes']

0      0.00
1      0.00
3      0.00
4      0.00
5      0.00
       ... 
225    0.00
226    0.00
228    0.00
229    0.00
230    0.78
Name: criticos_por_milhao_habitantes, Length: 206, dtype: float64

# Coluna: `pais_info`

In [70]:
import ast

dataframe['pais_info'] = dataframe['pais_info'].apply(
lambda x: ast.literal_eval(x) if isinstance(x, str) else x
)

extrair_colunas = ['iso2', 'iso3', 'lat', 'long']

for coluna in extrair_colunas:
    dataframe[coluna] = dataframe['pais_info'].apply(
    lambda x: x.get(coluna)
)

extracao_ok = all(col in dataframe.columns for col in extrair_colunas)

if extracao_ok and 'pais_info' in dataframe.columns:
    dataframe.drop(columns=['pais_info'], inplace=True)
    
dataframe

Unnamed: 0,ultima_atualizacao,pais,casos_totais,casos_hoje,obitos_totais,obitos_hoje,recuperados,recuperados_hoje,casos_ativos,casos_criticos,...,pessoas_por_caso,pessoas_por_obito,pessoas_por_teste,casos_ativos_por_milhao_habitantes,recuperados_por_milhao_habitantes,criticos_por_milhao_habitantes,iso2,iso3,lat,long
0,2025-12-14 21:25:38.225000+00:00,Afghanistan,234174,0,7996,0,211080,0,15098,0,...,174,5097,29,370.46,5179.32,0.00,AF,AFG,33.00,65.0000
1,2025-12-14 21:25:38.218000+00:00,Albania,334863,0,3605,0,330233,0,1025,0,...,9,795,1,357.59,115209.32,0.00,AL,ALB,41.00,20.0000
3,2025-12-14 21:25:38.270000+00:00,Andorra,48015,0,165,0,0,0,47850,0,...,2,469,0,617714.26,0.00,0.00,AD,AND,42.50,1.6000
4,2025-12-14 21:25:38.244000+00:00,Angola,107327,0,1937,0,103419,0,1971,0,...,326,18083,23,56.27,2952.52,0.00,AO,AGO,-12.50,18.5000
5,2025-12-14 21:25:38.337000+00:00,Anguilla,3904,0,12,0,0,0,3892,0,...,4,1269,0,255548.26,0.00,0.00,AI,AIA,18.25,-63.1667
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,2025-12-14 21:25:38.102000+00:00,Vietnam,11625195,0,43206,0,10640971,0,941018,0,...,9,2290,1,9509.70,107535.02,0.00,VN,VNM,21.00,105.8000
226,2025-12-14 21:25:38.338000+00:00,Wallis And Futuna,3550,0,8,0,438,0,3104,0,...,3,1373,1,282644.33,39883.45,0.00,WF,WLF,-13.30,-176.2000
228,2025-12-14 21:25:38.317000+00:00,Yemen,11945,0,2159,0,9124,0,662,0,...,2608,14430,95,21.25,292.86,0.00,YE,YEM,15.00,48.0000
229,2025-12-14 21:25:38.214000+00:00,Zambia,349304,0,4069,0,341316,0,3919,0,...,56,4785,5,201.28,17530.14,0.00,ZM,ZMB,-15.00,30.0000


# Colunas `pessoas_por_caso`, `pessoas_por_obito`, `pessoas_por_teste`

In [72]:
dataframe[['pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste']] = dataframe[['pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste']].astype('int32')
dataframe[['pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste']] = dataframe[['pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste']].fillna(0)
dataframe[['pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste']] = dataframe[['pessoas_por_caso', 'pessoas_por_obito', 'pessoas_por_teste']].clip(lower=0)

dataframe.shape

(206, 26)