### Prot√≥tipo de ETL no contexto dos dados estat√≠sticos da covid-19 nos continentes

In [None]:
import pandas as pd

df = pd.read_csv(r'../csv/covid_continents.csv', index_col=0)

dataframe = df.copy()

# pd.set_option('display.max_columns', None)   
# pd.set_option('display.max_rows', None)      
# pd.set_option('display.width', 300)         
# pd.set_option('display.max_colwidth', None) 
# pd.set_option('display.float_format', '{:.2f}'.format)

dataframe.columns


Index(['updated', 'cases', 'todayCases', 'deaths', 'todayDeaths', 'recovered',
       'todayRecovered', 'active', 'critical', 'casesPerOneMillion',
       'deathsPerOneMillion', 'tests', 'testsPerOneMillion', 'population',
       'continent', 'activePerOneMillion', 'recoveredPerOneMillion',
       'criticalPerOneMillion', 'continentInfo', 'countries'],
      dtype='object')

# üß™ Atividade Pr√°tica ‚Äì Tratamento e Padroniza√ß√£o de Dados COVID-19 por Continente

## üéØ Objetivo geral
Tratar, validar e padronizar cada coluna do dataset garantindo:
- Tipos corretos (`dtype`)
- Consist√™ncia sem√¢ntica
- Aus√™ncia de valores inv√°lidos
- Prontid√£o para an√°lise

---

## 1Ô∏è‚É£ Tradu√ß√£o e compreens√£o das colunas (snake_case)

### Objetivo
Padronizar os nomes das colunas para `snake_case` e garantir entendimento sem√¢ntico
antes do tratamento dos dados.

| Coluna original | Coluna tratada (snake_case) | Significado |
|-----------------|----------------------------|-------------|
| updated | ultima_atualizacao | Timestamp da √∫ltima atualiza√ß√£o (epoch em ms) |
| cases | casos_totais | Total de casos acumulados |
| todayCases | casos_hoje | Casos registrados no dia |
| deaths | obitos_totais | Total de √≥bitos acumulados |
| todayDeaths | obitos_hoje | √ìbitos registrados no dia |
| recovered | recuperados | Total de recuperados |
| todayRecovered | recuperados_hoje | Recuperados no dia |
| active | casos_ativos | Casos ativos |
| critical | casos_criticos | Casos cr√≠ticos |
| casesPerOneMillion | casos_por_milhao_habitantes | Casos por milh√£o de habitantes |
| deathsPerOneMillion | obitos_por_milhao_habitantes | √ìbitos por milh√£o de habitantes |
| tests | total_testes | Total de testes realizados |
| testsPerOneMillion | testes_por_milhao_habitantes | Testes por milh√£o de habitantes |
| population | populacao_total | Popula√ß√£o total do continente |
| continent | continente | Nome do continente |
| activePerOneMillion | casos_ativos_por_milhao_habitantes | Casos ativos por milh√£o |
| recoveredPerOneMillion | recuperados_por_milhao_habitantes | Recuperados por milh√£o |
| criticalPerOneMillion | criticos_por_milhao_habitantes | Casos cr√≠ticos por milh√£o |
| continentInfo | continente_info | Informa√ß√µes geogr√°ficas do continente (lat/long) |
| countries | paises | Lista de pa√≠ses pertencentes ao continente |

### Atividades
- [x] Renomear todas as colunas para `snake_case`
- [x] Confirmar que os nomes refletem corretamente o significado dos dados

---

## 2Ô∏è‚É£ Coluna: `ultima_atualizacao` (`int64`)

**Descri√ß√£o:** timestamp em epoch (milissegundos).

- [x] Garantir tipo `int64`
- [x] Verificar se os valores possuem **13 d√≠gitos**
- [x] Identificar valores nulos ou zero
- [x] Converter para `datetime` (`pd.to_datetime(unit="ms", utc=True)`)

---

## 3Ô∏è‚É£ Coluna: `casos_totais` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `casos_totais ‚â• casos_ativos`

---

## 4Ô∏è‚É£ Coluna: `casos_hoje` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `casos_hoje ‚â§ casos_totais`

---

## 5Ô∏è‚É£ Coluna: `obitos_totais` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `obitos_totais ‚â§ casos_totais`

---

## 6Ô∏è‚É£ Coluna: `obitos_hoje` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `obitos_hoje ‚â§ obitos_totais`

---

## 7Ô∏è‚É£ Coluna: `recuperados` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `recuperados ‚â§ casos_totais`

---

## 8Ô∏è‚É£ Coluna: `recuperados_hoje` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `recuperados_hoje ‚â§ recuperados`

---

## 9Ô∏è‚É£ Coluna: `casos_ativos` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## üîü Coluna: `casos_criticos` (`int64`)

- [x] Garantir tipo `int32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `casos_criticos ‚â§ casos_ativos`

---

## 1Ô∏è‚É£1Ô∏è‚É£ Coluna: `casos_por_milhao_habitantes` (`float64`)

- [x] Garantir tipo `float32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£2Ô∏è‚É£ Coluna: `obitos_por_milhao_habitantes` (`float64`)

- [x] Garantir tipo `float32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£3Ô∏è‚É£ Coluna: `total_testes` (`int64`)

- [x] Garantir tipo `int64`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`
- [x] Validar: `total_testes ‚â• casos_totais`

---

## 1Ô∏è‚É£4Ô∏è‚É£ Coluna: `testes_por_milhao_habitantes` (`float64`)

- [x] Garantir tipo `float64`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£5Ô∏è‚É£ Coluna: `populacao_total` (`int64`)

- [x] Garantir tipo `int64`
- [x] Tratar valores nulos
- [x] Substituir valores ‚â§ 0 por `NaN`
- [x] Validar se a popula√ß√£o √© plaus√≠vel (> 1.000.000)

---

## 1Ô∏è‚É£6Ô∏è‚É£ Coluna: `continente` (`object`)

- [x] Converter para `string`
- [x] Remover espa√ßos extras
- [x] Padronizar capitaliza√ß√£o
- [x] Validar valores permitidos:
- √Åfrica
- Am√©rica do Norte
- Am√©rica do Sul
- Europa
- √Åsia
- Oceania

---

## 1Ô∏è‚É£7Ô∏è‚É£ Coluna: `casos_ativos_por_milhao_habitantes` (`float64`)

- [x] Garantir tipo `float32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£8Ô∏è‚É£ Coluna: `recuperados_por_milhao_habitantes` (`float64`)

- [x] Garantir tipo `float32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## 1Ô∏è‚É£9Ô∏è‚É£ Coluna: `criticos_por_milhao_habitantes` (`float64`)

- [x] Garantir tipo `float32`
- [x] Tratar valores nulos
- [x] Substituir valores negativos por `0`

---

## 2Ô∏è‚É£0Ô∏è‚É£ Coluna: `continente_info` (`object`)

- [x] Converter string para dicion√°rio (`ast.literal_eval`)
- [x] Extrair:
- `lat` ‚Üí `continente_lat`
- `long` ‚Üí `continente_long`
- [x] Validar intervalos geogr√°ficos
- [x] Remover coluna original `continente_info`

---

## 2Ô∏è‚É£1Ô∏è‚É£ Coluna: `paises` (`object`)

- [x] Tratar a coluna com valores vazios
- [x] Garantir que seja letra maiuscula

---


# Tradu√ß√£o das colunas e transformando em snake_case

In [2]:
dataframe.columns

column_translate = {
    'updated': 'ultima_atualizacao',
    'cases': 'casos_totais',
    'todayCases': 'casos_hoje',
    'deaths': 'obitos_totais',
    'todayDeaths': 'obitos_hoje', 
    'recovered': 'recuperados',
    'todayRecovered': 'recuperados_hoje', 
    'active': 'casos_ativos', 
    'critical': 'casos_criticos', 
    'casesPerOneMillion': 'casos_por_milhao_habitantes',
    'deathsPerOneMillion': 'obitos_por_milhao_habitantes', 
    'tests': 'total_testes', 
    'testsPerOneMillion': 'testes_por_milhao_habitantes',
    'population': 'populacao_total', 
    'continent': 'continente', 
    'activePerOneMillion': 'casos_ativos_por_milhao_habitantes',
    'recoveredPerOneMillion': 'recuperados_por_milhao_habitantes',
    'criticalPerOneMillion': 'criticos_por_milhao_habitantes',
    'continentInfo': 'continente_info',
    'countries': 'paises'
}


dataframe = dataframe.rename(columns=column_translate)
dataframe.columns

Index(['ultima_atualizacao', 'casos_totais', 'casos_hoje', 'obitos_totais',
       'obitos_hoje', 'recuperados', 'recuperados_hoje', 'casos_ativos',
       'casos_criticos', 'casos_por_milhao_habitantes',
       'obitos_por_milhao_habitantes', 'total_testes',
       'testes_por_milhao_habitantes', 'populacao_total', 'continente',
       'casos_ativos_por_milhao_habitantes',
       'recuperados_por_milhao_habitantes', 'criticos_por_milhao_habitantes',
       'continente_info', 'paises'],
      dtype='object')

# Explora√ß√£o inicial do dataset

In [3]:
dataframe.shape

#(6, 20)

dataframe.dtypes

# ultima_atualizacao                      int64
# casos_totais                            int64
# casos_hoje                              int64
# obitos_totais                           int64
# obitos_hoje                             int64
# recuperados                             int64
# recuperados_hoje                        int64
# casos_ativos                            int64
# casos_criticos                          int64
# casos_por_milhao_habitantes           float64
# obitos_por_milhao_habitantes          float64
# total_testes                            int64
# testes_por_milhao_habitantes          float64
# populacao_total                         int64
# continente                             object
# casos_ativos_por_milhao_habitantes    float64
# recuperados_por_milhao_habitantes     float64
# criticos_por_milhao_habitantes        float64
# continente_info                        object
# paises                                 object
# dtype: object

dataframe.isna().sum()

# N√£o h√° registros com valores nulos

ultima_atualizacao                    0
casos_totais                          0
casos_hoje                            0
obitos_totais                         0
obitos_hoje                           0
recuperados                           0
recuperados_hoje                      0
casos_ativos                          0
casos_criticos                        0
casos_por_milhao_habitantes           0
obitos_por_milhao_habitantes          0
total_testes                          0
testes_por_milhao_habitantes          0
populacao_total                       0
continente                            0
casos_ativos_por_milhao_habitantes    0
recuperados_por_milhao_habitantes     0
criticos_por_milhao_habitantes        0
continente_info                       0
paises                                0
dtype: int64

# Coluna ultima_atualizacao

In [4]:
dataframe['ultima_atualizacao'] = dataframe['ultima_atualizacao'].astype('int64')

dataframe['ultima_atualizacao'].astype(str).str.len().unique()

# array([13]) todas cont√©m 13 digitos

dataframe['ultima_atualizacao'].isna().sum()

# np.int64(0)

dataframe['ultima_atualizacao'] = pd.to_datetime(arg=dataframe['ultima_atualizacao'], unit='ms', utc=True)

dataframe['ultima_atualizacao']

0   2025-12-14 21:25:38.353000+00:00
1   2025-12-14 21:25:38.354000+00:00
2   2025-12-14 21:25:38.355000+00:00
3   2025-12-14 21:25:38.356000+00:00
4   2025-12-14 21:25:38.357000+00:00
5   2025-12-14 21:25:38.358000+00:00
Name: ultima_atualizacao, dtype: datetime64[ns, UTC]

# Coluna Casos_totais

In [5]:
dataframe['casos_totais'] = dataframe['casos_totais'].astype('int32')


dataframe['casos_totais'].isna().sum()

# np.int64(0)

(dataframe['casos_totais'] >= dataframe['casos_ativos']).value_counts()

# 6

dataframe['casos_totais'] = dataframe['casos_totais'].fillna(0)


(dataframe['casos_totais'] < 0).sum()

# 0

dataframe['casos_totais']

0    131889132
1    221500265
2    253406198
3     70200879
4     14895771
5     12860924
Name: casos_totais, dtype: int32

# Coluna casos_hoje

In [6]:
dataframe['casos_hoje'] = dataframe['casos_hoje'].astype('int32')


dataframe['casos_hoje'].isna().sum()

# np.int64(0)

(dataframe['casos_hoje'] <= dataframe['casos_totais']).value_counts()

# 6

dataframe['casos_hoje'] = dataframe['casos_hoje'].fillna(0)


(dataframe['casos_hoje'] < 0).sum()

# 0

dataframe['casos_hoje']

0    0
1    0
2    0
3    0
4    0
5    0
Name: casos_hoje, dtype: int32

# Coluna obitos_totais 

In [7]:
dataframe['obitos_totais'] = dataframe['obitos_totais'].astype('int32')


dataframe['obitos_totais'].isna().sum()

# np.int64(0)

(dataframe['obitos_totais'] <= dataframe['casos_totais']).value_counts()

# # 6

dataframe['obitos_totais'] = dataframe['obitos_totais'].fillna(0)


(dataframe['obitos_totais'] < 0).sum()

# 0

dataframe['obitos_totais']

0    1695941
1    1553662
2    2101824
3    1367332
4      33015
5     258892
Name: obitos_totais, dtype: int32

# Coluna obitos_hoje

In [8]:
dataframe['obitos_hoje'] = dataframe['obitos_hoje'].astype('int32')


dataframe['obitos_hoje'].isna().sum()

# np.int64(0)

(dataframe['obitos_hoje'] <= dataframe['casos_totais']).value_counts()

# 6

dataframe['obitos_hoje'] = dataframe['obitos_hoje'].fillna(0)


(dataframe['obitos_hoje'] < 0).sum()

# 0

dataframe['obitos_hoje']

0    0
1    0
2    0
3    0
4    0
5    0
Name: obitos_hoje, dtype: int32

# Coluna recuperados


In [9]:
dataframe['recuperados'] = dataframe['recuperados'].astype('int32')


dataframe['recuperados'].isna().sum()

# np.int64(0)

dataframe['recuperados'] = dataframe['recuperados'].fillna(0)


(dataframe['recuperados'] < 0).sum()

# 0

dataframe['recuperados']

0    127665129
1    205673091
2    248754104
3     66683585
4     14752388
5     12090808
Name: recuperados, dtype: int32

# Coluna recuperados_hoje

In [10]:
dataframe['recuperados_hoje'] = dataframe['recuperados_hoje'].astype('int32')


dataframe['recuperados_hoje'].isna().sum()

# np.int64(0)

dataframe['recuperados_hoje'] = dataframe['recuperados_hoje'].fillna(0)

(dataframe['recuperados_hoje'] <=  dataframe['recuperados']).sum()

# 6

(dataframe['recuperados_hoje'] < 0).sum()

# 0

dataframe['recuperados_hoje']

0    350
1      0
2    474
3      0
4      0
5      0
Name: recuperados_hoje, dtype: int32

# Coluna casos_ativos

In [11]:
dataframe['casos_ativos'] = dataframe['casos_ativos'].astype('int32')


dataframe['casos_ativos'].isna().sum()

# np.int64(0)

dataframe['casos_ativos'] = dataframe['casos_ativos'].fillna(0)

# 6

(dataframe['casos_ativos'] < 0).sum()

#  0

dataframe['casos_ativos']

0     2528062
1    14273512
2     2550270
3     2149962
4      110368
5      511224
Name: casos_ativos, dtype: int32

# Coluna casos_criticos

In [12]:

dataframe['casos_criticos'] = dataframe['casos_criticos'].astype('int32')

dataframe['casos_criticos'] = dataframe['casos_criticos'].fillna(0)

dataframe['casos_criticos'] = dataframe['casos_criticos'].clip(lower=0)

(dataframe['casos_criticos'] <= dataframe['casos_ativos']).sum()

# np.int64(6)

dataframe['casos_criticos']

0     6095
1    14733
2     4453
3     8953
4       31
5      529
Name: casos_criticos, dtype: int32

# Coluna casos_por_milhao_habitantes

In [13]:
dataframe['casos_por_milhao_habitantes'] = dataframe['casos_por_milhao_habitantes'].astype('float32')

dataframe['casos_por_milhao_habitantes'] = dataframe['casos_por_milhao_habitantes'].fillna(0.0)

dataframe['casos_por_milhao_habitantes'] = dataframe['casos_por_milhao_habitantes'].clip(lower=0)

dataframe['casos_por_milhao_habitantes']

0    220498.437500
1     47014.109375
2    338985.062500
3    160387.875000
4    342664.625000
5      9142.429688
Name: casos_por_milhao_habitantes, dtype: float32

# Coluna obitos_por_milhao_habitantes

In [14]:
dataframe['obitos_por_milhao_habitantes'] = dataframe['obitos_por_milhao_habitantes'].astype('float32')

dataframe['obitos_por_milhao_habitantes'] = dataframe['obitos_por_milhao_habitantes'].fillna(0.0)

dataframe['obitos_por_milhao_habitantes'] = dataframe['obitos_por_milhao_habitantes'].clip(lower=0)

dataframe['obitos_por_milhao_habitantes']


0    2835.350098
1     329.769989
2    2811.639893
3    3123.939941
4     759.479980
5     184.039993
Name: obitos_por_milhao_habitantes, dtype: float32

# Coluna total_testes

In [15]:
dataframe['total_testes'] = dataframe['total_testes'].astype('int64')

dataframe['total_testes'] = dataframe['total_testes'].fillna(0)

dataframe['total_testes'] = dataframe['total_testes'].clip(lower=0)

dataframe['total_testes']

0    1325710449
1    2404652039
2    2848046702
3     245395353
4      91668192
5     111032578
Name: total_testes, dtype: int64

# Coluna testes_por_milhao_habitantes

In [16]:
dataframe['testes_por_milhao_habitantes'] = dataframe['testes_por_milhao_habitantes'].astype('float32')

dataframe['testes_por_milhao_habitantes'] = dataframe['testes_por_milhao_habitantes'].fillna(0.0)

dataframe['testes_por_milhao_habitantes'] = dataframe['testes_por_milhao_habitantes'].clip(lower=0.0)

dataframe['testes_por_milhao_habitantes']

0    2.216385e+06
1    5.103948e+05
2    3.809872e+06
3    5.606545e+05
4    2.108749e+06
5    7.892963e+04
Name: testes_por_milhao_habitantes, dtype: float32

# Coluna populacao_total

In [17]:
dataframe['populacao_total'] = dataframe['populacao_total'].astype('int32')

dataframe['populacao_total'] = dataframe['populacao_total'].fillna(0)
dataframe['populacao_total'] = dataframe['populacao_total'].clip(lower=0.0)

len(dataframe[dataframe['populacao_total'] > 1_000_000])



6

# Coluna continente

In [18]:
rename_continente = {
    'North America': 'Am√©rica do Norte',
    'Asia': '√Åsia',
    'Europe': 'Europa',
    'South America': 'Am√©rica do Sul',
    'Australia-Oceania': 'Oceania',
    'Africa': '√Åfrica'
}

dataframe['continente'] =  dataframe['continente'].replace(rename_continente)

dataframe['continente'] = (dataframe['continente'].astype('str').str.strip().str.title())

dataframe['continente']

0    Am√©rica Do Norte
1                √Åsia
2              Europa
3      Am√©rica Do Sul
4             Oceania
5              √Åfrica
Name: continente, dtype: object

# Coluna casos_ativos_por_milhao_habitantes

In [19]:
dataframe['casos_ativos_por_milhao_habitantes'] = dataframe['casos_ativos_por_milhao_habitantes'].astype('float32')

dataframe['casos_ativos_por_milhao_habitantes'] = dataframe['casos_ativos_por_milhao_habitantes'].fillna(0.0)

dataframe['casos_ativos_por_milhao_habitantes'] = dataframe['casos_ativos_por_milhao_habitantes'].clip(lower=0)

dataframe['casos_ativos_por_milhao_habitantes']

0    4226.529785
1    3029.600098
2    3411.530029
3    4912.020020
4    2538.919922
5     363.410004
Name: casos_ativos_por_milhao_habitantes, dtype: float32

# Coluna recuperados_por_mulhao_habitantes

In [20]:
dataframe['recuperados_por_milhao_habitantes'] = dataframe['recuperados_por_milhao_habitantes'].astype('float32')

dataframe['recuperados_por_milhao_habitantes'] = dataframe['recuperados_por_milhao_habitantes'].fillna(0.0)

dataframe['recuperados_por_milhao_habitantes'] = dataframe['recuperados_por_milhao_habitantes'].clip(lower=0)

dataframe['recuperados_por_milhao_habitantes']

0    213436.546875
1     43654.750000
2    332761.906250
3    152351.906250
4    339366.218750
5      8594.980469
Name: recuperados_por_milhao_habitantes, dtype: float32

# Coluna criticos_por_milhao_habitantes

In [21]:
dataframe['criticos_por_milhao_habitantes'] = dataframe['criticos_por_milhao_habitantes'].astype('float32')

dataframe['criticos_por_milhao_habitantes'] = dataframe['criticos_por_milhao_habitantes'].fillna(0.0)

dataframe['criticos_por_milhao_habitantes'] = dataframe['criticos_por_milhao_habitantes'].clip(lower=0)

dataframe['criticos_por_milhao_habitantes']

0    10.190000
1     3.130000
2     5.960000
3    20.450001
4     0.710000
5     0.380000
Name: criticos_por_milhao_habitantes, dtype: float32

# Coluna continente_info

In [22]:
import ast

dataframe['continente_info'] =  dataframe['continente_info'].apply(
    lambda x: ast.literal_eval(x) if isinstance(x, str) else x
)

dataframe['continente_lat'] = dataframe['continente_info'].apply(
    lambda x: x.get('lat')
)

dataframe['continente_long'] = dataframe['continente_info'].apply(
    lambda x: x.get('long')
)

del dataframe['continente_info']

dataframe

Unnamed: 0,ultima_atualizacao,casos_totais,casos_hoje,obitos_totais,obitos_hoje,recuperados,recuperados_hoje,casos_ativos,casos_criticos,casos_por_milhao_habitantes,...,total_testes,testes_por_milhao_habitantes,populacao_total,continente,casos_ativos_por_milhao_habitantes,recuperados_por_milhao_habitantes,criticos_por_milhao_habitantes,paises,continente_lat,continente_long
0,2025-12-14 21:25:38.353000+00:00,131889132,0,1695941,0,127665129,350,2528062,6095,220498.4375,...,1325710449,2216385.0,598140916,Am√©rica Do Norte,4226.529785,213436.546875,10.19,"['Anguilla', 'Antigua and Barbuda', 'Aruba', '...",31.676827,-146.470747
1,2025-12-14 21:25:38.354000+00:00,221500265,0,1553662,0,205673091,0,14273512,14733,47014.109375,...,2404652039,510394.8,416389487,√Åsia,3029.600098,43654.75,3.13,"['Afghanistan', 'Armenia', 'Azerbaijan', 'Bahr...",23.702727,62.375064
2,2025-12-14 21:25:38.355000+00:00,253406198,0,2101824,0,248754104,474,2550270,4453,338985.0625,...,2848046702,3809872.0,747543837,Europa,3411.530029,332761.90625,5.96,"['Albania', 'Andorra', 'Austria', 'Belarus', '...",25.771324,-35.601226
3,2025-12-14 21:25:38.356000+00:00,70200879,0,1367332,0,66683585,0,2149962,8953,160387.875,...,245395353,560654.5,437694443,Am√©rica Do Sul,4912.02002,152351.90625,20.450001,"['Argentina', 'Bolivia', 'Brazil', 'Chile', 'C...",-15.655156,-100.748423
4,2025-12-14 21:25:38.357000+00:00,14895771,0,33015,0,14752388,0,110368,31,342664.625,...,91668192,2108749.0,43470408,Oceania,2538.919922,339366.21875,0.71,"['Australia', 'Cook Islands', 'Fiji', 'French ...",-8.659916,91.146985
5,2025-12-14 21:25:38.358000+00:00,12860924,0,258892,0,12090808,0,511224,529,9142.429688,...,111032578,78929.63,1406728744,√Åfrica,363.410004,8594.980469,0.38,"['Algeria', 'Angola', 'Benin', 'Botswana', 'Bu...",1.738387,-16.309464


# Coluna pa√≠ses

In [23]:
def clean_lista_paises(x):
    if not isinstance(x, list):
        return x

    return [
        'N√£o informado' if pais.strip() == ''
        else pais.strip().title()
        for pais in x
        if isinstance(pais, str)
    ]


dataframe['paises'] = dataframe['paises'].apply(
    clean_lista_paises
)

dataframe['paises']

0    ['Anguilla', 'Antigua and Barbuda', 'Aruba', '...
1    ['Afghanistan', 'Armenia', 'Azerbaijan', 'Bahr...
2    ['Albania', 'Andorra', 'Austria', 'Belarus', '...
3    ['Argentina', 'Bolivia', 'Brazil', 'Chile', 'C...
4    ['Australia', 'Cook Islands', 'Fiji', 'French ...
5    ['Algeria', 'Angola', 'Benin', 'Botswana', 'Bu...
Name: paises, dtype: object