### Prot√≥tipo de ETL no contexto dos dados estat√≠sticos da covid-19 nos continentes

In [1]:

import pandas as pd

df = pd.read_csv(r'../csv/covid_continents.csv', index_col=0)

dataframe = df.copy()

pd.set_option('display.max_columns', None)   
pd.set_option('display.max_rows', None)      
pd.set_option('display.width', 300)         
pd.set_option('display.max_colwidth', None) 
pd.set_option('display.float_format', '{:.2f}'.format)

dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, 0 to 5
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   updated                 6 non-null      int64  
 1   cases                   6 non-null      int64  
 2   todayCases              6 non-null      int64  
 3   deaths                  6 non-null      int64  
 4   todayDeaths             6 non-null      int64  
 5   recovered               6 non-null      int64  
 6   todayRecovered          6 non-null      int64  
 7   active                  6 non-null      int64  
 8   critical                6 non-null      int64  
 9   casesPerOneMillion      6 non-null      float64
 10  deathsPerOneMillion     6 non-null      float64
 11  tests                   6 non-null      int64  
 12  testsPerOneMillion      6 non-null      float64
 13  population              6 non-null      int64  
 14  continent               6 non-null      object 
 15

# Atividade Pr√°tica: Tratamento e Padroniza√ß√£o de Dados COVID-19 por Continente

---

## 1Ô∏è‚É£ Tradu√ß√£o e compreens√£o das colunas (snake_case)

| Coluna original | Coluna tratada (snake_case) | Significado |
|-----------------|----------------------------|-------------|
| updated | ultima_atualizacao | Timestamp da √∫ltima atualiza√ß√£o (epoch em ms) |
| cases | casos_totais | Total de casos acumulados |
| todayCases | casos_hoje | Casos registrados no dia |
| deaths | obitos_totais | Total de √≥bitos acumulados |
| todayDeaths | obitos_hoje | √ìbitos registrados no dia |
| recovered | recuperados_totais | Total de recuperados |
| todayRecovered | recuperados_hoje | Recuperados no dia |
| active | casos_ativos | Casos ativos |
| critical | casos_criticos | Casos cr√≠ticos |
| casesPerOneMillion | casos_por_milhao_habitantes | Casos por milh√£o de habitantes |
| deathsPerOneMillion | obitos_por_milhao_habitantes | √ìbitos por milh√£o de habitantes |
| tests | total_testes | Total de testes realizados |
| testsPerOneMillion | testes_por_milhao_habitantes | Testes por milh√£o de habitantes |
| population | populacao_total | Popula√ß√£o total do continente |
| continent | continente | Nome do continente |
| activePerOneMillion | casos_ativos_por_milhao_habitantes | Casos ativos por milh√£o |
| recoveredPerOneMillion | recuperados_por_milhao_habitantes | Recuperados por milh√£o |
| criticalPerOneMillion | criticos_por_milhao_habitantes | Casos cr√≠ticos por milh√£o |
| continentInfo | continente_info | Informa√ß√µes geogr√°ficas do continente (lat/long) |
| countries | paises | Lista de pa√≠ses pertencentes ao continente |

---

## 2Ô∏è‚É£ Explora√ß√£o inicial do dataset

- [ ] Verificar n√∫mero de linhas e colunas
- [ ] Inspecionar os tipos de dados (`dtypes`)
- [ ] Verificar valores nulos

---

## 3Ô∏è‚É£ Coluna `ultima_atualizacao` (timestamp)

Representa a √∫ltima atualiza√ß√£o em **epoch (milissegundos)**.

- [ ] Confirmar que o valor tem 13 d√≠gitos
- [ ] Converter para datetime (`pd.to_datetime(unit='ms', utc=True)`)

---

## 4Ô∏è‚É£ Colunas de contagem (inteiros)

Colunas que representam contadores absolutos:

`casos_totais, casos_hoje, obitos_totais, obitos_hoje, recuperados_totais, recuperados_hoje, casos_ativos, casos_criticos, total_testes, populacao_total`

Para cada coluna:

- [ ] Garantir tipo `int`
- [ ] Substituir valores faltantes ou inconsistentes por 0
- [ ] Substituir valores negativos por 0
- [ ] Validar regras sem√¢nticas:
  - `casos_totais >= obitos_totais`
  - `casos_totais >= recuperados_totais`
  - `populacao_total > 0`

---

## 5Ô∏è‚É£ Colunas de indicadores por milh√£o (float)

Colunas derivadas:

`casos_por_milhao_habitantes, obitos_por_milhao_habitantes, testes_por_milhao_habitantes, casos_ativos_por_milhao_habitantes, recuperados_por_milhao_habitantes, criticos_por_milhao_habitantes`

Para cada coluna:

- [ ] Garantir tipo `float`
- [ ] Substituir valores faltantes ou inconsistentes
- [ ] Substituir valores negativos por 0
- [ ] Validar se os indicadores condizem com os contadores absolutos
- [ ] Recalcular indicadores por milh√£o (opcional):
  - `casos_por_milhao_habitantes = casos_totais / (populacao_total / 1_000_000)`
  - `obitos_por_milhao_habitantes = obitos_totais / (populacao_total / 1_000_000)`
  - `testes_por_milhao_habitantes = total_testes / (populacao_total / 1_000_000)`
  - `casos_ativos_por_milhao_habitantes = casos_ativos / (populacao_total / 1_000_000)`
  - `recuperados_por_milhao_habitantes = recuperados_totais / (populacao_total / 1_000_000)`
  - `criticos_por_milhao_habitantes = casos_criticos / (populacao_total / 1_000_000)`

---

## 6Ô∏è‚É£ Coluna `continente`

- [ ] Garantir tipo `string`
- [ ] Padronizar nomes (ex: remover espa√ßos, mai√∫sculas consistentes)
- [ ] Validar valores v√°lidos (exist√™ncia de 6 continentes + Oceania)

---

## 7Ô∏è‚É£ Coluna `continente_info` (geolocaliza√ß√£o)

Cont√©m um dicion√°rio serializado como string com latitude e longitude.

- [ ] Converter string para dicion√°rio Python (`ast.literal_eval`)
- [ ] Extrair latitude ‚Üí `continente_lat`
- [ ] Extrair longitude ‚Üí `continente_long`
- [ ] Remover coluna original `continente_info`

---

## 8Ô∏è‚É£ Coluna `paises` (lista de pa√≠ses)

Cont√©m uma lista serializada de pa√≠ses do continente.

- [ ] Converter string para lista Python (`ast.literal_eval`)
- [ ] Explodir lista criando uma tabela auxiliar `continente‚Äìpais`
- [ ] Remover coluna `paises` do dataframe principal

---

## 9Ô∏è‚É£ Valores faltantes e inconsistentes

- [ ] Identificar colunas com valores nulos
- [ ] Definir estrat√©gia por coluna:
  - [ ] Substituir por zero
  - [ ] Substituir por m√©dia ou mediana
  - [ ] Manter como nulo
- [ ] Validar impacto nos indicadores

---

## üîü Padroniza√ß√£o final

- [ ] Renomear colunas para **snake_case**
- [ ] Reordenar colunas de forma l√≥gica
- [ ] Garantir consist√™ncia de tipos e dados
- [ ] Validar que dataframe final tem **uma linha por continente**
- [ ] Salvar vers√£o limpa para an√°lise ou pipeline (CSV, DB, API)

---

## 11Ô∏è‚É£ Documenta√ß√£o

- [ ] Documentar decis√µes de tratamento
- [ ] Justificar remo√ß√£o ou cria√ß√£o de colunas
- [ ] Diferenciar dados brutos de dados derivados
- [ ] Avaliar se dataset est√° pronto para consumo em BI ou API
