### Protótipo de ETL para o conjunto de dados completo de registros de COVID-19

In [7]:

import pandas as pd

df = pd.read_csv(r'../csv/covid_all.csv', index_col=0)

dataframe = df.copy()

pd.set_option('display.max_columns', None)   
pd.set_option('display.max_rows', None)      
pd.set_option('display.width', 300)         
pd.set_option('display.max_colwidth', None) 
pd.set_option('display.float_format', '{:.2f}'.format)

dataframe.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1 entries, 0 to 0
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   updated                 1 non-null      int64  
 1   cases                   1 non-null      int64  
 2   todayCases              1 non-null      int64  
 3   deaths                  1 non-null      int64  
 4   todayDeaths             1 non-null      int64  
 5   recovered               1 non-null      int64  
 6   todayRecovered          1 non-null      int64  
 7   active                  1 non-null      int64  
 8   critical                1 non-null      int64  
 9   casesPerOneMillion      1 non-null      int64  
 10  deathsPerOneMillion     1 non-null      float64
 11  tests                   1 non-null      int64  
 12  testsPerOneMillion      1 non-null      float64
 13  population              1 non-null      int64  
 14  oneCasePerPeople        1 non-null      int64  
 15

# Atividade Prática: Manipulação e Padronização de Dados COVID-19

Este notebook tem como objetivo realizar atividades de **ETL (Extração, Transformação e Carga)**, focando na manipulação, padronização e análise de dados do conjunto de registros sobre COVID-19.

---

## 1️⃣ Tradução e compreensão das colunas

O dataset possui as seguintes colunas originais. 

| Coluna Original           | Tradução/Significado                       |
|---------------------------|-------------------------------------------|
| updated                   | Última atualização (timestamp)            |
| cases                     | Casos totais                              |
| todayCases                | Casos de hoje                             |
| deaths                    | Óbitos totais                              |
| todayDeaths               | Óbitos de hoje                             |
| recovered                 | Recuperados totais                         |
| todayRecovered            | Recuperados de hoje                        |
| active                    | Casos ativos                               |
| critical                  | Casos críticos                             |
| casesPerOneMillion        | Casos por milhão de habitantes            |
| deathsPerOneMillion       | Óbitos por milhão de habitantes           |
| tests                     | Total de testes                            |
| testsPerOneMillion        | Testes por milhão de habitantes           |
| population                | População total                            |
| oneCasePerPeople          | Uma pessoa por caso                        |
| oneDeathPerPeople         | Uma pessoa por óbito                        |
| oneTestPerPeople          | Uma pessoa por teste                       |
| activePerOneMillion       | Casos ativos por milhão de habitantes     |
| recoveredPerOneMillion    | Recuperados por milhão de habitantes      |
| criticalPerOneMillion     | Críticos por milhão de habitantes         |
| affectedCountries         | Número de países afetados                  |

---

## 2️⃣ Atividades propostas

Marque as atividades conforme for realizando:

- [ ] **Exploração inicial do dataset**  
  - Verificar número de linhas e colunas  
  - Checar tipos de dados e valores nulos  

- [ ] **Renomear colunas para português**  
  - Padronizar nomes usando snake_case  

- [ ] **Conversão de tipos**  
  - Converter timestamps (`updated`) para `datetime`  
  - Garantir que colunas numéricas estejam como `int` ou `float` corretamente  

- [ ] **Normalização de dados por milhão**  
  - Criar colunas normalizadas para população se necessário  

- [ ] **Tratamento de valores faltantes**  
  - Substituir valores nulos ou inconsistentes  

- [ ] **Criação de colunas derivadas**  
  - Exemplo: taxa de mortalidade = `deaths / cases`  
  - Exemplo: taxa de recuperação = `recovered / cases`  

- [ ] **Filtragem e ordenação**  
  - Filtrar países com mais de 1 milhão de habitantes  
  - Ordenar pelo número de casos ativos  

---