# COVID-19: Around the World 

## Dados reais de pessoas reais sobre a atual situação mundial do coronavírus.

O objetivo desse projeto é apresentar para o público os dados mais relevantes sobre o COVID-19, assim como o progresso da vacinação e diminuição dos casos. <br />
A necessidade de elaborar o projeto surgiu a partir da insegurança das pessoas em relação aos dados divulgados por grandes emissoras brasileiras. <br />
Com os dashboards disponibilizados nesse projeto, todos poderão verificar a fonte de dados e analisar sem viéis (bias).

<p>As fontes dos datasets utilizados nesse projeto você encontrará no final desse notebook.</p>

A proposta desse código é ser educacional, logo vou comentando os passos que estou fazendo em cada célula do Jupyter's notebook.


In [1]:
# Primeiro estou importando as bibliotecas que vou utilizar no projeto
import pandas as pd
import numpy as np
import os

In [2]:
# Vou dizer que o diretório padrão será a pasta do projeto
pwd = os.getcwd()

In [7]:
# Vou importar o primeiro dataset que vou executar o ETL (processo de extração, transformação e carregamento de dados) e vou criar uma cópia sobre o arquivo e nomeá-lo
covid_data = pd.read_csv(pwd + '\\datasets\\owid-covid-data_kaggler.csv')
cd = covid_data.copy()
cd

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,gdp_per_capita,extreme_poverty,cardiovasc_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index
0,AFG,Asia,Afghanistan,2020-02-24,1.0,1.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
1,AFG,Asia,Afghanistan,2020-02-25,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
2,AFG,Asia,Afghanistan,2020-02-26,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
3,AFG,Asia,Afghanistan,2020-02-27,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
4,AFG,Asia,Afghanistan,2020-02-28,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91021,ZWE,Africa,Zimbabwe,2021-05-20,38635.0,23.0,20.571,1585.0,2.0,0.429,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571
91022,ZWE,Africa,Zimbabwe,2021-05-21,38664.0,29.0,18.429,1586.0,1.0,0.571,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571
91023,ZWE,Africa,Zimbabwe,2021-05-22,38679.0,15.0,17.857,1586.0,0.0,0.571,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571
91024,ZWE,Africa,Zimbabwe,2021-05-23,38682.0,3.0,17.429,1586.0,0.0,0.571,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571


Após carregar e visualizar o CSV, podemos perceber que é uma tabela extensa porém limpa, então faremos poucas mudanças. Gastarei mais tempo entendendo os atributos das colunas do que transformando a tabela. <br />
Felizmente esse dataset foi exportado de um notebook do Kaggle, então o(a) autor(a) citou cada informação das colunas.

**Vamos entender algumas colunas:**

> iso_code = Código ISO do país <br />
> location = País <br />
> life_expectancy = Expectativa de vida <br />
> human_development_index = IDH (Índice de Desenvolvimento Humano)

**Por que entender essas colunas?**

Essas colunas que vão garantir que nosso relatório contenham informações justas sobre o coronavírus, por exemplo: <br />
>Em regiões que a higienização é escassa, as estatísticas tem viéis de aumento de casos (podemos medir utilizando o IDH e a expectativa de vida). <br />
>Outro exemplo é entender a proporção de infectados, falecidos e vacinados em relação a população total e o real motivo das infecções.




In [8]:
# De volta a transformação de dados: Após carregar o dataset, vamos renomear algumas colunas para facilitar o entendimento
cd = cd.rename(columns={'location': 'contry'})
cd


Unnamed: 0,iso_code,continent,contry,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,gdp_per_capita,extreme_poverty,cardiovasc_death_rate,diabetes_prevalence,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index
0,AFG,Asia,Afghanistan,2020-02-24,1.0,1.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
1,AFG,Asia,Afghanistan,2020-02-25,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
2,AFG,Asia,Afghanistan,2020-02-26,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
3,AFG,Asia,Afghanistan,2020-02-27,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
4,AFG,Asia,Afghanistan,2020-02-28,1.0,0.0,,,,,...,1803.987,,597.029,9.59,,,37.746,0.5,64.83,0.511
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91021,ZWE,Africa,Zimbabwe,2021-05-20,38635.0,23.0,20.571,1585.0,2.0,0.429,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571
91022,ZWE,Africa,Zimbabwe,2021-05-21,38664.0,29.0,18.429,1586.0,1.0,0.571,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571
91023,ZWE,Africa,Zimbabwe,2021-05-22,38679.0,15.0,17.857,1586.0,0.0,0.571,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571
91024,ZWE,Africa,Zimbabwe,2021-05-23,38682.0,3.0,17.429,1586.0,0.0,0.571,...,1899.775,21.4,307.846,1.82,1.6,30.7,36.791,1.7,61.49,0.571


Como podem ver, o comando ```rename(columns={'':''})``` é responsável por renomear as colunas, no caso a coluna que antes era "location", agora tem o nome de "country".  <br />
Estou utilizando ainda nomeação em inglês, pois devemos deixar os dados os mais originais possíveis.