# Visualizando dados de COVID-19 usando Python


Este código tem como intuito mostrar de forma prática com utilizar python **e** *matplotlib* para visualizar os dados da pandemia, e como o brasil está se comportando nesta crise em realação aos demais.

[Source](https://towardsdatascience.com/visualizing-covid-19-data-beautifully-in-python-in-5-minutes-or-less-affc361b2c6a)

<font color='red'>Projeto descontinuado</font>

1. [Mineração de dados](#pA00)<br>
    1.1 [Carregando as bibliotecas necessárias](#pA)<br>
    1.2 [Carregando os dados](#pB)<br>
    1.3 [Selecionando os dados](#pC)<br>
    1.4 [Criando uma coluna resumo](#pC)<br>
2. [Preparando os dados](#main)<br>
    2.1 [Reestrututando os nossos dados](#pA)<br>
    2.2 [Calculando as incidências por 100.000](#pA)<br>
3. [Criando a primeira visualização](#pA)<br>
    3.1 [Criando as cores padrão](#pa)<br>
    3.2 [Criando a visualização](#pa)<br>
    3.4 [Atribuindo as cores](#pa)<br>
    3.5 [Adicionando as legendas e textos](#pa)<br>
3. [Criando a visualização por 100,000](#pA)<br>

<hr/>
 
    

1. [Mineração de dados](#pA00)<br>

Como fonte para os nossos dados iremos utilizar o repositório do [**Github**](https://github.com/datasets/covid-19) oferecido pela *Johns Hopkins University Center for Systems Science and Engineering* (CSSE), diferentemente do "mundo real" os dados providos já vem formato ideial, então só é necessário tratar a base com a adição de colunas e retirar os dados que não iremos usar. O link direto para o arquivo CSV é [este.](https://raw.githubusercontent.com/datasets/covid-19/master/data/countries-aggregated.csv)



1.1 [Carregando as bibliotecas necessárias](#pA)<br>

Nessa sessão iremos mostrar como fazer a importação das bibliotecas essenciais para este projeto e informar qual o papel de cada uma:
- **pandas** — É uma biblioteca de Python usada para analisar e manipular dados.
- **matplotlib.pyplot** —  Parte da biblioteca (módulo) *matplotlib* para mostrar os gráficos neste projeto.
    - **matplotlib.ticker** — Também parte do (módulo) *matplotlib*
    - **matplotlib.dates** —  Módulo usado para trabalhar com datas nos gráficos.
- **%matplolib inline** — Essa parte deve ser usada **apenas** caso você utilize Jupyter notebook.

In [6]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from matplotlib.dates import DateFormatter

#somente se estiver utilizando um notebook Jupyter
%matplotlib inline

ModuleNotFoundError: No module named 'pandas'

1.2 [Carregando os dados](#pB)<br>

Utilizaremos **pandas** para ler os dados da _CSSE_ e também para a criação das colunas necessárias para criação dos gráficos mais a frente.

Para visualizar se ocorreu tudo bem, vamos visualizar as primeiras 5 linhas.

In [7]:
df = pd.read_csv('https://raw.githubusercontent.com/datasets/covid-19/master/data/countries-aggregated.csv', 
                 parse_dates=['Date'])

# Mostrando os dados baixados, primeiras cinco linhas, para verificarmos se ocorreu tudo certo com o download dos dados.
df.head(5)

NameError: name 'pd' is not defined

1.3 [Selecionando os dados](#pC)


O *dataset* puro possui todos os países, se transforma-se o dataset em um gráfico muito poluído, por isso, iremos selecionar os países que queremos ver? Brasil, EUA, Alemanha, França e Suiça. Como o *dataset* está em inglês, iremos usar os nomes em inglês iremos utilizar os nomes Brazil, US, Germany, French and Sweden respectivamente.

In [8]:
paises = ['Brazil', 'US','Germany', 'France', 'Sweden']

Usando a lista acima podemos usar o comando *isin* para selecionar os dados os países que criamos na lista acima.

In [9]:
df = df[df['Country'].isin(paises)]

df.head(3) # como estamos usando Jupyter Notebook, não precisamos usar o comando print para mostrar a tabela

NameError: name 'df' is not defined

 1.3 [Selecionando os dados](#pC)
 
 O último passo é criar uma coluna resumo, o intuito é agregar os números das colunas confirmado (*confirmed*), recovered (*recuperados*) e mortes (*deaths*). Para atingir este objetivo, iremos usar o comando **sum(axis=)**, este comando possui dois parametros: **axis** igual a 0 ou 1; zero é usado para somar linhas, enquanto **1** é utilizado para somar colunas.

In [10]:
df['Casos'] = df[['Confirmed', 'Recovered', 'Deaths']].sum(axis=1)

df.tail(3) # Mostra o final do dataset, é o inverso do comando heads

NameError: name 'df' is not defined