![](https://raw.githubusercontent.com/davsimoes/mcde-pds/main/img/pcd-aula5.png)

# Análise de Dados Tabulares com Python e Pandas

![](https://raw.githubusercontent.com/davsimoes/mcde-pds/main/img/pandas.png)

Esta aula cobre os seguintes tópicos:

- Ler um ficheiro CSV para um data frame Pandas
- Obter dados de data frames Pandas
- Consulta, ordenação e análise de dados
- Fusão, agrupamento, e agregação de dados
- Extrair informação útil de datas
- Gráficos básicos com gráficos de linhas e de barras
- Escrever data frames para ficheiros CSV

### Como executar o código

Esta aula é um [Jupyter notebook](https://jupyter.org) executável. Pode _correr_ esta aula e experimentar os exemplos de código de diferentes formas: *localmente no seu computador*, ou *utilizando um serviço online gratuito*.

#### Opção 1: Correr localmente no seu computador

Para correr localmente o código no seu computador, faça download do notebook e abra o ficheiro com uma aplicação ou ambiente de desenvolvimento suportado, por exemplo:
* Visual Studio Code: https://code.visualstudio.com/download
* Anaconda: https://www.anaconda.com/download
* Miniconda: https://docs.conda.io/projects/miniconda/en/latest/

Em qualquer das opções, as aplicações terão de suportar (nativamente ou através de extensões) o [Python](https://www.python.org) e os [Jupyter notebooks](https://jupyter.org), de forma a disponibilizar um ambiente de visualização e execução local com um kernel que execute o código Python contido no notebook.

#### Opção 2: Correr num serviço online gratuito

Para executar o notebook online, faça upload do notebook para o serviço da sua preferência, por exemplo:
* Google Colab: https://colab.google/
* Binder (com repositório GitHub): https://mybinder.org/
* Kaggle: https://www.kaggle.com/


>  **Jupyter Notebooks**: Esta aula é um [Jupyter notebook](https://jupyter.org) - um documento feito de _células_. Cada célula pode conter código escrito em Python ou explicações em português. Pode executar células de código e visualizar os resultados, e.g., números, mensagens, gráficos, tabelas, ficheiros, etc., instantaneamente no notebook. O Jupyter é uma plataforma poderosa para experimentação e análise. Não tenha medo de mexer no código ou estragar alguma coisa - aprenderá muito ao encontrar e corrigir erros. Pode utilizar a opção de menu "Kernel > Restart & Clear Output" (Kernel > Reiniciar e Limpar Saída) para limpar todas as saídas e recomeçar do início.

## Ler um ficheiro CSV com o Pandas

O [Pandas](https://pandas.pydata.org/) é uma biblioteca popular de Python usada para trabalhar com dados tabulares (dados tipicamente armazenados em folhas de cálculo). O Pandas oferece funções auxiliares para ler dados de diferentes formatos como CSV, folhas de cálculo Excel, tabelas HTML, JSON, SQL, e outros.

Vamos fazer o download de um ficheiro `italy-covid-daywise.txt` que contém dados diários de Covid-19 para a Itália no seguinte formato:

```
date,new_cases,new_deaths,new_tests
2020-04-21,2256.0,454.0,28095.0
2020-04-22,2729.0,534.0,44248.0
2020-04-23,3370.0,437.0,37083.0
2020-04-24,2646.0,464.0,95273.0
2020-04-25,3021.0,420.0,38676.0
2020-04-26,2357.0,415.0,24113.0
2020-04-27,2324.0,260.0,26678.0
2020-04-28,1739.0,333.0,37554.0
...
```

Este formato de armazenamento de dados é conhecido como *comma-separated values* ou CSV. 

> **CSVs**: Um ficheiro de valores separados por vírgula (CSV) é um ficheiro de texto delimitado que utiliza uma vírgula para separar os valores. Cada linha do ficheiro é um registo de dados. Cada registo é composto por um ou mais campos, separados por vírgulas. Normalmente, um ficheiro CSV armazena dados tabulares (números e texto), caso em que cada linha terá o mesmo número de campos. (Wikipedia)


Vamos descarregar este ficheiro usando a função `urlretrieve` do módulo `urllib.request`.

In [None]:
from urllib.request import urlretrieve

In [None]:
italy_covid_url = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/italy-covid-daywise.csv'

urlretrieve(italy_covid_url, 'italy-covid-daywise.csv')

Para ler o ficheiro, podemos usar o método `read_csv` do Pandas. Primeiro, vamos instalar a biblioteca Pandas.

In [None]:
%pip install pandas --upgrade --quiet

We can now import the `pandas` module. As a convention, it is imported with the alias `pd`.

In [None]:
import pandas as pd

In [None]:
covid_df = pd.read_csv('italy-covid-daywise.csv')

Os dados do ficheiros são lidos e armazenados num objeto `DataFrame` - uma das estruturas de dados essenciais no Pandas para armazenar e trabalhar como dados tabulares. Tipicamente usamos o sufixo `_df` nos nomes das variáveis para os dataframes.

In [None]:
type(covid_df)

In [None]:
covid_df

Vejamos o que podemos dizer olhando para o dataframe:

- O ficheiro fornece quatro contagens diárias para a COVID-19 em Itália
- As métricas reportadas são novos casos, mortes, e testes
- São fornecidos dados para 248 dias: de 12 de dezembro de 2019 a 3 de setembro de 2020

Lembre-se que estes são números oficialmente reportados. O número real de casos e mortes pode ser maior, dado que nem todos os casos são diagnosticados.

Podemos ver alguma informação básica sobre o dataframe usando o método `.info`.

In [None]:
covid_df.info()

Parece que cada coluna contém valores de um tipo de dados específico. Podemos ver informação estatística para colunas numéricas (média, desvio padrão, valores mínimos/máximos, e o número de valores não vazios) usando o método `.describe`.

In [None]:
covid_df.describe()

A propriedade `columns` contém a lista de colunas do dataframe.

In [None]:
covid_df.columns

Podemos também obter o número de linhas e colunas no dataframe com a propriedade `.shape`

In [None]:
covid_df.shape

Aqui está um sumário das funções e métodos que vimos até agora:

* `pd.read_csv` - Ler dados de um ficheiro CSV para um objeto `DataFrame` do Pandas
* `.info()` - Visualizar informação básica sobre linhas, colunas e tipos de dados
* `.describe()` - Visualizar informação estatística sobre colunas numéricas
* `.columns` - Obter a lista de nomes de colunas
* `.shape` - Obter o número de linhas e colunas na forma de um tuplo


## Obter dados de um dataframe

A primeira coisa que podemos querer fazer é obter dados deste dataframe, e.g., as contagens de um dia específico ou a lista de valores de uma coluna em particular. Para fazer isto, talvez seja útil perceber a representação interna dos dados num dataframe. Conceptualmente, podemos pensar num dataframe como um dicionário de listas: as chaves são nomes de colunas, e os valores são listas/arrays contendo dados para as colunas respetivas.

In [None]:
# O formato do Pandas é similar a isto
covid_data_dict = {
    'date':       ['2020-08-30', '2020-08-31', '2020-09-01', '2020-09-02', '2020-09-03'],
    'new_cases':  [1444, 1365, 996, 975, 1326],
    'new_deaths': [1, 4, 6, 8, 6],
    'new_tests': [53541, 42583, 54395, None, None]
}

Representar os dados no formato acima tem alguns benefícios:

* Todos os valores numa coluna têm tipicamente o mesmo tipo de valor, por isso é mais eficiente armazená-los num array único.
* Para obter os valores de uma linha em particular basta simplesmente extrair os elementos num dado índice de cada array de coluna.
* A representação é mais compacta (os nomes de colunas são armazenados apenas uma vez) comparado com outros formatos que usem um dicionário para cada linha de dados (ver o exemplo abaixo).

In [None]:
#  O formato do Pandas não é similar a isto
covid_data_list = [
    {'date': '2020-08-30', 'new_cases': 1444, 'new_deaths': 1, 'new_tests': 53541},
    {'date': '2020-08-31', 'new_cases': 1365, 'new_deaths': 4, 'new_tests': 42583},
    {'date': '2020-09-01', 'new_cases': 996, 'new_deaths': 6, 'new_tests': 54395},
    {'date': '2020-09-02', 'new_cases': 975, 'new_deaths': 8 },
    {'date': '2020-09-03', 'new_cases': 1326, 'new_deaths': 6},
]

Com a analogia do dicionário de listas em mente, podemos adivinhar como obter dados de um dataframe. Por exemplo, podemos obter uma lista de valores de uma coluna específica usando a notação de indexação `[]`.

In [None]:
covid_data_dict['new_cases']

In [None]:
covid_df['new_cases']

Cada coluna é representada usando uma estrutura de dados chamada `Series`, que é essencialmente um array numpy com mais uns métodos e propriedades extra.

In [None]:
type(covid_df['new_cases'])

Tal como nos arrays, podemos obter um valor específico de uma série usando a notação de indexação `[]`.

In [None]:
covid_df['new_cases'][246]

In [None]:
covid_df['new_tests'][240]

O Pandas também oferece o método `.at` para obter diretamente o elemento numa linha e coluna específicas.

In [None]:
covid_df.at[246, 'new_cases']

In [None]:
covid_df.at[240, 'new_tests']

Em vez de usar a notação de indexação `[]`, o Pandas também permite aceder às colunas como propriedades do dataframe com a notação `.`. Contudo, este método só funciona para colunas cujos nomes não contenham espaços ou caracteres especiais.

In [None]:
covid_df.new_cases

Além disso, também podemos passar uma lista de colunas na notação de indexação `[]` para aceder a um subconjunto do dataframe com apenas as colunas indicadas.

In [None]:
cases_df = covid_df[['date', 'new_cases']]
cases_df

O novo dataframe `cases_df` é simplesmente uma "view" do dataframe original `covid_df`. Ambos apontam para os mesmos dados na memória do computador. Alterar quaisquer valores num deles vai também alterar os valores respetivos no outro. A partilha de dados entre dataframes torna a manipulação de dados com o Pandas extremamente rápida. Não necessitamos de nos preocupar com a sobrecarga de copiar milhares ou milhões de linhas cada vez que queremos criar um dataframe a partir de outro.

Por vezes podemos querer fazer uma cópia completa do dataframe, caso em que poderemos usar o método `copy`.

In [None]:
covid_df_copy = covid_df.copy()

Os dados em `covid_df_copy` são completamente independentes de `covid_df`, e alterar valores dentro de um deles não irá afetar o outro.

Para aceder a uma linha de dados específica, o Pandas fornece o método `.loc`.

In [None]:
covid_df

In [None]:
covid_df.loc[243]

Cada linha obtida é também um objeto `Series`.

In [None]:
type(covid_df.loc[243])

Podemos usar os métodos `.head` e `.tail` para visualizar as primeiras ou últimas linhas de dados.

In [None]:
covid_df.head(5)

In [None]:
covid_df.tail(4)

Repare acima que enquanto os primeiros valores das colunas `new_cases` e `new_deaths` são `0`, os valores correspondentes na coluna `new_tests` são `NaN`. Isto acontece porque o ficheiro CSV não contem quaisquer dados para a coluna `new_tests` para as datas específicas (podemos verificar isto olhando para o ficheiro). Estes valores podem estar em falta ou ser desconhecidos.

In [None]:
covid_df.at[0, 'new_tests']

In [None]:
type(covid_df.at[0, 'new_tests'])

A distinção entre `0` e `NaN` é subtil mas importante. Neste dataset, representa que os números de testes diários não foram reportados nas datas específicas. A Itália começou a reportar testes diários a 19 de abril de 2020. Já tinham sido feitos 935.310 testes antes de 19 de abril. 

Podemos encontrar o primeiro índice que não contém um valor `NaN` utilizando o método `first_valid_index` de uma coluna.

In [None]:
covid_df.new_tests.first_valid_index()

Vamos olhar para algumas linhas antes e depois deste índice para verificar que os valores se alteram de `NaN` para números válidos. Podemos fazer isto passando uma range ao método `loc`.

In [None]:
covid_df.loc[108:113]

Podemos usar o método `.sample` para obter uma amostra aleatória de linhas do dataframe.

In [None]:
covid_df.sample(10)

Repare que, ainda que tenhamos retirado uma amostra aleatória, o índice original de cada linha é preservado - isto é uma propriedade útil dos dataframes.

Aqui fica um sumário das funções e métodos que vimos nesta secção:

- `covid_df['new_cases']` - Obter colunas como uma `Series` usando o nome da coluna
- `new_cases[243]` - Obter valores de uma `Series` usando um índice
- `covid_df.at[243, 'new_cases']` - Obter um valor único de um dataframe
- `covid_df.copy()` - Criar uma cópia independente de um dataframe
- `covid_df.loc[243]` - Obter uma linha ou um conjunto de linhas de um dataframe
- `head`, `tail`, e `sample` - Obter múltiplas linhas de dados do dataframe
- `covid_df.new_tests.first_valid_index` - Encontrar o primeiro índice não vazio numa série



## Analisar dados de um dataframe

Vamos tentar responder a algumas questões sobre os nossos dados.

**P: Qual é o número total de casos e mortes reportadas relacionados com a Covid-19 em Itália?**

Similarmente aos arrays Numpy, uma série Pandas suporta o método `sum` para responder a estas questões.

In [None]:
total_cases = covid_df.new_cases.sum()
total_deaths = covid_df.new_deaths.sum()

In [None]:
print('O número de casos reportados é {} e o número de mortes reportadas é {}.'.format(int(total_cases), int(total_deaths)))

**P: Qual é a taxa global de mortalidade (rácio entre as mortes reportadas e os casos reportados)?**

In [None]:
death_rate = covid_df.new_deaths.sum() / covid_df.new_cases.sum()

In [None]:
print("A taxa global de mortalidade reportada em Itália é {:.2f} %.".format(death_rate*100))

**P: Qual é o número global de testes efetuados? Foi efetuado um total de 935.310 testes antes de serem comunicados os números dos testes diários.**


In [None]:
initial_tests = 935310
total_tests = initial_tests + covid_df.new_tests.sum()

In [None]:
total_tests

**P: Qual a proporção de testes que retornaram um resultado positivo?**

In [None]:
positive_rate = total_cases / total_tests

In [None]:
print('{:.2f}% dos testes em Itália resultaram num diagnóstico positivo.'.format(positive_rate*100))

Tente perguntar e responder a mais algumas questões sobre os dados usando as células vazias abaixo.

## Consultar e ordenar linhas

Suponhamos que queremos apenas ver os dias que tiveram mais de 1000 casos reportados. Podemos usar uma expressão booleana para verificar quais as linhas que satisfazem este critério.

In [None]:
high_new_cases = covid_df.new_cases > 1000

In [None]:
high_new_cases

A expressão booleana retorna uma série contendo valores booleanos `True` e `False`. Podemos usar esta série para selecionar um subconjunto de linhas do dataframe original, correspondendo aos valores `True` na série.

In [None]:
covid_df[high_new_cases]

Podemos escrever isto de forma sucinta numa única linha passando a expressão booleana como um índice para o dataframe.

In [None]:
high_cases_df = covid_df[covid_df.new_cases > 1000]

In [None]:
high_cases_df

O dataframe contém 72 linhas, mas por omissão são exibidas com o Jupyter apenas as primeiras e últimas cinco linhas, para brevidade. Podemos alterar algumas opções de visualização para ver todas as linhas.

In [None]:
from IPython.display import display
with pd.option_context('display.max_rows', 100):
    display(covid_df[covid_df.new_cases > 1000])

Podemos também formular queries mais complexas envolvendo múltiplas colunas. Como exemplo, vamos tentar determinar os dias em que o rácio entre os casos reportados e os testes efetuados foi superior à taxa positiva global (`positive_rate`).

In [None]:
positive_rate

In [None]:
high_ratio_df = covid_df[covid_df.new_cases / covid_df.new_tests > positive_rate]

In [None]:
high_ratio_df

O resultado de efetuar uma operação sobre duas colunas é uma nova série.

In [None]:
covid_df.new_cases / covid_df.new_tests

Podemos usar esta série para adicionar uma nova coluna ao dataframe.

In [None]:
covid_df['positive_rate'] = covid_df.new_cases / covid_df.new_tests

In [None]:
covid_df

Lembre-se contudo que às vezes demora alguns dias a obter os resultados de um teste, por isso não podemos comparar o número de novos casos com o número de testes efetuados no mesmo dia. Qualquer inferência baseada nesa coluna `positive_rate` será provavelmente incorreta. É fundamental estar atento a estas relações subtis que frequentemente não são transmitidas no ficheiro CSV e requerem algum contexto adicional externo. É sempre boa ideia analisar a documentação fornecida com o dataset ou pedir informação adicional.

Para já, vamos remover a coluna `positive_rate` com o método `drop`.

In [None]:
covid_df.drop(columns=['positive_rate'], inplace=True)

Consegue perceber o propósito do argumento `inplace`?

### Ordenar linhas usando valores de colunas

As linhas também podem ser ordenadas por uma coluna específica usando `.sort_values`. Vamos fazer uma ordenação para identificar os dias com os maiores números de casos, e depois ligar ao método `head` para listar apenas os primeiros 10 resultados.

In [None]:
covid_df.sort_values('new_cases', ascending=False).head(10)

Parece que as duas últimas semanas de março tiveram os números mais altos de casos diários. Vamos comparar este resultado com os dias onde foram registados os maiores números de mortes.

In [None]:
covid_df.sort_values('new_deaths', ascending=False).head(10)

Parece que as mortes diárias atingiram um pico cerca de uma semana depois do pico nos novos casos diários.

Vamos ver também os dias com menos casos. Poderemos esperar ver os primeiros dias do ano nesta lista.

In [None]:
covid_df.sort_values('new_cases').head(10)

Parece que a contagem de novos casos em 20 de junho de 2020 foi `-148`, um número negativo! Não era algo que estivéssemos à espera, mas é esta a natureza dos dados reais. Pode tratar-se de um erro de introdução de dados, ou o governo pode ter emitido uma correção para compensar uma contagem incorreta no passado. Poderá pesquisar notícias e artigos online para tentar perceber porque é que o número foi negativo.

Vamos olhar para alguns dias antes e depois de 20 de junho de 2020.

In [None]:
covid_df.loc[169:175]

Para já, vamos assumir que se tratou de facto de um erro de introdução de dados. Podemos usar uma das seguintes abordagens para lidar com o valor em falta ou incorreto:
1. Substituí-lo por `0`.
2. Substituí-lo pela média dos valores da coluna
3. Substituí-lo com a média entre os valores na data anterior e posterior
4. Descartar a linha por inteiro

A abordagem a tomar requer algum contexto sobre os dados e o problema. Neste caso, dado que estamos a lidar com dados ordenados por data, podemos avançar com a terceira abordagem.

Podemos usar o método `.at` para modificar um valor específico no dataframe.

In [None]:
covid_df.at[172, 'new_cases'] = (covid_df.at[171, 'new_cases'] + covid_df.at[173, 'new_cases'])/2

Aqui fica um sumário das funções e métodos que vimos nesta secção:

- `covid_df.new_cases.sum()` - Calcular a soma dos valores numa coluna ou série
- `covid_df[covid_df.new_cases > 1000]` - Fazer uma query sobre um subconjunto de linhas satisfazendo um dado critério com expressões booleanas
- `df['pos_rate'] = df.new_cases/df.new_tests` - Adicionar novas colunas combinando dados de colunas existentes
- `covid_df.drop('positive_rate')` - Remover uma ou mais colunas do dataframe
- `sort_values` - Ordenar as linhas de um dataframe usando valores de colunas
- `covid_df.at[172, 'new_cases'] = ...` - Substituir um valor num dataframe

## Trabalhar com datas

Embora já tenhamos olhado para os números globais para os casos, testes, taxa de positivos, etc., também poderá ser útil estudar estes números numa perspetiva mensal. A coluna `date` poderá ser útil aqui, dado que o Pandas oferece várias formas de trabalhar com datas.

In [None]:
covid_df.date

O tipo de dados da data é neste momento `object`, por isso o Pandas não sabe que esta coluna é uma data. Podemos convertê-la para uma coluna `datetime` usando o método `pd.to_datetime`.

In [None]:
covid_df['date'] = pd.to_datetime(covid_df.date)

In [None]:
covid_df['date']

Podemos ver que a coluna tem agora o tipo de dados `datetime64`. Podemos extrair diferentes partes dos dados em colunas separadas, usando a classe `DatetimeIndex` ([ver docs](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DatetimeIndex.html)).

In [None]:
covid_df['year'] = pd.DatetimeIndex(covid_df.date).year
covid_df['month'] = pd.DatetimeIndex(covid_df.date).month
covid_df['day'] = pd.DatetimeIndex(covid_df.date).day
covid_df['weekday'] = pd.DatetimeIndex(covid_df.date).weekday

In [None]:
covid_df

Vamos verificar as métricas globais para maio. Podemos fazer uma query às linhas para maio, escolher um subconjunto de colunas, e usar o método `sum` para agregar os valores de cada coluna.

In [None]:
# Filtrar as linhas para maio
covid_df_may = covid_df[covid_df.month == 5]

# Extrair o subconjunto das colunas a serem agregadas
covid_df_may_metrics = covid_df_may[['new_cases', 'new_deaths', 'new_tests']]

# Obter a soma de cada coluna
covid_may_totals = covid_df_may_metrics.sum()

In [None]:
covid_may_totals

In [None]:
type(covid_may_totals)

Podemos também combinar as operações acima numa instrução única.

In [None]:
covid_df[covid_df.month == 5][['new_cases', 'new_deaths', 'new_tests']].sum()

Como exemplo adicional, vamos verificar se o número de casos reportados ao domingo é superior ao número médio de casos reportados diariamente. Desta vez, talvez queiramos agregar as colunas com o método `.mean`.

In [None]:
# Média global
covid_df.new_cases.mean()

In [None]:
# Média para os domingos
covid_df[covid_df.weekday == 6].new_cases.mean()

Parece que foram reportados mais casos ao domingo do que nos outros dias.

Tente perguntar e responder a outras questões relacionadas com datas usando as células abaixo.

## Agrupamento e agregação

Como próximo passo, podemos querer sumarizar os dados diários e criar um novo dataframe com dados mensais. Podemos usar a função `groupby` para criar um grupo para cada mês, selecionar as colunas a agregar, e agregá-las com o método `sum`. 

In [None]:
covid_month_df = covid_df.groupby('month')[['new_cases', 'new_deaths', 'new_tests']].sum()

In [None]:
covid_month_df

O resultado é um novo dataframe que usa os valores da coluna passada ao `groupby` como índice. O agrupamento e a agregação são um método poderoso para sumarizar progressivamente os dados em dataframes mais pequenos.

Em vez de agregar por soma, podemos também agregar por outras operações como a média. Vamos calcular o número médio de novos casos diários, mortes, e testes para cada mês.

In [None]:
covid_month_mean_df = covid_df.groupby('month')[['new_cases', 'new_deaths', 'new_tests']].mean()

In [None]:
covid_month_mean_df

Para além do agrupamento, outra forma de agregação é a soma contínua ou acumulada de casos, testes, ou mortes até à data de cada linha. Podemos usar o método `cumsum` para calcular a soma cumulativa como uma nova série. Vamos adicionar três novas colunas: `total_cases`, `total_deaths`, e `total_tests`.

In [None]:
covid_df['total_cases'] = covid_df.new_cases.cumsum()

In [None]:
covid_df['total_deaths'] = covid_df.new_deaths.cumsum()

In [None]:
covid_df['total_tests'] = covid_df.new_tests.cumsum() + initial_tests

Incluímos também a contagem de testes inicial em `total_test` para levar em conta os testes efetuados antes de se ter iniciado a comunicação diária.

In [None]:
covid_df

Repare como os valores `NaN` em `total_tests` permanecem inafetados.

## Juntando dados de várias fontes

Para determinarmos outras métricas como testes por milhão, casos por milhão, etc., necessitamos de mais informação do país relativa à sua população. Vamos fazer o download de outro ficheiro `locations.csv` que contém informções de saúde para diversos países, incluindo a Itália.

In [None]:
urlretrieve('https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/locations.csv', 
            'locations.csv')

In [None]:
locations_df = pd.read_csv('locations.csv')

In [None]:
locations_df

In [None]:
locations_df[locations_df.location == "Italy"]

Podemos fundir ou fazer o *merge* destes dados no nosso dataframe existente adicionando mais colunas. Contudo, para fazer o *merge* de dois data frames, necessitamos de pelo menos uma coluna em comum. Vamos inserir uma coluna `location` no dataframe `covid_df` com todos os valores iguais a `"Italy"`.

In [None]:
covid_df['location'] = "Italy"

In [None]:
covid_df

Podemos agora adicionar as colunas de `locations_df` em `covid_df` usando o método `.merge`.

In [None]:
merged_df = covid_df.merge(locations_df, on="location")

In [None]:
merged_df

Os dados de localização para Itália são acrescentados a cada linha em `covid_df`. Se o dataframe `covid_df` contivesse dados de múltiplas localizações, os dados de localização do país respetivo seriam acrescentados para cada linha.

Podemos agora calcular métricas como casos por milhão, mortes por milhão, e testes por milhão.

In [None]:
merged_df['cases_per_million'] = merged_df.total_cases * 1e6 / merged_df.population

In [None]:
merged_df['deaths_per_million'] = merged_df.total_deaths * 1e6 / merged_df.population

In [None]:
merged_df['tests_per_million'] = merged_df.total_tests * 1e6 / merged_df.population

In [None]:
merged_df

## Escrever dados de volta para ficheiros

Depois de completarmos a nossa análise e adicionarmos novas colunas, faz sentido escrever os resultados de volta para um ficheiro. De outra forma, os dados serão perdidos quando o notebook Jupyter for desativado.
Antes de escrever para um ficheiro, vamos criar primeiro um dataframe contendo apenas as colunas que queremos gravar.

In [None]:
result_df = merged_df[['date',
                       'new_cases', 
                       'total_cases', 
                       'new_deaths', 
                       'total_deaths', 
                       'new_tests', 
                       'total_tests', 
                       'cases_per_million', 
                       'deaths_per_million', 
                       'tests_per_million']]

In [None]:
result_df

Para escrever os dados do dataframe para um ficheiro, podemos usar a função `to_csv`. 

In [None]:
result_df.to_csv('results.csv', index=None)

Por omissão, a função `to_csv` inclui também uma coluna adicional para armazenar o índice do dataframe. Passamos `index=None` para desligar este comportamento. Podemos verificar que o ficheiro `results.csv` foi criado e contém os dados do dataframe no formato CSV:

```
date,new_cases,total_cases,new_deaths,total_deaths,new_tests,total_tests,cases_per_million,deaths_per_million,tests_per_million
2020-02-27,78.0,400.0,1.0,12.0,,,6.61574439992122,0.1984723319976366,
2020-02-28,250.0,650.0,5.0,17.0,,,10.750584649871982,0.28116913699665186,
2020-02-29,238.0,888.0,4.0,21.0,,,14.686952567825108,0.34732658099586405,
2020-03-01,240.0,1128.0,8.0,29.0,,,18.656399207777838,0.47964146899428844,
2020-03-02,561.0,1689.0,6.0,35.0,,,27.93498072866735,0.5788776349931067,
2020-03-03,347.0,2036.0,17.0,52.0,,,33.67413899559901,0.8600467719897585,
...
```

## Bónus: Gráficos básicos com Pandas

Normalmente usamos uma biblioteca como `matplotlib` ou `seaborn` para desenhar gráficos num notebook Jupyter. Contudo, Os dataframes e séries Pandas oferecem um método útil `.plot` para o desenho rápido e fácil de gráficos.

Vamos desenhar um gráfico de linhas mostrando o número de casos diários ao longo do tempo.

In [None]:
result_df.new_cases.plot();

**Nota:** Dependendo do ambiente de execução, poderá ter de fazer `%pip install matplotlib` antes de usar o método `.plot`

Ainda que este gráfico mostre a tendência global, é difícil perceber onde é que ocorreu o pico, dado que não são há datas no eixo dos X. Podemos usar a coluna `date` como índice do dataframe para corrigir este problema.

In [None]:
result_df.set_index('date', inplace=True)

In [None]:
result_df

Repare que o índice de um dataframe não tem de ser numérico. Usar a data como índice também nos permite obter os dados de uma data específica usando o `.loc`.

In [None]:
result_df.loc['2020-09-01']

Vamos traçar os novos casos e novas mortes por dia em gráficos de linhas.

In [None]:
result_df.new_cases.plot()
result_df.new_deaths.plot();

Podemos também comparar o número total de casos vs. total de mortes.

In [None]:
result_df.total_cases.plot()
result_df.total_deaths.plot();

Vamos ver como é que a taxa de mortalidade e as taxas de testes positivos variam ao longo do tempo.

In [None]:
death_rate = result_df.total_deaths / result_df.total_cases

In [None]:
death_rate.plot(title='Taxa de Mortalidade');

In [None]:
positive_rates = result_df.total_cases / result_df.total_tests
positive_rates.plot(title='Taxa de Positivos');

Finalmente, vamos apresentar alguns dados mensais usando um gráfico de barras para visualizar a tendência a um nível mais elevado

In [None]:
covid_month_df.new_cases.plot(kind='bar');

In [None]:
covid_month_df.new_tests.plot(kind='bar')

## Sumário e Leitura Complementar


Cobrimos os seguintes tópicos nesta aula:

- Ler um ficheiro CSV para um dataframe Pandas
- Obter dados de dataframes Pandas
- Fazer queries, ordenar, e analisar dados
- Fazer merging, agrupamento, e agregação de dados
- Extrair informação útil de datas
- Gráficos simples com gráficos de linhas e gráficos de barras
- Escrever dataframes para ficheiros CSV


Consulte os seguintes recursos para aprender mais sobre o Pandas:

* User guide para o Pandas: https://pandas.pydata.org/docs/user_guide/index.html
* Python for Data Analysis (livro de Wes McKinney - criador do Pandas): https://www.oreilly.com/library/view/python-for-data/9781491957653/
* Exercícios adicionais sobre Pandas: https://github.com/guipsamora/pandas_exercises
* Datasets Kaggle: https://www.kaggle.com/datasets

## Questões para Revisão

Tente responder às seguintes questões para testar a sua compreensão sobre os tópicos cobertos neste notebook:

1. O que é o Pandas? O que é que o torna útil?
2. Como é que se instala a biblioteca Pandas?
3. Como é que se importa o módulo `pandas`?
4. Qual é o alias normalmente utilizado durante a importação do módulo `pandas`?
5. Como é que se lê um ficheiro CSV utilizando o Pandas? Dê um exemplo.
6. Dê exemplos de outros formatos de ficheiros que podem ser lidos com o Pandas.
7. O que são dataframes Pandas? 
8. Em que é que os dataframes do Pandas são diferentes dos arrays do Numpy?
9. Como é que podemos saber o número de linhas e colunas de um dataframe?
10. Como é que podemos obter a lista de colunas de um dataframe?
11. Qual é o objetivo do método `describe` de um dataframe?
12. Qual a diferença entre os métodos `info` e `describe` de um dataframe?
13. Um dataframe do Pandas é conceptualmente semelhante a uma lista de dicionários ou a um dicionário de listas? Explique com um exemplo.
14. O que é uma série (`Series`) do Pandas? Qual a diferença em relação a um array Numpy?
15. Como é que se acede a uma coluna de um dataframe?
16. Como é que se acede a uma linha de um dataframe?
17. Como é que se acede a um elemento numa linha e coluna específicas de um dataframe?
18. Como é que podemos criar um subconjunto de um dataframe com um conjunto específico de colunas?
19. Como é que podemos criar um subconjunto de um dataframe com um intervalo específico de linhas?
20. A alteração de um valor num dataframe afecta outros dataframes criados utilizando um subconjunto de linhas ou colunas? Porque é que isso acontece?
21. Como é que se cria uma cópia de um dataframe?
22. Porque é que devemos evitar criar demasiadas cópias de um dataframe?
23. Como é que se visualizam as primeiras linhas de um dataframe?
24. Como é que se visualizam as últimas linhas de um dataframe?
25. Como é que se vê uma seleção aleatória de linhas de um dataframe?
26. O que é o "índice" num dataframe? Qual é a sua utilidade?
27. O que representa um valor `NaN` num dataframe Pandas?
28. Qual a diferença entre `Nan` e `0`?
29. Como identificar a primeira linha não vazia de uma série ou coluna Pandas?
30. Qual é a diferença entre `df.loc` e `df.at`?
31. Onde é que podemos encontrar uma lista completa dos métodos suportados pelos objectos `DataFrame` e `Series` do Pandas?
32. Como é que podemos calcular a soma dos números numa coluna de um dataframe?
33. Como é que podemos calcular a média dos números numa coluna de um dataframe?
34. Como é que podemos saber quantos números não vazios existem numa coluna de um dataframe?
35. Qual é o resultado obtido pela utilização de uma coluna Pandas numa expressão booleana? Ilustre com um exemplo.
36. Como é que se seleciona um subconjunto de linhas em que o valor de uma coluna específica satisfaz uma determinada condição? Ilustre com um exemplo.
37. Qual é o resultado da expressão `df[df.new_cases > 100]` ?
38. Como é que podemos exibir todas as linhas de um dataframe Pandas numa célula de um notebook Jupyter?
39. Qual é o resultado obtido quando efetuamos uma operação aritmética entre duas colunas de um dataframe? Ilustre com um exemplo.
40. Como é que se adiciona uma nova coluna a um dataframe combinando valores de duas colunas existentes? Ilustre com um exemplo.
41. Como é que se remove uma coluna de um dataframe? Ilustre com um exemplo.
42. Qual a finalidade do argumento `inplace` nos métodos de dataframe?
43. Como é que podemos ordenar as linhas de um dataframe com base nos valores de uma dada coluna?
44. Como é que podemos ordenar um dataframe usando valores de múltiplas colunas?
45. Como é que se especifica se queremos ordenar por ordem ascendente ou descendente ao ordenar um dataframe Pandas?
46. Como é que se altera um valor específico num dataframe?
47. Como é que se converte uma coluna de dataframe para o tipo de dados `datetime`?
48. Quais são os benefícios de se utilizar o tipo de dados `datetime` ao invés de `object`?
49. Como é que podemos extrair diferentes partes de uma coluna de datas como o mês, ano, mês, dia da semana, etc., em colunas separadas? Ilustre com um exemplo.
50. Como é que se agregam múltiplas colunas de um dataframe?
51. Qual é a finalidade do método `groupby` de um dataframe? Ilustre com um exemplo.
52. Quais são as diferentes formas de agregar os grupos criados por `groupby`?
53. O que é que quer dizer uma soma acumulada ou em execução? 
54. Como é que podemos criar uma nova coluna contendo a soma acumulada ou em execução de outra coluna?
55. Quais são as outras medidas cumulativas suportadas pelos dataframes Pandas?
56. O que significa fazer o merge de dois dataframes? Dê um exemplo.
57. Como é que especifica as colunas que devem ser utilizadas para fazer o merge de dois dataframes?
58. Como é que podemos escrever os dados de um dataframe Pandas num ficheiro CSV? Dê um exemplo.
59. Dê exemplos de alguns dos outros formatos de ficheiro para os quais podemos escrever a partir de um dataframe Pandas.
60. Como é que se cria um gráfico de linhas que mostra os valores de uma coluna de um dataframe?
61. Como é que se converte uma coluna de um dataframe no seu índice?
62. O índice de um dataframe pode ser não numérico?
63. Quais são as vantagens de utilizar um dataframe não numérico? Ilustre com um exemplo.
64. Como se cria um gráfico de barras que mostra os valores de uma coluna de um dataframe?
65. Quais são alguns dos outros tipos de gráficos suportados pelos dataframes e séries Pandas?

## Referências

Este notebook é uma adaptação traduzida do curso *<u>Data Analysis with Python: Zero to Pandas</u>* de AaKash N S / [Jovian.ai](https://jovian.ai)

Outras referências:
* McKinney, W., Python for Data Analysis, 3rd. Ed. O'Reilly. Versão online em https://wesmckinney.com/book/ 
* Documentação oficial do Python: https://docs.python.org/3/tutorial/index.html
* Tutorial Python do W3Schools: https://www.w3schools.com/python/
* Practical Python Programming: https://dabeaz-course.github.io/practical-python/Notes/Contents.html
* Jupyter Notebooks: https://docs.jupyter.org
* Markdown Reference: https://www.markdownguide.org
