# Tabelas

Neste módulo vamos introduzir a noção de tabela do `pandas`. Estas tabelas são muito usadas.

## Tabelas

Uma tabela, do tipo `pandas.DataFrame` é uma estrutura de dados multidimensional. Este tipo é oferecido pelo módulo `pandas`, pelo que temos que começar por importar o módulo `pandas` no início do notebook.

Uma nova tabela é criada com `pandas.DataFrame()`. Vamos ilustrar a criação de uma tabela com os dados da [Taxa bruta de Natalidade](https://www.pordata.pt/Portugal/Taxa+bruta+de+natalidade-527) e da [Taxa Bruta de Mortalidade](https://www.pordata.pt/Municipios/Taxa+bruta+de+mortalidade-367), dos anos mais recentes. Estas taxas dizem-nos quantos bebés nasceram ou quantos óbitos foram registados por 1000 habitantes. 

As tabelas estão organizadas por linhas e colunas. Vamos organizar a informação em três colunas:

1. A primeira coluna (`'Ano'`) refere-se ao ano
1. A segunda coluna tem a correspondente taxa bruta de natalidade (`'Natalidade'`)
1. A terceira coluna tem a correspondente taxa bruta de mortalidade (`'Mortalidade'`). 

In [164]:
import pandas

população = pandas.DataFrame({
    'Ano': [ 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018 ],
    'Natalidade': [ 9.2, 8.5, 7.9, 7.9, 8.3, 8.4, 8.4, 8.5 ],
    'Mortalidade': [ 9.7, 10.2, 10.2, 10.1, 10.5, 10.7, 10.7, 11.0 ]
})


Vamos usar esta tabela nos exemplos seguintes. Comecemos por ver a informação e a metainformação contida na tabela.

### Consultar a tabela

Basta escrever `população` e é-nos apresentado o conteúdo da tabela. Esta visualização funciona bem, porque a tabela é muito pequena.

In [165]:
população

Unnamed: 0,Ano,Natalidade,Mortalidade
0,2011,9.2,9.7
1,2012,8.5,10.2
2,2013,7.9,10.2
3,2014,7.9,10.1
4,2015,8.3,10.5
5,2016,8.4,10.7
6,2017,8.4,10.7
7,2018,8.5,11.0


Geralmente as tabelas são grande. Para visualizar ou processar apenas uma parte de uma tabela, temos muitas possibilidades para extrair apenas uma parte da tabela.

Pode-se fazer `população.head(3)` para ver as primeiras 3 linhas. Se não for indicado um valor, `população.head()` apresenta as primeiras 5 linhas.

In [10]:
população.head(1)

Unnamed: 0,Ano,Natalidade,Mortalidade
0,2011,9.2,9.7


### Ver as últimas linhas
`população.tail()` apresenta as últimas linhas da tabela. Pode ter como argumento o número de linhas que se pretende visualizar. `população.tail(1)` mostra apenas a última linha.

In [11]:
população.tail(2)

Unnamed: 0,Ano,Natalidade,Mortalidade
6,2017,8.4,10.7
7,2018,8.5,11.0


### Por colunas

Pode-se mostrar apenas uma ou mais colunas, com as seguintes formas:

1. `população.Natalidade`, só a coluna `Natalidade` 
1. `população['Natalidade']`, igual ao anterior
1. `população[['Natalidade', 'Ano']]`, para apresentar duas colunas específicas.


In [12]:
população[[ 'Natalidade', 'Ano', 'Mortalidade' ]]

Unnamed: 0,Natalidade,Ano,Mortalidade
0,9.2,2011,9.7
1,8.5,2012,10.2
2,7.9,2013,10.2
3,7.9,2014,10.1
4,8.3,2015,10.5
5,8.4,2016,10.7
6,8.4,2017,10.7
7,8.5,2018,11.0


### Por coordenadas

Pode-se consultar os valores em posições específicas, com o médoto [`DataFrame.iloc()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html). Os índices começam no 0 (zero).

Convém recordar a notação do Python para [selecionar partes de uma lista](https://stackoverflow.com/questions/509211/understanding-slice-notation).

1. `população.iloc[4]`, selecionar a quinta linha
1. `população.iloc[4:6]`, selecionar a quinta e sexta linha
1. `população.iloc[0:5]`, selecionar as 5 primeiras linhas (linhas 0 a 4), equivalente a `população.head()`
1. `população.iloc[0,1]`, primeira linha, segunda coluna
1. `população.iloc[0:3, 0:2]`, primeiras 3 linhas (linhas 0, 1 e 2) e primeiras duas colunas (colunas 0 e 1)

In [116]:
# Selecionar a quinta linha
# população.iloc[4]
# Selecionar a quinta e sexta linha
#população.iloc[4:6]
# Selecionar as 5 primeiras linhas (linhas 0 a 4)
# população.iloc[0:5]
# população.head()
# Primeira linha, segunda coluna
# população.iloc[0,1]
# As primeiras 3 linhas (linhas 0, 1 e 2) e as primeiras duas colunas (colunas 0 e 1)
população.iloc[0:6, 0:4]

Unnamed: 0,Ano,Natalidade,Mortalidade
0,2011,9.2,9.7
1,2012,8.5,10.2
2,2013,7.9,10.2
3,2014,7.9,10.1
4,2015,8.3,10.5
5,2016,8.4,10.7


### Metainformação 
Os métodos anteriores permitem-nos consultar a informação que está contida na tabela. Ou seja, o seu conteúdo. A metainformação dá-nos as propriedades da tabela e não o conteúdo propriamente dito.

Estude as propriedades que são reportadas pelos seguintes métodos/funções:



In [7]:
população.shape

(8, 3)

In [8]:
len(população)

8

In [9]:
população.columns

Index(['Ano', 'Natalidade', 'Mortalidade'], dtype='object')

In [10]:
população.dtypes

Ano              int64
Natalidade     float64
Mortalidade    float64
dtype: object

In [11]:
população.describe()

Unnamed: 0,Ano,Natalidade,Mortalidade
count,8.0,8.0,8.0
mean,2014.5,8.3875,10.3875
std,2.44949,0.408613,0.415546
min,2011.0,7.9,9.7
25%,2012.75,8.2,10.175
50%,2014.5,8.4,10.35
75%,2016.25,8.5,10.7
max,2018.0,9.2,11.0


### Ordenar a tabela

A tabela está organizada por linhas e colunas. Tal como foi declarada a tabela já está ordenada por linhas, pelo coluna `'Ano'`, certo?

Podemos ordenar a tabela por linhas, mas usando a coluna `'Natalidade'`, por exemplo:

In [12]:
população.sort_values(by=['Natalidade'])

Unnamed: 0,Ano,Natalidade,Mortalidade
2,2013,7.9,10.2
3,2014,7.9,10.1
4,2015,8.3,10.5
5,2016,8.4,10.7
6,2017,8.4,10.7
1,2012,8.5,10.2
7,2018,8.5,11.0
0,2011,9.2,9.7


A ordenação por ordem descrecente faz-se adicionando o parâmetro `ascending=False`:

In [13]:
população.sort_values(by=['Natalidade'], ascending=False)

Unnamed: 0,Ano,Natalidade,Mortalidade
0,2011,9.2,9.7
1,2012,8.5,10.2
7,2018,8.5,11.0
5,2016,8.4,10.7
6,2017,8.4,10.7
4,2015,8.3,10.5
2,2013,7.9,10.2
3,2014,7.9,10.1


O método `DataFrame.sort_index()` permite ordenar pelo índice das linhas (`axis=0`) ou pelo índice das colunas (`axis=1`).

Por exemplo, se quiseremos apresentar a coluna `'Natalidade'` em primeiro lugar, podemos fazer o seguinte:

In [14]:
população.sort_index(axis=1, ascending=False)


Unnamed: 0,Natalidade,Mortalidade,Ano
0,9.2,9.7,2011
1,8.5,10.2,2012
2,7.9,10.2,2013
3,7.9,10.1,2014
4,8.3,10.5,2015
5,8.4,10.7,2016
6,8.4,10.7,2017
7,8.5,11.0,2018


### Filtar a tabela com expressões

Para além das variadas consultas já apresentadas, é muito prático filtar a o conteúdo com base em expressões sobre os valores.

In [15]:
# população.Ano >= 2015

população[ população.Ano >= 2015 ]

Unnamed: 0,Ano,Natalidade,Mortalidade
4,2015,8.3,10.5
5,2016,8.4,10.7
6,2017,8.4,10.7
7,2018,8.5,11.0


In [16]:
população[ população.Ano.isin( [ 2012, 2016] )]

Unnamed: 0,Ano,Natalidade,Mortalidade
1,2012,8.5,10.2
5,2016,8.4,10.7


In [17]:
população[ (população.Natalidade >= 8.0) & (população.Mortalidade <= 10.0) ]

Unnamed: 0,Ano,Natalidade,Mortalidade
0,2011,9.2,9.7


### Valores agregados de uma coluna

In [18]:
população.Natalidade.sum()

67.1

In [19]:
população.Natalidade.mean()

8.3875

In [20]:
população.Natalidade.max()

9.2

In [21]:
população.Natalidade.min()

7.9

### Exercício
Calcule o(s) ano(s) em que se verificou a taxa mínima anteriormente calculada.

In [169]:
população.Ano[(população.Natalidade >= população.Natalidade.min())]

0    2011
1    2012
2    2013
3    2014
4    2015
5    2016
6    2017
7    2018
Name: Ano, dtype: int64

### Exercício

Calcule a taxa bruta de natalidade __média__ entre 2015 e 2018.

In [47]:
taxas = população.Natalidade[(população.Ano >= 2015) & (população.Ano <= 2018)]
total = len(taxas)
soma=0
i=0
for i in taxas:
    soma+=i
tbn=soma/total
print(tbn)

8.4


### Máximo de cada coluna

O método `DataFrame.max()` aplicado à tabela, retorna o máximo para cada uma das colunas.

In [44]:
população.max()

Ano            2018.0
Natalidade        9.2
Mortalidade      11.0
dtype: float64

### Trocar linhas por colunas (tópico avançado)

A tabela `população` que temos estado a usar tem 8 linhas e 3 colunas: `Ano`, `Natalidade` e `Mortalidade`.

Podemos criar uma nova tabela trocando as linhas por colunas. Usando o método `DataFrame.transpose()` todas as colunas viram linhas, como no exemplo seguinte.

In [23]:
p1 = população.transpose()
p1

Unnamed: 0,0,1,2,3,4,5,6,7
Ano,2011.0,2012.0,2013.0,2014.0,2015.0,2016.0,2017.0,2018.0
Natalidade,9.2,8.5,7.9,7.9,8.3,8.4,8.4,8.5
Mortalidade,9.7,10.2,10.2,10.1,10.5,10.7,10.7,11.0


Como se vê, passamos a ter 8 colunas, indexadas de 0 a 7. Nalgumas situações, dá jeito que uma das colunas passe a ser o índice das colunas. Para tal, usa-se o método `DataFrame.set_index()` antes de `transpose()`, como se faz no exemplo seguinte:

In [24]:
pop = população.set_index('Ano').transpose()
pop

Ano,2011,2012,2013,2014,2015,2016,2017,2018
Natalidade,9.2,8.5,7.9,7.9,8.3,8.4,8.4,8.5
Mortalidade,9.7,10.2,10.2,10.1,10.5,10.7,10.7,11.0


Como a coluna `Ano` era do tipo `int`, os índices das colunas são também do tipo `int`.

In [25]:
pop[[2011, 2012]]

Ano,2011,2012
Natalidade,9.2,8.5
Mortalidade,9.7,10.2


### Modificar a tabela

A tabela pode ser modificada. As duas formas mais simples de o fazer são usando o método `DataFrame.at()` ou `DataFrame.iat()`.

Os dois exemplos seguinte são equivalentes: alteram a taxa bruta da natalidade da primeira linha da tabela.

In [26]:
população.at[ 0, 'Natalidade' ] = 9.2

In [27]:
população.iat[ 0, 1 ] = 9.2

In [28]:
população.iloc[0, 1]

9.2

### Acrescentar uma coluna

Vamos criar uma coluna `'Diferença'` que resulta da diferenças entras as duas taxas representadas na tabela.

In [29]:
população['Diferença'] = população.Natalidade - população.Mortalidade
população

Unnamed: 0,Ano,Natalidade,Mortalidade,Diferença
0,2011,9.2,9.7,-0.5
1,2012,8.5,10.2,-1.7
2,2013,7.9,10.2,-2.3
3,2014,7.9,10.1,-2.2
4,2015,8.3,10.5,-2.2
5,2016,8.4,10.7,-2.3
6,2017,8.4,10.7,-2.3
7,2018,8.5,11.0,-2.5


### Ler tabelas em arquivos

Frequentemente as tabelas que manipulamos em Python vêem de arquivos e contêm muitos valores. Por isso, convém dominar os métodos anteriormente apresentados, para podermos explorar e processar tabelas com muitos dados.

Considere a seguinte tabela (com poucas dezenas de linhas e colunas), disponível no repositório [github](https://github.com/jgrocha/covid-pt). Como pode ver, o `pandas` lê sem problemas uma tabela remota, se lhe passarmos um endereço válido.

Explore o conteúdo da tabela, para perceber melhor o conteúdo, para depois fazer os exercícios pedidos.

In [93]:
pandemia = pandas.read_csv('https://raw.githubusercontent.com/jgrocha/covid-pt/master/situacao_epidemiologica.csv')

Esta não é considerada uma tabela grande. Mesmo assim, veja que é prático saber compor os métodos que se aprenderam para, por exemplo, mostrar os casos confirmados de COVID-19 nos últimos 10 dias.

Na mesma linha estamos a usar:

1. um método para ordenar `data_relatorio` por ordem descrecente;
1. a restingir apenas a duas colunas específicas;
1. a aproveitar apenas as 10 primeiras linhas.

In [50]:
pandemia.sort_values(by=['data_relatorio'], ascending=False)[['data_relatorio', 'confirmados']].head(10)

Unnamed: 0,data_relatorio,confirmados
64,2020-05-06,26182
63,2020-05-05,25702
14,2020-05-03,25282
46,2020-05-02,25190
45,2020-05-01,25351
43,2020-04-30,25056
42,2020-04-29,24322
38,2020-04-28,24322
15,2020-04-27,24027
11,2020-04-26,23864


### Selecionar algumas colunas

Já vimos em exemplos anteriores que se podem selecionar algumas colunas por extensão, isto é, através de uma lista.

Por vezes, nestas tabelas maiores, dá muito jeito selecionar colunas com base numa expressão (por compreensão).

Por exemplo, temos casos confirmados para o género masculino e feminino divididos por grupos etários. O mesmo acontece com o registo de óbitos: há colunas para cada um dos géneros, por grupos etários.
    
Usando [expressões regulares](https://docs.python.org/3/library/re.html) (um tópico avançado), podemos indicar um __padrão__ e só as colunas que obedecem a esse padrão são apresentadas.

Experimente diferentes expressões.

In [51]:
# pandemia.filter(regex=("obitos_")).head()
pandemia.filter(regex=("80_sup")).head()

Unnamed: 0,confirmados_masculino_80_sup,confirmados_feminino_80_sup,obitos_masculino_80_sup,obitos_feminino_80_sup
0,,,,
1,,,,
2,,,,
3,2.0,0.0,,
4,2.0,1.0,,


### Exercício

Temos muitos registos, um para cada dia. Diga qual é o primeiro dia dos registos.

In [117]:
pandemia

Unnamed: 0,id,url,data_relatorio,suspeitos,confirmados,nao_confirmados,aguarda_resultados,recuperados,obitos,em_vigilancia,...,obitos_masculino_80_sup,obitos_feminino_0_9,obitos_feminino_10_19,obitos_feminino_20_29,obitos_feminino_30_39,obitos_feminino_40_49,obitos_feminino_50_59,obitos_feminino_60_69,obitos_feminino_70_79,obitos_feminino_80_sup
0,5,https://covid19.min-saude.pt/wp-content/upload...,2020-03-07,224,21,,47.0,,0,412.0,...,,,,,,,,,,
1,6,https://covid19.min-saude.pt/wp-content/upload...,2020-03-08,281,30,,56.0,,0,447.0,...,,,,,,,,,,
2,8,https://covid19.min-saude.pt/wp-content/upload...,2020-03-10,375,41,,83.0,,0,667.0,...,,,,,,,,,,
3,11,https://covid19.min-saude.pt/wp-content/upload...,2020-03-13,1308,112,,172.0,,0,5674.0,...,,,,,,,,,,
4,12,https://covid19.min-saude.pt/wp-content/upload...,2020-03-14,1704,169,,126.0,1.0,0,5011.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
60,50,https://covid19.min-saude.pt/wp-content/upload...,2020-04-21,202769,21379,176381.0,5009.0,917.0,762,30646.0,...,225.0,0.0,0.0,0.0,0.0,5.0,5.0,22.0,68.0,282.0
61,53,https://covid19.min-saude.pt/wp-content/upload...,2020-04-24,227393,22797,200219.0,4377.0,1228.0,854,29621.0,...,251.0,0.0,0.0,0.0,0.0,5.0,5.0,24.0,71.0,323.0
62,63,https://covid19.min-saude.pt/wp-content/upload...,2020-04-04,254510,25524,226226.0,2760.0,1712.0,1063,25081.0,...,312.0,0.0,0.0,0.0,0.0,5.0,9.0,33.0,89.0,402.0
63,64,https://covid19.min-saude.pt/wp-content/upload...,2020-05-05,258488,25702,230115.0,2671.0,1743.0,1074,25066.0,...,313.0,0.0,0.0,0.0,0.0,5.0,9.0,34.0,89.0,408.0


In [122]:
pandemia.sort_values(by=['obitos'], ascending=False)

Unnamed: 0,id,url,data_relatorio,suspeitos,confirmados,nao_confirmados,aguarda_resultados,recuperados,obitos,em_vigilancia,...,obitos_masculino_80_sup,obitos_feminino_0_9,obitos_feminino_10_19,obitos_feminino_20_29,obitos_feminino_30_39,obitos_feminino_40_49,obitos_feminino_50_59,obitos_feminino_60_69,obitos_feminino_70_79,obitos_feminino_80_sup
64,65,https://covid19.min-saude.pt/wp-content/upload...,2020-05-06,262041,26182,233367.0,2492.0,2076.0,1089,24579.0,...,315.0,0.0,0.0,0.0,0.0,5.0,9.0,34.0,90.0,417.0
63,64,https://covid19.min-saude.pt/wp-content/upload...,2020-05-05,258488,25702,230115.0,2671.0,1743.0,1074,25066.0,...,313.0,0.0,0.0,0.0,0.0,5.0,9.0,34.0,89.0,408.0
62,63,https://covid19.min-saude.pt/wp-content/upload...,2020-04-04,254510,25524,226226.0,2760.0,1712.0,1063,25081.0,...,312.0,0.0,0.0,0.0,0.0,5.0,9.0,33.0,89.0,402.0
16,33,https://covid19.min-saude.pt/wp-content/upload...,2020-04-04,254510,25524,226226.0,2760.0,1712.0,1063,25081.0,...,312.0,0.0,0.0,0.0,0.0,5.0,9.0,33.0,89.0,402.0
14,62,https://covid19.min-saude.pt/wp-content/upload...,2020-05-03,252889,25282,223916.0,3691.0,1689.0,1043,25324.0,...,307.0,0.0,0.0,0.0,0.0,5.0,9.0,33.0,84.0,396.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19,10,https://covid19.min-saude.pt/wp-content/upload...,2020-03-12,637,78,,133.0,,0,4923.0,...,,,,,,,,,,
20,13,https://covid19.min-saude.pt/wp-content/upload...,2020-03-15,2271,245,1746.0,281.0,2.0,0,4592.0,...,,,,,,,,,,
21,15,https://www.dgs.pt/em-destaque/relatorio-de-si...,2020-03-17,4030,448,3259.0,323.0,3.0,0,6852.0,...,,,,,,,,,,
1,6,https://covid19.min-saude.pt/wp-content/upload...,2020-03-08,281,30,,56.0,,0,447.0,...,,,,,,,,,,


In [112]:
pandemia.sort_values(by=['data_relatorio'], ascending=True)[['data_relatorio']].head(1)

Unnamed: 0,data_relatorio
10,2020-03-03


### Exercício

Os óbitos estão registados comulativamente. Isto é, para cada dia, estão indicados todos os óbitos registados até esse dia e não apenas os óbitos desse dia. Diga em que dia se atingiram os mil óbitos.

In [133]:
pandemia.data_relatorio[(pandemia.obitos>1000)].head(1)

14    2020-05-03
Name: data_relatorio, dtype: object

In [161]:
pandemia.data_relatorio[(pandemia.obitos)]

SyntaxError: invalid syntax (<ipython-input-161-8558ba5aef27>, line 1)