# Pandas <3 Dados.gov.pt

Vamos experimentar fazer uns requests e ver que endpoints nos podem interessar usando Python e o módulo Requests, perfeito para expedições como esta. Vamos também empregar o Pandas para analisar a informação obtida.

Ajuda aqui ter aberta a [página de introdução à API do Dados.gov.pt](https://dados.gov.pt/pt/apidoc/), que já tem a info toda que precisamos.

## Antes de começar

Antes de mais, é preciso [criar uma conta no Dados.gov.pt](https://dados.gov.pt/pt/register) para obtermos uma chave API que vai ser necessária em cada pedido que lhe fizermos. Depois de concluírmos o registo clicando no mail de confirmação, basta ir ao [nosso dashboard](https://dados.gov.pt/pt/admin/me/#apikey), clicar em _Gerar uma chave para a API_ e guardá-la bem. 

Com a nossa chave na mão, tratamos agora de importar as bibliotecas que precisamos.

In [13]:
import requests
import pandas as pd
from tqdm import tqdm, tqdm_notebook
from time import sleep

Também é mais prático gravar a chave numa variável para não termos de a repetir abaixo.

In [14]:
apikey = 'eyJhbGciOiJIUzUxMiJ9.eyJ1c2VyIjoiNWRhMWQ1NDI0NTRhZTM2YWJmNDVkOTZjIiwidGltZSI6MTU3MDg4NzEwMi44ODY1OX0.AGNW1MbBAWmrCCvOgci5HlHoXyUfk2_BDYIf6cFB8TdyrH-tdKuGEnfAZOIv9m2oACb4wpaDP1-yGomGfV0New'

Finalmente, também vai ser prático usar um objeto `Session` 
para podermos definir aí a API key e não termos de a andar 
sempre a repetir. 

Os [docs](https://requests.kennethreitz.org/en/master/user/advanced/#session-objects) do módulo `requests` explicam melhor como funciona
este truque.

In [15]:
session = requests.Session()
session.headers.update({'X-API-KEY': apikey})

## Obter a lista dos datasets existentes

Para começar, vamos descobrir quantos datasets temos à disposição.

In [16]:
response = session.get('https://dados.gov.pt/api/1/datasets/')
datasets = response.json().get('data')
print(len(datasets))

20


Naturalmente que não são só 20 datasets, mas a lista que nos dão está paginada; para obtermos a lista completa precisamos de seguir o parâmetro `next_page` até chegarmos à página final (em que o `next_page` será `NULL`).

**Atenção:** Este ponto demora bastante porque tem de sacar mais de 100 páginas. É melhor correr a célula seguinte apenas uma vez, senão o Dados.gov.pt fica irritado connosco por lhes batermos tantas vezes à porta.

In [17]:
next_page = response.json().get('next_page')
while next_page:
    response = session.get(next_page)
    datasets += response.json().get('data')
    next_page = response.json().get('next_page')
    print(next_page)
    if not next_page:
        print('Tá feito!')
        break

https://dados.gov.pt/api/1/datasets/?page=3
https://dados.gov.pt/api/1/datasets/?page=4
https://dados.gov.pt/api/1/datasets/?page=5
https://dados.gov.pt/api/1/datasets/?page=6
https://dados.gov.pt/api/1/datasets/?page=7
https://dados.gov.pt/api/1/datasets/?page=8
https://dados.gov.pt/api/1/datasets/?page=9
https://dados.gov.pt/api/1/datasets/?page=10
https://dados.gov.pt/api/1/datasets/?page=11
https://dados.gov.pt/api/1/datasets/?page=12
https://dados.gov.pt/api/1/datasets/?page=13
https://dados.gov.pt/api/1/datasets/?page=14
https://dados.gov.pt/api/1/datasets/?page=15
https://dados.gov.pt/api/1/datasets/?page=16
https://dados.gov.pt/api/1/datasets/?page=17
https://dados.gov.pt/api/1/datasets/?page=18
https://dados.gov.pt/api/1/datasets/?page=19
https://dados.gov.pt/api/1/datasets/?page=20
https://dados.gov.pt/api/1/datasets/?page=21
https://dados.gov.pt/api/1/datasets/?page=22
https://dados.gov.pt/api/1/datasets/?page=23
https://dados.gov.pt/api/1/datasets/?page=24
https://dados.gov

E agora sim, podemos ver o número total de datasets:

In [18]:
len(datasets)

2153

A ajuda do Dados.gov.pt diz-nos [que informação podemos encontrar nesta request](https://dados.gov.pt/pt/apidoc/#!/datasets/list_datasets). 

Vamos agora passá-los para o Pandas para conseguirmos extrair algo de interesse.

## Importar a lista para o Pandas e limpar alguns campos

Ora vamos lá sujar as mãos com dados.

In [30]:
df = pd.DataFrame(datasets)
df.head()

Unnamed: 0,acronym,badges,created_at,deleted,description,extras,frequency,frequency_date,id,last_modified,...,owner,page,private,resources,slug,spatial,tags,temporal_coverage,title,uri
0,,[],2019-08-02T14:59:13.336000,,Informação relativa a:\nQUADRO 1: Despesa em I...,{},annual,2019-01-31T00:00:00,5d4441b1454ae34132015f56,2019-08-02T15:04:17.157000,...,,https://dados.gov.pt/pt/datasets/laboratorios-...,False,"[{'checksum': None, 'created_at': '2019-08-02T...",laboratorios-do-estado-recursos-humanos-e-desp...,"{'geom': None, 'granularity': 'other', 'zones'...","[despesa-total, i-d, investigadores, laborator...","{'end': '2017-12-31', 'start': '2013-01-01'}",Laboratórios do Estado: recursos humanos e des...,https://dados.gov.pt/api/1/datasets/laboratori...
1,,[],2019-08-07T10:54:11.105000,,Informação relativa a produção científica port...,{},annual,2019-02-28T00:00:00,5d4a9fc3454ae32d5498ec07,2019-08-07T10:56:41.639000,...,,https://dados.gov.pt/pt/datasets/producao-cien...,False,"[{'checksum': None, 'created_at': '2019-08-07T...",producao-cientifica-portuguesa-1996-2017-indic...,"{'geom': None, 'granularity': 'other', 'zones'...","[citacoes, i-d, impacto-normalizado-citacoes, ...","{'end': '2017-12-31', 'start': '1996-01-01'}","Produção Científica Portuguesa, 1996-2017: Ind...",https://dados.gov.pt/api/1/datasets/producao-c...
2,,[],2019-08-07T10:44:35.318000,,Informação relativa a:\t\t\t\t\t\nQuadro 1. Nú...,{},annual,2019-02-28T00:00:00,5d4a9d83454ae3284eb66aa6,2019-08-07T10:47:45.122000,...,,https://dados.gov.pt/pt/datasets/producao-cien...,False,"[{'checksum': None, 'created_at': '2019-08-07T...",producao-cientifica-portuguesa-1996-2017-serie...,"{'geom': None, 'granularity': 'other', 'zones'...","[co-autoria, i-d, publicacoes-cientificas, pub...","{'end': '2017-12-31', 'start': '1996-01-01'}","Produção Científica Portuguesa, 1996-2017: Sér...",https://dados.gov.pt/api/1/datasets/producao-c...
3,,[],2019-08-02T15:19:42.272000,,Informação relativa a:\nQuadro 1.1 - Atividade...,{},biennial,2018-10-04T00:00:00,5d44467e454ae34b7917f4f8,2019-08-02T15:22:52.297000,...,,https://dados.gov.pt/pt/datasets/cis2016-inque...,False,"[{'checksum': None, 'created_at': '2019-08-02T...",cis2016-inquerito-comunitario-a-inovacao-sumar...,"{'geom': None, 'granularity': 'other', 'zones'...","[despesa-com-inovacao, empresas, inovacao, ino...","{'end': '2016-12-31', 'start': '2014-01-01'}",CIS2016: Inquérito Comunitário à Inovação - Su...,https://dados.gov.pt/api/1/datasets/cis2016-in...
4,,[],2018-06-12T12:01:11.228000,,Este acervo virtual apresenta os principais re...,{},quarterly,,5b1fa7f7c8d8c919b90b4b86,2018-06-12T12:23:17.605000,...,,https://dados.gov.pt/pt/datasets/arte-urbana-1/,False,"[{'checksum': {'type': 'sha1', 'value': '47509...",arte-urbana-1,"{'geom': None, 'granularity': 'poi', 'zones': []}","[administracao-local, amadora, arte-urbana, ci...",,Arte Urbana,https://dados.gov.pt/api/1/datasets/arte-urban...


Yeah! Vamos agora retirar colunas vazias (como a `deleted`). E vamos também reformatar campos em que poderíamos ter representações mais práticas.

In [69]:
# Apagar colunas sem qualquer valor
fields_to_del = ('deleted', 'private', 'extras', 'badges')
for field in fields_to_del:
    if field in df:
        del df[field]

# Separar a coluna "temporal_coverage" em campos "coverage_start" e "coverage_end",
# para termos datas limpas
def separate_coverage(d):
    if not d:
        return (None, None)
    return (d.get("start"), d.get("end"))
# https://stackoverflow.com/a/12356541/122400
if "temporal_coverage" in df:
    df["coverage_start"], df["coverage_end"] = zip(*df["temporal_coverage"].map(separate_coverage))
    del df["temporal_coverage"]

# Harmonizar datas que estão expressas como datetime
df["frequency_date"] = df["frequency_date"].map(lambda x: x.split("T")[0], na_action='ignore')

df.head()

Unnamed: 0,acronym,created_at,description,frequency,frequency_date,id,last_modified,last_update,license,metrics,...,owner,page,resources,slug,spatial,tags,title,uri,coverage_start,coverage_end
0,,2019-08-02T14:59:13.336000,Informação relativa a:\nQUADRO 1: Despesa em I...,annual,2019-01-31,5d4441b1454ae34132015f56,2019-08-02T15:04:17.157000,2019-08-02T15:04:17.088000,other-pd,"{'discussions': 0, 'followers': 0, 'issues': 0...",...,,https://dados.gov.pt/pt/datasets/laboratorios-...,"[{'checksum': None, 'created_at': '2019-08-02T...",laboratorios-do-estado-recursos-humanos-e-desp...,"{'geom': None, 'granularity': 'other', 'zones'...","[despesa-total, i-d, investigadores, laborator...",Laboratórios do Estado: recursos humanos e des...,https://dados.gov.pt/api/1/datasets/laboratori...,2013-01-01,2017-12-31
1,,2019-08-07T10:54:11.105000,Informação relativa a produção científica port...,annual,2019-02-28,5d4a9fc3454ae32d5498ec07,2019-08-07T10:56:41.639000,2019-02-28T00:00:00,other-pd,"{'discussions': 0, 'followers': 0, 'issues': 0...",...,,https://dados.gov.pt/pt/datasets/producao-cien...,"[{'checksum': None, 'created_at': '2019-08-07T...",producao-cientifica-portuguesa-1996-2017-indic...,"{'geom': None, 'granularity': 'other', 'zones'...","[citacoes, i-d, impacto-normalizado-citacoes, ...","Produção Científica Portuguesa, 1996-2017: Ind...",https://dados.gov.pt/api/1/datasets/producao-c...,1996-01-01,2017-12-31
2,,2019-08-07T10:44:35.318000,Informação relativa a:\t\t\t\t\t\nQuadro 1. Nú...,annual,2019-02-28,5d4a9d83454ae3284eb66aa6,2019-08-07T10:47:45.122000,2019-02-28T00:00:00,other-pd,"{'discussions': 0, 'followers': 0, 'issues': 0...",...,,https://dados.gov.pt/pt/datasets/producao-cien...,"[{'checksum': None, 'created_at': '2019-08-07T...",producao-cientifica-portuguesa-1996-2017-serie...,"{'geom': None, 'granularity': 'other', 'zones'...","[co-autoria, i-d, publicacoes-cientificas, pub...","Produção Científica Portuguesa, 1996-2017: Sér...",https://dados.gov.pt/api/1/datasets/producao-c...,1996-01-01,2017-12-31
3,,2019-08-02T15:19:42.272000,Informação relativa a:\nQuadro 1.1 - Atividade...,biennial,2018-10-04,5d44467e454ae34b7917f4f8,2019-08-02T15:22:52.297000,2019-08-02T15:20:32.561000,other-pd,"{'discussions': 0, 'followers': 0, 'issues': 0...",...,,https://dados.gov.pt/pt/datasets/cis2016-inque...,"[{'checksum': None, 'created_at': '2019-08-02T...",cis2016-inquerito-comunitario-a-inovacao-sumar...,"{'geom': None, 'granularity': 'other', 'zones'...","[despesa-com-inovacao, empresas, inovacao, ino...",CIS2016: Inquérito Comunitário à Inovação - Su...,https://dados.gov.pt/api/1/datasets/cis2016-in...,2014-01-01,2016-12-31
4,,2018-06-12T12:01:11.228000,Este acervo virtual apresenta os principais re...,quarterly,,5b1fa7f7c8d8c919b90b4b86,2018-06-12T12:23:17.605000,2018-06-12T12:02:09,other-pd,"{'discussions': 0, 'followers': 2, 'issues': 0...",...,,https://dados.gov.pt/pt/datasets/arte-urbana-1/,"[{'checksum': {'type': 'sha1', 'value': '47509...",arte-urbana-1,"{'geom': None, 'granularity': 'poi', 'zones': []}","[administracao-local, amadora, arte-urbana, ci...",Arte Urbana,https://dados.gov.pt/api/1/datasets/arte-urban...,,


## E agora?

Já temos um dataset mais ou menos organizado, mas ainda há algum trabalho para podermos ter um índice completo e bem estruturado num CSV:

- extrair informação da coluna `resources`
- investigar se as colunas `owner`, `spatial` e `metrics` tem interesse ou não
- desdobrar a coluna `tags`

No próximo Date With Data (9 de novembro) vamos tentar fechar isto! Obrigado aos telespectadores que nos acompanham aí em casa!