In [1]:
# -*- coding: utf-8
# Reinaldo Chaves (@paidatocandeira)
# Acessa a API do Portal da Transparência para pegar os códigos de identificação do SIAFI e do SIAPE
# Programa do curso Técnicas de raspagem de dados e acesso a APIs
#

In [2]:
import requests
import pandas as pd

In [3]:
# Documentação em: http://www.transparencia.gov.br/swagger-ui.html#/
# Procurar em Órgãos

# SIAFI - Sistema Integrado de Administração Financeira do Governo Federal

In [4]:
# Na documentação é possível verificar que são 39 páginas atualmente
for num in range(1, 40): 
    pagina = str(num)
    # Aqui o único parâmetro necessário é o número da página
    url = f'http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina={pagina}'
    print(url)
    
    # Testes padrões de erros em requisições 
    try:
        # Faz requisição com o método GET
        # O método GET é usado para recuperar informações do servidor usando um determinado URI
        r = requests.get(url)
    except requests.exceptions.HTTPError as errh:
        print ("Http Error:",errh)
    except requests.exceptions.ConnectionError as errc:
        print ("Error Connecting:",errc) 
    except requests.exceptions.Timeout as errt:
        print ("Timeout Error:",errt)
    except requests.exceptions.RequestException as err:
        print ("OOps: Something Else",err)
    
    # Uma das formas de resposta pode ser no formato JSON
    siafi = r.json()
    
    # Só para mostrar o JSON
    #print(siafi)
    #a = input("Aperte para continuar...")
    
    # E o formato JSON pode ser transformado em dataframe com o pandas    
    df_siafi_parcial = pd.DataFrame(siafi)
    
    if num == 1: # caso for a primeira página
        df_siafi = df_siafi_parcial
    elif num > 1: # a partir da segunda faz um append nos dados
        # Depois da primeira página faz append no dataframe final
        df_siafi = df_siafi.append(df_siafi_parcial)

http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=1
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=2
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=3
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=4
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=5
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=6
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=7
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=8
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=9
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=10
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=11
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=12
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siafi?pagina=13
http://www.portaldatr

In [5]:
df_siafi.reset_index().head()

Unnamed: 0,index,codigo,descricao
0,0,1000,Câmara dos Deputados - Unidades com vínculo di...
1,1,1901,Fundo Rotativo da Câmara dos Deputados
2,2,2000,Senado Federal - Unidades com vínculo direto
3,3,2001,Fundo Especial do Senado Federal
4,4,2002,Senado Federal/ FUNSEEP


In [6]:
df_siafi.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 576 entries, 0 to 5
Data columns (total 2 columns):
codigo       576 non-null object
descricao    576 non-null object
dtypes: object(2)
memory usage: 13.5+ KB


In [7]:
# Procura quais tem CIENCIA no nome

In [8]:
str_choice = "CIENCIA|CIÊNCIA|Ciencia|Ciência" 

ciencia = df_siafi[df_siafi['descricao'].str.contains(str_choice, na=False)]

In [9]:
ciencia.head()

Unnamed: 0,codigo,descricao
10,24000,"Ministério da Ciência, Tecnologia, Inovações e..."
12,26284,Fundação Universidade Federal de Ciências da S...
3,26356,"Instituto Federal de Educação, Ciência e Tecno..."
5,26402,"Instituto Federal de Educação, Ciência e Tecno..."
6,26403,"Instituto Federal de Educação, Ciência e Tecno..."


In [10]:
# O Ministério da Ciência, Tecnologia, Inovações e Comunicações é '24000'

In [11]:
# Grava CSV

In [12]:
df_siafi.to_csv("codigos/codigos_siafi.csv", index=False)

In [18]:
# Agora mesmo processo para pegar os códigos de identificação do SIAPE

#  SIAPE (Sistema Integrado de Administração de Pessoal)

In [13]:
for num in range(1, 41):
    pagina = str(num)
    url = f'http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina={pagina}'
    print(url)
    
    try:
        r = requests.get(url)
    except requests.exceptions.HTTPError as errh:
        print ("Http Error:",errh)
    except requests.exceptions.ConnectionError as errc:
        print ("Error Connecting:",errc) 
    except requests.exceptions.Timeout as errt:
        print ("Timeout Error:",errt)
    except requests.exceptions.RequestException as err:
        print ("OOps: Something Else",err)
        
    siape = r.json()
    
    df_siape_parcial = pd.DataFrame(siape)
    
    if num == 1:
        df_siape = df_siape_parcial
    elif num > 1:
        df_siape = df_siape.append(df_siape_parcial)

http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=1
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=2
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=3
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=4
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=5
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=6
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=7
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=8
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=9
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=10
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=11
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=12
http://www.portaldatransparencia.gov.br/api-de-dados/orgaos-siape?pagina=13
http://www.portaldatr

In [14]:
df_siape.reset_index().head()

Unnamed: 0,index,codigo,descricao
0,0,1,IGNORADO - CONVERSAO DO SIPEFAZ
1,1,5,Exc - Empresa Privada
2,2,6,Exc - Empresas Públicas / CLT
3,3,8,Exc - Entidades em Extinção / L.80
4,4,9,Exc - Estados / Municípios / Outros


In [15]:
df_siape.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 590 entries, 0 to 4
Data columns (total 2 columns):
codigo       590 non-null object
descricao    590 non-null object
dtypes: object(2)
memory usage: 13.8+ KB


In [16]:
df_siape.to_csv("codigos/codigos_siape.csv", index=False)