# Raspagem dos Gastos Diretos por Órgão Executor

No Portal da Transparência do Governo Federal iremos obter os dados de gastos diretos de alguns órgãos do Executivo Federal, ao longo dos últimos 5 anos

## Estratégia
Primeiro vamos ao site analisar a página e traçar uma estratégia para obter os dados.

Podemos ver que precisamos do Ano e do CodigoOS, que é o código do órgão. Navegando pelas páginas com os dados de cada órgão podemos visualizar a URL formada e gurdar os códigos que queremos

In [None]:
# Importando as bibliotecas
import requests
from bs4 import BeautifulSoup as bs


In [None]:
# Vamos fazer primeiro para apenas 1 órgão -> MCTIC
# Analisando a página verificamos que podemos obter os dados informando o Ano e o CodigoOS
# MCTIC -> CodigoOS=24000

url = 'http://www.portaltransparencia.gov.br/PortalComprasDiretasOEOrgaoSubordinado.asp?Ano=2018&CodigoOS=24000'

resposta = requests.get(url)

resposta.text

In [None]:
# Para obter as informações que queremos na página primeiro precisamos processar essa sopa de letrinhas
# e fazemos isso usando a biblioteca BeautifulSoup
html_soup = bs(resposta.text, 'html.parser')
html_soup

In [None]:
# Agora precisamos identificar as tags HTML correspondentes ao texto que queremos
# e usar o BeautifulSoup para retornar apenas esses elementos
print(html_soup.find_all('td', class_ = 'colunaValor'))

In [None]:
# Obter os dados e guardar em uma estrutura
valores = html_soup.find_all('td', class_ = 'colunaValor')

# Agora vamos filtrar somente o texto do valor que queremos e vamos limpar os espaços
valor = valores[1].text.strip()

valor

In [None]:
# Valor está como string e precisa ser transformado em float
# Trocar pontos por nada
valor = valor.replace('.', '')
# Trocar virgula por ponto
valor = valor.replace(',', '.')
# Transformar em float
valor = float(valor)

valor

In [None]:
# Obter os dados de gastos diretos dos ultimos 5 anos do MCTIC

# Criar uma lista com os anos para depois fazer um for nessa lista e requisitar ano a ano
anos = ['2014', '2015', '2016', '2017', '2018']

# Criar lista vazia dos gastos
gastos = []

# Percorrer a lista de anos
for ano in anos:
    # Montar a URL de requisicao
    url = f'http://www.portaltransparencia.gov.br/PortalComprasDiretasOEOrgaoSubordinado.asp?Ano={ano}&CodigoOS=24000'
    # Requisitar a pagina
    resposta = requests.get(url)
    # Processar a sopa de letrinhas
    html_soup = bs(resposta.text, 'html.parser')
    # Extrair todos os valores
    valores = html_soup.find_all('td', class_ = 'colunaValor')
    # Pegar apenas 1 valor
    valor = valores[1].text.strip()
    # Trocar pontos por nada
    valor = valor.replace('.', '')
    # Trocar virgula por ponto
    valor = valor.replace(',', '.')
    # Transformar em float
    valor = float(valor)
    # Adicionar o valor na lista
    gastos.append(valor/1000000000)

# Imprimir gastos
gastos

In [None]:
# Plotar os valores em um gráfico de linhas
import matplotlib.pyplot as plt
# Configurar para o grafico aparecer no notebook
%matplotlib inline

# Criar o grafico
plt.grid(True, linestyle="--")
plt.plot(anos, gastos, label='MCTIC', marker='o')
plt.title("Gastos Destinados pelo Governo Federal (2014-2018)\n")
plt.xlabel("Anos")
plt.ylabel("Em bilhões de R$")
legend = plt.legend()
plt.show()

In [None]:
# Exercicio -> Fazer para outros orgaos
# Pegar o codigo de cada orgao na mão
# Guardar em uma lista