<p>As bibliotecas utilizadas para a extração dos dados serão:</p>
<ul>
    <li><b>Requests:</b> Faz a requisição GET da página;</li>
    <li><b>Beautiful Soup:</b> Realiza as etapas do Web Scraping;</li>
    <li><b>Pandas:</b> Utilizada para criar um dataframe utilizando os dados coletados.</li>
</ul>

In [1]:
# Importando as bibliotecas:
from bs4 import BeautifulSoup
import requests
import pandas as pd

<p>O primeiro passo é utilizar a biblioteca <b>requests</b> para uma requisição <b>GET</b> do conteúdo da página</p>
<p>Após obter a requisição, é utilizada a biblioteca <b>BeautifulSoup</b> para realizar o parse do HTML, que seria basicamente uma análise deste HTML. Ao imprimir os dados, é possível visualizar o HTML extraído.</p>

In [2]:
# Importando os dados do HTML
html_pagina_contatos = requests.get('https://sistemas.amparo.sp.gov.br/ords/amparo/f?p=839:22:0::::P22_ID_ATA_REGISTRO,P22_PESS,P22_DETALHAR_PARAMETRO:,,0').content
soup_pagina_contatos = BeautifulSoup(html_pagina_contatos, 'html.parser')
print(soup_pagina_contatos.prettify())

<html id="amparo" lang="pt-br" xmlns="http://www.w3.org/1999/xhtml" xmlns:htmldb="http://htmldb.oracle.com">
 <head>
  <meta content="IE=edge" http-equiv="x-ua-compatible"/>
  <meta content="FE0NsE5WFlvWFn4aUcvdzafIfx23KsVbExYHMUAbvhs" name="google-site-verification"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <script src="https://kit.fontawesome.com/3c8de23060.js">
  </script>
  <link href="/i/themes/theme_13/theme_3_1.css" rel="stylesheet" type="text/css"/>
  <link href="/pkgtransparencia/amparo/V2/css/estilo.css" id="acessiblidade" rel="stylesheet" type="text/css"/>
  <link href="/pkgtransparencia/bootstrap/css/bootstrap.css" rel="stylesheet"/>
  <!--script src="http://code.jquery.com/jquery-1.11.3.min.js"></script>  
<script type="text/javascript" src="https://cdn.datatables.net/1.10.11/js/jquery.dataTables.min.js"></script>
<script type="text/javascript" src="https://cdn.datatables.net/fixedcolumns/3.2.1/js/dataTables.fixedColumns.min.js"></script

<p>O método <b>find_all</b> de <b>BeautifulSoup</b> permite encontrar todos os elementos HTML especificados. Primeiramente, iremos extrair todos os links utilizando a tag <b>a</b> como parâmetro para a busca.</p>

In [3]:
# Encontrando todos os links da página
links = soup_pagina_contatos.find_all('a')
links

[<a name="PAGETOP"></a>,
 <a href="f?p=839:1">
 <img border="0" src="apex_util.get_blob_file?a=839&amp;s=10599740564206&amp;p=2&amp;d=277103102031193094&amp;i=277101413206193060&amp;p_pk1=2&amp;p_pk2=&amp;p_ck=FAkStGtQN-mIOF164AVf2kGeDqlc_2hI0hTBOlW-PVTwlZ87TEIUo3Yu0BFEgx3C9sNrFUITTnA8dfnFzS-BcA"/>
 </a>,
 <a id="zoom_in"><span class="glyphicon glyphicon-plus"></span></a>,
 <a id="zoom_out"><span class="glyphicon glyphicon-minus"></span></a>,
 <a class="seleciona-estilo2"><span class="glyphicon glyphicon-adjust"></span></a>,
 <a class="seleciona-estilo"><span class="glyphicon glyphicon-tint"></span></a>,
 <a href="f?p=846" target="_blank"><span class="glyphicon glyphicon-lock"></span></a>,
 <a href="f?p=839:22::PESQUISAR:::P22_PARAMETRO,P22_CONTRATO,P22_CONT_ID,P22_TIPO:2,2%2F2020,11,CONTRATO">Exibir</a>,
 <a href="F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:11,VEROCHEQUE REFEICOES LTDA,2">Aditivos</a>,
 <a href="f?p=839:22::PESQUISAR:::P22_PARAMETRO,P22_CONTRATO,P22_CO

<p>Como só queremos os links que representam os aditivos, e como podemos observar ao analisar o HTML que não existe uma classe específica nestes links, podemos utilizar o texto que representa estes links, no caso <b>Aditivos</b>.</p>
<p>Com esta finalidade, podemos utilizar o conceito de <b>list comprehension</b> para criar uma list que contém todos os links que representam um aditivo.</p>

In [4]:
# Fazendo uma lista com todos os links que correspondem aos aditivos
lista_aditivos = [a.attrs for a in links if a.text == 'Aditivos']
lista_aditivos

[{'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:11,VEROCHEQUE REFEICOES LTDA,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:59,MKS - MASTER KEY SYSTEMS SOLUÇÃO EM SISTEMAS DE GESTÃO EMPRESARIAL LTDA - ME,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:114,M.NEHMEH ENTREPOSTO CARNES EIRELI,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:34,MARIA BERNADETE GABRIEL LINDO,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:52,CENTRO DE INTEGRAÇÃO EMPRESA ESCOLA - CIEE,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:57,TIX PARTICIPACOES E ADMINISTRACAO LTDA,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:48,ROSANGELA CAMARGO TAMBELLINI FERRACO,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:194,TOPAN CONSTRUTORA EIRELI EPP,2'},
 {'href': 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22

<p>Com a lista de aditivos gerados, agora é possível extrair desta lista os parâmetros da URL de cada aditivo, que consistem no texto atribuído a <b>href</b>.</p>

In [5]:
lista_atributos = [atributo['href'] for atributo in lista_aditivos]
lista_atributos

['F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:11,VEROCHEQUE REFEICOES LTDA,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:59,MKS - MASTER KEY SYSTEMS SOLUÇÃO EM SISTEMAS DE GESTÃO EMPRESARIAL LTDA - ME,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:114,M.NEHMEH ENTREPOSTO CARNES EIRELI,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:34,MARIA BERNADETE GABRIEL LINDO,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:52,CENTRO DE INTEGRAÇÃO EMPRESA ESCOLA - CIEE,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:57,TIX PARTICIPACOES E ADMINISTRACAO LTDA,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:48,ROSANGELA CAMARGO TAMBELLINI FERRACO,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:194,TOPAN CONSTRUTORA EIRELI EPP,2',
 'F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:130,AUGUSTA HELENA BALDON VARGA,2',
 'F?P=839:22:0::::P22_CONT_ID,P22

<p>Para conseguir acessar cada link, será necessário concatenar a URL base do site com o parâmetro extraído de <b>href</b>. Para isso, podemos criar uma lista contendo todas as URLs, já concatenadas.</p>

In [6]:
# Url base do site de contratos
url_base = 'https://sistemas.amparo.sp.gov.br/ords/amparo/'

In [7]:
# Url para acessar o site dos aditivos é composta pela url base + atributo que está na lista de atributos
lista_urls = [f'{url_base}{atributo}' for atributo in lista_atributos]
lista_urls

['https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:11,VEROCHEQUE REFEICOES LTDA,2',
 'https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:59,MKS - MASTER KEY SYSTEMS SOLUÇÃO EM SISTEMAS DE GESTÃO EMPRESARIAL LTDA - ME,2',
 'https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:114,M.NEHMEH ENTREPOSTO CARNES EIRELI,2',
 'https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:34,MARIA BERNADETE GABRIEL LINDO,2',
 'https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:52,CENTRO DE INTEGRAÇÃO EMPRESA ESCOLA - CIEE,2',
 'https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:57,TIX PARTICIPACOES E ADMINISTRACAO LTDA,2',
 'https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0

<p>O próximo passo é extrair os dados de cada URL. Ao analisar a página que será manipulada, utilizando o navegador, percebi que cada elemento <b>td</b>(table data), onde estão contidos os dados desejados, possui um atributo <b>headers</b> com o nome de sua respectiva coluna (CONTRATO, VLR_ADITIVO, DES_OBJETO, TIPO, VIGENCIA, FORNECEDOR). Desta forma, pode-se utilizar este atributo para identificar cada coluna.</p>
<p>Um problema com esta abordagem, é que ao abrir o link que redireciona para os aditivos, o site abre uma janela flutuante com a tabela contendo estas informações, de forma que a tabela principal continua aberta ao fundo, e existem elementos da tabela principal que contêm o mesmo atributo <b>headers</b>. Ao tentar utilizar apenas este atributo como identificador, seriam trazidos dados da tabela principal em algumas colunas.</p>
<p>Para evitar este problema, verifiquei que os elementos da janela flutuante se encontram dentro de uma <b>div</b> que é identificada através do id <b>report_252930713325624987_catch</b>. Através da biblioteca BeautifulSoup é possível extrair somente os elementos que se encontram dentro desta <b>div</b> específica.</p>
<p>Com esta finalidade foram criadas duas funções. A primeira, <b>procura_tag</b>, encontra a tag que contém o id especificado, e pode ser utilizada como parâmetro para o método find do objeto gerado por Beautiful Soup. A segunda função, <b>extrair_dados</b> recebe por parâmetro a URL, e retorna cada coluna extraída em forma de uma lista.</p>

In [8]:
# Procura a div que contém os dados dos aditivos
def procura_tag(tag):
    return tag.has_attr('id') and 'report_252930713325624987_catch' in tag.attrs['id']

# Para cada url é preciso extrair os dados necessários
def extrair_dados(url):
    # Faz a requisição do HTML da url
    html = requests.get(url).content
    # Utiliza html.parser para realizar uma análise do HTML
    soup = BeautifulSoup(html, 'html.parser')
    # Encontra a div onde fica a tabela de aditivos
    div_procurada = soup.find(procura_tag)
    if div_procurada is not None:
        # Lista todas as tags td dentro da div
        lista_tags = div_procurada.find_all('td')
        # Lista com todas as tags que contém o atributo headers
        lista_tags_com_headers = [tag for tag in lista_tags if 'headers' in tag.attrs]
        # Lista de contratos 
        lista_contratos = [tag.text for tag in lista_tags_com_headers if 'CONTRATO' in tag.attrs['headers']]
        # Lista de valores
        lista_valores = [tag.text for tag in lista_tags_com_headers if 'VLR_ADITIVO' in tag.attrs['headers']]
        # Lista de objetos
        lista_objetos = [tag.text for tag in lista_tags_com_headers if 'DES_OBJETO' in tag.attrs['headers']]
        # Lista de tipos
        lista_tipos = [tag.text for tag in lista_tags_com_headers if 'TIPO' in tag.attrs['headers']]
        # Lista de vigências
        lista_vigencias = [tag.text for tag in lista_tags_com_headers if 'VIGENCIA' in tag.attrs['headers']]
        # Lista de fornecedores
        lista_fornecedores = [tag.text for tag in lista_tags_com_headers if 'FORNECEDOR' in tag.attrs['headers']]
        # Retorna as listas
        return lista_contratos, lista_valores, lista_objetos, lista_tipos, lista_vigencias, lista_fornecedores, url
    else:
        print(f'{url} não contém aditivos!')

<p>Com as funções criadas, podemos inicializar algumas listas vazias e atribuir suas referências a um dicionário (posteriormente, este dicionário será usado para criar um dataframe). Através de um laço, será percorrida a lista de URLs, e a função <b>extrair_dados</b> receberá como parâmetro cada URL. Os valores extraídos, por sua vez, serão adicionados a cada lista através do método <b>extend</b>.</p>
<p>Ao final o dicionário terá uma chave com o nome de cada coluna, e a lista atribuída a esta chave estará preenchida com todos os dados. Lembrando que este comportamento é possível devido ao fato das listas serem objetos mutáveis e o dicionário receber a referência de cada objeto lista, que é basicamente a posição que a lista ocupa na memória. Cada vez que um valor é adicionado na lista, o dicionário automaticamente está sendo atualizado.</p>
<p>Um detalhe que pode ser percebido é que alguns links estão quebrados, e não abrem a janela flutuante ao clicar nos mesmos. Por este motivo, o desempacotamento da função foi colocado dentro de um bloco <b>try except</b> que retorna justamente esta excessão quando os dados não são encontrados. Este alerta também pode ser percebido no retorno da função <b>extrair_dados</b>, que como não encontra a <b>div</b> especificada, retorna <b>None</b> e imprime que a URL informada não possui aditivos.</p>

In [9]:
# Inicializa as listas vazias
lista_contratos = []
lista_valores = []
lista_objetos = []
lista_tipos = []
lista_vigencias = []
lista_fornecedores = []

# Dicionário com os dados que serão adicionados a um dataframe, que contém as listas
dicionario_dados = {'Contrato':lista_contratos, 'Valor':lista_valores, 'Objeto':lista_objetos, 'Tipo':lista_tipos, 
                    'Vigência':lista_vigencias, 'Fornecedor':lista_fornecedores}

# Percorre as urls da lista para coletar os dados de cada uma
for url in lista_urls:
    try:
        contratos, valores, objetos, tipos, vigencias, fornecedores, url = extrair_dados(url)
    except Exception as ex:
        print(f'Excessão: {ex} na url: {url}')
    # Adiciona os valores na respectiva lista 
    lista_contratos.extend(contratos)
    lista_valores.extend(valores)
    lista_objetos.extend(objetos)
    lista_tipos.extend(tipos)
    lista_vigencias.extend(vigencias)
    lista_fornecedores.extend(fornecedores)

https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:243,MARIA BEATRIZ MOURA DE SOUZA 4 não contém aditivos!
Excessão: cannot unpack non-iterable NoneType object na url: https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:243,MARIA BEATRIZ MOURA DE SOUZA 4
https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:357,GIRALDI & GIRALDI TRANSPORTE E TURISMO LTDA. EPP,2 não contém aditivos!
Excessão: cannot unpack non-iterable NoneType object na url: https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:357,GIRALDI & GIRALDI TRANSPORTE E TURISMO LTDA. EPP,2
https://sistemas.amparo.sp.gov.br/ords/amparo/F?P=839:22:0::::P22_CONT_ID,P22_PESS,P22_DETALHAR_PARAMETRO:494,VBE ENGENHARIA & CONSULTORIA LTDA.,2 não contém aditivos!
Excessão: cannot unpack non-iterable NoneType object na url: htt

In [10]:
# Visualizando o dicionário com os dados
dicionario_dados

{'Contrato': ['2/2020',
  '2/2020',
  '2/2020',
  '99/2020',
  '135/2021',
  '136/2017',
  '136/2017',
  '41/2018',
  '94/2020',
  '94/2020',
  '94/2020',
  '94/2020',
  '332/2017',
  '332/2017',
  '90/2021',
  '90/2021',
  '90/2021',
  '180/2020',
  '180/2020',
  '122/2018',
  '122/2018',
  '122/2018',
  '122/2018',
  '122/2018',
  '122/2018',
  '330/2017',
  '330/2017',
  '330/2017',
  '164/2021',
  '164/2021',
  '164/2021',
  '164/2021',
  '92/2022',
  '150/2022',
  '149/2022',
  '149/2022',
  '124/2022',
  '359/2022',
  '16/2023',
  '155/2022',
  '65/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '98/2022',
  '149/2021',
  '140/2020',
  '140/2020',
  '140/2020',
  '140/2020',
  '192/2021',
  '192/2021',
  '192/2021',
  '192/2021',
  '145/2021',
  '199/2020',
  '199/2020',
  '199/2020',
  '122/2019',
  '122/2019',
  '122/2019',
  '38/2022',


<p>Com os dados salvos no dicionário, é possível criar um dataframe utilizando a biblioteca pandas. Este dataframe por sua vez, pode ser salvo como um arquivo do Excel, pode ser aberto diretamente no Power BI para alguma análise, dentre outras opções.</p>

In [11]:
# Usando o dicionário criado para criar um dataframe com a biblioteca pandas
dataframe_aditivos = pd.DataFrame(dicionario_dados)
dataframe_aditivos

Unnamed: 0,Contrato,Valor,Objeto,Tipo,Vigência,Fornecedor
0,2/2020,"857.280,00",CONTRATAÇÃO DE EMPRESA PARA FORNECIMENTO DE VA...,CONTRATO,20/10/2022 À 01/01/2023,VEROCHEQUE REFEICOES LTDA
1,2/2020,"12.408.000,00",Vale alimentação dos funcionários,CONTRATO,02/01/2022 À 01/01/2023,VEROCHEQUE REFEICOES LTDA
2,2/2020,"6.144.000,00",CONTRATAÇÃO DE EMPRESA PARA FORNECIMENTO DE VA...,CONTRATO,02/01/2023 À 01/07/2023,VEROCHEQUE REFEICOES LTDA
3,99/2020,"4.130,68",Manutenção do sistema CAP - Controle de Admini...,CONTRATO,15/11/2021 À 14/05/2022,MKS - MASTER KEY SYSTEMS SOLUÇÃO EM SISTEMAS D...
4,135/2021,"112.337,52",FORNECIMENTO DE GENEROS ALIMENTÍCIOS.,CONTRATO,12/11/2021 À 15/11/2021,M.NEHMEH ENTREPOSTO CARNES EIRELI
...,...,...,...,...,...,...
400,6/2021,"1.171.338,00",Atendimento ao cardápio das unidades escolares...,ATA RP,19/04/2022 À 02/05/2022,DNA COMERCIO E REPRESENTACOES EIRELI
401,6/2021,"1.171.338,00",Atendimento ao cardápio das unidades escolares...,ATA RP,19/04/2022 À 02/05/2022,MILK VITTA COMÉRCIO E INDÚSTRIA LTDA.
402,6/2021,"1.171.338,00",Atendimento ao cardápio das unidades escolares...,ATA RP,19/04/2022 À 02/05/2022,FABIANA DA SILVA MARQUESI ME
403,6/2021,"1.171.338,00",Atendimento ao cardápio das unidades escolares...,ATA RP,19/04/2022 À 02/05/2022,COMERCIAL JOÃO AFONSO LTDA


In [13]:
# Salvando os dados extraídos em uma planilha do Excel
caminho_a_salvar = r'C:\Users\Lucas\Desktop\Projeto BI\aditivos_despesas.xlsx'
dataframe_aditivos.to_excel(caminho_a_salvar, sheet_name = 'Aditivos', index = False)