## Web Scraping Certificado ABR Fardos de Algodão

#### <font color = pink> Problema: Realizar consultas do certificado ABR no site da Abrapa fardo a fardo
Tentativa de automação do processo de coleta da numeração dos certificados

In [1]:
# importando bibliotecas
import requests
import bs4
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
url = 'https://www.abrapa.com.br/Paginas/Rastreabilidade/Rastreabilidade%20-%20Resultados.aspx?cb=00078986082711464128'

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'}

response = requests.get(url, headers = headers)

In [3]:
def ConsultaWeb(url):
    try:
        req = requests.get(url, headers = headers, timeout = 3) 
        return req.text
    
    except:
        pass
        print('Tentativa sem sucesso, verificar link')

In [4]:
def captura_html_pagina(url):
    html = ConsultaWeb(url)
    soup = BeautifulSoup(html, 'html.parser')
    return soup

In [5]:
# Analisando html da página
url = 'https://www.abrapa.com.br/Paginas/Rastreabilidade/Rastreabilidade%20-%20Resultados.aspx?cb=00078986082711464128'
html = captura_html_pagina(url)
print(html.prettify())

<!DOCTYPE html >
<html dir="ltr" lang="pt-br">
 <head>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta content="IE=10" http-equiv="X-UA-Compatible"/>
  <meta content="Microsoft SharePoint" name="GENERATOR"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <meta content="0" http-equiv="Expires"/>
  <title>
   Rastreabilidade - Resultados
  </title>
  <link href="/_layouts/15/1046/styles/Themable/corev15.css?rev=y84EJrhX%2FZMb1XCEC7DOkQ%3D%3D" rel="stylesheet" type="text/css"/>
  <script src="/_layouts/15/init.js?rev=AS%2Bv0UYCkcLYkV95cqJXGA%3D%3D" type="text/javascript">
  </script>
  <script src="/ScriptResource.axd?d=cyVStFzHOhjaf1qGyyAH3PqEv4X8MpOR2_AeEeCmuOIDTzWhEAua6bzleDoiMYetC1yCIadYC8jAwmqO91Cn1v-p7FfqaVZvXGqfTMNVAq1qi9YPbUiYZ2diMLMW6OgynXKiVMOVjaXTbLfM8tDdu-xDyhkGvEbDAIl0QUcMOe9zQ3aIIW_K8z6qtApsafc40&amp;t=10c151ff" type="text/javascript">
  </script>
  <script src="/_layouts/15/blank.js?rev=ZaOXZEobVwykPO9g8hq%2F8A%3D%3D" type="text/ja

## Coletando os Dados

In [None]:
# As tags não estavam muito organizadas, mas consegui chegar na informação pela tag 'div' e trouxe apenas o elemento 0 da lista

Fardo = html.find('div', {'class' :'col-md-12'}).find_all('span')
Fardo[0].get_text()

In [None]:
# Busquei o penúltimo elemento da lista

Certificado = html.find('div', {'class' : 'col-md-6'}).find_all('span')
Certificado[-2].get_text()

In [6]:
# Sem fazer pares com tags, apenas buscando o número do certificado e alimentando a item 'certificado ABR' no dicionario

def Certificado(html):
    cert = html.find('div', {'class' : 'col-md-6'}).find_all('span')
    y = cert[-2].get_text()
    return y

In [7]:
Certificado(html)

'357.031.MT.2022'

In [8]:
def FardoCabecalho(fardo):
    url = 'https://www.abrapa.com.br/Paginas/Rastreabilidade/Rastreabilidade%20-%20Resultados.aspx?cb=000'+str(fardo)
    html = captura_html_pagina(url)
    # dic = Cabecalho(html) | testando sem a função cabecalho(html)
    dic = {}
    dic['Fardo'] = fardo
    dic['Certificado ABR'] = Certificado(html)
    return dic

In [9]:
# testando com fardo sem ABR 00078985385516101542
FardoCabecalho('78985385516101542')

{'Fardo': '78985385516101542', 'Certificado ABR': 'MT'}

In [None]:
lista = ['78986082711464128', '78986082711464173', '78986082711464272', '78986082711464388', '78985385516101542', '78985385516101500']

In [None]:
for fd in lista:
    print(fd)

In [24]:
# Importando relação de fardos do arquivo excel
relacao = pd.read_excel('RelacaoFardos.xlsx')
relacao

Unnamed: 0,Fardo
0,78986082711464128
1,78986082711464173
2,78986082711464272
3,78986082711464388
4,78986082711473205
5,78986082711473229
6,78986082711473236
7,78985385516101542


In [25]:
# Convertendo coluna 'Fardo' do arquivo em lista:
lista_relacao = relacao['Fardo'].tolist()
lista_relacao

[78986082711464128,
 78986082711464173,
 78986082711464272,
 78986082711464388,
 78986082711473205,
 78986082711473229,
 78986082711473236,
 78985385516101542]

In [12]:
import time

In [28]:
def TabelaConsulta():
    consulta = []
    for fd in lista_relacao:
        consulta = consulta + [FardoCabecalho(fd)]
        
        print('consultando fardo: ', fd)
        time.sleep(2) #acrescentando segundos de espaço entre cada interação
        
    tabela = pd.DataFrame(consulta)
    return tabela

In [34]:
ConsultaFardos = TabelaConsulta()

consultando fardo:  78986082711464128
consultando fardo:  78986082711464173
consultando fardo:  78986082711464272
consultando fardo:  78986082711464388
consultando fardo:  78986082711473205
consultando fardo:  78986082711473229
consultando fardo:  78986082711473236
consultando fardo:  78985385516101542


In [40]:
ConsultaFardos

Unnamed: 0,Fardo,Certificado ABR
0,78986082711464128,357.031.MT.2022
1,78986082711464173,357.031.MT.2022
2,78986082711464272,357.031.MT.2022
3,78986082711464388,357.031.MT.2022
4,78986082711473205,357.031.MT.2022
5,78986082711473229,357.031.MT.2022
6,78986082711473236,357.031.MT.2022
7,78985385516101542,MT


In [41]:
# Salvando arquivo em csv
ConsultaFardos.to_csv('ConsultaFardos', sep=";", encoding='latin-1', index=None)
