# Web Scraping

In [1]:
from bs4 import BeautifulSoup
from urllib.request import urlopen, Request
from urllib.request import URLError, HTTPError
import pandas as pd

pd.options.display.max_columns = 999
pd.options.display.max_info_rows = 999

Página: 

https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details

In [2]:
url = 'https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details'

response = urlopen(url)
html = response.read()

soup = BeautifulSoup(html,'html.parser')

autor = soup.find('td').get_text()

print('O nome do autor do artigo é:',autor)

O nome do autor do artigo é: 

        MARINHO, Eduardo Ribeiro


## Resposta HTML

In [3]:
url = 'https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}

try: 
    req = Request(url, headers= headers)
    response = urlopen(req)
    html = response.read()
    print(html)

except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

b'<!DOCTYPE html><html lang="en" >\n\n<head>\n    <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge" />\n  <meta name="viewport" content="width=device-width,initial-scale=1.0" />\n  <meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8">\n<meta name="DC.creator" content="MARINHO,&#x20;Eduardo&#x20;Ribeiro">\n<meta name="DC.creator" content="VITORINO,&#x20;Maria&#x20;Isabel">\n<meta name="DC.creator" content="BARBOSA,&#x20;Ivan&#x20;Carlos&#x20;da&#x20;Costa">\n<meta name="DC.creator" content="COSTA,&#x20;Luiz&#x20;Gonzaga&#x20;da&#x20;Silva">\n<meta name="DC.creator" content="SANTOS,&#x20;Marcos&#x20;Ronielly&#x20;da&#x20;Silva">\n<meta name="DC.creator" content="SOUZA,&#x20;Hyago&#x20;Elias&#x20;Nascimento">\n<meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-7358-5789">\n<meta name="DC.creator" content="http&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-1959-1424">\n<meta name="DC.creator" content="

In [4]:
def trata_html(html):
    '''
    Esta função irá receber uma resposta http de uma de um endereço da web, 
    transformará os bytes do html em uma string e excluirá tabulações,
    quabras de linhas e espaços dela.
    
    input: String de um endereço da web
    '''
    #Transformando de btes para string
    html = html.decode('utf-8')

    #Excluindo tabulação, quebra de linha e espaços em branco das TAGs 
    html = " ".join(html.split()).replace('> <', '><')
    
    return html

In [5]:
html = trata_html(html)

html

'<!DOCTYPE html><html lang="en" ><head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="viewport" content="width=device-width,initial-scale=1.0" /><meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8"><meta name="DC.creator" content="MARINHO,&#x20;Eduardo&#x20;Ribeiro"><meta name="DC.creator" content="VITORINO,&#x20;Maria&#x20;Isabel"><meta name="DC.creator" content="BARBOSA,&#x20;Ivan&#x20;Carlos&#x20;da&#x20;Costa"><meta name="DC.creator" content="COSTA,&#x20;Luiz&#x20;Gonzaga&#x20;da&#x20;Silva"><meta name="DC.creator" content="SANTOS,&#x20;Marcos&#x20;Ronielly&#x20;da&#x20;Silva"><meta name="DC.creator" content="SOUZA,&#x20;Hyago&#x20;Elias&#x20;Nascimento"><meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-7358-5789"><meta name="DC.creator" content="http&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-1959-1424"><meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;000

In [6]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible">
   <meta content="width=device-width,initial-scale=1.0" name="viewport"/>
   <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
   <meta content="MARINHO, Eduardo Ribeiro" name="DC.creator"/>
   <meta content="VITORINO, Maria Isabel" name="DC.creator"/>
   <meta content="BARBOSA, Ivan Carlos da Costa" name="DC.creator"/>
   <meta content="COSTA, Luiz Gonzaga da Silva" name="DC.creator"/>
   <meta content="SANTOS, Marcos Ronielly da Silva" name="DC.creator"/>
   <meta content="SOUZA, Hyago Elias Nascimento" name="DC.creator"/>
   <meta content="https://orcid.org/0000-0002-7358-5789" name="DC.creator"/>
   <meta content="http://orcid.org/0000-0002-1959-1424" name="DC.creator"/>
   <meta content="https://orcid.org/0000-0001-8765-2981" name="DC.creator"/>
   <meta content="2020" name="DC.issued"/>
   <meta content="por" name="DC.language"/>
   <meta c

## Acessando Tags

In [7]:
soup.html.title

<title>Item metadata: As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará.</title>

In [8]:
soup.html.title.get_text()

'Item metadata: As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará.'

### Find e Findall

In [9]:
soup.find('table')

<table class="table table-striped">
<caption class="sr-only">Bibliographic Details</caption>
<tr>
<th>Main Author:</th>
<td><span class="author-data" property="author">
<a href="  /vufind/Author/Home?author=MARINHO%2C+Eduardo+Ribeiro">
        MARINHO, Eduardo Ribeiro</a></span></td>
</tr>
<tr>
<th>Publication Date:</th>
<td>2020</td>
</tr>
<tr>
<th>Other Authors:</th>
<td><span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=VITORINO%2C+Maria+Isabel">
        VITORINO, Maria Isabel</a></span>, <span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=BARBOSA%2C+Ivan+Carlos+da+Costa">
        BARBOSA, Ivan Carlos da Costa</a></span>, <span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=COSTA%2C+Luiz+Gonzaga+da+Silva">
        COSTA, Luiz Gonzaga da Silva</a></span>, <span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=SANTOS%2C+Marcos+Ronielly+da+Silva">

In [10]:
soup.find('table',{'class':'citation table table-striped'})

<table class="citation table table-striped">
<tr>
<th>id</th>
<td>
                  UFRA-1_aa23751bdf9a19158d0bbf0d73911c07<br/>
</td>
</tr>
<tr>
<th>oai_identifier_str</th>
<td>
                  oai:repositorio.ufra.edu.br:123456789/1025<br/>
</td>
</tr>
<tr>
<th>network_acronym_str</th>
<td>
                  UFRA-1<br/>
</td>
</tr>
<tr>
<th>network_name_str</th>
<td>
                  Repositório Institucional da UFRA<br/>
</td>
</tr>
<tr>
<th>repository_id_str</th>
<td>
<br/>
</td>
</tr>
<tr>
<th>spelling</th>
<td>
                  2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-02-26MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C. C.; COSTA, L. G. S.; SANTOS, M. R. S.; SOUZA, H. E. N. As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará. Revista Brasileira de Geografia Física, Recife, PE, v. 13, n. 1, p. 182-195, 2020. Disponível em: http://repositorio.ufra.edu.br/jspui/handle/123456789/1025. Acesso em:1984-2295http://repositorio.ufr

In [11]:
table = soup.find('table',{'class':'citation table table-striped'})

data = {}
for row in table.find_all('tr'):
    th = row.find('th').get_text()
    td = row.find('td').get_text()
    data[th] = td

metadados_separados_ponto_virgula = ['author_facet','author2','author2_role','dc.contributor.author.fl_str_mv',
                                     'dc.contributor.authorLattes.fl_str_mv','dc.subject.eng.fl_str_mv','topic',
                                     'dc.source.none.fl_str_mv']

for metadado in metadados_separados_ponto_virgula:
    data[metadado] = data[metadado].replace('\n                  ',';').replace(';', '', 1)

for key in data:
    data[key] = data[key].replace('\n                  ', '').replace('\n', '')
    
data

{'id': 'UFRA-1_aa23751bdf9a19158d0bbf0d73911c07',
 'oai_identifier_str': 'oai:repositorio.ufra.edu.br:123456789/1025',
 'network_acronym_str': 'UFRA-1',
 'network_name_str': 'Repositório Institucional da UFRA',
 'repository_id_str': '',
 'spelling': '2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-02-26MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C. C.; COSTA, L. G. S.; SANTOS, M. R. S.; SOUZA, H. E. N. As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará. Revista Brasileira de Geografia Física, Recife, PE, v. 13, n. 1, p. 182-195, 2020. Disponível em: http://repositorio.ufra.edu.br/jspui/handle/123456789/1025. Acesso em:1984-2295http://repositorio.ufra.edu.br/jspui/handle/123456789/1025Revista Brasileira de Geografia FísicaAttribution-NonCommercial-NoDerivs 3.0 United Stateshttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessÁgua - Qualidade - parâmetros físico-químicosÁgua - Atividades antrópicasÁgua - Qua

In [12]:
df = pd.DataFrame([data])
df

Unnamed: 0,id,oai_identifier_str,network_acronym_str,network_name_str,repository_id_str,spelling,dc.title.en_US.fl_str_mv,title,spellingShingle,title_short,title_full,title_fullStr,title_full_unstemmed,title_sort,author,author_facet,author_role,author2,author2_role,dc.contributor.author.fl_str_mv,dc.contributor.authorLattes.fl_str_mv,dc.subject.eng.fl_str_mv,topic,description,publishDate,dc.date.accessioned.fl_str_mv,dc.date.available.fl_str_mv,dc.date.issued.fl_str_mv,dc.type.status.fl_str_mv,dc.type.driver.fl_str_mv,format,status_str,dc.identifier.citation.fl_str_mv,dc.identifier.uri.fl_str_mv,dc.identifier.issn.none.fl_str_mv,identifier_str_mv,url,dc.language.iso.fl_str_mv,language,dc.rights.driver.fl_str_mv,rights_invalid_str_mv,eu_rights_str_mv,dc.publisher.none.fl_str_mv,publisher.none.fl_str_mv,dc.source.none.fl_str_mv,instname_str,instacron_str,institution,reponame_str,collection,bitstream.url.fl_str_mv,bitstream.checksum.fl_str_mv,bitstream.checksumAlgorithm.fl_str_mv,repository.name.fl_str_mv,repository.mail.fl_str_mv,_version_
0,UFRA-1_aa23751bdf9a19158d0bbf0d73911c07,oai:repositorio.ufra.edu.br:123456789/1025,UFRA-1,Repositório Institucional da UFRA,,2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-0...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,As atividades antrópicas na modulação da quali...,"MARINHO, Eduardo Ribeiro","MARINHO, Eduardo Ribeiro;VITORINO, Maria Isabe...",author,"VITORINO, Maria Isabel;BARBOSA, Ivan Carlos da...",author;author;author;author;author;author;auth...,"MARINHO, Eduardo Ribeiro;VITORINO, Maria Isabe...",http://lattes.cnpq.br/2214813622704219;http://...,Água - Qualidade - parâmetros físico-químicos;...,Água - Qualidade - parâmetros físico-químicos;...,The objective of the present study is to analy...,2020,2020-06-10T19:31:50Z,2020-06-10T19:31:50Z,2020-02-26,info:eu-repo/semantics/publishedVersion,info:eu-repo/semantics/article,article,publishedVersion,"MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C...",http://repositorio.ufra.edu.br/jspui/handle/12...,1984-2295,"MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C...",http://repositorio.ufra.edu.br/jspui/handle/12...,por,por,Attribution-NonCommercial-NoDerivs 3.0 United ...,Attribution-NonCommercial-NoDerivs 3.0 United ...,openAccess,Revista Brasileira de Geografia Física,Revista Brasileira de Geografia Física,reponame:Repositório Institucional da UFRA;ins...,Universidade Federal Rural da Amazônia (UFRA),UFRA,UFRA,Repositório Institucional da UFRA,Repositório Institucional da UFRA,http://repositorio.ufra.edu.br/bitstream/12345...,fbdbfef31612ff73fee06320a9ed8ca273abee61e377f7...,MD5MD5MD5,Repositório Institucional da UFRA - Universida...,repositorio@ufra.edu.br || riufra2018@gmail.com,1761701591508844544


# WebScraping OASIS

In [21]:
url = 'https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}

try: 
    req = Request(url, headers= headers)
    response = urlopen(req)
    html = response.read()
    print(html)

except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

b'<!DOCTYPE html><html lang="en" >\n\n<head>\n    <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge" />\n  <meta name="viewport" content="width=device-width,initial-scale=1.0" />\n  <meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8">\n<meta name="DC.creator" content="MARINHO,&#x20;Eduardo&#x20;Ribeiro">\n<meta name="DC.creator" content="VITORINO,&#x20;Maria&#x20;Isabel">\n<meta name="DC.creator" content="BARBOSA,&#x20;Ivan&#x20;Carlos&#x20;da&#x20;Costa">\n<meta name="DC.creator" content="COSTA,&#x20;Luiz&#x20;Gonzaga&#x20;da&#x20;Silva">\n<meta name="DC.creator" content="SANTOS,&#x20;Marcos&#x20;Ronielly&#x20;da&#x20;Silva">\n<meta name="DC.creator" content="SOUZA,&#x20;Hyago&#x20;Elias&#x20;Nascimento">\n<meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-7358-5789">\n<meta name="DC.creator" content="http&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-1959-1424">\n<meta name="DC.creator" content="

In [22]:
def trata_html(html):
    '''
    Esta função irá receber uma resposta http de uma de um endereço da web, 
    transformará os bytes do html em uma string e excluirá tabulações,
    quabras de linhas e espaços dela.
    
    input: String de um endereço da web
    '''
    #Transformando de btes para string
    html = html.decode('utf-8')

    #Excluindo tabulação, quebra de linha e espaços em branco das TAGs 
    html = " ".join(html.split()).replace('> <', '><')
    
    return html

In [23]:
html = trata_html(html)
html

'<!DOCTYPE html><html lang="en" ><head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="viewport" content="width=device-width,initial-scale=1.0" /><meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8"><meta name="DC.creator" content="MARINHO,&#x20;Eduardo&#x20;Ribeiro"><meta name="DC.creator" content="VITORINO,&#x20;Maria&#x20;Isabel"><meta name="DC.creator" content="BARBOSA,&#x20;Ivan&#x20;Carlos&#x20;da&#x20;Costa"><meta name="DC.creator" content="COSTA,&#x20;Luiz&#x20;Gonzaga&#x20;da&#x20;Silva"><meta name="DC.creator" content="SANTOS,&#x20;Marcos&#x20;Ronielly&#x20;da&#x20;Silva"><meta name="DC.creator" content="SOUZA,&#x20;Hyago&#x20;Elias&#x20;Nascimento"><meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-7358-5789"><meta name="DC.creator" content="http&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-1959-1424"><meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;000

In [97]:
url = 'https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}

try: 
    req = Request(url, headers= headers)
    response = urlopen(req)
    html = response.read()

except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

html = trata_html(html)

soup = BeautifulSoup(html,'html.parser')

table = soup.find('table',{'class':'citation table table-striped'})

data = {}
for row in table.find_all('tr'):
    th = row.find('th').get_text()
    td = row.find('td').get_text()
    data[th] = td

metadados_separados_ponto_virgula = ['author_facet','author2','author2_role','dc.contributor.author.fl_str_mv',
                                     'dc.contributor.authorLattes.fl_str_mv','dc.subject.eng.fl_str_mv','topic',
                                     'dc.source.none.fl_str_mv']

for metadado in metadados_separados_ponto_virgula:
    data[metadado] = data[metadado].replace('\n                  ',';').replace(';', '', 1)

for key in data:
    data[key] = data[key].replace('\n                  ', '').replace('\n', '')
    
df = pd.DataFrame([data])
df

Unnamed: 0,id,oai_identifier_str,network_acronym_str,network_name_str,repository_id_str,spelling,dc.title.en_US.fl_str_mv,title,spellingShingle,title_short,title_full,title_fullStr,title_full_unstemmed,title_sort,author,author_facet,author_role,author2,author2_role,dc.contributor.author.fl_str_mv,dc.contributor.authorLattes.fl_str_mv,dc.subject.eng.fl_str_mv,topic,description,publishDate,dc.date.accessioned.fl_str_mv,dc.date.available.fl_str_mv,dc.date.issued.fl_str_mv,dc.type.status.fl_str_mv,dc.type.driver.fl_str_mv,format,status_str,dc.identifier.citation.fl_str_mv,dc.identifier.uri.fl_str_mv,dc.identifier.issn.none.fl_str_mv,identifier_str_mv,url,dc.language.iso.fl_str_mv,language,dc.rights.driver.fl_str_mv,rights_invalid_str_mv,eu_rights_str_mv,dc.publisher.none.fl_str_mv,publisher.none.fl_str_mv,dc.source.none.fl_str_mv,instname_str,instacron_str,institution,reponame_str,collection,bitstream.url.fl_str_mv,bitstream.checksum.fl_str_mv,bitstream.checksumAlgorithm.fl_str_mv,repository.name.fl_str_mv,repository.mail.fl_str_mv,_version_
0,UFRA-1_aa23751bdf9a19158d0bbf0d73911c07,oai:repositorio.ufra.edu.br:123456789/1025,UFRA-1,Repositório Institucional da UFRA,,2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,As atividades antrópicas na modulação da qual...,"MARINHO, Eduardo Ribeiro","MARINHO, Eduardo Ribeiro VITORINO, Maria Isab...",author,"VITORINO, Maria Isabel BARBOSA, Ivan Carlos d...",author author author author author author aut...,"MARINHO, Eduardo Ribeiro VITORINO, Maria Isab...",http://lattes.cnpq.br/2214813622704219 http:/...,Água - Qualidade - parâmetros físico-químicos...,Água - Qualidade - parâmetros físico-químicos...,The objective of the present study is to anal...,2020,2020-06-10T19:31:50Z,2020-06-10T19:31:50Z,2020-02-26,info:eu-repo/semantics/publishedVersion,info:eu-repo/semantics/article,article,publishedVersion,"MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. ...",http://repositorio.ufra.edu.br/jspui/handle/1...,1984-2295,"MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. ...",http://repositorio.ufra.edu.br/jspui/handle/1...,por,por,Attribution-NonCommercial-NoDerivs 3.0 United...,Attribution-NonCommercial-NoDerivs 3.0 United...,openAccess,Revista Brasileira de Geografia Física,Revista Brasileira de Geografia Física,reponame:Repositório Institucional da UFRA in...,Universidade Federal Rural da Amazônia (UFRA),UFRA,UFRA,Repositório Institucional da UFRA,Repositório Institucional da UFRA,http://repositorio.ufra.edu.br/bitstream/1234...,fbdbfef31612ff73fee06320a9ed8ca2 73abee61e377...,MD5 MD5 MD5,Repositório Institucional da UFRA - Universid...,repositorio@ufra.edu.br || riufra2018@gmail.com,1761701591508844544


In [76]:
def resposta_html(url,header):
    try: 
        req = Request(url, headers=header)
        response = urlopen(req)
        html = response.read()
        
    except HTTPError as e:
        print(e.status, e.reason)
        
    except URLError as e:
        print(e.reason)
    
    return html

In [77]:
resposta_html('https://oasisbr.ibict.br/vufind/Search/Results?page=1type=AllFields',header=headers)

b'<!DOCTYPE html><html lang="en" >\n\n<head>\n    <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge" />\n  <meta name="viewport" content="width=device-width,initial-scale=1.0" />\n  <meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8">\n<meta name="Generator" content="VuFind&#x20;7.1.1">  <title>Search Results</title>    <!-- RTL styling -->\n    <link href="&#x2F;vufind&#x2F;cache&#x2F;5da846a5d4d5bfae6bfc4fbfe0302da7.min.css" media="all" rel="stylesheet" type="text&#x2F;css">\n<link href="&#x2F;vufind&#x2F;themes&#x2F;bootstrap3&#x2F;css&#x2F;print.css" media="print" rel="stylesheet" type="text&#x2F;css">\n<!--[if lt IE 10]><link href="&#x2F;vufind&#x2F;themes&#x2F;bootstrap3&#x2F;css&#x2F;flex-fallback.css" media="" rel="stylesheet" type="text&#x2F;css"><![endif]-->\n<link href="&#x2F;vufind&#x2F;themes&#x2F;bootstrap3&#x2F;css&#x2F;vendor&#x2F;bootstrap-slider.min.css" media="screen" rel="stylesheet" type="text&#x2F;css"

In [78]:
soup = BeautifulSoup(html,'html.parser')
soup

<!DOCTYPE html>
<html lang="en"><head><meta charset="utf-8"/><meta content="IE=edge" http-equiv="X-UA-Compatible"><meta content="width=device-width,initial-scale=1.0" name="viewport"/><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="VuFind 7.1.1" name="Generator"/><title>Search Results</title><!-- RTL styling --><link href="/vufind/cache/5da846a5d4d5bfae6bfc4fbfe0302da7.min.css" media="all" rel="stylesheet" type="text/css"/><link href="/vufind/themes/bootstrap3/css/print.css" media="print" rel="stylesheet" type="text/css"/><!--[if lt IE 10]><link href="&#x2F;vufind&#x2F;themes&#x2F;bootstrap3&#x2F;css&#x2F;flex-fallback.css" media="" rel="stylesheet" type="text&#x2F;css"><![endif]--><link href="/vufind/themes/bootstrap3/css/vendor/bootstrap-slider.min.css" media="screen" rel="stylesheet" type="text/css"/><link href="/vufind/themes/oasisbr/images/icons/favicon.ico?_=1643046030" rel="shortcut icon" type="image/x-icon"/><link href="/vufind/Search/OpenSear

In [79]:
links = []
for card in soup.findAll('div',{'class':'result'}):
    links.append('https://oasisbr.ibict.br' + card.find('a',{'class':'title getFull'}).get('href'))

print(links)

['https://oasisbr.ibict.br/vufind/Record/EST_a4fab40709dea2e89872a22b357eb823', 'https://oasisbr.ibict.br/vufind/Record/EST_7805cfeace6ce2b54cba294b83d0f837', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_885ee42cd69b1f626a4d1cc000387bd7', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_b6f4e7af336f25edb39488f1eb7ea3f2', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_1cb1124fd3b2a8ccbe265ae3ce227a5f', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_c0e770674ce3ce325b3d9ed8e173f8e4', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_7d4d87437d469240158aa97407babf96', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_988324e10c16232f7a0aadedb5fdf2ef', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_3b1679c4580eabea021c3b5b1f923ea8', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_ee602afd632b30a590c87e07c12fd267', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_341373744a6c12d586593c220a1b32df', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_204eab993f9070911181fd13c9c03055', 'https://oasisbr.ibic

In [80]:
links

['https://oasisbr.ibict.br/vufind/Record/EST_a4fab40709dea2e89872a22b357eb823',
 'https://oasisbr.ibict.br/vufind/Record/EST_7805cfeace6ce2b54cba294b83d0f837',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_885ee42cd69b1f626a4d1cc000387bd7',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_b6f4e7af336f25edb39488f1eb7ea3f2',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_1cb1124fd3b2a8ccbe265ae3ce227a5f',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_c0e770674ce3ce325b3d9ed8e173f8e4',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_7d4d87437d469240158aa97407babf96',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_988324e10c16232f7a0aadedb5fdf2ef',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_3b1679c4580eabea021c3b5b1f923ea8',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_ee602afd632b30a590c87e07c12fd267',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_341373744a6c12d586593c220a1b32df',
 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_204eab993f9070911181fd13c9c03055',
 'https://

In [100]:
numero_pagina = 1
while numero_pagina < 10:
    numero_pagina = str(numero_pagina)
    resposta_html_pagina = f'https://oasisbr.ibict.br/vufind/Search/Results?page={numero_pagina}type=AllFields'
    numero_pagina = int(numero_pagina)
    print(resposta_html_pagina)
    numero_pagina +=1

https://oasisbr.ibict.br/vufind/Search/Results?page=1type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=2type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=3type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=4type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=5type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=6type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=7type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=8type=AllFields
https://oasisbr.ibict.br/vufind/Search/Results?page=9type=AllFields


In [104]:
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'}

links_paginas = []

numero_pagina = 1
while numero_pagina < 10:
    numero_pagina = str(numero_pagina)
    resposta_html_pagina = resposta_html(f'https://oasisbr.ibict.br/vufind/Search/Results?page={numero_pagina}&type=AllFields',header=headers)
    html = trata_html(resposta_html_pagina)
    soup = BeautifulSoup(html,'html.parser')
    

    for card in soup.findAll('div',{'class':'result'}):
        links_paginas.append('https://oasisbr.ibict.br' + card.find('a',{'class':'title getFull'}).get('href'))

    numero_pagina = int(numero_pagina)
    numero_pagina +=1

print(links_paginas)
    

['https://oasisbr.ibict.br/vufind/Record/EST_a4fab40709dea2e89872a22b357eb823', 'https://oasisbr.ibict.br/vufind/Record/EST_7805cfeace6ce2b54cba294b83d0f837', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_885ee42cd69b1f626a4d1cc000387bd7', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_b6f4e7af336f25edb39488f1eb7ea3f2', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_1cb1124fd3b2a8ccbe265ae3ce227a5f', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_c0e770674ce3ce325b3d9ed8e173f8e4', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_7d4d87437d469240158aa97407babf96', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_988324e10c16232f7a0aadedb5fdf2ef', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_3b1679c4580eabea021c3b5b1f923ea8', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_ee602afd632b30a590c87e07c12fd267', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_341373744a6c12d586593c220a1b32df', 'https://oasisbr.ibict.br/vufind/Record/GPCS-1_204eab993f9070911181fd13c9c03055', 'https://oasisbr.ibic

In [105]:
len(links_paginas)

180

In [112]:
url = 'https://oasisbr.ibict.br/vufind/Record/EST_a4fab40709dea2e89872a22b357eb823'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}

try: 
    req = Request(url, headers= headers)
    response = urlopen(req)
    html = response.read()

except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

html = trata_html(html)

soup = BeautifulSoup(html,'html.parser')

table = soup.find('table',{'class':'citation table table-striped'})

data = {}
for row in table.find_all('tr'):
    th = row.find('th').get_text()
    td = row.find('td').get_text()
    data[th] = td

metadados_separados_ponto_virgula = ['author_facet','author2','author2_role','dc.contributor.author.fl_str_mv',
                                     'dc.contributor.authorLattes.fl_str_mv','dc.subject.eng.fl_str_mv','topic',
                                     'dc.source.none.fl_str_mv']
        
for metadado in metadados_separados_ponto_virgula:
        if metadado in data:
            data[metadado] = data[metadado].replace('\n                  ',';').replace(';', '', 1)

for key in data:
    data[key] = data[key].replace('\n                  ', '').replace('\n', '')
    
df = pd.DataFrame([data])
df

Unnamed: 0,id,oai_identifier_str,network_acronym_str,network_name_str,spelling,dc.title.pt_BR.fl_str_mv,title,spellingShingle,title_short,title_full,title_fullStr,title_full_unstemmed,title_sort,author,author_facet,author_role,dc.contributor.referee1.fl_str_mv,dc.contributor.referee1Lattes.fl_str_mv,dc.contributor.referee2.fl_str_mv,dc.contributor.referee2Lattes.fl_str_mv,dc.contributor.referee3.fl_str_mv,dc.contributor.referee3Lattes.fl_str_mv,dc.contributor.referee4.fl_str_mv,dc.contributor.referee4Lattes.fl_str_mv,dc.contributor.advisor1.fl_str_mv,dc.contributor.advisor1Lattes.fl_str_mv,dc.contributor.advisor1ID.fl_str_mv,dc.contributor.referee1ID.fl_str_mv,dc.contributor.referee2ID.fl_str_mv,dc.contributor.referee3ID.fl_str_mv,dc.contributor.referee4ID.fl_str_mv,dc.contributor.authorID.fl_str_mv,dc.contributor.authorLattes.fl_str_mv,dc.contributor.author.fl_str_mv,contributor_str_mv,dc.subject.cnpq.fl_str_mv,topic,dc.subject.por.fl_str_mv,dc.subject.eng.fl_str_mv,dc.description.pt_BR.fl_txt_mv,dc.description.abstract.por.fl_txt_mv,dc.description.abstract.eng.fl_txt_mv,description,publishDate,dc.date.accessioned.fl_str_mv,dc.date.available.fl_str_mv,dc.date.issued.fl_str_mv,dc.type.status.fl_str_mv,dc.type.driver.fl_str_mv,status_str,format,dc.identifier.citation.fl_str_mv,dc.identifier.uri.fl_str_mv,identifier_str_mv,url,dc.language.iso.fl_str_mv,language,dc.relation.ispartofseries.none.fl_str_mv,dc.rights.driver.fl_str_mv,eu_rights_str_mv,dc.publisher.none.fl_str_mv,dc.publisher.program.fl_str_mv,dc.publisher.initials.fl_str_mv,dc.publisher.country.fl_str_mv,dc.publisher.department.fl_str_mv,publisher.none.fl_str_mv,dc.source.none.fl_str_mv,reponame_str,collection,instname_str,instacron_str,institution,bitstream.url.fl_str_mv,bitstream.checksum.fl_str_mv,bitstream.checksumAlgorithm.fl_str_mv,repository.name.fl_str_mv,repository.mail.fl_str_mv,_version_
0,EST_a4fab40709dea2e89872a22b357eb823,oai:dspace.est.edu.br:BR-SlFE/1031,EST,Biblioteca Digital de Teses e Dissertações do...,2020-09-01T21:00:20Z2020-09-01T21:00:20Z2020-...,"Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Arteterapia, um oásis na condição da saúde hu...","Koefender, Marli","Koefender, Marli",author,"Silva, Laura Franch Schmidt da",http://lattes.cnpq.br/6858886305291005,"Saldanha, Marcelo Ramos",http://lattes.cnpq.br/4200614346009205,"Baade, Joel Haroldo",http://lattes.cnpq.br/6630678639154905,"Dittrich, Maria Glória",http://lattes.cnpq.br/6918960379569138,"Brandenburg, Laude Erandi",http://lattes.cnpq.br/2720814127433525,CPF:29054885068,CPF:29587816072,CPF:00181157055,CPF:00504529919,CPF:78516714934,CPF:50330594087,http://lattes.cnpq.br/1641344749332090,"Koefender, Marli","Silva, Laura Franch Schmidt da Saldanha, Marc...",CNPQ::CIENCIAS HUMANAS::TEOLOGIA,CNPQ::CIENCIAS HUMANAS::TEOLOGIA Arteterapia ...,Arteterapia Espiritualidade natural Integrali...,Art therapy Natural spiritulaity Integrality ...,141 p. : il.,Esta tese está inserida na área de concentraç...,This thesis is part of the Practical Theology...,141 p. : il.,2020,2020-09-01T21:00:20Z,2020-09-01T21:00:20Z,2020-03-10,info:eu-repo/semantics/publishedVersion,info:eu-repo/semantics/doctoralThesis,publishedVersion,doctoralThesis,"KOEFENDER, Marli. Arteterapia, um oásis na co...",http://dspace.est.edu.br:8080/jspui/handle/BR...,"KOEFENDER, Marli. Arteterapia, um oásis na co...",http://dspace.est.edu.br:8080/jspui/handle/BR...,por,por,TD;199,info:eu-repo/semantics/openAccess,openAccess,Faculdades EST,Programa de Teologia,EST,BR,Teologia,Faculdades EST,reponame:Biblioteca Digital de Teses e Disser...,Biblioteca Digital de Teses e Dissertações do...,Biblioteca Digital de Teses e Dissertações do...,Faculdades EST,EST,EST,http://dspace.est.edu.br:8080/xmlui/bitstream...,686b223adbadca3957319ade103f102a 91c067f0131a...,MD5 MD5 MD5 MD5 MD5 MD5,Biblioteca Digital de Teses e Dissertações do...,,1677008782539882496


In [94]:
soup = BeautifulSoup(html,'html.parser')

table = soup.find('table',{'class':'citation table table-striped'})

data = {}
for row in table.find_all('tr'):
    th = row.find('th').get_text()
    td = row.find('td').get_text()
    data[th] = td

metadados_separados_ponto_virgula = ['author_facet','author2','author2_role','dc.contributor.author.fl_str_mv',
                                     'dc.contributor.authorLattes.fl_str_mv','dc.subject.eng.fl_str_mv','topic',
                                     'dc.source.none.fl_str_mv']

for metadado in metadados_separados_ponto_virgula:
    data[metadado] = data[metadado].replace('\n                  ',';').replace(';', '', 1)

for key in data:
    data[key] = data[key].replace('\n                  ', '').replace('\n', '')
    
df = pd.DataFrame([data])
df

AttributeError: 'NoneType' object has no attribute 'find_all'

In [95]:
total_paginas = soup.find('ul',{'class':'pagination'}).find_all('li')[-1].get_text()
total_paginas = total_paginas.replace('[','').replace(']','')
total_paginas = int(total_paginas)
total_paginas

216624