# Web Scraping

In [27]:
from bs4 import BeautifulSoup
from urllib.request import urlopen, Request
from urllib.request import URLError, HTTPError
import pandas as pd


Página: 

https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details

In [3]:
url = 'https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details'

response = urlopen(url)
html = response.read()

soup = BeautifulSoup(html,'html.parser')

autor = soup.find('td').get_text()

print('O nome do autor do artigo é:',autor)

O nome do autor do artigo é: 

        MARINHO, Eduardo Ribeiro


## Resposta HTML

In [4]:
url = 'https://oasisbr.ibict.br/vufind/Record/UFRA-1_9881405c2dfe1582b80e7ceb63632c1f#details'
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}

try: 
    req = Request(url, headers= headers)
    response = urlopen(req)
    html = response.read()
    print(html)

except HTTPError as e:
    print(e.status, e.reason)
    
except URLError as e:
    print(e.reason)

b'<!DOCTYPE html><html lang="en" >\n\n<head>\n    <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=edge" />\n  <meta name="viewport" content="width=device-width,initial-scale=1.0" />\n  <meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8">\n<meta name="DC.creator" content="MARINHO,&#x20;Eduardo&#x20;Ribeiro">\n<meta name="DC.creator" content="VITORINO,&#x20;Maria&#x20;Isabel">\n<meta name="DC.creator" content="BARBOSA,&#x20;Ivan&#x20;Carlos&#x20;da&#x20;Costa">\n<meta name="DC.creator" content="COSTA,&#x20;Luiz&#x20;Gonzaga&#x20;da&#x20;Silva">\n<meta name="DC.creator" content="SANTOS,&#x20;Marcos&#x20;Ronielly&#x20;da&#x20;Silva">\n<meta name="DC.creator" content="SOUZA,&#x20;Hyago&#x20;Elias&#x20;Nascimento">\n<meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-7358-5789">\n<meta name="DC.creator" content="http&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-1959-1424">\n<meta name="DC.creator" content="

In [5]:
def trata_html(html):
    '''
    Esta função irá receber uma resposta http de uma de um endereço da web, 
    transformará os bytes do html em uma string e excluirá tabulações,
    quabras de linhas e espaços dela.
    
    input: String de um endereço da web
    '''
    #Transformando de btes para string
    html = html.decode('utf-8')

    #Excluindo tabulação, quebra de linha e espaços em branco das TAGs 
    html = " ".join(html.split()).replace('> <', '><')
    
    return html

In [6]:
html = trata_html(html)

html

'<!DOCTYPE html><html lang="en" ><head><meta charset="utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="viewport" content="width=device-width,initial-scale=1.0" /><meta http-equiv="Content-Type" content="text&#x2F;html&#x3B;&#x20;charset&#x3D;UTF-8"><meta name="DC.creator" content="MARINHO,&#x20;Eduardo&#x20;Ribeiro"><meta name="DC.creator" content="VITORINO,&#x20;Maria&#x20;Isabel"><meta name="DC.creator" content="BARBOSA,&#x20;Ivan&#x20;Carlos&#x20;da&#x20;Costa"><meta name="DC.creator" content="COSTA,&#x20;Luiz&#x20;Gonzaga&#x20;da&#x20;Silva"><meta name="DC.creator" content="SANTOS,&#x20;Marcos&#x20;Ronielly&#x20;da&#x20;Silva"><meta name="DC.creator" content="SOUZA,&#x20;Hyago&#x20;Elias&#x20;Nascimento"><meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-7358-5789"><meta name="DC.creator" content="http&#x3A;&#x2F;&#x2F;orcid.org&#x2F;0000-0002-1959-1424"><meta name="DC.creator" content="https&#x3A;&#x2F;&#x2F;orcid.org&#x2F;000

In [7]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible">
   <meta content="width=device-width,initial-scale=1.0" name="viewport"/>
   <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
   <meta content="MARINHO, Eduardo Ribeiro" name="DC.creator"/>
   <meta content="VITORINO, Maria Isabel" name="DC.creator"/>
   <meta content="BARBOSA, Ivan Carlos da Costa" name="DC.creator"/>
   <meta content="COSTA, Luiz Gonzaga da Silva" name="DC.creator"/>
   <meta content="SANTOS, Marcos Ronielly da Silva" name="DC.creator"/>
   <meta content="SOUZA, Hyago Elias Nascimento" name="DC.creator"/>
   <meta content="https://orcid.org/0000-0002-7358-5789" name="DC.creator"/>
   <meta content="http://orcid.org/0000-0002-1959-1424" name="DC.creator"/>
   <meta content="https://orcid.org/0000-0001-8765-2981" name="DC.creator"/>
   <meta content="2020" name="DC.issued"/>
   <meta content="por" name="DC.language"/>
   <meta c

## Acessando Tags

In [8]:
soup.html.title

<title>Item metadata: As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará.</title>

In [9]:
soup.html.title.get_text()

'Item metadata: As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará.'

### Find e Findall

In [10]:
soup.find('table')

<table class="table table-striped">
<caption class="sr-only">Bibliographic Details</caption>
<tr>
<th>Main Author:</th>
<td><span class="author-data" property="author">
<a href="  /vufind/Author/Home?author=MARINHO%2C+Eduardo+Ribeiro">
        MARINHO, Eduardo Ribeiro</a></span></td>
</tr>
<tr>
<th>Publication Date:</th>
<td>2020</td>
</tr>
<tr>
<th>Other Authors:</th>
<td><span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=VITORINO%2C+Maria+Isabel">
        VITORINO, Maria Isabel</a></span>, <span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=BARBOSA%2C+Ivan+Carlos+da+Costa">
        BARBOSA, Ivan Carlos da Costa</a></span>, <span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=COSTA%2C+Luiz+Gonzaga+da+Silva">
        COSTA, Luiz Gonzaga da Silva</a></span>, <span class="author-data" property="contributor">
<a href="  /vufind/Author/Home?author=SANTOS%2C+Marcos+Ronielly+da+Silva">

In [11]:
soup.find('table',{'class':'citation table table-striped'})

<table class="citation table table-striped">
<tr>
<th>id</th>
<td>
                  UFRA-1_9881405c2dfe1582b80e7ceb63632c1f<br/>
</td>
</tr>
<tr>
<th>oai_identifier_str</th>
<td>
                  oai:repositorio.ufra.edu.br:123456789/1025<br/>
</td>
</tr>
<tr>
<th>network_acronym_str</th>
<td>
                  UFRA-1<br/>
</td>
</tr>
<tr>
<th>network_name_str</th>
<td>
                  Repositório Institucional da UFRA<br/>
</td>
</tr>
<tr>
<th>spelling</th>
<td>
                  2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-02-26MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C. C.; COSTA, L. G. S.; SANTOS, M. R. S.; SOUZA, H. E. N. As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará. Revista Brasileira de Geografia Física, Recife, PE, v. 13, n. 1, p. 182-195, 2020. Disponível em: http://repositorio.ufra.edu.br/jspui/handle/123456789/1025. Acesso em:1984-2295http://repositorio.ufra.edu.br/jspui/handle/123456789/1025Revista Brasileira 

In [12]:
soup.find('table',class_='citation table table-striped')

<table class="citation table table-striped">
<tr>
<th>id</th>
<td>
                  UFRA-1_9881405c2dfe1582b80e7ceb63632c1f<br/>
</td>
</tr>
<tr>
<th>oai_identifier_str</th>
<td>
                  oai:repositorio.ufra.edu.br:123456789/1025<br/>
</td>
</tr>
<tr>
<th>network_acronym_str</th>
<td>
                  UFRA-1<br/>
</td>
</tr>
<tr>
<th>network_name_str</th>
<td>
                  Repositório Institucional da UFRA<br/>
</td>
</tr>
<tr>
<th>spelling</th>
<td>
                  2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-02-26MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C. C.; COSTA, L. G. S.; SANTOS, M. R. S.; SOUZA, H. E. N. As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará. Revista Brasileira de Geografia Física, Recife, PE, v. 13, n. 1, p. 182-195, 2020. Disponível em: http://repositorio.ufra.edu.br/jspui/handle/123456789/1025. Acesso em:1984-2295http://repositorio.ufra.edu.br/jspui/handle/123456789/1025Revista Brasileira 

In [19]:
for th in soup.find('table',class_='citation table table-striped').find_all('th'):
    print(th.get_text())

id
oai_identifier_str
network_acronym_str
network_name_str
spelling
dc.title.en_US.fl_str_mv
title
spellingShingle
title_short
title_full
title_fullStr
title_full_unstemmed
title_sort
author
author_facet
author_role
author2
author2_role
dc.contributor.author.fl_str_mv
dc.contributor.authorLattes.fl_str_mv
dc.subject.eng.fl_str_mv
topic
dc.description.abstract.en_US.fl_txt_mv
dc.description.abstract.por.fl_txt_mv
description
publishDate
dc.date.accessioned.fl_str_mv
dc.date.available.fl_str_mv
dc.date.issued.fl_str_mv
dc.type.status.fl_str_mv
dc.type.driver.fl_str_mv
status_str
format
dc.identifier.citation.fl_str_mv
dc.identifier.uri.fl_str_mv
dc.identifier.issn.none.fl_str_mv
identifier_str_mv
url
dc.language.iso.fl_str_mv
language
dc.rights.driver.fl_str_mv
rights_invalid_str_mv
eu_rights_str_mv
dc.publisher.none.fl_str_mv
publisher.none.fl_str_mv
dc.source.none.fl_str_mv
reponame_str
collection
instname_str
instacron_str
institution
bitstream.url.fl_str_mv
bitstream.checksum.fl_str_

In [24]:
[th.get_text() for th in soup.find('table',class_='citation table table-striped').find_all('th')]

['id',
 'oai_identifier_str',
 'network_acronym_str',
 'network_name_str',
 'spelling',
 'dc.title.en_US.fl_str_mv',
 'title',
 'spellingShingle',
 'title_short',
 'title_full',
 'title_fullStr',
 'title_full_unstemmed',
 'title_sort',
 'author',
 'author_facet',
 'author_role',
 'author2',
 'author2_role',
 'dc.contributor.author.fl_str_mv',
 'dc.contributor.authorLattes.fl_str_mv',
 'dc.subject.eng.fl_str_mv',
 'topic',
 'dc.description.abstract.en_US.fl_txt_mv',
 'dc.description.abstract.por.fl_txt_mv',
 'description',
 'publishDate',
 'dc.date.accessioned.fl_str_mv',
 'dc.date.available.fl_str_mv',
 'dc.date.issued.fl_str_mv',
 'dc.type.status.fl_str_mv',
 'dc.type.driver.fl_str_mv',
 'status_str',
 'format',
 'dc.identifier.citation.fl_str_mv',
 'dc.identifier.uri.fl_str_mv',
 'dc.identifier.issn.none.fl_str_mv',
 'identifier_str_mv',
 'url',
 'dc.language.iso.fl_str_mv',
 'language',
 'dc.rights.driver.fl_str_mv',
 'rights_invalid_str_mv',
 'eu_rights_str_mv',
 'dc.publisher.none

In [53]:
[th.get_text().replace("\n                  ","") for th in soup.find('table',class_='citation table table-striped').find_all('td')]

['UFRA-1_9881405c2dfe1582b80e7ceb63632c1f\n',
 'oai:repositorio.ufra.edu.br:123456789/1025\n',
 'UFRA-1\n',
 'Repositório Institucional da UFRA\n',
 '2020-06-10T19:31:50Z2020-06-10T19:31:50Z2020-02-26MARINHO, E. R.; VITORINO, M. I.; BARBOSA, I. C. C.; COSTA, L. G. S.; SANTOS, M. R. S.; SOUZA, H. E. N. As atividades antrópicas na modulação da qualidade de água do rio Guamá, em São Miguel do Guamá, Pará. Revista Brasileira de Geografia Física, Recife, PE, v. 13, n. 1, p. 182-195, 2020. Disponível em: http://repositorio.ufra.edu.br/jspui/handle/123456789/1025. Acesso em:1984-2295http://repositorio.ufra.edu.br/jspui/handle/123456789/1025Revista Brasileira de Geografia FísicaAttribution-NonCommercial-NoDerivs 3.0 United Stateshttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessÁgua - Qualidade - parâmetros físico-químicosÁgua - Atividades antrópicasÁgua - Qualidade - Rio Guamá, PAWater - Quality - physical parametersWater - Quality - Guamá River, PAWater - A

In [30]:
metadados = {}

In [55]:
pd.DataFrame(soup.find('table',class_='citation table table-striped').find_all('tr'))

  values = np.array([convert(v) for v in values])


Unnamed: 0,0,1,2,3,4
0,\n,[id],\n,[\n UFRA-1_9881405c2dfe1582b8...,\n
1,\n,[oai_identifier_str],\n,[\n oai:repositorio.ufra.edu....,\n
2,\n,[network_acronym_str],\n,"[\n UFRA-1, [], \n]",\n
3,\n,[network_name_str],\n,[\n Repositório Institucional...,\n
4,\n,[spelling],\n,[\n 2020-06-10T19:31:50Z2020-...,\n
5,\n,[dc.title.en_US.fl_str_mv],\n,[\n As atividades antrópicas ...,\n
6,\n,[title],\n,[\n As atividades antrópicas ...,\n
7,\n,[spellingShingle],\n,[\n As atividades antrópicas ...,\n
8,\n,[title_short],\n,[\n As atividades antrópicas ...,\n
9,\n,[title_full],\n,[\n As atividades antrópicas ...,\n
