# Introdução a Web Scraping - 07/11/2023

Organização e Recuperação da Informação

Professor: Wendel Melo


Referência

[1] Ryan Mitchell, Web scraping com Python. O'Relly, 2ª edição, 2019;

Links para a aula de hoje:

* https://viacep.com.br
* http://www.pythonscraping.com/pages/page1.html
* https://www.pythonscraping.com/pages/warandpeace.html

# Exemplo: API e JSON

Vamos fazer um programa para descobrir um determinado cep usando API online do viacep ( https://viacep.com.br )

In [None]:
import requests

cep = "38408100"

resposta = requests.get( f"https://viacep.com.br/ws/{cep}/json/" )
if resposta.status_code == 200:  #testa se a requisição https foi respondida com sucesso
  dados = resposta.json()
  print('dados: ', dados)
  print( 'Logradouro: ', dados['logradouro'] )

dados:  {'cep': '38408-100', 'logradouro': 'Avenida João Naves de Ávila', 'complemento': 'de 1260 a 3630 - lado par', 'bairro': 'Saraiva', 'localidade': 'Uberlândia', 'uf': 'MG', 'ibge': '3170206', 'gia': '', 'ddd': '34', 'siafi': '5403'}
Logradouro:  Avenida João Naves de Ávila


Existem API's para absolutamente tudo na WEB!

Uma lista (nada exaustiva) pode ser conferida aqui:

https://www.linkedin.com/pulse/80-apis-para-você-usar-nos-seus-projetos-e-praticar-leticia-coelho/?originalSubdomain=pt

# Introdução a WEB Scraping com BeautifulSoup

Web scraping é o ato de usar ferramenta para coletar informações da internet sem o uso de uma API.

Para realizar a instalação do beautiful soup 4:

* pip3 install -U beautifulsoup4
* pip install -U beautifulsoup4
* py -m pip install -U beautifulsoup4
* python -m pip install -U beautifulsoup4
* python3 -m pip install -U beautifulsoup4

In [None]:
# código que acessa o endereço https://www.pythonscraping.com/pages/page1.html
#e pega o conteúdo entre as tags <h1> e </h1> (título)

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen( r"https://www.pythonscraping.com/pages/page1.html")
conteudo = html.read()

bs = BeautifulSoup(conteudo, "html.parser")

print( bs.h1 ) # retorna o primeiro elemento h1 da página

<h1>An Interesting Title</h1>


In [None]:
h1 = bs.h1
h1.get_text()

'An Interesting Title'

In [None]:
#uma coisa que pode ocorrer é obter algum tipo de erro no acesso
from requests.models import HTTPError

from urllib.request import urlopen
from bs4 import BeautifulSoup

try:
  html = urlopen( r"https://www.pythonscraping.com/pages/page1.html")
except HTTPError as e:
  print(e)
else:
  conteudo = html.read()

bs = BeautifulSoup(conteudo, "html.parser")

print( bs.h1 ) # retorna o primeiro elemento h1 da página

<h1>An Interesting Title</h1>


In [None]:
# podemos percorrer os subelementos de um elemento com um laço for
for elemento in bs.body:     #percorre os subelementos de body
  print( 'elemento:', elemento )

elemento: 

elemento: <h1>An Interesting Title</h1>
elemento: 

elemento: <div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
elemento: 



Vamos fazer um código para acessar a página:

https://www.pythonscraping.com/pages/warandpeace.html

e obter os nomes próprios.

Analisando o código HTML, percebemos que os nomes próprios sempre estão contigos em tags span com a classe green. Podemos então usar bs para obter uma lista com todos os nomes usando o método find_all

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen( r"https://www.pythonscraping.com/pages/warandpeace.html")
conteudo = html.read()

bs = BeautifulSoup(conteudo, "html.parser")

tagsNomes = bs.find_all( 'span', {'class':'green'} )
nomes = [ tag.get_text() for tag in tagsNomes ]
print( nomes )

['Anna\nPavlovna Scherer', 'Empress Marya\nFedorovna', 'Prince Vasili Kuragin', 'Anna Pavlovna', 'St. Petersburg', 'the prince', 'Anna Pavlovna', 'Anna Pavlovna', 'the prince', 'the prince', 'the prince', 'Prince Vasili', 'Anna Pavlovna', 'Anna Pavlovna', 'the prince', 'Wintzingerode', 'King of Prussia', 'le Vicomte de Mortemart', 'Montmorencys', 'Rohans', 'Abbe Morio', 'the Emperor', 'the prince', 'Prince Vasili', 'Dowager Empress Marya Fedorovna', 'the baron', 'Anna Pavlovna', 'the Empress', 'the Empress', "Anna Pavlovna's", 'Her Majesty', 'Baron\nFunke', 'The prince', 'Anna\nPavlovna', 'the Empress', 'The prince', 'Anatole', 'the prince', 'The prince', 'Anna\nPavlovna', 'Anna Pavlovna']


In [None]:
#podemos fazer a busca a partir de um elemento específico
#procura pelas tags span da classe green dentro da primeira div sob o body.
bs.body.div.find_all( 'span', {'class':'green'} )
nomes = [ tag.get_text() for tag in tagsNomes ]
print( nomes )

['Anna\nPavlovna Scherer', 'Empress Marya\nFedorovna', 'Prince Vasili Kuragin', 'Anna Pavlovna', 'St. Petersburg', 'the prince', 'Anna Pavlovna', 'Anna Pavlovna', 'the prince', 'the prince', 'the prince', 'Prince Vasili', 'Anna Pavlovna', 'Anna Pavlovna', 'the prince', 'Wintzingerode', 'King of Prussia', 'le Vicomte de Mortemart', 'Montmorencys', 'Rohans', 'Abbe Morio', 'the Emperor', 'the prince', 'Prince Vasili', 'Dowager Empress Marya Fedorovna', 'the baron', 'Anna Pavlovna', 'the Empress', 'the Empress', "Anna Pavlovna's", 'Her Majesty', 'Baron\nFunke', 'The prince', 'Anna\nPavlovna', 'the Empress', 'The prince', 'Anatole', 'the prince', 'The prince', 'Anna\nPavlovna', 'Anna Pavlovna']


In [None]:
#podemos pasar uma lista de atributos para o método find
bs.find_all( ['h1', 'div'] )  #encntra todas as tags h1 e todas as tags div

In [None]:
#podemos por exemplo, acessar as tags span das classes 'green' e 'red'
bs.find_all( 'span', {'class': ['green', 'red']} )

In [None]:
#podemos acessar atributos das tags

#o método find retorna o primeiro elemento encontrado com as características especificadas
div1 = bs.find('div')
div1['id']

'text'

In [None]:
div1.attrs

{'id': 'text'}

In [None]:
div1.get_next