<a href="https://colab.research.google.com/github/Pugianf/Web-Scraping/blob/main/Web_Scraping_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Capítulo 1 - Seu Primeiro Web Scraping

In [1]:
# dizendo ao processador que envie dados para a aplicação

from urllib.request import urlopen

html = urlopen('http://pythonscraping.com/pages/page1.html')
print(html.read())

b'<html>\n<head>\n<title>A Useful Page</title>\n</head>\n<body>\n<h1>An Interesting Title</h1>\n<div>\nLorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.\n</div>\n</body>\n</html>\n'


In [2]:
!pip install beautifulsoup4



In [3]:
# somente a primeira instância da tag h1 encontrada na página é devolvida

# por convenção, apenas uma tag h1 deve ser usada em uma página - contudo, as convenções muitas vezes não são seguidas na web

# portanto, deve-se ter noção de que esse código devolverá apenas a primeira instância da tag, e não necessariamente a que estou procurando

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html.read(), 'html.parser')
print(bs.h1)

<h1>An Interesting Title</h1>


In [4]:
# o beautifulsoup também pode usar diretamente o objeto de arquivo devolvido por urlopenm sem precisar chamar .rean() antes

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://pythonscraping.com/pages/page1.html')
bs = BeautifulSoup(html, 'html.parser')
print(bs.h1)

<h1>An Interesting Title</h1>


In [5]:
# o conteúdo html é transformado em um objeto BeautifulSoup com a seguinte estrutura:

  # * html -> <html><head>...</head><body>...</body></html>
  #   - head -> <head><title>A Useful Page</title>
  #     - title -> <title>A Useful Page</title>
  #   - body -> <body><h1>An in...</h1><div>Lorem ip...</div></body>
  #     - h1 -> <h1>An in...</h1>
  #     - div -> <div>Lorem ip...</div>

In [6]:
# a tag h1 está aninhada a dois níveis de profundidade na estrutura do objeto BeautifulSoup (html -> body -> h1)

# no entanto, ao buscá-la no objeto, é possível acessar a tag h1 diretamente

In [7]:
# com efeito, qualquer uma das chamadas de função a seguir produziria o mesmo resultado:

bs.html.body.h1

<h1>An Interesting Title</h1>

In [8]:
bs.body.h1

<h1>An Interesting Title</h1>

In [9]:
bs.html.h1

<h1>An Interesting Title</h1>

In [10]:
# ao criar um objeto BeautifulSoup, dois argumentos são passados:

bs = BeautifulSoup(html, 'html.parser')

# o primeiro é o texto html no qual o objeto se baseia, e o segundo especifica o parser que queremos que o BeautifulSoup use para criar o objeto

# na maioria dos casos, o parser escolhido não fará diferença

In [11]:
# html.parser é um parser incluiído no Python 3, e não exige nenhuma instalação extra para ser usado

# outro parser conhecido é o lxml - esse parser pode ser instalado com o pip

!pip install lxml



In [12]:
# o lxml pode ser usado com o BeautifulSoup se a string de parser especificada for alterada

bs = BeautifulSoup(html.read(), 'lxml')

In [13]:
# o lxml tem algumas vantagens em relação ao html.parser: em geral, ele é melhor para fazer parse de código html "confuso" ou mal formatado

# é um parser mais tolerante e corrige problemas como tags sem fechamento, tags indevidamente aninhadas e tags de cabeçalho e de corpo ausentes

# também é um parser mais rápido que o html.parser, embora a velocidade não seja necessariamente uma vantagem no web scraping ->

# considerando que a própria velocidade da rede quase sempre será o principal gargalo

In [14]:
# uma das desvantagens do lxml é que ele deve ser instalado separadamente e depende de bibliotecas C de terceiros para funcionar

# isso pode causar problemas de de portabilidade e de facilidade de uso, em comparação com o html.parser

In [15]:
# outro parser conhecido é o html5lib

# assim como o lxml, o html5lib é um parser extremamente tolerante, com mais iniciativa ainda para corrigir um código HTML com falhas

# também tem dependência externa e é mais lento quando comparado tanto com o lxml quanto com o html parser

# apesar dissom essa pode ser uma boa opção caso se esteja trabalhando com sites html com sites HTML confusos ou escritos manualmente

In [16]:
# para usar, basta fazer a instalação e passar a string html5 para o objeto beautifulsoup

!pip install html5lib

bs = BeautifulSoup(html.read(), 'html5lib')



In [17]:
# na instrução abaixo, 2 erros podem ocorrer e é possível lidar com as exceções

html = urlopen('http://www.pythonscraping.com/pages/page1.html')

# a página pode não ser encontrada no servidor (ou houve um erro ao obtê-la)

# o servidor não foi encontrado

In [18]:
# na primeira situação, um erro HTTP será devolvido

# esse erro pode ser '404 Page Not Found', '500 Internal Server Error', e assim por diante

# em todos esses casos, a função urlopen lançará a exceção genérica HTTPError

# essa exceção pode ser tratada da seguinte maneira: 

from urllib.request import urlopen
from urllib.error import HTTPError

try:
  html = urlopen('http://www.pythonscraping.com/pages/page1.html')
except HTTPError as e:
  print(e)
  # devolve null, executa um break ou algum outro "Plano B"
else:
  bs = BeautifulSoup(html.read(), 'html5lib')
  # o programa continua

# se um código de erro HTTP for devolvido, o programa agora exibirá o erro e não executará o resto do programa que está na instrução else

In [19]:
# forçando um erro para ver o que aparece

from urllib.request import urlopen
from urllib.error import HTTPError

try:
  html = urlopen('http://www.pythonscraping.com/pagess/page1.html')
except HTTPError as e:
  print(e)
  # devolve null, executa um break ou algum outro "Plano B"
else:
  bs = BeautifulSoup(html.read(), 'html5lib')
  # o programa continua

HTTP Error 404: Not Found


In [20]:
# forçando o error sem o HTTPError

from urllib.request import urlopen

html = urlopen('http://www.pythonscraping.com/pagess/page1.html')
bs = BeautifulSoup(html.read(), 'html5lib')

HTTPError: ignored

In [None]:
# se o servidor não for encontrado - se estiver fora do ar, ou o url estiver grafado incorretamente, urlopen lançará um URLError

# isso quer dizer que não for possível acessar nenhum servidor e, como o servidor remoto é responsável por devolver códigos de status HTTP ->

# um HTTPError não pôde ser lançado, e o erro URLError, mais grave, deve ser capturado

# podemos acrescentear uma verificação para saber se é isso que está acontecendo

In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError

try:
  html = urlopen('http://www.pythonscrapingthisurldoesnotexist.com')

except HTTPError as e:
  print(e)

except URLError as e:
  print('The server could not be found')

else:
  print('It worked!')

In [None]:
# se a página for obtida do servidor com sucesso, há ainda o problema de o conteúdo da página não ser exatamente o que se esperava

# sempre que se acessar uma tag em um objeto beautifulsoup, acrescentar uma verificação para garantir que ela realmente exista é uma atitude inteligente

# se for tentado acessar uma tag que não existe, o beautifulsoup devolverá um objeto None

# o problema é que tentar acessar uma tag em um objeto None resultará no lançamento de um AttributeError

In [None]:
# a linha a seguir (em que nonExistentTag é uma tag inventada, e não o nome de uma verdadeira função do BeautifulSoup):

print(bs.nonExistentTag)

# devolve um objeto None

# é razoável conferir e tratar esse objeto

# o problema ocorrerá se você não conferir, mas prosseguir tentando chamar outra função no objeto None, conforme mostra o código a seguir:

In [None]:
# é razoável conferir e tratar esse objeto

# o problema ocorrerá se você não conferir, mas prosseguir tentando chamar outra função no objeto None, conforme mostra o código a seguir:

print(bs.nonExistentTag.someTag)

# uma exceção será devolvida

# AttributeError: 'NoneType' object has no attribute 'someTag'

In [None]:
# o modo mais fácil de se proteger nessa situação é verificar as duas situações explicitamente

try:
  badContent = bs.nonExistingTag.anotherTag

except AttributeError as e:
  print('Tag was not found')

else:
  if badContent == None:
    print('Tag was not found')

  else:
    print(badContent)

In [None]:
# essa verificação e o tratamento de cada erro parecem muito trabalhosos à primeira vista, mas é fácil fazer uma pequena reorganização nesse código, deixando-o menos difícil de ser escrito ->

# e, acima de tudo, muito menos difícil de ler

In [None]:
# o código a seguir, por exemplo, é o nosso mesmo scraper escrito de modo um pouco diferenet:

from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
  try:
    html = urlopen(url)
  except HTTPError as e:
    return None

  try:
    bs = BeautifulSoup(html.read(), 'html.parser')
    title = bs.body.h1
  except AttributeError as e:
    return None
  
  return title

title = getTitle('http://www.pythonscraping.com/pages/page1.html')
if title == None:
  print('Title could not be found')
else:
  print(title)

In [None]:
# nesse exemplo, criamos uma função getTitle que devolve o título da página, ou um objeto None caso tenha havido algum problema para obtê-lo

# em getTitle, verificamos se houve um HTTPError, como no exemplo anterior, e encapsulamos duas das linhas do BeautifulSoup em uma intrução try

# um AttibuteError pode ser lançado por qualqer uma dessas linhas (se o servidor não existir, html seria um objeto None e html.read() lançaria um AttibuteError)

# na verdade, você poderia incluir quantas linhas quiser em uma instrução try, ou chamar outra função totalmente diferente, que poderia lançar um AttributeError em qualquer ponto

In [None]:
# ao escrever scrapers, é importante pensar no padrão geral de seu código a fim de lidar com as exceções e, ao mesmo tempo, deixá-lo legível

# é provável que você queira também fazer uma intensa reutilização de código

# ter função genéricas como getSiteHtml e getTitle (completas, com todo o tratamento para exceçãoes) facilita fazer uma coleta de dados da web de forma rápida e confiável

### Capítulo 2 - Parsing de HTML Avançado

In [21]:
# vamos criar um webscraper de exemplo que colete dados da página em http://www.pythonscraping.com/pages/warandpeace.html

# nessa pégina, as linhas com frases ditas pelas personagens da história estão em vermelho, enquanto o nome das personagens estão em verde

# podemos ver as tags span, que fazem referência às classes CSS apropriadas, na seguinte amostra do código-fonte da página
  # "<span class="red">Heavens! what a virulent attack!</span>" replied
  # <span class="green">the prince</span>, not in the least disconcerted by this reception.

In [22]:
# considerando a página inteira, podemos criar um objeto BeautifulSoup com ela usando um programa semelhante àquele utilizado no Capítulo 1

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html.read(), 'html.parser')

In [23]:
# com esse objeto BeautifulSoup, a função find_all pode ser usada para extrair uma lista python com nomes próprios, encontrados ->

# ao selecionar somente o texto entre as tags <span class="green"></span> - find_all é uma função extremamente flexível que será bastante usada

nameList = bs.find_all('span', {'class': 'green'})

for name in nameList:
  print(name.get_text())

# aqui está acontecendo um problema, a tag está sendo dividido algumas vezes em mais de uma linha

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna


In [24]:
# vendo o que vem sem o get_text()

nameList = bs.find_all('span', {'class': 'green'})

for name in nameList:
  print(name)

<span class="green">Anna
Pavlovna Scherer</span>
<span class="green">Empress Marya
Fedorovna</span>
<span class="green">Prince Vasili Kuragin</span>
<span class="green">Anna Pavlovna</span>
<span class="green">St. Petersburg</span>
<span class="green">the prince</span>
<span class="green">Anna Pavlovna</span>
<span class="green">Anna Pavlovna</span>
<span class="green">the prince</span>
<span class="green">the prince</span>
<span class="green">the prince</span>
<span class="green">Prince Vasili</span>
<span class="green">Anna Pavlovna</span>
<span class="green">Anna Pavlovna</span>
<span class="green">the prince</span>
<span class="green">Wintzingerode</span>
<span class="green">King of Prussia</span>
<span class="green">le Vicomte de Mortemart</span>
<span class="green">Montmorencys</span>
<span class="green">Rohans</span>
<span class="green">Abbe Morio</span>
<span class="green">the Emperor</span>
<span class="green">the prince</span>
<span class="green">Prince Vasili</span>
<span cl

In [25]:
# tentando com tagName

randomly = bs.span

for name in randomly:
  print(name)

# nesse caso ele está retornando apenas a primeira tag encontrada no html

Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.


In [26]:
# find() e find_all() são as duas funções do BeautifulSoup que provavelmente serão mais usadas

# com elas é possível filtrar facilmente as páginas HTML e encontrar as listas de tags desejadas - ou uma só tag - de acordo com seus vários atributos

In [27]:
# as duas funções são extremamentes parecidas, como mostram suas definições na documentação do BeautifulSoup:
  #find_all(tag, attibutes, recursive, text, limit, keywords)
  #find(tag, attributes, recursive, text, keywords)

In [28]:
# é bem provável que, em 95% do tempo, somente os dois primeiros argumentos serão necessários: tag e attributes

In [29]:
# o argumento text é peculiar porque por fazer a correspondência com base no conteúdo textual das tags, em vez de usar suas propriedades

# por exemplo, se quiser encontrar o número de vezes que "the prince" está cercado por tags na página de exemplo, a função .find_all() ->

# poderia ser substituída no exemplo anterior pelas linhas a seguir:

In [30]:
nameList = bs.find_all(text='the prince')

print(len(nameList))

7


In [31]:
# o argumento limit obvimanente é usado somente no método find_all

# find é equivalente à chamada de find_all com um limite igual a 1

# esse parâmetro pode ser definido se você esstiver interessado apenas em obter os primeiros x itens da página

# importante saber que serão obtidos os primeiros itens da página na ordem em que ocorrerem, e não necessariamente os primeiros que se quer

In [32]:
# o argumento keyword permite selecionar tags que contenham um atributo ou um conjunto de atributos específicos

# por exemplo:

title = bs.find_all(id='title', class_='text')

In [33]:
# esse comando devolve a primeira tag com a palavra "text" no atributo class_ e "title" no atributo id

# vale observar que, por convenção, cada valor de um id deve ser usado domente uma vez na página

# assim, na prática, uma linha como essa talvez não seja particularmente útil, e deveria ser equivalente a:

title = bs.find(id='title')

In [34]:
# lidando com filhos e outros dependentes

# se quiser encontrar somente os descendentes que sejam filhos, a tag .children pode ser usada

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://pythonscraping.com/pages/page3.html')

bs = BeautifulSoup(html, 'html.parser')

for child in bs.find('table', {'id': 'giftList'}).children:
  print(child)



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>


In [35]:
# esse código exive a lista das linhas de produto da tabela giftList, incluindo a linha inicial com os rótulos das colunas

# se se fosse escrito com a função descendants() no lugar de childres(), aproximadamente duas dúzias de tags seriam encontradas ->

# na tabela e seriam exibidas, incluindo as tags imp, span e as tags td individuais

# sem dúvida é importante fazer uma diferenciação entre filhos e descendentes

In [36]:
# lidando com irmãos

# com a função next_siblings() do BeautifulSoup, é trivial coletar dados de tabelas, particularmente daquelas com linhas de título

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://pythonscraping.com/pages/page3.html')

bs = BeautifulSoup(html, 'html.parser')

for sibling in bs.find('table', {'id': 'giftList'}).tr.next_siblings:
  print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [37]:
# esse código tem como saída todas as linhas de produtos da tabela, exceto a primeira linha com os títulos

# porque a linha com títulos é ignorada? objetos não podem ser irmãos deles mesmos

# sempres que os irmãos de um objeto forem obtidos, o próprio objeto não estará incluido na lista

# como implica o nome da função, ela chama somente os próximos (next) irmãos

# se uma linha no meio da lista, por exemplo, fosse selecionada, e next_siblings fosse chamada, somente os irmãos subsequentes seriam devolvidos

# assim, ao selecionar a linha de títulos e chamar next_siblings, podemos selecionar todas as linhas da tabela, sem selecionar a própria linha de títulos

In [38]:
# o código anterior funcionará normalmente também de outras formas:

bs.table.tr

<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>

In [39]:
# testando de outra forma:

bs.tr

<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>

In [40]:
# tentando a forma original

bs.find('table', {'id': 'giftList'}).tr

<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>

In [41]:
# tentando extrair as informações

for sibling in bs.tr.next_siblings:
  print(sibling)



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg"/>
</td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg"/>
</td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg"/>
</td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
This is an ex-parr

In [42]:
# mesma que pareça haver somente uma tablea (ou, outra tag desejada) na página, é fácil cometer erros

# além do mais, os layouts das páginas mudam o tempo todo

# o que poderia ter sido a primeira tag da página um dia pode vir a ser a segunda ou a terceira tag desse tipo encontrada na página

# para deixar os scrapers mais robustos, é melhor ser o mais específico possível na seleção de tags

# é importante tirar proveito dos atributos de tags se estiverem disponíveis!!

In [43]:
# como complemento para next_siblings, a função previous_siblings muitas vezes pode ser útil se houver uma tag facilmente selecionável ->

# no final de uma lista de tags irmãs que se queira obter

In [44]:
# alé disso, é claro, temos as funções next_sibling e previous_sibling, que têm quase a mesma função de next_siblings e previous_siblings ->

# mas devolvem uma única tag, em vez de devolver uma lista delas

In [45]:
# lidando com pais

# as funções BeautifulSoup para lidar com os pais são .parent e .parents

In [46]:
# por exemplo:

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://pythonscraping.com/pages/page3.html')

bs = BeautifulSoup(html, 'html.parser')

print(bs.find('img', {'src': '../img/gifts/img1.jpg'}).parent.previous_sibling.get_text())


$15.00



In [47]:
# expressões regulares e o BeautifulSoup

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('https://pythonscraping.com/pages/page3.html')

bs = BeautifulSoup(html, 'html.parser')

images = bs.find_all('img', {'src': re.compile('\.\.\/img\/gifts/img.*\.jpg')})

for image in images:
  print(image['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg


In [48]:
# uma expressão regular pode ser inserida como qualquer argumento em uma expressão do BeautifulSoup, o que permite ter bastante ->

# flexibilidade para encontrar os elementos desejados

In [49]:
# expressões lambda

# o código a seguir obtém todas as tags que contenham exatamente dois atributos:

bs.find_all(lambda tag: len(tag.attrs) == 2)

[<img src="../img/gifts/logo.jpg" style="float:left;"/>,
 <tr class="gift" id="gift1"><td>
 Vegetable Basket
 </td><td>
 This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
 <span class="excitingNote">Now with super-colorful bell peppers!</span>
 </td><td>
 $15.00
 </td><td>
 <img src="../img/gifts/img1.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift2"><td>
 Russian Nesting Dolls
 </td><td>
 Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
 </td><td>
 $10,000.52
 </td><td>
 <img src="../img/gifts/img2.jpg"/>
 </td></tr>,
 <tr class="gift" id="gift3"><td>
 Fish Painting
 </td><td>
 If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
 </td><td>
 $10,005.00
 </td><td>
 <img src="../img/gifts/img3.jpg"/>
 </td>

In [50]:
# a função lambda é tão útil que pode ser usada até mesmo para substituir funções do BeautifulSoup

bs.find_all(lambda tag: tag.get_text() == 'Or maybe he\'s only resting?')

[<span class="excitingNote">Or maybe he's only resting?</span>]

In [51]:
# isso pode ser feito sem uma função lambda

bs.find_all('', text="Or maybe he's only resting?")

["Or maybe he's only resting?"]

### Capítulo 3 - Escrevendo Web Crawlers

In [52]:
# web crawler teste na página da wikipedia

from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find_all('a'):
  if 'href' in link.attrs:
    print(link.attrs['href'])

/wiki/Wikipedia:Protection_policy#semi
#mw-head
#searchInput
/wiki/Kevin_Bacon_(disambiguation)
/wiki/File:Kevin_Bacon_SDCC_2014.jpg
/wiki/Philadelphia,_Pennsylvania
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
#cite_note-1
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Wikipedia:Citation_needed
http://baconbros.com/
#cite_note-2
#cite_note-actor-3
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/X-Men:_First_Class
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/w

In [53]:
# com objetos de tag, uma lista python com os atributos pode ser automaticamente acessada por meio de uma chamada como "link.attrs"

# é importante ter em mente que esse código devolve, literalmente, um objeto de dicionário python, fazendo com que seja simples,
# acessar e manipular esses atributos

# o elemento "link" acima é um objeto bs4.element.Tag, que possui o método attrs, que permite tal acesso

In [54]:
# análise do código acima

  # 1. é importada a função urlopen da biblioteca urllib, que está no módulo request
  # 2. é importado o módulo request que está na biblioteca bs4
  # 3. é requisitado o objeto html da url, e então gerado um objeto "http.client.HTTPResponse" - <http.client.HTTPResponse at 0x7fa3d1ad7950>
  # 4. é utilizada a função BeautifulSoup para fazer o parse do objeto
    ## esse objeto é o html puro da página url - trata-se de um objeto da classe bs4.BeautifulSoup
  # 5. é utilizada a função find_all('a') no objeto para se buscar todos os elementos html <a>
    ## é retornada uma lista com todos os elementos <a>
  # 6. aplica-se um laço for na lista de elementos <a> para se trabalhar cada elemento - cada elemento será chamado "link"
    ## cada link é um objeto bs4.element.Tag
  # 7. é aplicada uma condição if: se houver alguma chave "href" no dicionário de link.attrs:
  # 8. deve então ser impresso o value correspondente à key 'href'

In [55]:
# a wikipedia possui links para caixas de texto, rodapés e cabeçalhos que não são de interesse

# existem regras específicas para páginas que apontam para artigos, como:
  # estão na div com o id definido com o bodyContent
  # os URLs não contêm dois-pontos
  # os URLs começam com /wiki/

In [56]:
# essas regras podem ser usadas para uma pequena revisão no código a fim de obter somente os links desejados para artigos,

# para isso utiliza-se a expressão regular ^(/wiki/)((?!:).)*$"):

In [57]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon')
bs = BeautifulSoup(html, 'html.parser')
for link in bs.find('div', {'id':'bodyContent'}).find_all('a', href=re.compile('^(/wiki/)((?!:).)*$')):
  if 'href' in link.attrs:
    print(link.attrs['href'])

/wiki/Kevin_Bacon_(disambiguation)
/wiki/Philadelphia,_Pennsylvania
/wiki/Kyra_Sedgwick
/wiki/Sosie_Bacon
/wiki/Edmund_Bacon_(architect)
/wiki/Michael_Bacon_(musician)
/wiki/Holly_Near
/wiki/Footloose_(1984_film)
/wiki/JFK_(film)
/wiki/A_Few_Good_Men
/wiki/Apollo_13_(film)
/wiki/Mystic_River_(film)
/wiki/Balto_(film)
/wiki/Sleepers
/wiki/The_Woodsman_(2004_film)
/wiki/Animal_House
/wiki/Diner_(1982_film)
/wiki/Tremors_(1990_film)
/wiki/Crazy,_Stupid,_Love
/wiki/Friday_the_13th_(1980_film)
/wiki/Flatliners
/wiki/The_River_Wild
/wiki/Wild_Things_(film)
/wiki/Stir_of_Echoes
/wiki/Hollow_Man
/wiki/Frost/Nixon_(film)
/wiki/Black_Mass_(film)
/wiki/Patriots_Day_(film)
/wiki/Fox_Broadcasting_Company
/wiki/The_Following
/wiki/HBO
/wiki/Taking_Chance
/wiki/Golden_Globe_Award
/wiki/Screen_Actors_Guild_Award
/wiki/Primetime_Emmy_Award
/wiki/Streaming_television
/wiki/I_Love_Dick_(TV_series)
/wiki/Golden_Globe_Award_for_Best_Actor_%E2%80%93_Television_Series_Musical_or_Comedy
/wiki/The_Guardian
/wi

In [58]:
# análise do código acima

# 1. importa a função urlopen, presente no módulo request da biblioteca urllib
# 2. importa a função BeautifulSoup do módulo bs4
# 3. importa o módulo re (regex)
# 3. é requisitado o objeto html da url, e então gerado um objeto "http.client.HTTPResponse" - <http.client.HTTPResponse at 0x7fa3d1ad7950>
# 4. é utilizada a função BeautifulSoup para fazer o parse do objeto
# 5. é utilizada a função find que retorna a primeira tag com o nome ou id especificado - nesse caso: id: bodyContent
  # 5.1. poderia ter sido utilizado apenas o elemento div, porém se pode especificar o id
  # 5.2. é retornado tudo que está dentro desse elemento no html
  # 5.4. trata-se de um objeto bs4.element.Tag
# 6. é usado o método find_all para encontrar e retornar uma lista com todos os elementos a
  # 6.1. é passado o argumento href=re.compile('^(/wiki/)((?!:).)*$') - que busca nos elementos href a regex demandada
  # 6.2. a regex escrita delimita os elementos href que começam com "/wiki/", não possuem ":" e terminam a linha
# 7. não era necessária a linha de código com if, dado que os "já foram selecionados" no loop anterior

In [59]:
# o código acima, na verdade, não possui tanta utilidade

# seria mais útil criar uma única função "getLinks" que receba um URL de um artigo da wikipedia no formato /wiki/<nome do artigo> e devolva uma lista ->

# com os URLs de todos os artigos associados, no mesmo formato

In [60]:
# em continunidade à ideia de código acima:

# uma função principal que chame getLinks com um artigo inicial, escolha um link de artigo aleatório na lista devolvida e chame getLinks novamente ->

# até que se interrompa o programa ou nenhum link de artigo seja encontrado na nova página

In [61]:
# eis o código completo para isso:

from urllib.request import urlopen
from bs4 import BeautifulSoup
import datetime
import random
import re

random.seed(datetime.datetime.now())
def getLinks(articleUrl):
  html = urlopen(f'http://en.wikipedia.org{articleUrl}')
  bs = BeautifulSoup(html, 'html.parser')
  return bs.find('div', {'id': 'bodyContent'}).find_all('a', href=re.compile('^(/wiki/)((?!:).)*$'))

links = getLinks('/wiki/Kevin_Bacon')
while len(links) > 0:
  newArticle = links[random.randint(0, len(links)-1)].attrs['href']
  print(newArticle)
  # links = getLinks(newArticle)

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
/wiki/Sosie_Bacon
/wiki/ISNI_(identifier)
/wiki/Cannes_Film_Festival
/wiki/Ponzi_scheme
/wiki/The_Following
/wiki/Giffoni_Film_Festival
/wiki/Jack_Nicholson
/wiki/Michael_Caine
/wiki/HBO_Films
/wiki/Tremors_(1990_film)
/wiki/Saturn_Award
/wiki/Satellite_Award_for_Best_Actor_%E2%80%93_Motion_Picture
/wiki/E!_People%27s_Choice_Awards
/wiki/Stir_of_Echoes
/wiki/Sebastian_Shaw_(comics)
/wiki/Satellite_Award_for_Best_Actor_%E2%80%93_Miniseries_or_Television_Film
/wiki/Primetime_Emmy_Award
/wiki/Michael_Douglas
/wiki/Friday_the_13th_(1980_film)
/wiki/Tracy_Pollan
/wiki/Leonardo_DiCaprio
/wiki/Tremors_(1990_film)
/wiki/Paul_Newman
/wiki/The_Woodsman_(2004_film)
/wiki/Losing_Chase
/wiki/Hollywood_Walk_of_Fame
/wiki/I_Love_Dick_(TV_series)
/wiki/Phoenix_Theater
/wiki/Matthew_Fox
/wiki/Friday_the_13th_(1980_film)
/wiki/Erd%C5%91s_number
/wiki/Dustin_Hoffman
/wiki/Ghent_International_Film_Festival
/wiki/Golden_Globe_Award_for_Best_A

KeyboardInterrupt: ignored

In [None]:
# análise do código:

# 1. é importada a função urlopen da extensão da biblioteca request, da biblioteca urllib
# 2. é importada a função BeautifulSoup da biblioteca bs4
# 3. é importada a biblioteca datetime, para poder-se utilizar a função datetime
# 4. é importada a biblioteca radom, para se utilizar a função randint
# 5. é importada a biblioteca re, para se utilizar a função compile - aplicar regex
# 6. é plantada uma seed em random, com o datetime do sistema - dessa forma se garante uma função mais aleatória cada vez que a função for rodada
# 7. é definida a função getLinks, que recebe uma string formatada de forma a se encaixar na variável html cada vez que for chamada
# 8. é declarada a variável html que incluirá a nova parte necessária de um artigo wikipedia para agregar no formato Url necessário para novo acesso
# 9. é utilizada a função BeautifulSoup em html para fazer parse na página requisitada, sendo armazenada na variável bs
# 10. o return é uma lista em que se busca em bs as regras determinadas
# 11. é aplicada a função getLinks no articleUrl e retornado o resultado (lista de novos Urls) para ser armazenada na variável links
# 12.é gerado um laço de repetição com while, que permanecerá enquanto o tamanho da lista contida em links for maior que zero
# 13. é escolhido um item aleatório da lista de link a ser armazenada na variável newArticle
# 14. new article é imprimido
# 15. links chama novamente a função getLinks, gerando um laço virtualmente infinito

In [None]:
# fazendo mapeamento de um site

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

pages = set()
def getLinks(pageUrl):
  global pages
  html = urlopen(f'http://en.wikipedia.org{pageUrl}')
  bs = BeautifulSoup(html, 'html.parser')
  for link in bs.find_all('a', href=re.compile('^(/wiki/)')):
    if 'href' in link.attrs:
      if link.attrs['href'] not in pages:
        # encontrada uma nova página
        newPage = link.attrs['href']
        print(newPage)
        pages.add(newPage)
        getLinks(newPage)

getLinks('')