# Dev.scrap - Revis√£o

---

Este notebook visa fazer uma revis√£o dos conte√∫dos dos Cap√≠tulos 1 at√© 4 do livro "Web Scraping com Python" da Ryan Mitchell.

*Observa√ß√£o*: √â uma boa atualizar esse notebook para cada come√ßo de ano para continuar a frente sem ter que voltar do zero.

In [None]:
from urllib.request import urlopen
from urllib.error import HTTPError, URLError
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import re
import random

## Cap√≠tulo 1 e 2

No cap√≠tulo 1, aprendemos o b√°sico sobre como obter uma p√°gina web a partir de um c√≥digo Python e transform√°-lo em um objeto BeautifulSoup para podermos navegar facilmente pelas tags, classes e tudo o que comp√µe o HTML.

J√° no cap√≠tulo 2, aprendemos a usar o Beautiful Soup e todas as ferramentas que ele nos tem a oferecer, al√©m disso, aprendemos um pouco sobre express√µes regulares.

Caso queira treinar os conhecimentos deste cap√≠tulo, utilize este [notebook](https://github.com/USPCodeLabSanca/dev-scrap-book-solutions/blob/main/caps%201-2/chapter1-2.ipynb).

Para obter uma p√°gina web e transform√°-la em um objeto BeautifulSoup, fa√ßa o seguinte:

In [None]:
def getPage(url):
  try:
    html = urlopen(url)
  except HTTPError:
    return None
  except URLError:
    return None
  return html

def getBS(url):
  page = getPage(url)
  if page:
    return BeautifulSoup(getPage(url).read(), 'html.parser')
  return None

In [None]:
site = getBS("https://scraping-cap1-2.netlify.app/")
site

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Caps 1-2</title>
</head>
<style>

    body {
        margin: 0;
        padding: 1em 1em 2em 1em;
    }
    table {
        margin: 1em 0em;
        font-family: arial, sans-serif;
        border-collapse: collapse;
        width: 100%;
    }
    
    td, th {
        border: 1px solid #dddddd;
        text-align: left;
        padding: 8px;
    }
    
    .oscar {
        background-color: gold !important; 
    }
    
    tr:nth-child(even) {
      background-color: #dddddd;
    }

    img {
        width: 15%;
        max-height: 5%;
    }

</style>
<body>
<h1>Movie List by Production Companies</h1>
<div id="warner">
<h2>Warner Bros. Pictures</h2>
<img alt="warner" src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d2/Warner_Bros._%282019%29_logo.svg/1200px-Warner_Bros._%282019%2

Para acessar o primeiro de um tipo de tag no escopo em que est√°, podemos fazer de duas maneiras:

In [None]:
print(site.h2)
print(site.find('h2'))

<h2>Warner Bros. Pictures</h2>
<h2>Warner Bros. Pictures</h2>


Se quiser acessar o valor textual da tag, use `.get_text()`

In [None]:
print(site.h2.get_text())

Warner Bros. Pictures


Para encontrar determinadas tags a partir de uma pesquisa, utilizaremos principalmente dois m√©todos com defini√ß√µes parecidas:
* `find_all(tag, attributes, recursive, text, limit, keywords)`
* `find(tag, attributres, recursive, text, keywords)`

Com o par√¢metro `tag`, podemos passar uma tag ou uma lista de tags:

In [None]:
print(site.find('h2'))
print(site.find_all('h2'))

print(site.find(['h1', 'h2'])) # Retorna a primeira tag encontrada dentre as passadas na lista
print(site.find_all(['h1', 'h2']))

<h2>Warner Bros. Pictures</h2>
[<h2>Warner Bros. Pictures</h2>, <h2>Participant Films</h2>]
<h1>Movie List by Production Companies</h1>
[<h1>Movie List by Production Companies</h1>, <h2>Warner Bros. Pictures</h2>, <h2>Participant Films</h2>]


Com o par√¢metro `attributes`, √© passado um dicion√°rio que faz a correspond√™ncia com tags que contenham qualquer um desses atributos.

In [None]:
print(site.find_all('tr', {'class': {'oscar', 'cannes'}})) # Retornam todas as tags tr que tenham classe 'oscar' OU 'cannes' 

[<tr class="oscar">
<td>Green Book</td>
<td>Viggo Mortensen, Mahershala Ali, Linda Cardellini</td>
<td>Peter Farrelly</td>
<td>2018</td>
</tr>, <tr class="oscar">
<td>The Post</td>
<td>Meryl Streep, Tom Hanks, Sarah Paulson</td>
<td>Steven Spielberg</td>
<td>2017</td>
</tr>, <tr class="oscar">
<td>Roma</td>
<td>Yalitza Aparicio, Marina de Tavira</td>
<td>Alfonso Cuar√≥n</td>
<td>2018</td>
</tr>, <tr class="oscar">
<td>Spotlight</td>
<td>Mark Rufallo, Michael Keaton, Rachel McAdams</td>
<td>Tom McCarthy</td>
<td>2015</td>
</tr>]


O par√¢metro `recursive` (`True` por default) detalha o n√≠vel de aprofundamento que o `find` ou `find_all` pode ter. Caso esteja setado para `True`, pode vasculhar toda a √°rvore do DOM para baixo. Caso contr√°rio, analisa apenas o n√≠vel mais superficial.

In [None]:
print(site.find('td', recursive=False))
print(site.find('td', recursive=True))
print(site.find('td'))

None
<td>Harry Potter and the Philosopher's Stone</td>
<td>Harry Potter and the Philosopher's Stone</td>


O par√¢metro `string` (`text` est√° depreciado) faz uma busca no conte√∫do textual das tags.

In [None]:
print(site.find(string="Green Book"))

Green Book


O par√¢metro `limit` √© usado somente no `find_all` e retorna os $n$ primeiros resultados especificados pela pesquisa.

In [None]:
print(site.find_all('td', limit=2))
print(len(site.find_all('td')))

[<td>Harry Potter and the Philosopher's Stone</td>, <td>Daniel Radcliffe, Emma Watson, Rupert Grint, Alan Rickman, Richard Harris</td>]
52


O par√¢metro `keyword` permite definir que os resultados dever√£o ter atributos com os seguintes valores.

Diferentemente do `attributes` que funciona com um OR, o keyword funciona com um AND.

In [None]:
print(site.find(id="warner"))
print(site.find(class_="oscar"))

<div id="warner">
<h2>Warner Bros. Pictures</h2>
<img alt="warner" src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d2/Warner_Bros._%282019%29_logo.svg/1200px-Warner_Bros._%282019%29_logo.svg.png"/>
<table>
<tr>
<th>Movie</th>
<th>Actors</th>
<th>Year</th>
<th>Director</th>
</tr>
<tr>
<td>Harry Potter and the Philosopher's Stone</td>
<td>Daniel Radcliffe, Emma Watson, Rupert Grint, Alan Rickman, Richard Harris</td>
<td>2001</td>
<td>Chris Columbus</td>
</tr>
<tr>
<td>Harry Potter and the Chamber of Secrets</td>
<td>Daniel Radcliffe, Emma Watson, Rupert Grint, Alan Rickman, Richard Harris</td>
<td>2002</td>
<td>Chris Columbus</td>
</tr>
<tr>
<td>Harry Potter and the Prisoner of Askaban</td>
<td>Daniel Radcliffe, Emma Watson, Rupert Grint, Alan Rickman, Michael Gambon</td>
<td>2004</td>
<td>Alfonso Cuar√≥n</td>
</tr>
<tr>
<td>Harry Potter and the Goblet of Fire</td>
<td>Daniel Radcliffe, Emma Watson, Rupert Grint, Alan Rickman, Michael Gambon</td>
<td>2005</td>
<td>Mike Newell

Para conseguir todas as tags filhas de uma tag, voc√™ pode usar o `.children`. 

Ele gera um iterador, caso voc√™ queria uma lista, pode usar o `.find_all(recursive=False)`.

*Observa√ß√£o*: note que o `child` no c√≥digo abaixo retorna umas linhas vazias, ent√£o fique atento a isso ao usar o `.children`

In [None]:
participant = site.find(id='participant')
for i, child in enumerate(participant.children):
  print(i, child)

print(len(participant.find_all(recursive=False)))

0 

1 <h2>Participant Films</h2>
2 

3 <img alt="participant" src="https://upload.wikimedia.org/wikipedia/commons/0/07/Participant_%282019%29.svg"/>
4 

5 <table>
<tr>
<th>Movie</th>
<th>Actors</th>
<th>Director</th>
<th>Year</th>
</tr>
<tr class="oscar">
<td>Green Book</td>
<td>Viggo Mortensen, Mahershala Ali, Linda Cardellini</td>
<td>Peter Farrelly</td>
<td>2018</td>
</tr>
<tr class="oscar">
<td>The Post</td>
<td>Meryl Streep, Tom Hanks, Sarah Paulson</td>
<td>Steven Spielberg</td>
<td>2017</td>
</tr>
<tr class="oscar">
<td>Roma</td>
<td>Yalitza Aparicio, Marina de Tavira</td>
<td>Alfonso Cuar√≥n</td>
<td>2018</td>
</tr>
<tr class="oscar">
<td>Spotlight</td>
<td>Mark Rufallo, Michael Keaton, Rachel McAdams</td>
<td>Tom McCarthy</td>
<td>2015</td>
</tr>
</table>
6 

3


Para conseguir todas as tags descendentes de uma tag, voc√™ pode usar o `.descendants`. 

Ele gera um iterador, caso voc√™ queria uma lista, pode usar o `.find_all()`.

In [None]:
for i, child in enumerate(participant.descendants):
  print(i, child)

print(participant.find_all())

0 

1 <h2>Participant Films</h2>
2 Participant Films
3 

4 <img alt="participant" src="https://upload.wikimedia.org/wikipedia/commons/0/07/Participant_%282019%29.svg"/>
5 

6 <table>
<tr>
<th>Movie</th>
<th>Actors</th>
<th>Director</th>
<th>Year</th>
</tr>
<tr class="oscar">
<td>Green Book</td>
<td>Viggo Mortensen, Mahershala Ali, Linda Cardellini</td>
<td>Peter Farrelly</td>
<td>2018</td>
</tr>
<tr class="oscar">
<td>The Post</td>
<td>Meryl Streep, Tom Hanks, Sarah Paulson</td>
<td>Steven Spielberg</td>
<td>2017</td>
</tr>
<tr class="oscar">
<td>Roma</td>
<td>Yalitza Aparicio, Marina de Tavira</td>
<td>Alfonso Cuar√≥n</td>
<td>2018</td>
</tr>
<tr class="oscar">
<td>Spotlight</td>
<td>Mark Rufallo, Michael Keaton, Rachel McAdams</td>
<td>Tom McCarthy</td>
<td>2015</td>
</tr>
</table>
7 

8 <tr>
<th>Movie</th>
<th>Actors</th>
<th>Director</th>
<th>Year</th>
</tr>
9 

10 <th>Movie</th>
11 Movie
12 

13 <th>Actors</th>
14 Actors
15 

16 <th>Director</th>
17 Director
18 

19 <th>Year</th>


Para chamar os irm√£os seguintes a uma tag, usamos `.next_siblings`:

In [None]:
the_post = participant.find_all('tr')[2]
for sibling in the_post.next_siblings:
  print(sibling)



<tr class="oscar">
<td>Roma</td>
<td>Yalitza Aparicio, Marina de Tavira</td>
<td>Alfonso Cuar√≥n</td>
<td>2018</td>
</tr>


<tr class="oscar">
<td>Spotlight</td>
<td>Mark Rufallo, Michael Keaton, Rachel McAdams</td>
<td>Tom McCarthy</td>
<td>2015</td>
</tr>




Para chamar os irm√£os anteriores a uma tag, usamos `.previous_siblings`:

In [None]:
for sibling in the_post.previous_siblings:
  print(sibling)



<tr class="oscar">
<td>Green Book</td>
<td>Viggo Mortensen, Mahershala Ali, Linda Cardellini</td>
<td>Peter Farrelly</td>
<td>2018</td>
</tr>


<tr>
<th>Movie</th>
<th>Actors</th>
<th>Director</th>
<th>Year</th>
</tr>




Para obter a tag pai de uma determinada tag, utilizamos o `.parent`:

In [None]:
the_post.parent

<table>
<tr>
<th>Movie</th>
<th>Actors</th>
<th>Director</th>
<th>Year</th>
</tr>
<tr class="oscar">
<td>Green Book</td>
<td>Viggo Mortensen, Mahershala Ali, Linda Cardellini</td>
<td>Peter Farrelly</td>
<td>2018</td>
</tr>
<tr class="oscar">
<td>The Post</td>
<td>Meryl Streep, Tom Hanks, Sarah Paulson</td>
<td>Steven Spielberg</td>
<td>2017</td>
</tr>
<tr class="oscar">
<td>Roma</td>
<td>Yalitza Aparicio, Marina de Tavira</td>
<td>Alfonso Cuar√≥n</td>
<td>2018</td>
</tr>
<tr class="oscar">
<td>Spotlight</td>
<td>Mark Rufallo, Michael Keaton, Rachel McAdams</td>
<td>Tom McCarthy</td>
<td>2015</td>
</tr>
</table>

Para relembrar a sintaxe do regex (express√£o regular), utilize a p√°gina 45 do livro.
Para usar o regex, utilize o `re.compile()`:

In [None]:
site.find_all('img', {'src': re.compile('.*svg')})
site.find_all('td', text=re.compile('The Post'))[0].parent

  site.find_all('td', text=re.compile('The Post'))[0].parent


<tr class="oscar">
<td>The Post</td>
<td>Meryl Streep, Tom Hanks, Sarah Paulson</td>
<td>Steven Spielberg</td>
<td>2017</td>
</tr>

Para acessar atributos de uma tag usamos `.attrs`

In [None]:
site.html.attrs['lang']

'en'

Para utilizar express√µes lambda, precisamos que elas esperem um par√¢metro do tipo BeautifulSoup e que retornem um valor booleano. Dessa forma, o `find` e o `find_all` filtram a partir do resultado da express√£o.

In [None]:
site.find_all(lambda tag: len(tag.attrs) == 2)

[<meta content="IE=edge" http-equiv="X-UA-Compatible"/>,
 <meta content="width=device-width, initial-scale=1.0" name="viewport"/>,
 <img alt="warner" src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d2/Warner_Bros._%282019%29_logo.svg/1200px-Warner_Bros._%282019%29_logo.svg.png"/>,
 <img alt="participant" src="https://upload.wikimedia.org/wikipedia/commons/0/07/Participant_%282019%29.svg"/>]

## Cap√≠tulo 3

No cap√≠tulo 3, aprendemos a escrever nossos primeiros web crawlers. Ou seja, sabemos agora como pular de um site para outro, rastrear um dom√≠nio e criar um caminhante aleat√≥rio por um dom√≠nio ou por um site.

Caso queira treinar os conhecimentos deste cap√≠tulo, utilize este [notebook](https://github.com/USPCodeLabSanca/dev-scrap-book-solutions/blob/main/cap%203/chapter-3.ipynb).

Vamos utilizar o site https://scraping-cap3.netlify.app/ nos pr√≥ximos blocos.

Fa√ßamos uma fun√ß√£o que obtenha todos os links internos presentes em uma p√°gina desse website.

Obs: perceba que utilizamos um set, pois n√£o queremos links repetidos na nossa lista. No entanto, um link do tipo "https://scraping-cap3.netlify.app/baixistas.html" √© igual √† "./baixistas.html" na pr√°tica, por√©m nosso set n√£o ir√° diferenciar entre os dois.

In [None]:
def getInternalLinksOfPage(bsObject):
  if bsObject is None:
    return set()
  links = bsObject.find_all('a', {'href': re.compile('(^\.*\/.+$)|(https:\/\/scraping-cap3\.netlify\.app\/.*)')})
  links = set([link.attrs['href'] for link in links])
  return links

site = getBS("https://scraping-cap3.netlify.app/")
getInternalLinksOfPage(site)

{'./baixistas.html',
 './bandas.html',
 './bateristas.html',
 './guitarristas.html',
 './index.html',
 './tecladistas.html',
 './vocalistas.html'}

Vamos fazer uma fun√ß√£o que torna nossos links internos em formato de URL. Para que possamos ter um formato padr√£o para o nosso set.

In [None]:
def makeInternalLinkAnURL(link):
  url = 'https://scraping-cap3.netlify.app/'
  if link.startswith('./'):
    url += link[2:]
  elif link.startswith('/'):
    url += link[1:]
  elif link.startswith('../'):  # isso est√° incorreto, mas vamos deixar assim por facilidade
    url += link[3:]
  else:
    return link
    
  return url

makeInternalLinkAnURL("./guitarristas.html")

'https://scraping-cap3.netlify.app/guitarristas.html'

Um dom√≠nio funciona como um grafo direcionado, onde as setas representam os direcionamentos de uma p√°gina para a outra. Na verdade, toda a internet funciona dessa forma. 

Para navegarmos a totalidade de um grafo, um algoritmo usual para fazermos isso √© uma BFS (*Breadth-first Search*).

<img src="https://www.guru99.com/images/1/020820_0543_BreadthFirs1.png" alt="BFS diagram" style="height: 50px; width:50px;"/>

O algoritmo funciona da seguinte maneira:
1. Temos uma fila que indica a ordem em que iremos visitar cada n√≥

2. Temos um hash-set com os n√≥s j√° visitados

3. Iniciamos a fila com um n√≥ inicial e o hash-set vazio

4. A cada itera√ß√£o
  1. Retiramos e obtemos o n√≥ da fila
  2. Realizamos alguma opera√ß√£o sobre o n√≥
  3. Adicionamos o n√≥ ao hash-set
  2. Adicionamos os n√≥s adjacentes que n√£o est√£o no hash-set na fila

5. Itere enquanto a fila n√£o estiver vazia

Vamos fazer uma BFS para navegar pelo dom√≠nio:

In [None]:
def bfs(inicial):
  fila = [makeInternalLinkAnURL(inicial)]
  visitados = set()

  while len(fila) > 0:
    no = fila.pop()
    visitados.add(no)
    for link in getInternalLinksOfPage(getBS(no)):
      url = makeInternalLinkAnURL(link)
      if url not in visitados:
        fila.append(url)

  return visitados

bfs("https://scraping-cap3.netlify.app/")

{'https://scraping-cap3.netlify.app/',
 'https://scraping-cap3.netlify.app/baixistas.html',
 'https://scraping-cap3.netlify.app/baixistas/Dee_Dee_Ramone.html',
 'https://scraping-cap3.netlify.app/baixistas/Geezer_Butler.html',
 'https://scraping-cap3.netlify.app/baixistas/John_Paul_Jones.html',
 'https://scraping-cap3.netlify.app/baixistas/Krist_Novoselic.html',
 'https://scraping-cap3.netlify.app/baixistas/Paul_McCartney.html',
 'https://scraping-cap3.netlify.app/baixistas/Roger_Glover.html',
 'https://scraping-cap3.netlify.app/baixistas/Simon_Gallup.html',
 'https://scraping-cap3.netlify.app/bandas.html',
 'https://scraping-cap3.netlify.app/bandas/Black_Sabbath.html',
 'https://scraping-cap3.netlify.app/bandas/Deep_Purple.html',
 'https://scraping-cap3.netlify.app/bandas/Led_Zeppelin.html',
 'https://scraping-cap3.netlify.app/bandas/Nirvana.html',
 'https://scraping-cap3.netlify.app/bandas/Ramones.html',
 'https://scraping-cap3.netlify.app/bandas/The_Beatles.html',
 'https://scraping

Para pegarmos os links externos de um site, pegamos todos os links que n√£o s√£o internos. Para isso, utilizamos a opera√ß√£o de diferen√ßa da teoria de conjuntos.

In [None]:
def getExternalLinksOfPage(bsObject):
  if bsObject is None:
    return set()
  aTags = bsObject.find_all('a')
  links = set([tag.attrs['href'] for tag in aTags if 'href' in tag.attrs])
  links.difference_update(getInternalLinksOfPage(bsObject))
  links = {link for link in links if len(link) > 0}
  links = {link for link in links if link[0] == "h"}
  return links

In [None]:
getExternalLinksOfPage(getBS("https://scraping-cap3.netlify.app/"))

<class 'bs4.BeautifulSoup'>


{'https://github.com/kibonusp',
 'https://www.linkedin.com/in/gabrielfreitas-xv/'}

Podemos fazer um caminhante aleat√≥rio pela internet a partir disso. Voc√™ poderia impedir ele de visitar p√°ginas novamente utilizando um set, por√©m teria que transformar links internos em URLs, mas t√¥ com pregui√ßa pra isso üòú

In [None]:
def makeInternalLinkAnURL(link, hostname):
  url = hostname
  if link.startswith('./'):
    url += link[2:]
  elif link.startswith('/'):
    url += link[1:]
  elif link.startswith('../'):  # isso est√° incorreto, mas vamos deixar assim por facilidade
    url += link[3:]
  else:
    return link
    
  return url

In [None]:
o =urlparse("https://scraping-cap3.netlify.app/conversa")
o.hostname

'scraping-cap3.netlify.app'

In [None]:
def bfsExternalLink(page, hostname):
  url = makeInternalLinkAnURL(page, hostname)
  external_links = getExternalLinksOfPage(getBS(url))
  if len(external_links) > 0:
      return url, external_links

  fila = [url]
  visitados = set()

  while len(fila) > 0:
    no = fila.pop()
    visitados.add(no)
    external_links = getExternalLinksOfPage(getBS(no))
    if external_links:
      return no, external_links
    for link in getInternalLinksOfPage(getBS(no)):
      url = makeInternalLinkAnURL(link)
      if url not in visitados:
        fila.append(url)

  return None, set()


In [None]:
def random_walker(link):
  print(link)
  visited = {link}
  linkp = urlparse(link)
  url, external_links = bfsExternalLink(link, linkp.hostname)
  if len(external_links) == 0:
    print("No external links found")
    return {link}
  next_link = random.choice(list(external_links))
  visited.add(next_link)
  return visited.union(random_walker(next_link))

In [None]:
random_walker("https://scraping-cap3.netlify.app")

https://scraping-cap3.netlify.app
https://www.linkedin.com/in/gabrielfreitas-xv/
No external links found


{'https://scraping-cap3.netlify.app',
 'https://www.linkedin.com/in/gabrielfreitas-xv/'}