# Fundamentos de Desenvolvimento Python

## Prof.: Andre Victor

### Web Scraping

**Web scraping** é uma técnica de computação usada para extrair informações de websites. Esta técnica geralmente foca na transformação de dados estruturados para a Web, em formato HTML, para alguma estrutura particular de interesse do programador. Por exemplo, para criar uma tabela de informações, acompanhar a evolução de algum dado durante o tempo, consultar dados que são alterados frequentemente, entre outros.

A maneira mais fácil de buscar o conteúdo de uma página na web é através do módulo **requests**

In [11]:
import requests

url="https://dataquestio.github.io/web-scraping-pages/simple.html"

# Usando requests
page = requests.get(url)

O método get faz uma requisição HTTP para a URL e devolve o resultado da requisição

In [12]:
type(page)

requests.models.Response

In [13]:
page.status_code

200

In [15]:
page.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <title>A simple example page</title>\n    </head>\n    <body>\n        <p>Here is some simple content for this page.</p>\n    </body>\n</html>'

### BeautifulSoup

**Beautifull** é um módulo bastante popular para interpretar e parsear o conteúdo de páginas HTML

In [20]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')

In [21]:
type(soup)

bs4.BeautifulSoup

O método **__str__()** da classe BeautifulSoup foi implementado para apresentar o conteúdo HTML da página

In [42]:
print(soup)

<!DOCTYPE html>

<html>
<head>
<title>A simple example page</title>
</head>
<body>
<p>Here is some simple content for this page.</p>
</body>
</html>


O método **prettify()** formata de forma amigável a árvore de tags da página

In [43]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <p>
   Here is some simple content for this page.
  </p>
 </body>
</html>


A propriedade **children** do objeto BeautifulSoup retorna um iterador (lista) com os elementos da página

In [33]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>A simple example page</title>
 </head>
 <body>
 <p>Here is some simple content for this page.</p>
 </body>
 </html>]

A lista acima nos mostra que há 2 tags na página: a tag inicial **DOCTYPE html** e a tag **html**. Há uma nova linha também (\n). Isso totaliza 3 elementos na lista

In [29]:
len(list(soup.children))

3

Vamos analisar o tipo de cada elemento dessa estrutura:

In [25]:
[type(item) for item in list(soup.children)]

[bs4.element.Doctype, bs4.element.NavigableString, bs4.element.Tag]

Como pode ser observado, todos os itens são objetos BeautifulSoup:<p>
- O primeiro é um objeto **Doctype**, que contem informações sobre o tipo de documento
- O segundo é um objeto **NavigableString**, que representa o texto encontrado no documento HTML
- O terceiro é um objeto **Tag**, que representa a árvore de elementos e tags HTML do documento

Vamos trabalhar e analisar essa estrutura

In [26]:
html = list(soup.children)[2]

In [28]:
type(html)

bs4.element.Tag

In [30]:
html

<html>
<head>
<title>A simple example page</title>
</head>
<body>
<p>Here is some simple content for this page.</p>
</body>
</html>

Vamos pegar os filhos da raiz da árvore **html**

In [31]:
list(html.children)

['\n',
 <head>
 <title>A simple example page</title>
 </head>,
 '\n',
 <body>
 <p>Here is some simple content for this page.</p>
 </body>,
 '\n']

Vamos trabalhar com o **body** que é onde o conteúdo da página é publicado

In [34]:
body = list(html.children)[3]

In [35]:
body

<body>
<p>Here is some simple content for this page.</p>
</body>

In [36]:
type(body)

bs4.element.Tag

In [37]:
list(body.children)

['\n', <p>Here is some simple content for this page.</p>, '\n']

In [38]:
p = list(body.children)[1]

In [39]:
type(p)

bs4.element.Tag

In [40]:
p

<p>Here is some simple content for this page.</p>

Trabalhando com o texto simples do elemento

In [41]:
p.get_text()

'Here is some simple content for this page.'

Se quiséssemos trabalhar com a primeira instância de um elemento/tag, podemos usar também o método find, que vai retornar uma instância do objeto Tag

In [45]:
soup.find('p')

<p>Here is some simple content for this page.</p>

### Busca de tags por class ou id

In [46]:
page = requests.get("https://dataquestio.github.io/web-scraping-pages/ids_and_classes.html")
soup = BeautifulSoup(page.content, 'html.parser')
soup

<html>
<head>
<title>A simple example page</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
                First paragraph.
            </p>
<p class="inner-text">
                Second paragraph.
            </p>
</div>
<p class="outer-text first-item" id="second">
<b>
                First outer paragraph.
            </b>
</p>
<p class="outer-text">
<b>
                Second outer paragraph.
            </b>
</p>
</body>
</html>

In [47]:
print(soup.prettify())

<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    First paragraph.
   </p>
   <p class="inner-text">
    Second paragraph.
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    First outer paragraph.
   </b>
  </p>
  <p class="outer-text">
   <b>
    Second outer paragraph.
   </b>
  </p>
 </body>
</html>


Agora podemos utilizar o método **find_all** para buscar por todos os itens de uma classe ou id

In [48]:
soup.find_all('p', class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 First outer paragraph.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 Second outer paragraph.
             </b>
 </p>]

Poderíamos não saber de que se tratava um parágrafo (p), mas que a tag estava rotulada na classe

In [49]:
soup.find_all(class_="outer-text")

[<p class="outer-text first-item" id="second">
 <b>
                 First outer paragraph.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 Second outer paragraph.
             </b>
 </p>]

Podemos também buscar pelo id

In [50]:
soup.find_all(id="first")

[<p class="inner-text first-item" id="first">
                 First paragraph.
             </p>]