<img src="img/brasao-PUCSP-assinatura-principal-RGB.png" width="10%"/>

# CDIA21 | BeautifulSoup

#### Semana 05 |  Raspagem de Dados com Beautiful Soup

Em muitas situações, necessitamos de dados que não estão estruturados em um formato de dados legível por máquinas como por exemplo um ```.csv``` ou  *[Application Programming Interface (API)](https://pt.wikipedia.org/wiki/Interface_de_programa%C3%A7%C3%A3o_de_aplica%C3%A7%C3%B5es)*. Frequentemente os dados estão em páginas da Web. Neste caso, necessitamos utilizar técnicas de raspagem de dados (em inglês, *Web scraping*) para extrair os dados de uma página Web em um formato útil para análise.

Neste tutorial, mostramos como fazer a raspagem de dados do serviço de metereologia americano *[National Weather Service](https://www.weather.gov/)*. Usaremos a biblioteca [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/) para fazer a raspagem e [Pandas](https://pandas.pydata.org/) para fazer a análise dos dados.

## Os componentes de uma página Web

Quando visitamos uma página web, o navegador faz uma requisição a um servidor web. Esta requisição é chamada de requisição `GET`, uma vez que vamos 'pegar' arquivos do servidor. O servidor manda de volta os arquivos que informam nosso navegador como renderizar a página.

#### O modelo cliente-servidor

>É uma arquitetura de aplicação distribuída, em que um ou mais clientes solicitam recursos ou serviços a servidores, que retornam aos clientes aquilo que lhes foi solicitado.

Os arquivos que retornam dos servidores se encaixam em algumas poucas categorias.

- HTML - contém o conteúdo de uma página

- CSS - adiciona estilo à página pra ficar mais bonita

- JS - Arquivos Javascript adicionam interatividade às páginas web

- Imagens - Arquivos de imagens PNG ou JPG que permitem que as páginas web mostrem imagens

## HTML

HTML é uma linguagem de marcação e consiste de elementos chamados etiquetas (em inglês, tags). As etiquetas informam ao navegador qual a função de cada parte do texto. 

```html
<html>
</html>
```

Este próximo exemplo contém um pouco mais de comandos HTML e nenhum conteúdo a ser renderizado na página.

```html
<html>
    <head>
    </head>
    <body>
    </body>
</html>
```

No próximo exemplo, temos dois parágrafos que podem ser renderizados pelo navegador.

```html
<html>
    <head>
    </head>
    <body>
        <p>
           Olá mundo HTML!
        </p>
        <p>
           Hello HTML World!
        </p>
    </body>
</html>
```

Isso apareceria assim no navegador.

Olá Mundo HTML!

Hello HTML World!

As etiquetas possuem nomes que dependem da posição relativa em relação às outras etiquetas.

- **filho**: é uma etiqueta que está dentro de outra. Assim, as duas etiquetas ```<p>``` são filhas da etiqueta ```body```.

- **pai**: é a etiqueta que contém uma outra. Por exemplo, a etiqueta ```<html>``` é pai de ```<body>```.

- **irmão**: é uma etiqueta que compartilha o mesmo pai que outra. No exemplo, ambas etiquetas ```<p>``` são irmãs.

Podemos adicionar propriedades às etiquetas HTML que alteram seu comportamento:

```html
<html>
<head>
</head>
<body>
<p>
Here's a paragraph of text!
<a href="https://www.dataquest.io">Learn Data Science Online</a>
</p>
<p>
    Here's a second paragraph of text!
    <a href="https://www.python.org">Python</a> 
</p>
</body>
</html>
```

O resultado no navegador será assim:

Here's a paragraph of text! [Learn Data Science Online](https://www.dataquest.io)

Here's a second paragraph of text! [Python](https://www.python.org)

Etiquetas comuns:

- `a` --- renderiza um link para uma outra página web

- `div` --- indica uma divisão, ou uma área de uma página

- `b` --- torna um texto em negrito

- `i` --- torna um texto em itálico

- `table` --- cria uma tabela

- `form` --- cria um form de entrada de dados


Este [link](https://developer.mozilla.org/en-US/docs/Web/HTML/Element) contém todas as etiquetas HTML.

Antes de partir para a raspagem web, precisamos conhecer as propriedades ```class``` e ```id```. Um elemento pode ter múltiplas classes, e uma classe pode ser compartilhada por vários elementos. Cada elemento pode ter somente um id e um id só pode ser usado uma vez na página. Classes e ids são opcionais e nem todos os elementos as incluem.

Vamos adicionar classes e ids ao nosso exemplo.

```html
<html>
<head>
</head>
<body>
<p class="bold-paragraph">
Here's a paragraph of text!
<a href="https://www.dataquest.io" id="learn-link">Learn Data Science Online</a>
</p>
<p class="bold-paragraph extra-large">
Here's a second paragraph of text!
<a href="https://www.python.org" class="extra-large">Python</a>
</p>
</body>
</html>
```

# ```requests```

### Instalando a biblioteca requests

```bash
pip install requests
```

### Usando a biblioteca requests

In [9]:
import requests
page = requests.get("http://dataquestio.github.io/web-scraping-pages/simple.html")
#page
page.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <title>A simple example page</title>\n    </head>\n    <body>\n        <p>Here is some simple content for this page.</p>\n    </body>\n</html>'

`requests.get(uri)` retorna um objeto que possui uma propriedade chamada `status_code`, que indica se o download da página foi bem sucedido.

In [18]:
page

<Response [200]>

In [17]:
page.status_code

200

Imprimindo o conteúdo de uma página.

In [None]:
page.content

**Exercício de fixação**

Escolha uma URL que retorne um HTML (páginas não formadas por JavaScript) e mostre o resultado na tela.

In [None]:
import requests
page = requests.get("<URL>")

## ```BeautifulSoup```

#### Instalando a biblioteca BeautifulSoup

In [None]:
pip install bs4

#### Usando a biblioteca BeautifulSoup

In [10]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(page.content, 'html.parser')
soup

<!DOCTYPE html>

<html>
<head>
<title>A simple example page</title>
</head>
<body>
<p>Here is some simple content for this page.</p>
</body>
</html>

In [16]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <p>
   Here is some simple content for this page.
  </p>
 </body>
</html>


Podemos selecionar todos os elementos no topo na página usando a propriedade `children` de `soup`. É necessário usar uma função `list` no resutado:

In [13]:
soup.children

<list_iterator at 0x10a06f580>

In [19]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>A simple example page</title>
 </head>
 <body>
 <p>Here is some simple content for this page.</p>
 </body>
 </html>]

**Pergunta** Quantos elementos a lista anterior (i.e., ```list(soup.children)```) possui?

In [20]:
l = list(soup.children)
## Contagem de elementos
len(l)

3

Vamos ver qual o tipo de cada elemento.

In [None]:
lista = list(soup.children)

for elemento in lista:
    print(type(elemento))

O item final `Tag` é o que contém as etiquetas e é por ele que navegamos no documento HTML. É o terceiro elemento da lista.

In [None]:
html = list(soup.children)[2]
html

In [None]:
type(html)

In [None]:
list(html.children)

In [None]:
body = list(html.children)[3]
body

In [None]:
list(body.children)

In [None]:
p = list(body.children)[1]
p

In [None]:
p.get_text()

### Encontrando todas as instâncias de uma etiqueta de uma vez

Usando o método `find_all`, que encontra todas as instâncias de uma etiqueta em uma página.

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')
soup.find_all('p')

In [None]:
soup.find_all('p')[0].get_text()

In [None]:
soup.find('p')

### Pesquisando etiquetas por classe e por identificador

Classes e identificadores (ids) são utilizados pelo CSS para determinar os estilos que será aplicado a cada elemento HTML. Veja o exemplo. 

Esta página se encontra [aqui](http://dataquestio.github.io/web-scraping-pages/ids_and_classes.html):

```html
<html>
<head>
<title>A simple example page</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
First paragraph.
</p>
<p class="inner-text">
Second paragraph.
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
First outer paragraph.
</b>
</p>
<p class="outer-text">
<b>
Second outer paragraph.
</b>
</p>
</body>
</html>
```

In [None]:
page = requests.get("http://dataquestio.github.io/web-scraping-pages/ids_and_classes.html")
soup = BeautifulSoup(page.content, 'html.parser')
soup

In [None]:
soup.find_all('p', class_='outer-text')

In [None]:
soup.find_all(class_="outer-text")

In [None]:
soup.find_all(id="first")

### Usando seletores CSS

Podemos pesquisar por itens da página usando seletores CSS. Estes seletores CSS permitem que as etiquetas HTML sejam estilizadas.

- ```p a``` --- encontra todas as etiquetas ```a``` dentro de uma etiqueta ```p```

- ``` ``` --- encontra todas as etiquetas ```a``` dentro de uma etiqueta ```p``` dentro de uma etiqueta ```a```

- ```html body``` --- encontra todas as etiquetas ```body``` dentro de uma etiqueta ```html```

- ```p.outer-text``` --- encontra todas as etiquetas ```p``` dentro da classe ```outer-text```

- ```p#first``` --- encontra todas as etiquetas ```p``` com ```id``` igual a ```first``` 

- ```body p.outer-text``` --- encontra toda etiqueta ```p``` com classe ```outer-text``` dentro da etiqueta ```body```

In [None]:
soup.select("div p")

## Referências

DATA QUEST. https://www.dataquest.io/blog/web-scraping-tutorial-python/. Acesso em 06/04/2021