# Raspagem de dados com a biblioteca BeautifulSoap

Fonte:

https://www.dataquest.io/blog/web-scraping-tutorial-python/?source=post_page---------------------------


## Estrutura de uma página Web:

* HTML — Conteúdo da página;
* CSS — Informações de estilo para aprimorar a aparência da página;
* JS — Arquivos Javascript para adicionar interatividade à página;
* Images — arquivos de imagem como JPG e PNG para serem exibidos na página.

Depois que nosso navegador recebe todos os arquivos, ele renderiza a página e a exibe para nós. 

Existem outras coisas por traz do processo de renderização de uma página Web, mas o que nos interessa quando estamos realizando uma raspagem de dados é: **capturar uma página e extrair o conteúdo que nos interessa. Por isso, analisamos o HTML.**

### Estrutura de um arquivo HTML

![alt text](https://www.oreilly.com/library/view/learning-web-design/9780596527525/graphics/lwd3_0407.jpg)

Agora, adicionaremos nosso primeiro conteúdo a uma página, na forma da tag p. A tag p define um parágrafo e qualquer texto dentro da tag é mostrado como um parágrafo separado (**abrir o markdown**):

<html>
    <head>
    </head>
    <body>
    <a href="https://www.dataquest.io">Aprenda Data Science Online</a>
          <p>
                Parágrafo 1
                <a href="https://www.dataquest.io">Aprenda Data Science Online</a>
          </p>
          <p>
               Parágrafo 2
               <a href="https://www.python.org">Python</a>
        	</p>
    </body>
</html>

### Tags



No exemplo anterior, adicionamos duas tags **p** e duas tags **a**. 

Tags **a** são links e dizem ao navegador para renderizar um link para outra página da web. A propriedade href da tag determina para onde o link vai.

A tag **p** define um parágrafo e qualquer texto dentro dessa tag é mostrado como um parágrafo separado.

**a** e **p** são tags html extremamente comuns. Aqui estão alguns outros:

* div - indica uma divisão ou área da página.
* b - negrita qualquer texto dentro.
* em - itálico qualquer texto dentro.
* table - cria uma tabela.
* form - cria um formulário de entrada.


Para uma lista completa de tags, veja [aqui](https://developer.mozilla.org/en-US/docs/Web/HTML/Element).

As tags geralmente usam nomes que dependem de sua posição em relação a outras tags:

* **child** - uma tag child é uma tag dentro de outra tag. Portanto, as duas tags p acima são ambas filhas da tag body.
* **parent** - parent é a tag que outra tag está dentro. Acima, a tag html é o pai da tag body.
* **sibiling** - um sibiling é uma tag aninhada dentro do mesmo pai que outra tag. Por exemplo, head e body são irmãs, já que estão dentro de html. Ambas as tags p também são irmãs, já que estão dentro do body.

### Classes e IDs



Classes e IDs são propriedades especiais fornecem nomes a elementos HTML e facilitam a interação com eles quando estamos realizando uma raspagem. 

Um elemento pode ter várias classes e uma classe pode ser compartilhada entre elementos. 

Cada elemento só pode ter um ID e um ID só pode ser usado uma vez em uma página.

Classes e IDs são opcionais e nem todos os elementos os terão.

Podemos adicionar classes e ids ao nosso exemplo (**abrir o markdown**):

</br></br></br>

<html>
      <head>
      </head>
      <body>
            <p class="bold-paragraph">
                  Here's a paragraph of text!
                  <a href="https://www.dataquest.io" id="learn-link">Learn Data Science Online</a>
            </p>
            <p class="bold-paragraph extra-large">
                  Here's a second paragraph of text!
                  <a href="https://www.python.org" class="extra-large">Python</a>
            </p>
      </body>
</html>

</br></br></br>

**Observe que adicionar classes e IDs não altera a maneira como as tags são renderizadas.**

## A biblioteca Request

A primeira coisa que precisamos fazer para obter dados uma página da Web é fazer o download da página. Podemos baixar páginas usando a biblioteca **requests** do Python. 

A biblioteca **requests** fará uma solicitação GET para um servidor da Web, que baixará o conteúdo HTML de uma determinada página da Web para nós. 

Existem vários tipos diferentes de solicitações que podemos fazer usando solicitações, das quais GET é apenas uma. Se você quiser saber mais, confira [este tutorial](http://www.dataquest.io/blog/python-api-tutorial/)

Vamos tentar fazer o download de um website simples de exemplo, http://dataquestio.github.io/web-scraping-pages/simple.html. 

Para tanto, precisamos fazer o download usando o método requests.get.

In [101]:
import requests
page = requests.get("http://dataquestio.github.io/web-scraping-pages/simple.html")
page

<Response [200]>

Depois de executar nossa solicitação, obtemos um objeto Response. Este objeto tem uma propriedade status_code, que indica se a página foi baixada com sucesso:

In [60]:
page.status_code

200

Um código de status de 200 significa que a página foi baixada com sucesso. Não nos aprofundaremos totalmente nos códigos de status aqui, mas um código de status que comece com um 2 geralmente indica sucesso, e um código que comece com 4 ou 5 indica um erro.

Também podemos imprimir o conteúdo HTML da página usando a propriedade content:

In [99]:
page.content

b'<!DOCTYPE html>\n<html>\n    <head>\n        <title>A simple example page</title>\n    </head>\n    <body>\n        <p>Here is some simple content for this page.</p>\n    </body>\n</html>'

## Analisando uma página com o BeautifulSoup

Agora que baixamos um documento HTML, podemos usar a biblioteca BeautifulSoup para analisar este documento e extrair o texto da tag p. 

Primeiro temos que importar a biblioteca e criar uma instância da classe BeautifulSoup para analisar nosso documento:

In [102]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page.content, 'html.parser')

Agora podemos imprimir o conteúdo HTML da página, formatado de maneira agradável, usando o método prettify no objeto BeautifulSoup:

In [103]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <p>
   Here is some simple content for this page.
  </p>
 </body>
</html>


Como todas as tags estão aninhadas, podemos percorrer a estrutura um nível por vez. 

Podemos primeiro selecionar todos os elementos no nível superior da página usando a propriedade children de soup. 

In [104]:
list(soup.children)

['html', '\n', <html>
 <head>
 <title>A simple example page</title>
 </head>
 <body>
 <p>Here is some simple content for this page.</p>
 </body>
 </html>]

In [111]:
list(soup.children)

['html', '\n', <html>
 <head>
 <title>A simple example page</title>
 </head>
 <body>
 <p>Here is some simple content for this page.</p>
 </body>
 </html>]

O resultado acima nos diz que há duas tags no nível superior da página: a tag inicial <! DOCTYPE html> e a tag < html >. Há um caractere de nova linha (\n) na lista também. Vamos ver qual é o tipo de cada elemento na lista:

In [110]:
[type(item) for item in list(soup.children)]

[bs4.element.Doctype, bs4.element.NavigableString, bs4.element.Tag]

Como você pode ver, todos os itens são objetos BeautifulSoup. 

* O primeiro é um objeto Doctype, que contém informações sobre o tipo do documento;
* O segundo é um NavigableString, que representa o texto encontrado no documento HTML. 
* O item final é um objeto Tag, que contém outras tags aninhadas. O tipo de objeto mais importante e aquele com o qual lidaremos com mais frequência é o objeto Tag.

O objeto Tag nos permite navegar por um documento HTML e extrair outras tags e textos. Você pode aprender mais sobre os vários objetos BeautifulSoup [aqui](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#kinds-of-objects).

Agora podemos selecionar a tag html e seus filhos, pegando o terceiro item da lista:

In [66]:
html = list(soup.children)[2]
list(html.children)

['\n', <head>
 <title>A simple example page</title>
 </head>, '\n', <body>
 <p>Here is some simple content for this page.</p>
 </body>, '\n']

Como você pode ver acima, existem duas tags aqui, head e body. Queremos extrair o texto dentro da tag **p**, então mergulharemos no corpo:

In [67]:
body = list(html.children)[3]
list(body.children)

['\n', <p>Here is some simple content for this page.</p>, '\n']

Agora podemos isolar a tag **p** e usar o método **get_text** para extrair o conteúdo dessa tag.

In [68]:
p = list(body.children)[1]
p.get_text()

'Here is some simple content for this page.'

### Encontrar todas as ocorrências de uma tag de uma só vez

Aprendemos acima como navegar em uma página, mas precisou de muitos comandos para fazer algo muito simples. 

Contudo, existe um jeito mais fácil: se quisermos extrair uma única tag, podemos usar o método **find_all**, que encontrará todas as instâncias de uma tag em uma página.

In [69]:
soup = BeautifulSoup(page.content, 'html.parser')
soup.find_all('p')

[<p>Here is some simple content for this page.</p>]

In [70]:
soup.find_all('p')[0].get_text()

'Here is some simple content for this page.'

O método **find_all** retorna uma lista, mas se quisermos recuperar apenas a primeira ocorrência de uma tag, pode-se utilizar o método **find**:

In [113]:
soup.find('p')

<p>Here is some simple content for this page.</p>

### Pesquisando tags por classe e ID

Classes e IDs são usados pelo CSS para determinar quais elementos HTML devem ser aplicados a determinados estilos. 

Nós também podemos usá-los quando raspamos para especificar elementos específicos que queremos extrair. 

Para ilustrar esse princípio, trabalharemos com a seguinte página (**abrir o markdown**):

</br></br>

.

<html>
      <head>
            <title>A simple example page</title>
      </head>
      <body>
            <div>
                  <p class="inner-text first-item" id="first">
                        First paragraph.
                  </p>
                  <p class="inner-text">
                        Second paragraph.
                  </p>
            </div>
            <p class="outer-text first-item" id="second">
                  <b>
                        First outer paragraph.
                  </b>
            </p>
            <p class="outer-text">
                  <b>
                        Second outer paragraph.
                  </b>
            </p>
      </body>
</html>

Podemos acessar o documento acima na URL http://dataquestio.github.io/web-scraping-pages/ids_and_classes.html. Vamos primeiro fazer o download da página e criar um objeto BeautifulSoup:

In [115]:
page = requests.get("http://dataquestio.github.io/web-scraping-pages/ids_and_classes.html")
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

<html>
 <head>
  <title>
   A simple example page
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    First paragraph.
   </p>
   <p class="inner-text">
    Second paragraph.
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    First outer paragraph.
   </b>
  </p>
  <p class="outer-text">
   <b>
    Second outer paragraph.
   </b>
  </p>
 </body>
</html>


Agora, podemos usar o método **find_all** para procurar itens por classe ou por ID. No exemplo abaixo, pesquisaremos qualquer tag **p** que tenha a classe **outer-text**.

In [73]:
soup.find_all('p', class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>
                 First outer paragraph.
             </b>
 </p>, <p class="outer-text">
 <b>
                 Second outer paragraph.
             </b>
 </p>]

No exemplo abaixo, buscaremos por qualquer tag que possua a classe **outer-text**:

In [74]:
soup.find_all(class_="outer-text")

[<p class="outer-text first-item" id="second">
 <b>
                 First outer paragraph.
             </b>
 </p>, <p class="outer-text">
 <b>
                 Second outer paragraph.
             </b>
 </p>]

Pesquisando por ID

In [75]:
soup.find_all(class_="first-item")

[<p class="inner-text first-item" id="first">
                 First paragraph.
             </p>, <p class="outer-text first-item" id="second">
 <b>
                 First outer paragraph.
             </b>
 </p>]

In [117]:
soup.find(id="first")

<p class="inner-text first-item" id="first">
                First paragraph.
            </p>

### Utilizando seletores CSS

Você também pode pesquisar por itens usando seletores CSS. Esses seletores são como a linguagem CSS permite que os desenvolvedores especifiquem tags HTML para estilo. 

Aqui estão alguns exemplos:

* **p a** - localiza todas as tags **a** dentro de uma tag **p**;
* **body p a** - localiza todas as tags **a** dentro de uma tag **p** dentro de uma tag **body**;
* **html body** - encontra todas as tags do corpo dentro de uma tag html;
* **p.outer-text** - encontra todas as tags p com a classe **outer-text**;
* **p #first** - encontra todas as tags **p** com o id first;
* **body p.outer-text** - localiza qualquer tag **p** com uma classe outer-text dentro de uma tag **body**.

Você pode aprender mais sobre seletores de CSS [aqui](https://developer.mozilla.org/en-US/docs/Web/Guide/CSS/Getting_started/Selectors).

Os objetos BeautifulSoup suportam a pesquisa de uma página através de seletores CSS usando o método select. Podemos usar seletores CSS para encontrar todas as tags **p** em nossa página que estão dentro de um **div** assim:

In [77]:
soup.select("div p")

[<p class="inner-text first-item" id="first">
                 First paragraph.
             </p>, <p class="inner-text">
                 Second paragraph.
             </p>]

# Download de dados meteorológicos

Agora sabemos o suficiente para extrair informações sobre o clima local no site do Serviço Nacional de Meteorologia. O primeiro passo é encontrar a página que queremos raspar. Nós extrairemos informações sobre o tempo do centro de São Francisco.

![alt text](https://cdn.shortpixel.ai/client/to_webp,q_glossy,ret_img/https://www.dataquest.io/wp-content/uploads/2019/01/extended_forecast.png)

Vamos extrair dados sobre a previsão estendida.

Como você pode ver na imagem, a página contém informações sobre a previsão estendida para a próxima semana, incluindo a hora do dia, a temperatura e uma breve descrição das condições.

Para extrair dados [desta página](http://forecast.weather.gov/MapClick.php?lat=37.7772&lon=-122.4168), precisamos inspecionar seu código a fim de descobrir a estrutura em que os dados estão organizados no código HTML, as tags utilizadas e as classes e/ou IDs que utilizaremos para raspar tais dados.

![alt text](https://cdn.shortpixel.ai/client/to_webp,q_glossy,ret_img/https://www.dataquest.io/wp-content/uploads/2019/01/div.png)

Ao inspecionar a página, é possível identificar que todas as predições estão dentro de uma **div** com o ID **seven-day-forecast**.

Explorando essa div, percebe-se que cada previsão está dentro de uma **div** com a classe **tombstone-container**

Agora sabemos o suficiente para baixar a página e começar a analisá-la. No código abaixo cumpre as seguintes instruções:

* Baixe a página da web que contém a previsão;
* Crie uma classe BeautifulSoup para analisar a página;
* Encontre o div com a previsão de sete dias do ID e atribua à variável seven_day;
* Dentro de seven_day, encontre cada item de previsão individual;
* Extraia e imprima o primeiro item de previsão.

In [78]:
page = requests.get("http://forecast.weather.gov/MapClick.php?lat=37.7772&lon=-122.4168")
soup = BeautifulSoup(page.content, 'html.parser')
seven_day = soup.find(id="seven-day-forecast")
forecast_items = seven_day.find_all(class_="tombstone-container")
tonight = forecast_items[0]
print(tonight.prettify())

<div class="tombstone-container">
 <p class="period-name">
  Tonight
  <br/>
  <br/>
 </p>
 <p>
  <img alt="Tonight: Clear, with a low around 51. West wind 6 to 11 mph becoming light and variable  after midnight. " class="forecast-icon" src="newimages/medium/nskc.png" title="Tonight: Clear, with a low around 51. West wind 6 to 11 mph becoming light and variable  after midnight. "/>
 </p>
 <p class="short-desc">
  Clear
 </p>
 <p class="temp temp-low">
  Low: 51 °F
 </p>
</div>


## Extraindo informação da página

Como você pode ver, dentro do item de previsão **Tonight** está toda a informação que queremos. Existem 4 informações que podemos extrair:

* O nome do item de previsão - neste caso, Tonight.
* A descrição das condições - isso é armazenado na propriedade title do img.
* Uma breve descrição das condições - neste caso, Mostly Clear.
* A temperatura baixa - neste caso, 49° F.
* Vamos extrair o nome do item de previsão, a descrição curta e a temperatura primeiro:

In [79]:
period = tonight.find(class_="period-name").get_text()
short_desc = tonight.find(class_="short-desc").get_text()
temp = tonight.find(class_="temp").get_text()
print(period)
print(short_desc)
print(temp)

Tonight
Clear
Low: 51 °F


Agora podemos extrair o atributo title da tag img. Para fazer isso, apenas tratamos o objeto BeautifulSoup como um dicionário e passamos o atributo que queremos como chave:

In [118]:
img = tonight.find("img")
desc = img['alt']
print(desc)

Tonight: Clear, with a low around 51. West wind 6 to 11 mph becoming light and variable  after midnight. 


## Extraindo todo o conteúdo da página

Agora que sabemos como extrair cada informação individual, podemos combinar nosso conhecimento com seletores de CSS e list comprehensions para extrair tudo de uma só vez.

O código abaixo segue as seguintes instruções:

* Selecione todos os itens com a classe **period-name** dentro de um item com a classe **tombstone-container** em **seven_day**;
* Use uma list comprehension para chamar o método **get_text** em cada objeto BeautifulSoup.



In [81]:
period_tags = seven_day.select(".tombstone-container .period-name")
periods = [pt.get_text() for pt in period_tags]
periods

['Tonight',
 'Thursday',
 'ThursdayNight',
 'Friday',
 'FridayNight',
 'Saturday',
 'SaturdayNight',
 'Sunday',
 'SundayNight']

Como você pode ver acima, nossa técnica traz cada um dos nomes dos períodos, em ordem. 

Podemos aplicar a mesma técnica para obter os outros 3 campos:

In [82]:
short_descs = [sd.get_text() for sd in seven_day.select(".tombstone-container .short-desc")]
temps = [t.get_text() for t in seven_day.select(".tombstone-container .temp")]
descs = [d["title"] for d in seven_day.select(".tombstone-container img")]
print(short_descs)
print(temps)
print(descs)

['Clear', 'Sunny', 'Mostly Clear', 'Sunny', 'Mostly Clear', 'Sunny', 'Partly Cloudy', 'Mostly Sunny', 'Partly Cloudy']
['Low: 51 °F', 'High: 70 °F', 'Low: 53 °F', 'High: 75 °F', 'Low: 55 °F', 'High: 76 °F', 'Low: 53 °F', 'High: 66 °F', 'Low: 51 °F']
['Tonight: Clear, with a low around 51. West wind 6 to 11 mph becoming light and variable  after midnight. ', 'Thursday: Sunny, with a high near 70. Light and variable wind becoming west 13 to 18 mph in the morning. Winds could gust as high as 23 mph. ', 'Thursday Night: Mostly clear, with a low around 53. West wind 6 to 11 mph becoming light and variable. ', 'Friday: Sunny, with a high near 75. Calm wind becoming north around 6 mph in the afternoon. ', 'Friday Night: Mostly clear, with a low around 55. West wind 8 to 13 mph becoming light and variable. ', 'Saturday: Sunny, with a high near 76.', 'Saturday Night: Partly cloudy, with a low around 53.', 'Sunday: Mostly sunny, with a high near 66.', 'Sunday Night: Partly cloudy, with a low aro

## Combinando nossos dados em um Dataframe do Pandas

In [83]:
import pandas as pd
weather = pd.DataFrame({
    "period": periods,
    "short_desc": short_descs,
    "temp": temps,
    "desc":descs
})
weather

Unnamed: 0,period,short_desc,temp,desc
0,Tonight,Clear,Low: 51 °F,"Tonight: Clear, with a low around 51. West win..."
1,Thursday,Sunny,High: 70 °F,"Thursday: Sunny, with a high near 70. Light an..."
2,ThursdayNight,Mostly Clear,Low: 53 °F,"Thursday Night: Mostly clear, with a low aroun..."
3,Friday,Sunny,High: 75 °F,"Friday: Sunny, with a high near 75. Calm wind ..."
4,FridayNight,Mostly Clear,Low: 55 °F,"Friday Night: Mostly clear, with a low around ..."
5,Saturday,Sunny,High: 76 °F,"Saturday: Sunny, with a high near 76."
6,SaturdayNight,Partly Cloudy,Low: 53 °F,"Saturday Night: Partly cloudy, with a low arou..."
7,Sunday,Mostly Sunny,High: 66 °F,"Sunday: Mostly sunny, with a high near 66."
8,SundayNight,Partly Cloudy,Low: 51 °F,"Sunday Night: Partly cloudy, with a low around..."


Extraindo o valor numérico da temperatura

In [84]:
temp_nums = weather["temp"].str.extract("(?P<temp_num>\d+)", expand=False)
weather["temp_num"] = temp_nums.astype('int')
temp_nums

0    51
1    70
2    53
3    75
4    55
5    76
6    53
7    66
8    51
Name: temp_num, dtype: object

Temperatura média da semana:

In [85]:
weather["temp_num"].mean()

61.111111111111114

Selecionando linhas que referem-se a temperaturas noturnas

In [86]:
is_night = weather["temp"].str.contains("Low")
weather["is_night"] = is_night
is_night

0     True
1    False
2     True
3    False
4     True
5    False
6     True
7    False
8     True
Name: temp, dtype: bool

In [87]:
weather[is_night]

Unnamed: 0,period,short_desc,temp,desc,temp_num,is_night
0,Tonight,Clear,Low: 51 °F,"Tonight: Clear, with a low around 51. West win...",51,True
2,ThursdayNight,Mostly Clear,Low: 53 °F,"Thursday Night: Mostly clear, with a low aroun...",53,True
4,FridayNight,Mostly Clear,Low: 55 °F,"Friday Night: Mostly clear, with a low around ...",55,True
6,SaturdayNight,Partly Cloudy,Low: 53 °F,"Saturday Night: Partly cloudy, with a low arou...",53,True
8,SundayNight,Partly Cloudy,Low: 51 °F,"Sunday Night: Partly cloudy, with a low around...",51,True
