# Experimentos com Beautiful Soup

**[Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)** é uma biblioteca Python para extrair dados de arquivos HTML e XML.

Iniciamos importando bibliotecas necessárias para nossos experimentos

In [1]:
from bs4 import BeautifulSoup
import requests 

Vamos obter o objeto `requests.models.Response` que irá nos trazer o conteúdo HTML que precisamos

In [3]:
r = requests.get('https://pythonwebscraping.netlify.app')

Guardamos então o conteúdo da página em uma variável

In [4]:
html = r.text

#### Iniciando a extração de dados

- Através do construtor `BeautifulSoup()` inicializamos nosso objeto `bs4.BeautifulSoup`
- Ele representa o documento como um todo
- Com ele ganharemos acesso a diversos atributos e métodos interessantes para acessarmos os elementos da página em questão

In [5]:
soup = BeautifulSoup(html, 'html.parser')
print(soup)

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>Web Scraping Tutorial com Python</title>
<link href="https://i.imgur.com/QOVnf5D.png" rel="icon"/>
<style>
	.python {
		color: purple;
	}
	#titulo {
		text-transform: uppercase;
	}
	table {
	  border-collapse: collapse;
	}

	table, th, td {
	  border: 1px solid black;
	  padding: 3px;
	}
	</style>
</head>
<body>
<h1>Web Scraping</h1>
<h2>Estrutura Básica HTML</h2>
<img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg"/>
<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
</p>
<p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>
<h3 id="titulo">Linguagens de Programação</h3>
<ul>
<li class="python">Python</li>
<li>Perl</li>
<li>PHP</li>

Podemos usar o método `prettify()` para imprimir o conteúdo de nosso documento de uma forma legível

In [6]:
soup.prettify()

'<!DOCTYPE html>\n<html>\n <head>\n  <meta charset="utf-8"/>\n  <title>\n   Web Scraping Tutorial com Python\n  </title>\n  <link href="https://i.imgur.com/QOVnf5D.png" rel="icon"/>\n  <style>\n   .python {\n\t\tcolor: purple;\n\t}\n\t#titulo {\n\t\ttext-transform: uppercase;\n\t}\n\ttable {\n\t  border-collapse: collapse;\n\t}\n\n\ttable, th, td {\n\t  border: 1px solid black;\n\t  padding: 3px;\n\t}\n  </style>\n </head>\n <body>\n  <h1>\n   Web Scraping\n  </h1>\n  <h2>\n   Estrutura Básica HTML\n  </h2>\n  <img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg"/>\n  <p>\n   Aprendendo Web Scraping com\n   <a href="https://www.python.org/">\n    Python\n   </a>\n   ,\n   <a href="https://github.com/psf/requests-html">\n    Requests-HTML\n   </a>\n   ,\n   <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">\n    Beautiful Soup\n   </a>\n   e\n   <a href="https://scrapy.org/">\n    Scrapy\n   </a>\n  </p>\n  <p>\n   “Logic will get you from A to 

O atributo **title** nos traz o elemento `<title>` da página

In [7]:
soup.title

<title>Web Scraping Tutorial com Python</title>

O atributo **title.name** nos traz o nome do elemento `<title>` da página

In [8]:
soup.title.name

'title'

O atributo **title.string** nos traz o conteúdo do elemento `<title>` da página

In [9]:
soup.title.string

'Web Scraping Tutorial com Python'

O atributo **title.parent.name** traz o nome do elemento pai do elemento `<title>`, neste caso `<head>`

In [10]:
soup.title.parent.name

'head'

O atributo **p** traz o primeiro parágrafo (`<p>`) da página

In [11]:
soup.p

<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
</p>

#### Buscando Elementos

- O método `find_all()` é capaz de buscar elementos.
- Passamos como argumento **'p'** e ele nos traz todos os parágrafos da página

In [12]:
soup.find_all('p')

[<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
 	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
 	<a href="https://scrapy.org/">Scrapy</a>
 </p>,
 <p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>]

Passamos como argumento **'a'** e ele nos retorna todos os links da página

In [13]:
soup.find_all('a')

[<a href="https://www.python.org/">Python</a>,
 <a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>,
 <a href="https://scrapy.org/">Scrapy</a>]

Ao passarmos **'li'** como argumento, nos serão trazidos todos itens de lista

In [14]:
soup.find_all('li')

[<li class="python">Python</li>, <li>Perl</li>, <li>PHP</li>]

Através de um **for loop** podemos percorrer a lista e extrair apenas o texto

In [65]:
for l in soup.find_all('li'):
    print(l.text)

Python
Perl
PHP


Também podemos buscar um elemento por sua **classe**

In [15]:
soup.find_all('li', class_='python') 

[<li class="python">Python</li>]

Até mesmo podemos buscá-lo por seu **id**

In [16]:
soup.find(id='titulo')

<h3 id="titulo">Linguagens de Programação</h3>

É possível também selecionarmos um elemento específico

In [17]:
soup.find("h3", {"id": "titulo"})

<h3 id="titulo">Linguagens de Programação</h3>

Podemos buscar o conteúdo src de um elemento `<img>`

In [18]:
soup.find('img')['src']

'https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg'

O método `get_text()` nos retorna uma string que representa a página

In [19]:
soup.get_text()

'\n\n\n\nWeb Scraping Tutorial com Python\n\n\n\n\nWeb Scraping\nEstrutura Básica HTML\n\nAprendendo Web Scraping com Python,\n\tRequests-HTML,\n\tBeautiful Soup e\n\tScrapy\n\n“Logic will get you from A to Z; imagination will get you everywhere.” Albert Einstein\nLinguagens de Programação\n\nPython\nPerl\nPHP\n\nGrandes Matemáticos\n\n\nNome\nSobrenome\nEmail\n\n\nAlan\nTuring\nalan@turing.com\n\n\nJohn\nvon Neumann\njohn@voneumann.com\n\n\nBlaise\nPascal\nblaise@pascal.com\n\n\n\n\n'

Podemos utilizar um **for loop** para extrair apenas os links da página

In [70]:
for link in soup.find_all('a'):
    print(link.get('href'))

https://www.python.org/
https://github.com/psf/requests-html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://scrapy.org/


Podemos selecionar todos os links contidos no elemento `<body>`

In [20]:
soup.select("body a")

[<a href="https://www.python.org/">Python</a>,
 <a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>,
 <a href="https://scrapy.org/">Scrapy</a>]

Podemos selecionar todos os links que possuam o atributo **'href'**

In [21]:
soup.select('a[href]')

[<a href="https://www.python.org/">Python</a>,
 <a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>,
 <a href="https://scrapy.org/">Scrapy</a>]

Podemos selecionar todos os elementos que possuam o id **titulo**

In [22]:
soup.select("#titulo")

[<h3 id="titulo">Linguagens de Programação</h3>,
 <h3 id="titulo">Grandes Matemáticos</h3>]

Podemos selecionar todos os elementos que possuam a classe **python**

In [23]:
soup.select('.python')

[<li class="python">Python</li>]

Podemos selecionar todos os dados de uma tabela

In [24]:
soup.select('table > tr > td')

[<td>Alan</td>,
 <td>Turing</td>,
 <td>alan@turing.com</td>,
 <td>John</td>,
 <td>von Neumann</td>,
 <td>john@voneumann.com</td>,
 <td>Blaise</td>,
 <td>Pascal</td>,
 <td>blaise@pascal.com</td>]

É possível usarmos um **for loop** para obtermos uma representação de nossa página como diversas strings

In [25]:
for string in soup.strings:
    print(repr(string))

'\n'
'\n'
'\n'
'\n'
'Web Scraping Tutorial com Python'
'\n'
'\n'
'\n'
'\n'
'\n'
'Web Scraping'
'\n'
'Estrutura Básica HTML'
'\n'
'\n'
'Aprendendo Web Scraping com '
'Python'
',\n\t'
'Requests-HTML'
',\n\t'
'Beautiful Soup'
' e\n\t'
'Scrapy'
'\n'
'\n'
'“Logic will get you from A to Z; imagination will get you everywhere.” '
'Albert Einstein'
'\n'
'Linguagens de Programação'
'\n'
'\n'
'Python'
'\n'
'Perl'
'\n'
'PHP'
'\n'
'\n'
'Grandes Matemáticos'
'\n'
'\n'
'\n'
'Nome'
'\n'
'Sobrenome'
'\n'
'Email'
'\n'
'\n'
'\n'
'Alan'
'\n'
'Turing'
'\n'
'alan@turing.com'
'\n'
'\n'
'\n'
'John'
'\n'
'von Neumann'
'\n'
'john@voneumann.com'
'\n'
'\n'
'\n'
'Blaise'
'\n'
'Pascal'
'\n'
'blaise@pascal.com'
'\n'
'\n'
'\n'
'\n'
'\n'
