# Beautiful Soup Experimentos

In [50]:
# Importando bibliotecas necessárias
import requests 
from bs4 import BeautifulSoup

In [3]:
# Obtendo o objeto 'requests.models.Response'
r = requests.get('https://pythonwebscraping.netlify.com/')

In [51]:
# Guardamos o conteúdo da página em uma variável
html = r.text

In [54]:
# Através do construtor BeautifulSoup() inicializamos nosso objeto 'bs4.BeautifulSoup'
# Ele representa o documento como um todo
# Com ele ganharemos acesso a diversos atributos e métodos interessantes para acessarmos os elementos da página
soup = BeautifulSoup(html, 'html.parser')
print(soup)

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<title>Web Scraping Tutorial com Python</title>
<link href="https://i.imgur.com/QOVnf5D.png" rel="icon"/>
<style>
	.python {
		color: purple;
	}
	#titulo {
		text-transform: uppercase;
	}
	table {
	  border-collapse: collapse;
	}

	table, th, td {
	  border: 1px solid black;
	  padding: 3px;
	}
	</style>
</head>
<body>
<h1>Web Scraping</h1>
<h2>Estrutura Básica HTML</h2>
<img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg"/>
<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
</p>
<p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>
<h3 id="titulo">Linguagens de Programação</h3>
<ul>
<li class="python">Python</li>
<li>Perl</li>
<li>PHP</li>

In [55]:
# Imprimindo nosso documento através do método prettify()
soup.prettify()

'<!DOCTYPE html>\n<html>\n <head>\n  <meta charset="utf-8"/>\n  <title>\n   Web Scraping Tutorial com Python\n  </title>\n  <link href="https://i.imgur.com/QOVnf5D.png" rel="icon"/>\n  <style>\n   .python {\n\t\tcolor: purple;\n\t}\n\t#titulo {\n\t\ttext-transform: uppercase;\n\t}\n\ttable {\n\t  border-collapse: collapse;\n\t}\n\n\ttable, th, td {\n\t  border: 1px solid black;\n\t  padding: 3px;\n\t}\n  </style>\n </head>\n <body>\n  <h1>\n   Web Scraping\n  </h1>\n  <h2>\n   Estrutura Básica HTML\n  </h2>\n  <img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg"/>\n  <p>\n   Aprendendo Web Scraping com\n   <a href="https://www.python.org/">\n    Python\n   </a>\n   ,\n   <a href="https://github.com/psf/requests-html">\n    Requests-HTML\n   </a>\n   ,\n   <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">\n    Beautiful Soup\n   </a>\n   e\n   <a href="https://scrapy.org/">\n    Scrapy\n   </a>\n  </p>\n  <p>\n   “Logic will get you from A to 

In [58]:
# O atributo title nos traz o elemento <title> da página
soup.title

<title>Web Scraping Tutorial com Python</title>

In [59]:
# O atributo title.name nos traz o nome do elemento <title> da página
soup.title.name

'title'

In [60]:
# O atributo title.string nos traz o conteúdo do elemento <title> da página
soup.title.string

'Web Scraping Tutorial com Python'

In [61]:
# O atributo title.parent.name traz o nome do elemento pai do elemento <title>, nesse caso <head>
soup.title.parent.name

'head'

In [62]:
# O atributo p traz o primeiro parágrafo da página
soup.p

<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
</p>

In [63]:
# O método find_all é capaz de buscar elementos
# Passamos como argumento 'p' e ele nos traz todos os parágrafos da página
soup.find_all('p')

[<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
 	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
 	<a href="https://scrapy.org/">Scrapy</a>
 </p>,
 <p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>]

In [13]:
# Passamos como argumento 'a' e ele nos retorna todos os links da página
soup.find_all('a')

[<a href="https://www.python.org/">Python</a>,
 <a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>,
 <a href="https://scrapy.org/">Scrapy</a>]

In [64]:
# 'li' nos traz todos itens de lista
soup.find_all('li')

[<li class="python">Python</li>, <li>Perl</li>, <li>PHP</li>]

In [65]:
# Através de um for loop podemos extrair apenas o texto
for l in soup.find_all('li'):
    print(l.text)

Python
Perl
PHP


In [66]:
# Também podemos buscar um elemento por sua classe
soup.find_all('li', class_='python') 

[<li class="python">Python</li>]

In [67]:
# Até mesmo podemos buscá-lo por id
soup.find(id='titulo')

<h3 id="titulo">Linguagens de Programação</h3>

In [68]:
# Selecionando um elemento específico
soup.find("h3", {"id": "titulo"})

<h3 id="titulo">Linguagens de Programação</h3>

In [19]:
# Buscando o conteúdo src de um elemento <img>
soup.find('img')['src']

'https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg'

In [69]:
# O método get_text() nos retorna uma string que representa a página
soup.get_text()

'\n\n\n\nWeb Scraping Tutorial com Python\n\n\n\t.python {\n\t\tcolor: purple;\n\t}\n\t#titulo {\n\t\ttext-transform: uppercase;\n\t}\n\ttable {\n\t  border-collapse: collapse;\n\t}\n\n\ttable, th, td {\n\t  border: 1px solid black;\n\t  padding: 3px;\n\t}\n\t\n\n\nWeb Scraping\nEstrutura Básica HTML\n\nAprendendo Web Scraping com Python,\n\tRequests-HTML,\n\tBeautiful Soup e\n\tScrapy\n\n“Logic will get you from A to Z; imagination will get you everywhere.” Albert Einstein\nLinguagens de Programação\n\nPython\nPerl\nPHP\n\nGrandes Matemáticos\n\n\nNome\nSobrenome\nEmail\n\n\nAlan\nTuring\nalan@turing.com\n\n\nJohn\nvon Neumann\njohn@voneumann.com\n\n\nBlaise\nPascal\nblaise@pascal.com\n\n\n\n\n'

In [70]:
# Podemos utilizar um for loop para extrair apenas os links da página
for link in soup.find_all('a'):
    print(link.get('href'))

https://www.python.org/
https://github.com/psf/requests-html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://scrapy.org/


In [71]:
# Podemos selecionar todos os links contidos no elemento <body>
soup.select("body a")

[<a href="https://www.python.org/">Python</a>,
 <a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>,
 <a href="https://scrapy.org/">Scrapy</a>]

In [72]:
# Podemos selecionar todos os links que possuam o atributo 'href'
soup.select('a[href]')

[<a href="https://www.python.org/">Python</a>,
 <a href="https://github.com/psf/requests-html">Requests-HTML</a>,
 <a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a>,
 <a href="https://scrapy.org/">Scrapy</a>]

In [73]:
# Podemos selecionar todos os elementos que possuam o id titulo
soup.select("#titulo")

[<h3 id="titulo">Linguagens de Programação</h3>,
 <h3 id="titulo">Grandes Matemáticos</h3>]

In [74]:
# Podemos selecionar todos os elementos que possuam a classe python
soup.select('.python')

[<li class="python">Python</li>]

In [75]:
# Podemos selecionar todos os dados de uma tabela
soup.select('table > tr > td')

[<td>Alan</td>,
 <td>Turing</td>,
 <td>alan@turing.com</td>,
 <td>John</td>,
 <td>von Neumann</td>,
 <td>john@voneumann.com</td>,
 <td>Blaise</td>,
 <td>Pascal</td>,
 <td>blaise@pascal.com</td>]

In [76]:
# É possível usarmos um for loop para obtermos uma representação de nossa página como diversas strings
for string in soup.strings:
    print(repr(string))

'\n'
'\n'
'\n'
'\n'
'Web Scraping Tutorial com Python'
'\n'
'\n'
'\n\t.python {\n\t\tcolor: purple;\n\t}\n\t#titulo {\n\t\ttext-transform: uppercase;\n\t}\n\ttable {\n\t  border-collapse: collapse;\n\t}\n\n\ttable, th, td {\n\t  border: 1px solid black;\n\t  padding: 3px;\n\t}\n\t'
'\n'
'\n'
'\n'
'Web Scraping'
'\n'
'Estrutura Básica HTML'
'\n'
'\n'
'Aprendendo Web Scraping com '
'Python'
',\n\t'
'Requests-HTML'
',\n\t'
'Beautiful Soup'
' e\n\t'
'Scrapy'
'\n'
'\n'
'“Logic will get you from A to Z; imagination will get you everywhere.” '
'Albert Einstein'
'\n'
'Linguagens de Programação'
'\n'
'\n'
'Python'
'\n'
'Perl'
'\n'
'PHP'
'\n'
'\n'
'Grandes Matemáticos'
'\n'
'\n'
'\n'
'Nome'
'\n'
'Sobrenome'
'\n'
'Email'
'\n'
'\n'
'\n'
'Alan'
'\n'
'Turing'
'\n'
'alan@turing.com'
'\n'
'\n'
'\n'
'John'
'\n'
'von Neumann'
'\n'
'john@voneumann.com'
'\n'
'\n'
'\n'
'Blaise'
'\n'
'Pascal'
'\n'
'blaise@pascal.com'
'\n'
'\n'
'\n'
'\n'
'\n'
