# A Biblioteca PyQuery

PyQuery nos permite executarmos consultas **jQuery** em documentos XML. A API é bastante similar ao **jQuery**.

PyQuery utiliza **lxml** para manipulação rápida de documentos XML e HTML.

Você pode conhecer mais detalhes sobre PyQuery em sua **[Documentação](https://pythonhosted.org/pyquery/)**

Vamos agora executar alguns experimentos utilizando nossa página de testes: **[pythonwebscraping.netlify.com](https://pythonwebscraping.netlify.com/)**

In [1]:
# Importando a biblioteca PyQuery como pq
from pyquery import PyQuery as pq

In [54]:
# Fazendo a requisição de nosso documento HTML
d = pq(url='https://pythonwebscraping.netlify.com/')
print(d)

<html>
<head>
	<meta charset="UTF-8"/>
	<title>Web Scraping Tutorial com Python</title>
	<link rel="icon" href="https://i.imgur.com/QOVnf5D.png"/>
	<style>
	.python {
		color: purple;
	}
	#titulo {
		text-transform: uppercase;
	}
	table {
	  border-collapse: collapse;
	}

	table, th, td {
	  border: 1px solid black;
	  padding: 3px;
	}
	</style>
</head>
<body>
	<h1>Web Scraping</h1>
	<h2>Estrutura Básica HTML</h2>
	<img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg"/>
	<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
	</p>

	<p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>
	
	<h3 id="titulo">Linguagens de Programação</h3>
	<ul>
		<li class="python">Python</li>
		<li>Perl</li>
		<li>PHP<

In [14]:
# Selecionando elementos com o id titulo
d('#titulo')

[<h3#titulo>, <h3#titulo>]

In [15]:
# Utilizando um for loop para imprimir o texto dos elementos de id titulo
for t in d('#titulo'):
    print(t.text)

Linguagens de Programação
Grandes Matemáticos


In [16]:
# Selecionando elementos que possuam a classe python
d('.python')

[<li.python>]

In [17]:
# Obtendo o texto contido no elemento de classe python
d('.python').text()

'Python'

In [21]:
# Selecionando <li> do documento HTML
d('li')

[<li.python>, <li>, <li>]

In [20]:
# Utilizamos um for loop para imprimir o texto dos elementos <li>
for li in d('li'):
    print(li.text)

Python
Perl
PHP


In [22]:
# Selecionandos todos os elementos <td> do documento
d('td')

[<td>, <td>, <td>, <td>, <td>, <td>, <td>, <td>, <td>]

In [23]:
# Obtendo o texto de cada elemento <td>
for td in d('td'):
    print(td.text)

Alan
Turing
alan@turing.com
John
von Neumann
john@voneumann.com
Blaise
Pascal
blaise@pascal.com


In [38]:
# Podemos selecionar apenas o primeiro link do documento
d('a:first')

[<a>]

In [39]:
# Podemos selecionar apenas o último e extrair o conteúdo do atributo 'href'
d('a:last').attr('href')

'https://scrapy.org/'

In [40]:
# Podemos extrair todos os links da página
for links in d('a'):
    print(links.attrib['href'])

https://www.python.org/
https://github.com/psf/requests-html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://scrapy.org/


In [56]:
# Selecionando as tags filhas do elemento <p>
d('p').children() 

[<a>, <a>, <a>, <a>, <b>]

In [58]:
d('p') # Selecionando todos os elementos <p>

[<p>, <p>]

In [60]:
d('p').find('a') # Pesquisando a existência de elementos <a> dentro de <p>

[<a>, <a>, <a>, <a>]

In [61]:
# Novamento, podemos obter os links com um for loop
for l in d('p').find('a'):
    print(l.attrib['href'])

https://www.python.org/
https://github.com/psf/requests-html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://scrapy.org/


In [68]:
# Verificando a presença de determinada classe
d('li').hasClass('python')

True

In [72]:
# É possível selecionarmos um elemento e assim
# Podemos obter sua representação HTML com o método outerHtml()
d('table').outerHtml()

'<table>\n\t\t<tr>\n\t\t\t<th>Nome</th>\n\t\t\t<th>Sobrenome</th>\n\t\t\t<th>Email</th>\n\t\t</tr>\n\t\t<tr>\n\t\t\t<td>Alan</td>\n\t\t\t<td>Turing</td>\n\t\t\t<td>alan@turing.com</td>\n\t\t</tr>\n\t\t<tr>\n\t\t\t<td>John</td>\n\t\t\t<td>von Neumann</td>\n\t\t\t<td>john@voneumann.com</td>\n\t\t</tr>\n\t\t<tr>\n\t\t\t<td>Blaise</td>\n\t\t\t<td>Pascal</td>\n\t\t\t<td>blaise@pascal.com</td>\n\t\t</tr>\n\t</table>'

In [91]:
# Selecionando todos os elementos <p> do documento
d('p')

[<p>, <p>]

In [92]:
# Filtrando elementos por posição
d('p').filter(lambda i: i == 0).html()

'Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,\n\t<a href="https://github.com/psf/requests-html">Requests-HTML</a>,\n\t<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e\n\t<a href="https://scrapy.org/">Scrapy</a>\n\t'

In [90]:
# Filtrando elementos por posição
d('p').filter(lambda i: i == 1).html()

'“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b>'

In [104]:
# Filtrando elementos por seu texto
d('p').filter(lambda i: pq(this).text() == '“Logic will get you from A to Z; imagination will get you everywhere.” Albert Einstein').html()

'“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b>'

In [102]:
# Filtrando elementos por seu texto
d('p').filter(lambda i: pq(this).text() == 'Aprendendo Web Scraping com Python, Requests-HTML, Beautiful Soup e Scrapy').html()

'Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,\n\t<a href="https://github.com/psf/requests-html">Requests-HTML</a>,\n\t<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e\n\t<a href="https://scrapy.org/">Scrapy</a>\n\t'