# A Biblioteca PyQuery

PyQuery nos permite executarmos consultas **jQuery** em documentos XML. A API é bastante similar à biblioteca **[jQuery](https://jquery.com/)**.

PyQuery utiliza **[lxml](https://lxml.de/)** para manipulação rápida de documentos XML e HTML.

Você pode conhecer mais detalhes sobre PyQuery em sua **[Documentação](https://pythonhosted.org/pyquery/)**

Vamos agora executar alguns experimentos utilizando nossa página de testes: **[pythonwebscraping.netlify.app](https://pythonwebscraping.netlify.app)**

Iniciamos importando a biblioteca PyQuery com a abreviatura **pq**

In [2]:
from pyquery import PyQuery as pq

Fazemos então a requisição de nosso documento HTML

In [3]:
d = pq(url='https://pythonwebscraping.netlify.app')
print(d)

<html>
<head>
	<meta charset="UTF-8"/>
	<title>Web Scraping Tutorial com Python</title>
	<link rel="icon" href="https://i.imgur.com/QOVnf5D.png"/>
	<style>
	.python {
		color: purple;
	}
	#titulo {
		text-transform: uppercase;
	}
	table {
	  border-collapse: collapse;
	}

	table, th, td {
	  border: 1px solid black;
	  padding: 3px;
	}
	</style>
</head>
<body>
	<h1>Web Scraping</h1>
	<h2>Estrutura Básica HTML</h2>
	<img src="https://www.crummy.com/software/BeautifulSoup/bs4/doc/_images/6.1.jpg"/>
	<p>Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,
	<a href="https://github.com/psf/requests-html">Requests-HTML</a>,
	<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e
	<a href="https://scrapy.org/">Scrapy</a>
	</p>

	<p>“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b></p>
	
	<h3 id="titulo">Linguagens de Programação</h3>
	<ul>
		<li class="python">Python</li>
		<li>Perl</li>
		<li>PHP<

Selecionando elementos com o id **titulo**

In [4]:
d('#titulo')

[<h3#titulo>, <h3#titulo>]

Nos é retornado uma lista com dois elementos, utilizando um **for loop** podemos imprimir o texto dos elementos de id **titulo**

In [5]:
for t in d('#titulo'):
    print(t.text)

Linguagens de Programação
Grandes Matemáticos


Selecionando elementos que possuam a classe **python**

In [6]:
d('.python')

[<li.python>]

Obtendo o texto contido no elemento de classe **python**

In [7]:
d('.python').text()

'Python'

Selecionando elementos `<li>` do documento HTML

In [9]:
d('li')

[<li.python>, <li>, <li>]

Nos é retornado uma lista com três elementos, utilizamos um for loop para imprimir o texto dos elementos `<li>`

In [10]:
for li in d('li'):
    print(li.text)

Python
Perl
PHP


Selecionandos todos os elementos `<td>` do documento

In [11]:
d('td')

[<td>, <td>, <td>, <td>, <td>, <td>, <td>, <td>, <td>]

Obtendo o texto de cada elemento `<td>`

In [12]:
for td in d('td'):
    print(td.text)

Alan
Turing
alan@turing.com
John
von Neumann
john@voneumann.com
Blaise
Pascal
blaise@pascal.com


Podemos selecionar apenas o primeiro link do documento

In [13]:
d('a:first')

[<a>]

Podemos selecionar apenas o último link do documento e extrair o conteúdo do atributo **'href'**

In [14]:
d('a:last').attr('href')

'https://scrapy.org/'

Podemos extrair todos os links da página

In [15]:
for links in d('a'):
    print(links.attrib['href'])

https://www.python.org/
https://github.com/psf/requests-html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://scrapy.org/


Selecionando as tags filhas do elemento `<p>`

In [16]:
d('p').children() 

[<a>, <a>, <a>, <a>, <b>]

Selecionando todos os elementos `<p>`

In [58]:
d('p') 

[<p>, <p>]

Pesquisando a existência de elementos `<a>` dentro de `<p>`

In [18]:
d('p').find('a') 

[<a>, <a>, <a>, <a>]

Novamento, podemos obter os links com um **for loop**

In [19]:
for l in d('p').find('a'):
    print(l.attrib['href'])

https://www.python.org/
https://github.com/psf/requests-html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/
https://scrapy.org/


Verificando a presença de determinada classe no documento

In [68]:
 d('li').hasClass('python')

True

É possível selecionarmos um elemento e assim obter sua representação HTML com o método `outerHtml()`

In [20]:
d('table').outerHtml()

'<table>\n\t\t<tr>\n\t\t\t<th>Nome</th>\n\t\t\t<th>Sobrenome</th>\n\t\t\t<th>Email</th>\n\t\t</tr>\n\t\t<tr>\n\t\t\t<td>Alan</td>\n\t\t\t<td>Turing</td>\n\t\t\t<td>alan@turing.com</td>\n\t\t</tr>\n\t\t<tr>\n\t\t\t<td>John</td>\n\t\t\t<td>von Neumann</td>\n\t\t\t<td>john@voneumann.com</td>\n\t\t</tr>\n\t\t<tr>\n\t\t\t<td>Blaise</td>\n\t\t\t<td>Pascal</td>\n\t\t\t<td>blaise@pascal.com</td>\n\t\t</tr>\n\t</table>'

Selecionando todos os elementos `<p>` do documento

In [21]:
d('p')

[<p>, <p>]

Filtrando elementos por posição

In [22]:
d('p').filter(lambda i: i == 0).html()

'Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,\n\t<a href="https://github.com/psf/requests-html">Requests-HTML</a>,\n\t<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e\n\t<a href="https://scrapy.org/">Scrapy</a>\n\t'

Filtrando elementos por posição

In [23]:
d('p').filter(lambda i: i == 1).html()

'“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b>'

Filtrando elementos por seu texto

In [24]:
d('p').filter(lambda i: pq(this).text() == '“Logic will get you from A to Z; imagination will get you everywhere.” Albert Einstein').html()

'“Logic will get you from A to Z; imagination will get you everywhere.” <b>Albert Einstein</b>'

Filtrando elementos por seu texto

In [25]:
d('p').filter(lambda i: pq(this).text() == 'Aprendendo Web Scraping com Python, Requests-HTML, Beautiful Soup e Scrapy').html()

'Aprendendo Web Scraping com <a href="https://www.python.org/">Python</a>,\n\t<a href="https://github.com/psf/requests-html">Requests-HTML</a>,\n\t<a href="https://www.crummy.com/software/BeautifulSoup/bs4/doc/">Beautiful Soup</a> e\n\t<a href="https://scrapy.org/">Scrapy</a>\n\t'