# Capítulo 11 - Scraping de JavaScript

## Executando JavaScript em Python com o Selenium

In [1]:
url = 'https://pythonscraping.com/pages/javascript/ajaxDemo.html'

In [4]:
from selenium import webdriver
import time

driver = webdriver.Chrome(executable_path='chromedriver.exe') # Utiliza o chromedriver.exe
driver.get(url=url)                                           # Carrega a URL
time.sleep(3)                                                 # Espera 3 segundos

print(driver.find_element_by_id('content').text)

Here is some important text you want to retrieve!
A button to click!


### Seletores do Selenium

In [5]:
driver.find_element_by_css_selector('#content') # Seleciona um elemento apenas.

<selenium.webdriver.remote.webelement.WebElement (session="5b16982801859e5d47c5529e27da7650", element="a44f2d2f-fb2e-4acc-80b9-c6d1e3086d0c")>

In [6]:
driver.find_element_by_tag_name('div') # Seleciona um elemento apenas.

<selenium.webdriver.remote.webelement.WebElement (session="5b16982801859e5d47c5529e27da7650", element="a44f2d2f-fb2e-4acc-80b9-c6d1e3086d0c")>

In [7]:
# Selecionando vários elementos.
driver.find_elements_by_css_selector('#content')

[<selenium.webdriver.remote.webelement.WebElement (session="5b16982801859e5d47c5529e27da7650", element="a44f2d2f-fb2e-4acc-80b9-c6d1e3086d0c")>]

In [8]:
# Selecionando vários elementos.
driver.find_elements_by_tag_name('div')

[<selenium.webdriver.remote.webelement.WebElement (session="5b16982801859e5d47c5529e27da7650", element="a44f2d2f-fb2e-4acc-80b9-c6d1e3086d0c")>]

In [11]:
# Para usar o BeautifulSoup para continuar função page_source
from bs4 import BeautifulSoup
pageSource = driver.page_source
bs = BeautifulSoup(pageSource,'html.parser')
print(bs.find(id='content').get_text())

Here is some important text you want to retrieve! A button to click!


In [14]:
# Apesar de ser uma solução não é funcional.
# Vamos aplicar uma função melhor!!

# O ideal é verificar se há um elemento específico na página e retornar apenas quando ele existir.

# Vamos testar no id=loadedButton

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome('chromedriver.exe')
driver.get(url=url)
try:
	element = WebDriverWait(driver,10).until(
		EC.presence_of_element_located((By.ID,'loadedButton'))) # Compondo uma espera implícita!!
finally:
	print(driver.find_element_by_id('content').text)
	driver.close()


Here is some important text you want to retrieve!
A button to click!


### Sintaxe do XPath

O BeautifulSoup não suporta o XPath, porém outras pode usar (Scrapy e Selenium)

### Lidando com redirecionamentos