## Aula 36 - Web Scraping & Web Crawling

# Selenium Webdriver

É uma ferramenta de automação de teste utilizada principalmente para testar aplicativos web. Ele fornece uma interface de programação que permite interagir com os elementos de uma página web, como botões, links, formulários e outros elementos.

O Selenium WebDriver é uma biblioteca de código aberto que oferece suporte a várias linguagens de programação, como Java, Python, C#, Ruby, entre outras. É possível simular o comportamento de um usuário interagindo com um aplicativo web, verificando se as páginas são exibidas corretamente, se os elementos funcionam conforme o esperado, clicando em elementos, digitando comandos do teclado e verificando se os dados são processados adequadamente.

Além de fazer os testes automatizados, essa ferramenta nos permite escrever códigos em Python que vão interagir com o navegador, possibilitando extrair dados que estão protegidos por conteúdos dinâmicos.


## Instalação



Existem duas maneiras de utilizar o Selenium no Python, a primeira delas é baixando um Driver do navegador que irá ser utilizado, que é o que manda a documentação

A segunda maneira é mais recente, a própria biblioteca sugere o uso pois a primeira maneira irá ser descontinuada.

###  Método atual


Além de instalar a biblioteca, precisamos baixar um Driver relacionado ao navegador que iremos utilizar, abaixo os links dos principais navegadores :

Google Chrome: **[Google Chrome Webdriver](https://chromedriver.chromium.org/downloads)**

Mozilla Firefox: **[Mozilla Webdriver](https://github.com/mozilla/geckodriver/releases)**

Microsoft Edge: **[Edge Webdriver](https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/)** 


In [None]:
#!pip install selenium

In [9]:
from selenium import webdriver

In [10]:
#apontando para um driver

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
s=Service('C:/chromedriver/chromedriver.exe')
browser = webdriver.Chrome(service=s)


### Método novo

In [None]:
#!pip install selenium

In [None]:
#!pip install webdriver-manager

In [27]:
# Google Chrome

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

In [None]:
# Mozilla Firefox

from selenium.webdriver.firefox.service import Service
from webdriver_manager.firefox import GeckoDriverManager

driver = webdriver.Firefox(service=Service(executable_path=GeckoDriverManager().install()))

## Enviando requisição GET para um website

In [12]:
driver.get('https://www.google.com.br')

## Exemplo de um conteúdo dinâmico

In [13]:
import requests
from bs4 import BeautifulSoup

In [14]:
#exemplo - Requests 

req = requests.get('https://justcapital.com/companies/bank-of-america-corporation')

soup = BeautifulSoup(req.text,'html.parser')



In [19]:
soup.find(class_='industry-average chart-marker visible')

In [20]:
#exemplo - Selenium


#método get do Selenium é um pouco diferente das libs convencionais ( requests, urllib)
#ele espera até que todo conteúdo do site seja carregado ( AJAX, manifests) e depois manda a requisição GET.
driver.get("https://justcapital.com/companies/bank-of-america-corporation")




In [25]:
driver.find_element(By.CLASS_NAME,'industry-average.chart-marker.visible')

<selenium.webdriver.remote.webelement.WebElement (session="22385b133cc43465ecd360cc13067e0a", element="14F3F57D3B1D5BC9C68BB35EC307D987_element_75")>

## Fechando a conexão

Cada vez que utilizamos o Webdriver, abrimos um processo do navegador utilizado (ex: chrome.exe ) 
É importante fechar as conexões para não manter diversos processos abertos consumindo recursos.

In [26]:
driver.close()

## Encontrando elementos

Para localizar elementos utilizando selenium, precisamos importar o método "By"



In [28]:
driver.get("https://justcapital.com/companies/bank-of-america-corporation")

In [29]:
from selenium.webdriver.common.by import By



### ID

In [32]:
driver.find_element(By.ID,'just-capital-css')

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="FAD9B22C61FE40B29B844DDEF9ED185D_element_154")>

### CLASS_NAME

In [37]:
driver.find_element(By.CLASS_NAME,'footer__actions.container').text

'JUST Capital is the leading platform for measuring and improving corporate performance in the stakeholder economy.\nConnect with us\nGet Email Updates\nDonate'

### TAG_NAME

In [42]:
driver.find_element(By.TAG_NAME,'title')

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="FAD9B22C61FE40B29B844DDEF9ED185D_element_161")>

### NAME

In [43]:
driver.find_element(By.NAME,'twitter:card')

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="FAD9B22C61FE40B29B844DDEF9ED185D_element_163")>

### LINK_TEXT

In [54]:
driver.get("https://www.kabum.com.br/")

In [48]:
driver.find_element(By.TAG_NAME,'a').text

''

In [57]:
driver.find_element(By.LINK_TEXT,'Mega Maio').get_attribute('href')

'https://www.kabum.com.br/hotsite/mega-maio'

### PARTIAL_LINK_TEXT

In [59]:
driver.find_element(By.PARTIAL_LINK_TEXT,'Mega ').get_attribute('href')

'https://www.kabum.com.br/hotsite/mega-maio'

### CSS_SELECTOR

In [62]:
driver.find_element(By.CSS_SELECTOR,'#secaoNewsletter').text

'KaBuM! News\nReceba ofertas\nCADASTRAR'

In [64]:
driver.find_element(By.CSS_SELECTOR,'.sc-e6d65b04-0.kVmAkJ').text

"1\n2\n3\n4\n5\n6\n7\n8\n9\n10\nDE FÉRIAS COM O PLAY\nTERMINA EM:\n07D 12 : 11 : 29\n15%\nRESTAM\n568\nUNID.\n(60)\nPlaca de Vídeo RTX 3060 Ventus 2X MSI NVIDIA GeForce, 12GB GDDR6, DLSS, Ray Tracing - RTX 3060 Ventus 2X 12G OC\nR$ 2.632,21\nR$ 1.999,99\nÀ vista no PIX\nTERMINA EM:\n07D 12 : 11 : 30\n13%\nRESTAM\n961\nUNID.\n(22)\nNotebook Gamer Acer Nitro 5 AMD Ryzen 7-4800H, 8GB RAM, SSD 256GB, GeForce GTX 1650, HDD 1TB, 15.6 Full HD, Windows 11, Preto - AN515-44-R629\nR$ 6.105,25\nR$ 4.999,99\nÀ vista no PIX\nOPEN BOX\nTERMINA EM:\n07D 12 : 11 : 30\n16%\nRESTAM\n966\nUNID.\n(535)\nHeadset Gamer Havit, Drivers 53mm, Microfone Plugável, P2, PC, PS4, XBOX ONE, Preto - HV-H2002D\nR$ 263,15\nR$ 209,98\nÀ vista no PIX\nOPEN BOX\nTERMINA EM:\n07D 12 : 11 : 30\n33%\nRESTAM\n29\nUNID.\nCadeira Gamer Husky Gaming Tempest 700, Preto e Vermelho, Com Almofadas, Descanso Para Pernas Retrátil, Reclinável - HGMA075\nR$ 1.578,94\nR$ 999,99\nÀ vista no PIX\nTERMINA EM:\n07D 12 : 11 : 30\nVER TODOS\nD

### XPATH

XPath é definido como caminho XML. É a sintaxe ou linguagem para procurar qualquer elemento em uma página web usando estrutura de HTML DOM. Para nosso uso, podemos comparar como um caminho absoluto do elemento HTML.

Xpath=//nomedatag[@atributo='valor']


XPATH Absoluto:

é o caminho absoluto do elemento HTML, desde a tag HTML ( começa com /html)
    
/html/body/div/header/div/div[2]/div/ul[2]/li[1]/div[1]/pre/code


XPATH relativo:

é o caminho absoluto do elemento HTML, a partir do próprio elemento .

//*[@id="dive-into-python"]/ul[2]/li[1]/div[1]/pre/code    


é preciso ter cuidado no uso da localização via XPATH , pois qualquer alteração, por menor que seja , na estrutura HTML do website, pode quebrar seu script de web scraping.


#### caminho relativo

In [65]:
driver.find_element(By.XPATH,'//*[@id="carousel-justArrived"]/div[2]/div[2]/div/div[11]/div/div/a/img')

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="C6F4C960E2B780F4A09D6ED1CB6B763F_element_669")>

#### caminho absoluto


In [66]:
driver.find_element(By.XPATH,'/html/body/div[1]/main/div[1]/section[2]/div/div[1]/div/div[2]/div/div[2]/div[2]/div/div[11]/div/div/a/img')

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="C6F4C960E2B780F4A09D6ED1CB6B763F_element_669")>

#### capturando TAG + ATRIBUTO  



In [113]:
#Xpath=//nomedatag[@atributo='valor']

In [83]:
driver.find_element(By.XPATH,"//span[@class='sc-3b515ca1-2 gybgF priceCard']")

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="C6F4C960E2B780F4A09D6ED1CB6B763F_element_791")>

### Encontrando textos contidos nas tags

In [89]:
driver.find_element(By.XPATH,"//span[@class='sc-3b515ca1-2 gybgF priceCard']").get_attribute('innerText')

'R$\xa01.999,99'

In [92]:
driver.find_element(By.CSS_SELECTOR,'[class="sc-3b515ca1-2 gybgF priceCard"]').get_attribute('innerText')

'R$\xa01.999,99'

### Capturando valor de um atributo

In [93]:
driver.find_element(By.CSS_SELECTOR,'[class="sc-3b515ca1-2 gybgF priceCard"]').get_attribute('innerText')

'R$\xa01.999,99'

### Capturando todos os links de um website

In [95]:
for url in driver.find_elements(By.TAG_NAME,'a'):
    
    print(url.get_attribute('href'))

https://www.kabum.com.br/
https://www.kabum.com.br/login?redirect_uri=https://www.kabum.com.br/
https://www.kabum.com.br/cadastro
https://www.kabum.com.br/faq
https://www.kabum.com.br/minha-conta/favoritos
https://www.kabum.com.br/carrinho
https://www.kabum.com.br/monteoseupc
https://www.kabum.com.br/ofertas/ofertadodia
https://www.kabum.com.br/lancamentos
https://www.kabum.com.br/promocao/MENU_PCGAMER
https://www.kabum.com.br/hotsite/openbox
https://www.kabum.com.br/hotsite/prime/
https://www.kabum.com.br/hotsite/cartao
https://www.kabum.com.br/hotsite/app/
https://www.kabum.com.br/hotsite/giftcard/
https://www.kabum.com.br/produto/291955/projetor-led-full-hd-husky-technologies-5810-ansi-lumens-bluetooth-android-preto-htcaj001
https://www.kabum.com.br/ofertas/deferiascomoplay
https://www.kabum.com.br/ofertas/ofertadodia
https://www.kabum.com.br/promocao/ASUSOFERTA
https://www.kabum.com.br/produto/191789/placa-de-video-rtx-3060-ti-1-click-oc-galax-nvidia-geforce-8gb-gddr6-lhr-dlss-ray-

https://www.kabum.com.br/vitrine/destaques-ninja
https://www.kabum.com.br/produto/103167/monitor-gamer-asus-rog-swift-49-led-ultra-wide-144-hz-dfhd-freesync-premium-hdr-10-100-srgb-hdmi-displayport-som-xg49vq
https://www.kabum.com.br/produto/339504/notebook-gamer-acer-nitro-5-amd-ryzen-7-4800h-8gb-ram-ssd-256gb-geforce-gtx-1650-hdd-1tb-15-6-full-hd-windows-11-preto-an515-44-r629
https://www.kabum.com.br/produto/134177/cadeira-gamer-husky-gaming-tempest-700-preto-e-vermelho-com-almofadas-descanso-para-pernas-retratil-reclinavel-hgma075
https://www.kabum.com.br/produto/334887/smart-tv-samsung-85-polegadas-crystal-uhd-4k-bu8000-3-hdmi-2-usb-wi-fi-bluetooth-alexa-google-tela-infinita-un85bu8000gxzd
https://www.kabum.com.br/produto/155444/robo-aspirador-de-po-kabum-smart-700-preto-mapeamento-ir-360-controle-via-aplicativo-google-assistant-e-alexa-kbsf003
https://www.kabum.com.br/produto/99889/caixa-de-som-multimidia-logitech-z607-som-surround-5-1-bluetooth-e-3-5mm-radio-fm-usb-e-leitor-sd-9

https://www.kabum.com.br/acabaramdechegar
https://www.kabum.com.br/produto/157700/caixa-de-som-hayom-6w-usb-p2-controle-de-volume-preto-km2501
https://www.kabum.com.br/produto/175297/roteador-tp-link-deco-mesh-m5-dual-band-ac1300-2-4-ghz-wan-lan-gigabit-4-antenas-internas-2-pecas-branco-deco-m5-2-pack-
https://www.kabum.com.br/produto/404645/gabinete-gamer-evolut-nord-mid-tower-led-m-atx-itx-lateral-e-frontal-em-vidro-temperado-preto-eg-815
https://www.kabum.com.br/produto/449297/fritadeira-air-fry-sem-oleo-eos-eaf30p-3l-127v-preto-b169143
https://www.kabum.com.br/produto/449298/fritadeira-air-fry-sem-oleo-eos-eaf30p-3l-220v-preto-b169144
https://www.kabum.com.br/produto/380402/water-cooler-kraken-z53-240mm-intel-e-amd-para-pc-branco-rl-krz53-rw
https://www.kabum.com.br/produto/99444/bebedouro-compressor-philco-ate-20l-110v-branco-pbe02bf
https://www.kabum.com.br/produto/95217/ssd-960-gb-kingston-a400-sata-leitura-500mb-s-e-gravacao-450mb-s-sa400s37-960g
https://www.kabum.com.br/produt

https://www.kabum.com.br/hotsite/giftcard
https://www.kabum.com.br/hotsite/openbox
https://www.kabum.com.br/hotsite/supermaquina
https://www.kabum.com.br/hotsite/selecao-ninja
https://www.kabum.com.br/hotsite/5g
https://www.kabum.com.br/hotsite/parceironinja
https://www.kabum.com.br/hotsite/comprasegura
https://www.kabum.com.br/sobre
https://www.kabum.com.br/politicas
https://www.kabum.com.br/politica-cookies
https://www.kabum.com.br/privacidade
https://carreiras.magazineluiza.com.br/times/KaBuM!/
https://www.procon.df.gov.br/wp-content/uploads/2019/08/Codigo-do-consumidor-FINAL.pdf
https://www.kabum.com.br/portaldeprivacidade
https://static.kabum.com.br/conteudo/documentos/institucional/codigo-de-conduta-v4.pdf
https://www.canalconfidencial.com.br/kabum/
https://static.kabum.com.br/relatorio/relatorio_anual.pdf
None
https://www.kabum.com.br/minha-conta/meus-pedidos
https://www.kabum.com.br/minha-conta/meus-dados
https://www.facebook.com/kabum.com.br/
https://www.instagram.com/kabum.co

## Interagindo com o Website

### Enviando comandos de texto

In [96]:
driver.get("https://www.google.com.br")

In [107]:
search_bar = driver.find_element(By.ID,'APjFqb')

In [108]:
import time


time.sleep(4)


search_bar.send_keys('chatgpt')

### Enviando comandos do teclado

Para enviar comandos do teclado, temos que importar as "Keys"



In [102]:
from selenium.webdriver.common.keys import Keys

In [88]:
#driver.get("https://www.google.com.br")

In [103]:
botao_busca = driver.find_element(By.CLASS_NAME,'gNO89b')

In [105]:
time.sleep(3)

search_bar.send_keys(Keys.ENTER)

### Limpando conteúdo de um elemento

In [109]:
search_bar.clear()

### Avançando / Voltando Páginas

In [155]:
#driver.get("https://www.google.com.br")

In [110]:
driver.find_element(By.ID,'APjFqb').send_keys('teste')

In [111]:
driver.find_element(By.ID,'APjFqb').send_keys(Keys.ENTER)

In [112]:
#volta a página anterior
driver.back()

In [113]:
#avança para a próxima página
driver.forward()

### Action Chains

ActionChains é uma função do selenium que permite automatizar interações com o HTML,como: movimentação do mouse,ações com os botões do mouse,pressionar teclas,etc. 
É útil para realizar funções mais complexas, como drag and drop.
Quando voce chama uma ação do ActionChains, ela é armazenada em uma fila de ações. Quando usar perform(), os eventos são disparados na ordem que foram chamados.

Documentação: **[Action Chains](https://www.selenium.dev/selenium/docs/api/py/webdriver/selenium.webdriver.common.action_chains.html)**


In [114]:
from selenium.webdriver import ActionChains

actions = ActionChains(driver)



In [115]:
driver.get("https://orteil.dashnet.org/cookieclicker/")

#### Clicar com o botão esquerdo

In [116]:
#algumas funções não precisam do Action Chains, como o click

cookie = driver.find_element(By.ID,'bigCookie')



In [118]:
for i in range(0,10):
    
    cookie.click()
    time.sleep(0.5)
    print(i)

0
1
2
3
4
5
6
7
8
9


#### Clicar com o botão direito

In [120]:
actions.context_click(cookie).perform()

#### Clicar e segurar 

In [None]:
#click_and_hold , perform, release

In [124]:
actions.click_and_hold(cookie).perform()



In [125]:
actions.release(cookie)

<selenium.webdriver.common.action_chains.ActionChains at 0x1726630f640>

#### Duplo clique

In [127]:
actions.double_click(cookie).perform()

#### Clicar e arrastar objetos

In [None]:
#drag_and_drop

In [131]:
driver.get('https://www.w3schools.com/howto/howto_js_draggable.asp')

In [132]:
object_to_move = driver.find_element(By.ID,'mydivheader')

In [133]:
object_destination = driver.find_element(By.CLASS_NAME,'w3-clear.nextprev')

In [134]:
time.sleep(2)
actions.drag_and_drop(object_to_move,object_destination).perform()

#### Combinação de teclas 

In [135]:
driver.get('https://ctrl.vi/')

In [140]:
time.sleep(2)

actions.key_down(Keys.CONTROL).perform()

actions.send_keys("v")

#actions.key_up(Keys.CONTROL).perform()

<selenium.webdriver.common.action_chains.ActionChains at 0x1726630f640>

### Esperas ( Waits )

Atualmente, a maioria dos aplicativos da web está usando técnicas AJAX. Quando uma página é carregada pelo navegador, os elementos dessa página podem ser carregados em diferentes intervalos de tempo. Isso dificulta a localização de elementos: se um elemento ainda não estiver presente no DOM, uma exceção é disparada. Usando esperas, podemos resolver esse problema. A espera fornece alguma folga entre as ações executadas - principalmente localizar um elemento ou qualquer outra operação com o elemento.

O Selenium Webdriver fornece dois tipos de espera - implícito e explícito. 

In [141]:
#from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

#### Implícito

Uma espera implícita faz com que o WebDriver pesquise o DOM por um determinado período de tempo ao tentar localizar um elemento.

In [148]:
#driver.implicitly_wait(10) # seconds

driver.get("https://justcapital.com/companies/bank-of-america-corporation")
time.sleep(5)

#### Explícito

Uma espera explícita faz com que o WebDriver espere que uma determinada condição ocorra antes de prosseguir com a execução. 

Condições Possíveis : 

title_is(title): Verifica se o título da página é exatamente igual a title.

title_contains(text): Verifica se o título da página contém a text especificada.

presence_of_element_located(locator): Verifica se há pelo menos um elemento presente no DOM (Modelo de Objeto do Documento) que corresponde ao localizador especificado.

visibility_of_element_located(locator): Verifica se há pelo menos um elemento e está visível para o usuário. Ele não apenas verifica a presença do elemento, mas também se ele possui uma largura e altura maiores que zero e está visível na janela de exibição.

visibility_of(element): Verifica se o elemento fornecido está visível na página. Isso significa que o elemento possui uma largura e altura maiores que zero e está visível na janela de exibição.

presence_of_all_elements_located(locator): Verifica se todos os elementos correspondentes ao localizador especificado estão presentes no DOM.

text_to_be_present_in_element(locator, text): Verifica se o texto especificado está presente no elemento correspondente ao localizador fornecido.

text_to_be_present_in_element_value(locator, text): Verifica se o valor do atributo "value" do elemento correspondente ao localizador fornecido contém o texto especificado.

frame_to_be_available_and_switch_to_it(locator): Verifica se o frame (quadro) especificado pelo localizador está disponível e muda o contexto atual para esse frame.

invisibility_of_element_located(locator): Verifica se o elemento correspondente ao localizador fornecido não está visível na página. Isso inclui casos em que o elemento está ausente do DOM ou tem uma propriedade "display" definida como "none".

element_to_be_clickable(locator): Verifica se o elemento correspondente ao localizador fornecido está visível e habilitado para clicar. Ou seja, o elemento está presente no DOM, visível e não está desativado.

staleness_of(element): Verifica se o elemento fornecido não está mais ligado ao DOM da página. Isso pode acontecer quando o elemento é removido ou atualizado dinamicamente.

element_to_be_selected(element): Verifica se o elemento fornecido está selecionado. Isso é aplicável a elementos de entrada, como caixas de seleção e botões de rádio.

element_located_to_be_selected(locator): Verifica se o elemento correspondente ao localizador fornecido está selecionado.

element_selection_state_to_be(element, is_selected): Verifica se o estado de seleção do elemento fornecido corresponde ao estado especificado (True para selecionado, False para não selecionado).

element_located_selection_state_to_be(locator, is_selected): Verifica se o estado de seleção do elemento correspondente ao localizador fornecido corresponde ao estado especificado (True para selecionado, False para não selecionado).

alert_is_present(): Verifica se um alerta está presente na página. Isso é usado para lidar com caixas de diálogo de alerta do JavaScript.

In [180]:
driver.get("https://justcapital.com/companies/bank-of-america-corporation")

In [181]:
WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CLASS_NAME, "chart-bar.visible")))

<selenium.webdriver.remote.webelement.WebElement (session="878941e7e00c6a25233ee3b15425b406", element="451525FEF8C5C02193C4A33C43A5BE75_element_718")>

In [175]:
chart = driver.find_element(By.CLASS_NAME,'chart-bar.visible')

In [176]:
elemento2 = WebDriverWait(driver,10).until(EC.presence_of_element_located((By.CLASS_NAME, "industry-average.chart-marker.visible")))

In [177]:
chart.find_element(By.CLASS_NAME,'industry-average.chart-marker.visible').get_attribute('innerText')

'66'

### Screenshot 

In [182]:
driver.get("https://justcapital.com/companies/bank-of-america-corporation")

In [183]:
driver.save_screenshot('print_capital.png')

True

### Executando código Javascript

#### Scroll-Down 

In [184]:
driver.get("https://scrollmagic.io/examples/advanced/infinite_scrolling.html")

In [185]:
time.sleep(3)

# Scroll down
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")


In [186]:
import time
for i in range(0,5):
    
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    
    time.sleep(2)

#### Clique com Javascript

Existem elementos que não são clicados apenas pelo método .click() do Selenium, para esses casos podemos usar o click via Javascript, ele é muito simples e funcional.

In [187]:
driver.get("https://www.google.com.br")

In [188]:
buscar = driver.find_element(By.CLASS_NAME,"RNmpXc")

In [189]:

time.sleep(2)

driver.execute_script("arguments[0].click();", buscar)

### Acessando Frames

Muitas vezes precisamos acessar dados que se encontram dentro de Frames no HTML , e para que o Driver acesse o frame, temos que fazer alguns procedimentos.

In [234]:
driver.get("https://www.w3schools.com/html/tryit.asp?filename=tryhtml_iframe_height_width")

In [None]:
#switch_to.frame
#switch_to.default_content

In [193]:
len(driver.find_elements(By.TAG_NAME,'iframe'))

19

In [222]:
container = driver.find_element(By.ID,'iframecontainer')

In [224]:
frame_1 = container.find_element(By.ID,'iframeResult')

In [225]:
driver.switch_to.frame(frame_1)

In [229]:
frame2 = driver.find_element(By.TAG_NAME,'iframe')

In [233]:
driver.switch_to.frame(frame2)

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=114.0.5735.110); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:
Backtrace:
	GetHandleVerifier [0x009EA813+48355]
	(No symbol) [0x0097C4B1]
	(No symbol) [0x00885358]
	(No symbol) [0x0088E5A3]
	(No symbol) [0x00888A78]
	(No symbol) [0x00887C03]
	(No symbol) [0x008899E1]
	(No symbol) [0x00889A80]
	(No symbol) [0x008B1F0E]
	(No symbol) [0x008DD9E7]
	(No symbol) [0x008CA73C]
	(No symbol) [0x008DC922]
	(No symbol) [0x008CA536]
	(No symbol) [0x008A82DC]
	(No symbol) [0x008A93DD]
	GetHandleVerifier [0x00C4AABD+2539405]
	GetHandleVerifier [0x00C8A78F+2800735]
	GetHandleVerifier [0x00C8456C+2775612]
	GetHandleVerifier [0x00A751E0+616112]
	(No symbol) [0x00985F8C]
	(No symbol) [0x00982328]
	(No symbol) [0x0098240B]
	(No symbol) [0x00974FF7]
	BaseThreadInitThunk [0x75B800C9+25]
	RtlGetAppContainerNamedObjectPath [0x77D27B4E+286]
	RtlGetAppContainerNamedObjectPath [0x77D27B1E+238]


In [235]:
driver.find_element(By.TAG_NAME,'h1').text

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"tag name","selector":"h1"}
  (Session info: chrome=114.0.5735.110); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
Backtrace:
	GetHandleVerifier [0x009EA813+48355]
	(No symbol) [0x0097C4B1]
	(No symbol) [0x00885358]
	(No symbol) [0x008B09A5]
	(No symbol) [0x008B0B3B]
	(No symbol) [0x008DE232]
	(No symbol) [0x008CA784]
	(No symbol) [0x008DC922]
	(No symbol) [0x008CA536]
	(No symbol) [0x008A82DC]
	(No symbol) [0x008A93DD]
	GetHandleVerifier [0x00C4AABD+2539405]
	GetHandleVerifier [0x00C8A78F+2800735]
	GetHandleVerifier [0x00C8456C+2775612]
	GetHandleVerifier [0x00A751E0+616112]
	(No symbol) [0x00985F8C]
	(No symbol) [0x00982328]
	(No symbol) [0x0098240B]
	(No symbol) [0x00974FF7]
	BaseThreadInitThunk [0x75B800C9+25]
	RtlGetAppContainerNamedObjectPath [0x77D27B4E+286]
	RtlGetAppContainerNamedObjectPath [0x77D27B1E+238]


In [201]:
frame = container.find_element(By.TAG_NAME,'iframe')

In [221]:
container.get_attribute('innerText')

''

In [203]:
driver.switch_to.frame(frame)

In [213]:
driver.switch_to.default_content()

In [207]:
driver.find_element(By.TAG_NAME,'h1')

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"tag name","selector":"h1"}
  (Session info: chrome=114.0.5735.110); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
Backtrace:
	GetHandleVerifier [0x009EA813+48355]
	(No symbol) [0x0097C4B1]
	(No symbol) [0x00885358]
	(No symbol) [0x008B09A5]
	(No symbol) [0x008B0B3B]
	(No symbol) [0x008DE232]
	(No symbol) [0x008CA784]
	(No symbol) [0x008DC922]
	(No symbol) [0x008CA536]
	(No symbol) [0x008A82DC]
	(No symbol) [0x008A93DD]
	GetHandleVerifier [0x00C4AABD+2539405]
	GetHandleVerifier [0x00C8A78F+2800735]
	GetHandleVerifier [0x00C8456C+2775612]
	GetHandleVerifier [0x00A751E0+616112]
	(No symbol) [0x00985F8C]
	(No symbol) [0x00982328]
	(No symbol) [0x0098240B]
	(No symbol) [0x00974FF7]
	BaseThreadInitThunk [0x75B800C9+25]
	RtlGetAppContainerNamedObjectPath [0x77D27B4E+286]
	RtlGetAppContainerNamedObjectPath [0x77D27B1E+238]


## Extraindo um website com Selenium

In [None]:
driver.get("https://justcapital.com/companies/bank-of-america-corporation")

In [236]:
driver.get("https://www.pichau.com.br/perifericos/microfones")

In [259]:
classe_produtos = driver.find_element(By.CLASS_NAME,'MuiGrid-root.jss37.MuiGrid-container.MuiGrid-spacing-xs-3')

In [239]:
for nome_produto in classe_produtos.find_elements(By.CLASS_NAME,'MuiTypography-root.jss78.jss79.MuiTypography-h6'):
    
    print(nome_produto.text)
    

Microfone Streamplify Tripad, USB, RGB, Preto, MIC-48-RGB-TP-BK
Microfone Streamplify Mic Arm, RGB, USB, Preto, MIC-48-RGB-MA-BK
Microfone JBL PBM 100, P10, Preto, JBLPBM100BLK
Microfone HyperX QuadCast, LED, USB, Preto e Vermelho, 4P5P6AA
Microfone HyperX Solocast, USB, Preto, 4P5P8AA
Microfone Mancer Horcrux PFT, RGB, USB, Preto, MCR-HCRPFT-BL01
Microfone TGT Anzer, USB, Preto, TGT-ANZR-BL01
Microfone Pichau Polaris, USB, Preto, PG-PLRIS-BL01
Suporte Para Microfone Zinnia SMZ100, ZNO-SMZ100-BL01
Microfone DT3 BYT, USB, Preto, 12982-2
Microfone JBL Quantum Stream, USB, Preto, JBLQSTREAMBLK
Microfone DT3 Boss, USB, Preto, 12986-6
Microfone HyperX QuadCast, LED, USB, Preto, HX-MICQC-BK
Microfone Trust GXT 215 Zabi, Led Vermelho, USB, T23800
Microfone Trust GXT 258W Fyru 4-in-1 Branco, T24257
Microfone de Lapela Audio Technica USB, ATR4650-USB
Microfone Condensador Blue Yeti X USB, 988-000105
Microfone Condensador Audio Technica, AT2020
Microfone de Lapela Mancer Para Celular, MCR-MLP-00

In [263]:
len(classe_produtos.find_elements(By.CLASS_NAME,'jss90'))

34

In [277]:
produtos[0].find_element(By.TAG_NAME,'a').get_attribute('href')

'https://www.pichau.com.br/microfone-streamplify-tripad-usb-rgb-preto-mic-48-rgb-tp-bk'

In [278]:
for url in produtos:
    
    print(url.find_element(By.TAG_NAME,"a").get_attribute('href') )

https://www.pichau.com.br/microfone-streamplify-tripad-usb-rgb-preto-mic-48-rgb-tp-bk
https://www.pichau.com.br/microfone-streamplify-mic-arm-rgb-usb-preto-mic-48-rgb-ma-bk
https://www.pichau.com.br/microfone-jbl-pbm-100-p10-preto-jblpbm100blk
https://www.pichau.com.br/microfone-hyperx-quadcast-led-usb-preto-e-vermelho-4p5p6aa
https://www.pichau.com.br/microfone-hyperx-solocast-usb-preto-4p5p8aa
https://www.pichau.com.br/microfone-mancer-horcrux-pft-rgb-usb-preto-mcr-hcrpft-bl01
https://www.pichau.com.br/microfone-tgt-anzer-usb-preto-tgt-anzr-bl01
https://www.pichau.com.br/microfone-pichau-polaris-usb-preto-pg-plris-bl01
https://www.pichau.com.br/suporte-para-microfone-zinnia-smz100-zno-smz100-bl01
https://www.pichau.com.br/microfone-dt3-byt-usb-preto-12982-2
https://www.pichau.com.br/microfone-jbl-quantum-stream-usb-preto-jblqstreamblk
https://www.pichau.com.br/microfone-dt3-boss-usb-preto-12986-6
https://www.pichau.com.br/microfone-hyperx-quadcast-led-usb-preto-hx-micqc-bk
https://ww

In [255]:
produtos = classe_produtos.find_elements(By.CLASS_NAME,'MuiGrid-root.MuiGrid-item.MuiGrid-grid-xs-6.MuiGrid-grid-sm-6.MuiGrid-grid-md-4.MuiGrid-grid-lg-3.MuiGrid-grid-xl-2')

In [286]:
import pandas as pd 

dict_produtos = {}
df = pd.DataFrame()
for produto in produtos:
    
    dict_produtos['url_imagem_produto'] = produto.find_element(By.CLASS_NAME,'jss63').get_attribute('src')
    dict_produtos['preco_a_vista'] = produto.find_element(By.CLASS_NAME,'jss81').text
    try:
        dict_produtos['preco_inicial'] = produto.find_element(By.CLASS_NAME,'jss90').text
    except:
        dict_produtos['preco_inicial'] = ''
    dict_produtos['url_produto'] = produto.find_element(By.TAG_NAME,"a").get_attribute('href')
    

    
    df  = pd.concat([pd.DataFrame([dict_produtos]),df])
    

    

<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>


In [None]:
#Xpath=//nomedatag[@atributo='valor']

In [291]:
driver.find_element(By.XPATH,'//button[@aria-label="Go to next page"]').click()

In [294]:
import pandas as pd 

dict_produtos = {}
df = pd.DataFrame()

classe_produtos = driver.find_element(By.CLASS_NAME,'MuiGrid-root.jss37.MuiGrid-container.MuiGrid-spacing-xs-3')
produtos = classe_produtos.find_elements(By.CLASS_NAME,'MuiGrid-root.MuiGrid-item.MuiGrid-grid-xs-6.MuiGrid-grid-sm-6.MuiGrid-grid-md-4.MuiGrid-grid-lg-3.MuiGrid-grid-xl-2')
for produto in produtos:
    
    dict_produtos['url_imagem_produto'] = produto.find_element(By.CLASS_NAME,'jss63').get_attribute('src')
    try:
        dict_produtos['preco_a_vista'] = produto.find_element(By.CLASS_NAME,'jss81').text
    except:
        dict_produtos['preco_a_vista'] = ''
    try:
        dict_produtos['preco_inicial'] = produto.find_element(By.CLASS_NAME,'jss90').text
    except:
        dict_produtos['preco_inicial'] = ''
    dict_produtos['url_produto'] = produto.find_element(By.TAG_NAME,"a").get_attribute('href')
    

    
    df  = pd.concat([pd.DataFrame([dict_produtos]),df])

In [295]:
df

Unnamed: 0,url_imagem_produto,preco_a_vista,preco_inicial,url_produto
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-havit-game...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-condensado...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-akg-ultra-...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-razer-seir...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-trust-gxt-...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-condensado...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-audio-tech...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-audio-tech...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-audio-tech...
0,https://media.pichau.com.br/media/catalog/prod...,,,https://www.pichau.com.br/microfone-trust-gxt-...
