# More Programming Academy

### Aula 2: Selenium

**Professor:** Rodrigo José Rocha dos Santos <br>
**Email:** rodrigorocha2612@gmail.com <br>
**Linkedin:** https://www.linkedin.com/in/rodrigo-r-b6234a134/ <br>

## 1 - Selenium

<img src="https://camo.githubusercontent.com/a58601f5f61b883cff2da374ec3e1b1b14596a5083ffb4e2dcbd8c0fb8e4fca3/68747470733a2f2f73656c656e69756d2d707974686f6e2e636f6d2f77702d636f6e74656e742f75706c6f6164732f323031372f31312f63726f707065642d6c6f676f2d6d696e692e706e67" width="500">

### 1.1 O que é Selenium?

Ao contrário do que normalente se pensa, o selenium não é uma biblioteca de webscraping e sim de testes automatizados. Entretanto ele é bem viável para utilizamos para automatizar a captura de dados na internet.

### 1.2 Primeiros passos?

Primeiro nós precisaremos saber qual navegador e versão que nós vamos utilizar.

**Google Chrome:** Configuração -> Sobre o Google Chrome <br>
**FireFox:** Ajuda -> Sobre o Firefox

Agora, sabendo qual o navegador e versão vamos utilizar é necessário baixarmos a versão automatizada dele.

Google Chrome: https://chromedriver.chromium.org/downloads <br>
Firefox: https://github.com/mozilla/geckodriver/releases <br>
Opera: https://github.com/operasoftware/operachromiumdriver/releases <br>
Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

### 1.3 Importando, primeira utilização e configuração

In [None]:
# Importa a biblioteca que iremos utilizar
from selenium import webdriver

In [None]:
# Importa a parte de opções do navegador
from selenium.webdriver.firefox.options import Options
# Preferências do navegador
profile = Options()
#Configura o local para download
profile.set_preference('browser.download.folderList', 2) 
# 0 -> Salva todos os arquivos no desktop
# 1 -> Salva todos os arquivos na pasta de download
# 2 -> Salva arquivos na última pasta utilizada

# Não mostra popuop para salvar arquivos
profile.set_preference('browser.download.manager.showWhenStarting', False)
# Define a pasta a ser utilizada para salvar arquivos
profile.set_preference('browser.download.dir', r'E:\Clouds\OneDrive - Universidade Federal de Pernambuco\Python\Aulas\Curso More Programming Academy\4 - Web Scraping 15-07-2022\Aula 2 - Selenium')
# Define UserAgente (podendo utilizar um navegador e se passar por outro ou até mesmo um dispositivo diferente)
profile.set_preference('general.useragent.override','Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30')
# Definir tamanho da janela
# profile.set_preference("--window-size=1920,1080")
# Abrir em background
profile.headless = False


In [None]:
# Inicia o navegador com as opções
driver = webdriver.Firefox(options=profile)

In [None]:
# Carrega o site
driver.get('https://yotube.com')

In [None]:
# Mostra a atual URL da página
driver.current_url

**Encontrando elementos**

In [None]:
# Importa a parte de localização de elementos na página
from selenium.webdriver.common.by import By

ID = "id" <br>
XPATH = "xpath" <br>
LINK_TEXT = "link text" <br>
PARTIAL_LINK_TEXT = "partial link text" <br>
NAME = "name" <br>
TAG_NAME = "tag name" <br>
CLASS_NAME = "class name" <br>
CSS_SELECTOR = "css selector" <br>

As formas mais utilizadas para localizar o elemento é: ID, CLASS, CSS_SELECTOR, XPATH

In [None]:
# Tentando achar uma tag que tenha o meu nome no atributo name (mudei a página manualmente)
driver.find_element(By.NAME,'Rodrigo').get_attribute('src')

In [None]:
driver.find_element(By.ID,'contents').text

**Um pouco mais sobre XPATH** 

In [None]:
# Importa a parte de emular ações no teclado
# Link com todas as KEYS
# https://github.com/SeleniumHQ/selenium/blob/selenium-4.2.0/py/selenium/webdriver/common/keys.py#L23
from selenium.webdriver.common.keys import Keys

In [None]:
driver.get('https://www.amazon.com.br/')

In [None]:
search_input = driver.find_element(By.XPATH,"//input[@id='nav-search-keywords']")
# Limpa o campo de pesquisa
search_input.clear()
# Digita o texto "Livros"
search_input.send_keys('Livros')
# Envia o comando Enter
search_input.send_keys(Keys.ENTER)
#or
#search_input.submit()

In [None]:
# Salvando um print da tela
with open('img.png','wb') as img:
    img.write(driver.find_element(By.XPATH,'/html/body/div[1]/div[1]/span[3]/div[2]/div[10]/div/div').screenshot_as_png)

In [None]:
# Lista todos os livros da página
book_links = list(map(lambda x: x.get_attribute('href'),driver.find_elements(By.XPATH,"//div[@class='sg-col-inner']/div[1]/span[1]/a[@title='product-detail']")))

In [None]:
# Como executar um comando JavaScrpit no navegador
driver.execute_script("window.open('https://www.google.com', '_blank');");

In [None]:
driver.current_url

In [None]:
# Mostra o código das abas abertas
driver.window_handles

In [None]:
# O código da aba atual
home = driver.current_window_handle

In [None]:
# O código da segunda aba
new_tabe = driver.window_handles[1]

In [None]:
# Muda a aba que vai receber o comando
driver.switch_to.window(new_tabe)

In [None]:
driver.current_url

In [None]:
# Faz algumas verificação de lementos na página, se ele está visível, se existe ou não, se é clicável
# Todas as opções possíveis
# https://selenium-python.readthedocs.io/api.html?highlight=expected_conditions#module-selenium.webdriver.support.expected_conditions
from selenium.webdriver.support import expected_conditions as EC
# Objeto responsável por fazer o código esperar alguma ação
# Todas as opções possíveis
# https://selenium-python.readthedocs.io/waits.html
from selenium.webdriver.support.ui import WebDriverWait
import time
import re

In [None]:
# Essa função é responsável por travar o código ate que determinado elemento apareça
def wait_element_load(driver,xpath,time):
    # Cria try pra tratar o erro, se o item não for carregado até o tmepo determinado
    try:
        # Espera até o elemento carregar ou o tempo acabar, se o tempo acabar dispara o erro
        element = WebDriverWait(driver, time).until(
            EC.presence_of_element_located((By.XPATH,xpath))
        )
        #print('Element Loaded')
    except:
        # Mostra esse texto caso o elemento não carregue no tempo determinado
        print("Element didn't load")

In [None]:
# Aqui nós temos todo o código responsável por pegar os dados
all_book = []
pg=0
# Nós utilizamos o While para casos onde não sabemos a quantidade paginas que vão ser carregadas
while True:
    pg+=1
    
    # Muda pra página principal 
    driver.switch_to.window(home)
    time.sleep(1)
    
    # Pega todos os links de livros
    book_links = list(map(lambda x: x.get_attribute('href'),driver.find_elements(By.XPATH,"//div[@class='sg-col-inner']/div[1]/span[1]/a[@title='product-detail']")))
    # Clica na próxima página
    driver.find_element(By.XPATH,'//ul[@class="a-pagination"]/li[2]/a').click()
    # Vai pra segunda aba
    driver.switch_to.window(new_tabe)
    book_c = 0
    # Percorre todos o links de livros
    for i in book_links:
        book_c+=1
        # Dict para armazenar as informações dos livros
        actual_book = {}
        driver.get(i)
        # Espera o título do livro carregar
        wait_element_load(driver,"//h1[@id='title'] | //span[@id='ebooksTitle']",10)
        # Pega o nome do livro
        actual_book['title_book'] = driver.find_element(By.XPATH,"//h1[@id='title'] | //span[@id='ebooksTitle']").text
        # Torna o texto da avaliação visível
        driver.execute_script('document.getElementsByClassName("a-icon-alt")[0].classList.remove("a-icon-alt")');
        # Pega a avaliação do produto
        actual_book['star_book'] = float(driver.find_element(By.XPATH,'*//a[@id="acrCustomerReviewLink"]/i/span[1]').text.split(' de ')[0].replace(',','.'))
        # A quantidade de reviwes
        actual_book['reviews'] = int(re.sub('\D','',driver.find_element(By.XPATH,"//span[@class='a-size-base cm-cr-review-stars-text-md']").text))
        # Adiciona a lista de registros
        all_book.append(actual_book)
        time.sleep(2)
        print('PG:',pg,' | BOOK:',book_c)

In [None]:
import pandas as pd

In [None]:
pd.DataFrame(all_book).info()

**Como lidar com alertas e iframe**

In [None]:
# Fecha a aba
driver.quit()

In [None]:
driver = webdriver.Firefox(options=profile)

In [None]:
driver.get('https://www.w3schools.com/jsref/tryit.asp?filename=tryjsref_alert2')

In [None]:
iframe = driver.find_element(By.XPATH,"//*[@id='iframeResult']")

In [None]:
# Muda o local do comando o espaço que está com o botão
driver.switch_to.frame(iframe)

In [None]:
driver.find_element(By.XPATH,'//body/button').click()

In [None]:
# Verifica se o alerta está presente
EC.alert_is_present()

In [None]:
# Muda o local de execução dos comandos para o alert
alert = driver.switch_to.alert

In [None]:
# Mostra o texto do alert
alert.text

In [None]:
# Recusa o Alert (Fecha)
alert.dismiss()

In [None]:
driver.find_element(By.XPATH,'/html/body/h2').text

In [None]:
# Volta para página principal
driver.switch_to.default_content()

In [None]:
driver.find_element(By.XPATH,'//*[@id="framesize"]').text

**Voltar e Ir para Frente**

In [None]:
driver.get('https://www.google.com')

In [None]:
# Volta para pagina anterior
driver.back()

In [None]:
# Vai pra próxima página
driver.forward()

## 1.4 Bônus (Selenium-Wire)

In [None]:
# Biblioteca do Selenium modificado
from seleniumwire import webdriver as wire

**Configuração Proxy**

In [None]:
# Coloca as informações da proxy em uma string
formated_proxy = "http://{}:{}@{}:{}".format('dfkoheawhh','9ix4wogikeeyhhh','209.127.191.180','9279')

In [None]:
# Passa pra um dict
seleniumwire_options = {
                "proxy": {"http": formated_proxy, "https": formated_proxy, "no_proxy": formated_proxy}
            }

In [None]:
# Abre o navegador com a cinfugação
driver = wire.Firefox(seleniumwire_options=seleniumwire_options)

In [None]:
# Não permite que esses links sejam carregados
def interceptor(request):
    if request.path.endswith(('.png', '.jpg','.css','.gif')):
        request.abort()
    elif 'google' in request.url or 'yahoo.com' in request.url:
        request.abort()
    elif 'connect.facebook.net' in request.url:
        request.abort()
    elif 'www.google-analytics.com' in request.url:
        request.abort()
    elif 'www.googletagmanager.com' in request.url:
        request.abort()

In [None]:
# Seta o interceptor dos links
driver.request_interceptor = interceptor

In [None]:
driver.get('https://meuip.com.br/')

In [None]:
driver = wire.Firefox()

In [None]:
driver.get('https://pe.olx.com.br/autos-e-pecas/carros-vans-e-utilitarios?q=gol')

In [None]:
carros = driver.find_elements(By.XPATH,'//a[@data-lurker-detail="list_id"]')

In [None]:
list_carros = list(map(lambda x: x.get_attribute('href'),carros))

In [None]:
driver.execute_script("window.open('https://www.google.com', '_blank');");

In [None]:
driver.window_handles

In [None]:
home = driver.current_window_handle

In [None]:
new_tabe = driver.window_handles[1]

In [None]:
driver.switch_to.window(new_tabe)

In [None]:
b=0
for i in list_carros:
    b+=1
    driver.get(i)
    print(i)
    if b > 5:
        break

In [None]:
from seleniumwire.utils import decode

In [None]:
from bs4 import BeautifulSoup as bs

In [None]:
import json

In [None]:
# Pega todas as informações das requisições realizadas
for i in driver.requests:
    # Filtra apenas as requisições referentes a carros
    if 'https://pe.olx.com.br' in i.url and 'gol-' in i.url:
        # Mostra o método que foi utilizado
        print(i.method)
        # Mostra a URL
        print(i.url)
        # Mostra o cabeçalho da requisição
        #print(i.headers)
        # Mostra o corpo da requisição
        print(i.body)
        print(i.response)
        print(i.params)
        print('------')
        '''source_page = bs(decode(i.response.body,i.response.headers.get('Content-Encoding', 'identity')))
        print(source_page.find('h2',attrs={'class':'sc-ifAKCX'}).text)'''
        print('************')
        
    #Detalhe Conseguimos pegar jsons
    if 'prada-api.olx.com.br' in i.url:
        print(json.loads(decode(i.response.body,i.response.headers.get('Content-Encoding', 'identity')))['locationDataFromZipCode'])
        print('############')

In [None]:
driver.requests