# Web Scraping com Selenium
**O que é?** \
Biblioteca em Python voltada simular interações de usuário em páginas web

In [1]:
!pip install selenium
!apt-get update
!apt-get install -y chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin/chromedriver
!chmod +x /usr/bin/chromedriver

Collecting selenium
  Downloading selenium-4.21.0-py3-none-any.whl.metadata (6.9 kB)
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.25.1-py3-none-any.whl.metadata (8.7 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting typing_extensions>=4.9.0 (from selenium)
  Downloading typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting sniffio>=1.3.0 (from trio~=0.17->selenium)
  Downloading sniffio-1.3.1-py3-none-any.whl.metadata (3.9 kB)
Collecting cffi>=1.14 (from trio~=0.17->selenium)
  Downloading cffi-1.16.0-cp311-cp311-win_amd64.whl.metadata (1.5 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-

'apt-get' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.
'apt-get' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.
'cp' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.
'chmod' n�o � reconhecido como um comando interno
ou externo, um programa oper�vel ou um arquivo em lotes.


# Quando utilizar?
* Interagir
* Localizar
* Extrair

In [3]:
from selenium import webdriver


driver = webdriver.Chrome()

driver.get("http://selenium.dev")

driver.quit()

# Como localizar e interagir com elementos web com Selenium
Uma parte fundamental do Selenium é a capacidade de localizar elementos em uma página da web para interagir com eles. \

**Como localizar?**  
* Localização por ID
* Localização por Nome
* Localização por Classe
* Localização por XPath
* Localização por Seletor CSS

**Métodos:**  
* Antigo:  
driver.find_element_by_*

* Atual:  
driver.find_element

# Exemplo

Encontrar os telefones disponiveis nesse site: \
https://webscraper.io/test-sites/e-commerce/allinone/phones

In [6]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome() 
driver.get("https://webscraper.io/test-sites/e-commerce/allinone/phones")

driver.find_element(By.CLASS_NAME, "title")

<selenium.webdriver.remote.webelement.WebElement (session="97cee1130fdb11e0688c1fafe737448d", element="f.53474A414D88733B1412C2D50D2FF74D.d.EF2BFF03366B05F3DF6B0BDA7742791B.e.26")>

In [7]:
lista_telefones = driver.find_elements(By.CLASS_NAME, "title")

for item in lista_telefones:
    print(item.text)

Sony Xperia
Samsung Galaxy
Ubuntu Edge


### **Como interagir?**

- #### send_keys
- #### click
- #### select
- #### submit

### Exemplo

Encontrar os computadores disponiveis nesse site: \
https://webscraper.io/test-sites/e-commerce/allinone/phones

In [11]:
driver = webdriver.Chrome()  #Para utilizar no vscode retirar comentário
driver.get("https://webscraper.io/test-sites/e-commerce/allinone/phones")

computadores = driver.find_element(By.XPATH,'//*[@id="side-menu"]/li[2]/a')

computadores.click()

### Explorando as capacidades de automação de interações

#### Live coding https://quotes.toscrape.com/

- #### login
- #### filtro
- #### paginação
- #### localizar elemento

In [12]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get("https://quotes.toscrape.com/")

#login
login_button = driver.find_element(By.XPATH,'/html/body/div/div[1]/div[2]/p/a')
login_button.click()
username = driver.find_element(By.XPATH,'//*[@id="username"]')
username.send_keys("admin")
password = driver.find_element(By.XPATH, '//*[@id="password"]')
password.send_keys("admin")
login_button2 = driver.find_element(By.XPATH,'/html/body/div/form/input[2]')
login_button2.click()

#interacao na pagina
tag_humor = driver.find_element(By.XPATH, '/html/body/div/div[2]/div[2]/span[4]/a')
tag_humor.click()
next = driver.find_element(By.XPATH,'/html/body/div/div[2]/div[1]/nav/ul/li/a')
next.click()
quote = driver.find_element(By.CLASS_NAME,"quote").text

## Temas avançados com Selenium

- #### Cookies personalizados
- #### Requisões Ajax
- #### Lazy Load
- #### Carregamento condicionado
- #### Timeout

### Cookies personalizados:

```
cookie = {'name' : 'cookie_teste', 'value' : 'teste'}
driver.add_cookie(cookie)
driver.get_cookies()
```

In [14]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()

driver.get("http://selenium.dev")
cookie = {'name' : 'cookie_teste', 'value' : 'teste'}
driver.add_cookie(cookie)
driver.get_cookies()

[{'domain': 'www.selenium.dev',
  'httpOnly': False,
  'name': 'cookie_teste',
  'path': '/',
  'sameSite': 'Lax',
  'secure': True,
  'value': 'teste'}]

### Requisições Ajax e Lazy Load:
https://www.scrapethissite.com/pages/ajax-javascript/#2013


- #### Espera explicita:

``` bash
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


# Aguardar até que o elemento esteja clicável, max 10 segundos
elemento = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, "elemento"))
)
```

- #### Espera implicita
``` bash
```
``` bash
# Inicialização do WebDriver com espera implícita de 10 segundos
driver = webdriver.Chrome()
driver.implicitly_wait(10)  # Espera implícita de 10 segundos
```

Carregamento condicionado:
Scroll:
from selenium.webdriver import ActionChains

# scrollar até um elemento
iframe = driver.find_element(By.TAG_NAME, "iframe")
ActionChains(driver)\
        .scroll_to_element(iframe)\
        .perform()

# scrollar quantidade especifica

ActionChains(driver)\
        .scroll_by_amount(0, delta_y)\
        .perform()

### Carregamento condicionado:


- #### Scroll:

```
from selenium.webdriver import ActionChains

#scrollar até um elemento
iframe = driver.find_element(By.TAG_NAME, "iframe")
ActionChains(driver)\
        .scroll_to_element(iframe)\
        .perform()

#scrollar quantidade especifica

ActionChains(driver)\
        .scroll_by_amount(0, delta_y)\
        .perform()


```

- #### Hover

```
from selenium.webdriver import ActionChains


hoverable = driver.find_element(By.ID, "hover")
ActionChains(driver)\
        .move_to_element(hoverable)\
        .perform()
```

### Timeout:

```
# Definindo o tempo máximo de espera para o carregamento da página (em segundos)
driver.set_page_load_timeout(10)  # Definindo um timeout de 10 segundos

try:
    # Tentativa de acessar uma página que levará mais tempo para carregar
    driver.get("https://www.exemplo.com/paginalenta")
    
    # Se a página carregar dentro do tempo limite, podemos continuar com as operações
    print("Página carregada com sucesso!")

except TimeoutException:
    # Se a página não carregar dentro do tempo limite, será lançada uma exceção
    print("Timeout: A página não pôde ser carregada dentro do tempo limite.")

```

## Utilizando Pandas no Web Scraping

#### Pandas é uma biblioteca voltada para manipulação de dados em formato tabular, mas que pode ajudar em algumas situações de web scraping

### Método read_html()

- #### Acessa uma página determinada
- #### Encontra todos objetos do tipo table
- #### Converte em dataframes pandas


### Exemplo

https://webscraper.io/test-sites/tables/tables-semantically-correct

In [15]:
import pandas as pd

dfs = pd.read_html("https://webscraper.io/test-sites/tables/tables-semantically-correct")

In [16]:
dfs

[   # First Name Last Name  Username
 0  1       Mark      Otto      @mdo
 1  2      Jacob  Thornton      @fat
 2  3      Larry  the Bird  @twitter,
    # First Name Last Name  Username
 0  4      Harry    Potter       @hp
 1  5       John      Snow    @dunno
 2  6        Tim      Bean  @timbean]

In [17]:
dfs[0].describe()

Unnamed: 0,#
count,3.0
mean,2.0
std,1.0
min,1.0
25%,1.5
50%,2.0
75%,2.5
max,3.0
