# Web scraping - Parte 2

Na aula de hoje veremos:
 - Como encontrar elementos em uma página web
 - Como navegar em diferentes páginas
 - Como preencher formulários
 - Como lidar com estratégias anti-scraping
 - O que são servidores proxies e como utilizá-los
 - Como bloquear requisições

### Encontrando elementos 


| ABORDAGEM       | DESCRIÇÃO                                                       | HTML                                                            | SELENIUM                                                                                                           |
|:----------------|:----------------------------------------------------------------|:----------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------|
| By.ID           | Seleciona elemento HTML com base no id attribute                | \<div id="s-437">...\</div>                                      | find_element(By.ID, "s-437")                                                                                      |
| By.NAME         | Seleciona elemento HTML com base no name attribute              | \<input name="email" />                                         | find_element(By.NAME, "email") <br> find_elements(By.NAME, "email")                                               |
| By.XPATH        | Seleciona elemento HTML que dá match no XPath expression        | \<h1>My <strong>Fantastic</strong> Blog\</h1>                    | find_element(By.XPATH, "//h1/strong") <br> find_elements(By.XPATH, "//h1/strong")                                 |
| By.LINK_TEXT    | Seleciona elemento \<a> HTML que contém o texto do link         | \<a href="/">Home\</a>                                           | find_element(By.LINK_TEXT, "Home") <br> find_elements(By.LINK_TEXT, "Home")                                       |
| By.TAG_NAME     | Seleciona elemento HTML com base no tag name                    | \<span>...\</span>                                               | find_element(By.TAG_NAME, "span") <br> find_elements(By.TAG_NAME, "span")                                         |
| By.CLASS_NAME   | Seleciona elemento HTML com base na class attribute             | \<div class="text-center"><br> Welcome! <br>    \</div>                        | find_element(By.CLASSNAME, "text-center") <br> find_elements(By.CLASSNAME, "text-center")                         |
| By.CSS_SELECTOR | Seleciona elemento HTML que dá match a CSS selector             | \<div class="product-card"> <br>       \<span class="price"\> </br> $140 </br> \</span> <br> \</div>| find_element(By.CSS_SELECTOR, ".product-card .price") <br> find_elements(By.CSS_SELECTOR, ".product-card .price")|


`find_element`: retorna o primeiro elemento que casa com o padrão buscado<br>
`find_elements`: retorna todos os elementos que casam com o padrão buscado     

### Bibliotecas

In [3]:
import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

service = Service(ChromeDriverManager().install())

options = Options()
#options.headlessess = True
driver = webdriver.Chrome(service=service)
driver.get('https://scrapingclub.com/')

### Find Element

In [None]:
exercise_card1 = driver.find_element(By.CLASS_NAME, 'w-fill.rounded.border')

/html/body/div[3]/div[2]/div/div[1]

### Find elements

In [13]:
# crie uma variavel com o dia da semana atual
from datetime import datetime
from datetime import timedelta

now = datetime.now()
print(now.weekday())

nextSunday = now + timedelta(days=(6-now.weekday()))
lastSunday = now - timedelta(days=now.weekday() + 1)
print(nextSunday)
print(lastSunday)
print(nextSunday.weekday())
print(lastSunday.weekday())

def isWeekday(day):
    return day.weekday() < 5
# verifique se é de segunda a sexta
if now.weekday() < 5:
    print('É dia de semana')

3
2024-06-09 08:51:22.981990
2024-06-02 08:51:22.981990
6
6
É dia de semana


### Experimentos

### Forms

### Aguardar condições

### Páginas com carregamento infinito

### Navegar em Modo Anônimo

### Capturando cookies

### Contornando bloqueios anti-scraping

In [None]:
from selenium.webdriver import Keys

driver = webdriver.Chrome(service=service)
driver.get('https://www.g2.com/products/zenrows/reviews')

#### Headers

![image](http_message.png)

#### User-Agent

In [None]:
user_agents = [
    'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:53.0) Gecko/20100101 Firefox/53.0',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0.3 Safari/605.1.15'
]


#### Headers SEC-CH-UA
 - SEC >_ Secure<br>
 - CH  >_ Client Hints<br>
 - UA  >_ User-Agent<br>

In [None]:
from seleniumwire import webdriver

user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122,0,0,0 Safari/537.36'
sec_ch_ua = '"Google Chrome";v="122", " Not;A Brand";v="105", "Chromium";v="122"'
referer = 'https://www.google.com'

def interceptor(request):
    print(request.headers["user-agent"])
    del request.headers["user-agent"]
    request.headers["user-agent"] = user_agent
    request.headers["sec-ch-ua"] = sec_ch_ua
    request.headers["referer"] = referer



### Proxies

![image](proxy.jpg)

### Armadilhas para scrapers (Honeypot Traps)

**Definição:** Estratégias para atrair, prender e/ou bloquear scrapers

#### Como fugir de armadilhas de scrapers
 - Evite redes públicas
 - Seja um scraper ético
 - Use headless browsers
 - Evite links ocultos
 - Evite scraper tipo pegue-e-use
 

### Acelerando o scraping por redução de requisições
#### Bloqueando imagens

In [None]:

options = Options()

options.experimental_options['prefs'] = {
    'profile.managed_default_content_settings.images': 2
}


#### Bloqueio do JS

In [None]:
options = Options()

options.experimental_options['prefs'] = {
    'profile.managed_default_content_settings.javascript': 2
}


 - Bloqueio/filtro de requisições
 - Bloquei/filtro de domínio
 - Bloqueio/filtro de midias
 
 ...