# Selenium
---

Biblioteca do Python (também de outras linguagens como #C) para *web scrapping*

## Instalação

1. `pip install selenium`
2. Baixar o [Chrome Driver](https://sites.google.com/a/chromium.org/chromedriver/home) (versão Windows 32-bits serve para 64-bits também)


## Como usar

- **[Navigating - Selenium Python](https://selenium-python.readthedocs.io/navigating.html)**
- **[Locating elements - Selenium Python](https://selenium-python.readthedocs.io/locating-elements.html)**

## Exemplo

### Acessando a página e buscando

#### SelectorGadget
Vamos acessar a página do G1 e buscar por um conteúdo. É importante inspecionar a página para saber os nomes de classes ou elementos de interesse. Isso pode ser feito com a extensão [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb). 

- Uma vez instalada, basta buscar a extensão no canto superior direito e irá aparecer o menu destacado em branco.
- Clique na tela no local que você deseja e selecione "XPath" para descobrir o caminho daquele elemento.
- Copie esse caminho para a função `find_element_by_xpath` que será utilizada no código
  
![Selector - G1](./figures/g1_selector.png)

#### Inspecionando a página

- Outra opção é mais "manual", buscando no código fonte da página: Na figura abaixo está destacada (código em azul) a área referente à busca, mais especificamente (código em cinza) a classe do `input` 

![Inspecionar - G1](./figures/g1_inspecionar.png)

* Aqui podemos observar que a classe do `input` tem um id chamado `busca_campo`, então vamos localizá-lo (para saber mais como localizar elementos, ver link em [Como usar](#Como-usar)). Aqui basta clicar com o botão direito no element o `input` e em seguida `Copiar > Copiar XPath`

![Localizar elemento - G1](./figures/g1_xpath.png)

In [14]:
from selenium import webdriver

webpage = r'https://g1.globo.com/' # edit me

# mudar para o local onde você extraiu o chromedriver
driver = webdriver.Chrome('C:\\Users\\Elogroup\\Documents\\chromedriver_win32\\chromedriver.exe')
driver.maximize_window()

# é bom colocar o tempo (segundos) de espera caso vá fazer muitas requisições
driver.implicitly_wait(5)

# capturando o conteúdo da página
driver.get(webpage)

# identificando o campo de busca com o XPath copiado
sbox = driver.find_element_by_xpath("//*[@id=\"busca-campo\"]")

# preenchendo com o termo a ser buscado e enter!
from selenium.webdriver.common.keys import Keys
sbox.send_keys("ciencia de dados", Keys.ENTER)

content = driver.page_source

* No caso da página ter um botão para submeter o conteúdo, podemos usar o código abaixo

* No caso do conteúdo estar dentro de um `frame` (classe chamada `iframe`), deve-se mudar o driver para esse local como abaixo antes de fazer a busca

* No caso do conteúdo ser gerado numa nova janela, devemos mudar o `driver` para a nova janela também

### Lendo o conteúdo com `Beautiful Soup`

In [18]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(content, 'html.parser')

In [23]:
soup.body.contents
#[i for i in soup.body.children if type(i) == bs4.]

[' ', <header id="header-produto">
 <div id="glbbarrawidget"><div class="barra-globocom" id="barra-globocom"><div class="barra-conteudo"><a class="barra-logo no-show small" data-analytics-context="Link Home" href="https://www.globo.com" target="_top" title="globo.com"><svg viewbox="-1 0 75 17" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><path d="M60.437,5.371c0-0.826,0.519-1.377,1.24-1.377c0.636,0,1.048,0.345,1.134,0.929 c0.606-0.654,1.396-1.033,2.306-1.033c1.035,0,1.913,0.431,2.565,1.257c0.688-0.791,1.771-1.257,2.616-1.257 c2.012,0,3.388,1.171,3.388,3.338v4.75c0,0.825-0.516,1.375-1.239,1.375s-1.239-0.55-1.239-1.375V7.658 c0-0.998-0.55-1.704-1.444-1.704c-0.913,0-1.463,0.706-1.463,1.704v4.319c0,0.825-0.515,1.375-1.237,1.375 c-0.724,0-1.24-0.55-1.24-1.375V7.658c0-0.998-0.55-1.704-1.445-1.704c-1.015,0-1.462,0.706-1.462,1.704v4.319 c0,0.825-0.517,1.375-1.24,1.375c-0.721,0-1.24-0.55-1.24-1.375V5.371z M8.826,12.526C8.826,15.504,6.883,17,4.06,17c-1.015,0-3.90