## Introdução

Assim como com os pacotes `requests` e `BeautifulSoup`, nós precisamos instalar o `Selenium` antes de utilizá-lo. Para isso, use o comando:

```cmd
pip install selenium
```

In [None]:
from selenium.webdriver import Firefox
from selenium.webdriver.firefox.service import Service

Além disso, também precisaremos de um arquivo chamado `geckodriver`. O `geckodriver` é um tipo de WebDriver específico do Firefox, que é o browser que estaremos utilizando neste exemplo. 

Um WebDriver é, em termos gerais, um "navegador web automatizado". Através de uma linguagem de programação, o WebDriver simulará ações de um usuário normal, como cliques, preenchimento de formulários etc.

## Instanciando o Driver

A seguir, instanciamos o objeto Firefox, o qual será usado como `driver`. É através dos métodos deste objeto que manipularemos as atividades do nosso navegador.

Para isso, precisamos especificar onde está localizado o `geckodriver` que baixamos, usando um objeto da classe `Service`.

In [None]:
service = Service(executable_path="geckodriver.exe")
driver = Firefox(service=service)

Para fechar o navegador quando terminarmos nosso script, basta usar o método `quit`.

In [None]:
driver.quit()

## Acessando páginas

Vamos instanciar o nosso navegador novamente.

In [None]:
service = Service(executable_path="geckodriver.exe")
driver = Firefox(service=service)

Com o navegador aberto, podemos acessar alguma URL com o método `get` do nosso objeto `Firefox`, de forma bem semelhante à função da biblioteca `requests`.

In [None]:
driver.get("https://www.google.com/")

## Acessando elementos

Os elementos da página podem ser acessados com o método `find_element`. Para usá-lo, precisaremos importar a classe auxiliar `By`.

In [None]:
from selenium.webdriver.common.by import By

Essa classe serve para indicar por qual tipo de identificador nós estamos procurando (exemplos: ID, XPath, classe, tag etc.).

A sintaxe do método find_element é bastante intuitiva e legível: pense em como você diria para o Selenium procurar por um elemento. Você especificaria por qual tipo de identificador ele deveria procurar e por qual nome. Algo no sentido:

encontre o elemento que tenha o ID "elemento-tal".

A sintaxe é exatamente essa: `find_element(by=By.ID, value="elemento-tal")`

No exemplo abaixo, nós vamos pegar a barra de pesquisa do Google e tentar escrever nela. Inspecionando o elemento, percebemos que se trata da única `textarea` da página. Vamos usar a própria tag para pegá-la.

In [None]:
search_bar = driver.find_element(by=By.TAG_NAME, value='textarea')

In [None]:
type(search_bar)

## Preenchendo inputs

Armazenamos na variável `search_bar` um objeto da classe `WebElement`. Essa classe tem métodos que podemm ser utilizados para manipular esse elemento em específico.

Vamos tentar pesquisar pela faculdade nessa barra. Para isso, enviaremos o texto "Faculdade Engenheiro Salvador Arena" para ela com o método `send_keys`.

In [None]:
search_bar.send_keys("Faculdade Engenheiro Salvador Arena")

Agora, com um `submit`, nós enviaremos nossa requisição para o Google.

In [None]:
search_bar.submit()

## Extraindo dados

Agora que temos a página com a lista de sites retornados após o envio da nossa pesquisa, nós podemos extrair informações desses sites.

Primeiro, pegaremos todos os elementos que correspondem a um resultado. Observando o site do Google pelo inspecionar elemento, podemos ver um padrão: todos os resultados estão encapsulados em divs da classe `g`. Podemos usar isso a nosso favor. 

Basta usar o método `find_elements` para pegar uma lista de todos os elementos que correspondam ao critério estabelecido que, no caso, será elementos de classe `g`.

In [None]:
results = driver.find_elements(By.CLASS_NAME, "g")

In [None]:
results

Dentro dessas divs, o título das páginas sempre aparece como um elemento `h3`. Vamos printar o texto desses `h3` e ver se o resultado bate com a página. Para isso, utilizaremos o próprio `find_element`, mas dessa vez buscando pela tag.

Perceba que nós estamos utilizando o `find_element` em um objeto do tipo WebElement, e não mais no WebDriver. Isso significa que podemos usar esse método de forma recursiva para atravessar o aninhamento dos elementos no HTML.

In [None]:
for result in results:
    title = result.find_element(By.TAG_NAME, "h3")
    
    print(title.text)

Agora vamos checar se é possível extrair o link de cada página. Para isso, vamos pesquisar agora pela tag `a` (anchor), que tem o atributo `href` que é a URL do site.

In [None]:
result_anchor = results[0].find_element(By.TAG_NAME, "a")

Vamos acessar o atributo `href` usando o método `get_attribute`.

In [None]:
result_anchor.get_attribute("href")

Por fim, podemos fechar o navegador.

In [None]:
driver.quit()

## Conclusão

Nós conseguimos cobrir, com esse código simples, os principais métodos do Selenium. Algoritmos que utilizam o framework dificilmente vão fugir disso, uma vez que essas são as principais interações de um usuário comum: 
- o uso de URL para acessar uma página web;
- o preenchimento de formulários através da interação com elementos de input, bem como o envio dos dados inseridos na forma de uma requisição;
- a seleção de dados visíveis na tela (extração).

Abaixo, temos o código completo para que possamos visualizar sua execução sem interrupção: 

In [None]:
from time import sleep

service = Service(executable_path="geckodriver.exe")
driver = Firefox(service=service)

driver.get("https://www.google.com/")

query = "Faculdade Engenheiro Salvador Arena"

search_bar = driver.find_element(by=By.TAG_NAME, value='textarea')
search_bar.send_keys(query)
search_bar.submit()

sleep(5) # espera a buscar carregar

results = driver.find_elements(By.CLASS_NAME, "g")

print(f"Os resultados da pesquisa foram '{query}':")
for result in results:
    title = result.find_element(By.TAG_NAME, "h3")
    print(title.text)
    
driver.quit()