# Web Scraping com Selenium
Nesta aula iremos criar uma **automação na internet** utilizando a biblioteca Selenium 

#### Passo 1: Instalar biblioteca

In [1]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
!pip install --upgrade selenium
!pip install webdriver-manager

Defaulting to user installation because normal site-packages is not writeable
Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl (27 kB)
Installing collected packages: webdriver-manager
Successfully installed webdriver-manager-4.0.2


#### Passo 2: Importar bibliotecas

In [9]:
import pandas as pd

# Esse módulo fornece a classe principal para criar e controlar instãncias do navegador
from selenium import webdriver

# Iniciar/Parar o Chrome, Configurar opções de execução, definir caminhos do executável
from selenium.webdriver.chrome.service import Service

# Módulo para gerenciamento do ChromeDriver
from webdriver_manager.chrome import ChromeDriverManager

# Módulo para localização de elementos na página
from selenium.webdriver.common.by import By

# Módulo para simular as teclas
from selenium.webdriver.common.keys import Keys

#### Passo 3: Criar navegador

In [12]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

#### Passo 4: Acessar site

In [13]:
driver.get('http://www.google.com.br/')

#### Passo 5: Fechar navegador

In [14]:
driver.quit()

#### Passo 6: Acessar site e obter elementos elementos html

Para obter os elementos do site existem basicamente dois comandos
- find_element() -> Para acessar apenas um elemento
- find_elements() -> Para acessar vários elementos de uma vez

A partir destes comandos podemos usar vários métodos de seleção, por:
- **tag_name:** Localiza elementos com nome de tag correspondente ao valor de pesquisa
- **id:** Localiza elementos com atributo ID correspondente ao valor de pesquisa
- **class_name:** Localiza elementos com nome de classe que contém o valor de pesquisa (nomes de classe compostos não são permitidos)
- **css_selector:** Localiza elementos que correspondem a um seletor CSS
- **name:** Localiza elementos com atributo NAME correspondente ao valor de pesquisa
- **xpath:** Localiza elementos que correspondem a uma empressão XPath
- **link_text:** Localiza elementos âncora em que o texto visível corresponde ao valor de pesquisa
- **partial link text:** Localiza elementos âncora em que o texto visível contém o valor de pesquisa. Se vários elementos forem correspondentes, apenas o primeiro será selecionado

Após selecionar os elementos podemos executar algumas ações:
- **click():** Simula um clique do mouse em um elemento. Exemplo: elemento.click().
- **send_keys('Text'):** Insira texto em um campo. Exemplo: elemento.send_keys("texto a ser inserido").
- **clear():** Remova o texto existente em um campo de texto. Exemplo: elemento.clear().
- **submit():** Envie um formulário. Exemplo: elemento.submit().
- **select_by_visible_text('Texto'):** Selecione uma opção em uma lista suspensa por texto visível. Exemplo: elemento.select_by_visible_text("Opção Desejada").
- **Keys.ENTER:** Simula a tecla Enter. Pode ser usado em combinação com send_keys()para enviar formulários ou em outras situações que desative a tecla Enter. Exemplo: elemento.send_keys(Keys.ENTER).

In [15]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get('https://www.periodicos.capes.gov.br/')

In [16]:
# Seleciona o campo de busca pelo id
campo_busca = driver.find_element(By.ID, 'input-busca-home')

In [17]:
# Escreve um texto no campo de busca
campo_busca.send_keys('Irlen Syndrome', Keys.ENTER)

In [33]:
#driver.find_element(By.XPATH, '//*[@id="busca-avancada"]/div/div/div/div/button').click()

In [18]:
driver.quit()

#### Passo 7: Obter elementos dos resultados de busca

In [42]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

In [43]:
driver.get('https://www.periodicos.capes.gov.br/')

In [44]:
campo_busca = driver.find_element(By.ID, 'input-busca-home')

In [45]:
campo_busca.send_keys('Irlen Syndrome')

In [46]:
driver.find_element(By.XPATH, '//*[@id="busca-avancada"]/div/div/div/div/button').click()

In [34]:
resultados = driver.find_elements(By.CLASS_NAME, 'titulo-busca')
len(resultados)

0

In [37]:
lista_de_titulos = []
for i in resultados:
    lista_de_titulos.append(i.text)
lista_de_titulos

['Plasma Cholesterol Levels and Irlen Syndrome: Preliminary Study of 10- to 17-Yr.-Old Students',
 'The need for optometric investigation in suspected Meares–Irlen syndrome or visual stress',
 'Optometric correlates of Meares-Irlen Syndrome: a matched group study',
 'Irlen syndrome: systematic review and level of evidence analysis',
 'A Biochemical Analysis of People with Chronic Fatigue Who Have Irlen Syndrome: Speculation concerning Immune System Dysfunction',
 'Irlen Colored Overlays Do not Alleviate Reading Difficulties',
 'The interpretation of emotion from facial expressions for children with a visual sub‐type of dyslexia',
 'The Familial Incidence of Symptoms of Scotopic Sensitivity/Irlen Syndrome',
 'A preliminary investigation into the aetiology of Meares–Irlen syndrome',
 'A Prospective Genetic Marker of the Visual-Perception Disorder Meares-Irlen Syndrome',
 'The Familial Incidence of Symptoms of Scotopic Sensitivity/Irlen Syndrome: Comparison of Referred and Mass-Screened G

In [33]:
lista_de_links = []
for i in resultados:
    lista_de_links.append(i.get_attribute('href'))

lista_de_links

NameError: name 'resultados' is not defined

In [None]:
#acessar apenas um link
driver.get(lista_de_links[0])

#### Exercício: Automatizar levantamento da literatura no site da Capes
Extrair as informações abaixo de cada um dos links obtidos

- Título
- Ano
- Editora
- Volume
- Edição
- Idioma
- DOI
- ISSN
- Autores
- Tópico(s)
- Resumo
- Link