# Web Scraping com Selenium
Nesta aula iremos criar uma **automação na internet** utilizando a biblioteca Selenium 

#### Passo 1: Instalar biblioteca

In [None]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
#!pip install --upgrade selenium
#!pip install webdriver-manager

#### Passo 2: Importar bibliotecas

In [None]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By

#### Passo 3: Criar navegador

In [None]:
driver = webdriver.Chrome() # Usando método simples
#driver = webdriver.Chrome(service=Service(ChromeDriverManager().install())) # Usando o webdriver-manager para atualizar o driver

#### Passo 4: Acessar site

In [None]:
driver.get('https://www.periodicos.capes.gov.br/')

#### Passo 5: Fechar navegador

In [None]:
driver.quit()

#### Passo 6: Acessar site e obter elementos elementos html

Para obter os elementos do site existem basicamente dois comandos
- find_element() -> Para acessar apenas um elemento
- find_elements() -> Para acessar vários elementos de uma vez

A partir destes comandos podemos usar vários métodos de seleção, por:
- **tag_name:** Localiza elementos com nome de tag correspondente ao valor de pesquisa
- **id:** Localiza elementos com atributo ID correspondente ao valor de pesquisa
- **class_name:** Localiza elementos com nome de classe que contém o valor de pesquisa (nomes de classe compostos não são permitidos)
- **css_selector:** Localiza elementos que correspondem a um seletor CSS
- **name:** Localiza elementos com atributo NAME correspondente ao valor de pesquisa
- **xpath:** Localiza elementos que correspondem a uma empressão XPath
- **link_text:** Localiza elementos âncora em que o texto visível corresponde ao valor de pesquisa
- **partial link text:** Localiza elementos âncora em que o texto visível contém o valor de pesquisa. Se vários elementos forem correspondentes, apenas o primeiro será selecionado

In [None]:
# Criar navegador e acessar site
driver = webdriver.Chrome()
driver.get('https://www.periodicos.capes.gov.br/')

In [None]:
# Selecionar o campo de busca pelo id
campo_busca = driver.find_element(By.ID, 'input-busca-primo')

In [None]:
# Escrever um texto no campo de busca
campo_busca.send_keys('Irlen Syndrome')

In [None]:
# Clicar em pesquisar 
driver.find_element(By.ID, 'btn-busca-primo').click()

In [None]:
# Fazer todas essas etapas de uma vez só

# Criar navegador
# Acessar site
# Encontrar campo de busca e inserir texto
# Clicar em pesquisar

#### Passo 7: Obter elementos dos resultados de busca

In [None]:
# Listar todos os resultados
resultados = driver.find_elements(By.CLASS_NAME, 'titulo-busca') # Atenção para a função find_elements (no plural)
len(resultados)

In [None]:
# Listar o título de todos os resultados
lista_de_titulos = []
for i in resultados:
    lista_de_titulos.append(i.text)
    
lista_de_titulos

In [None]:
# Listar o link de todos os resultados
lista_de_links = []
for i in resultados:
    lista_de_links.append(i.get_attribute('href'))

lista_de_links

In [None]:
# Acessar um dos links
driver.get(lista_de_links[0])

In [None]:
# Obter título
driver.find_element(By.ID, 'item-titulo').text

In [None]:
# Ano de publicação
driver.find_element(By.ID, 'item-ano').text

In [None]:
# Editora
driver.find_element(By.ID, 'item-instituicao').text

In [None]:
# Volume
driver.find_element(By.ID, 'item-volume').text

In [None]:
# Edição
driver.find_element(By.ID, 'item-issue').text

In [None]:
# Idioma
driver.find_element(By.ID, 'item-language').text

In [None]:
# DOI
driver.find_element(By.XPATH, '//*[@id="content-print"]/div[1]/p[3]').text

In [None]:
# ISSN
driver.find_element(By.XPATH, '//*[@id="content-print"]/div[1]/p[4]').text

In [None]:
# Autores
driver.find_element(By.ID, 'item-autores').text

In [None]:
# Topico(s)
driver.find_elements(By.ID, 'item-autores')[1].text

In [None]:
# Resumo
driver.find_element(By.ID, 'item-resumo').text

#### Passo 8: Automatizar levantamento da literatura no site da Capes
Extrair as informações abaixo de cada um dos links obtidos

- Título
- Ano
- Editora
- Volume
- Edição
- Idioma
- DOI
- ISSN
- Autores
- Tópico(s)
- Resumo
- Link

#### Criar tabela para armazenar dados

In [None]:
# Criar o nome de cada coluna
colunas = ['Título','Ano','Editora','Volume','Edição','Idioma','DOI','ISSN','Autores','Topico(s)','Resumo','Link']

# Criar a tabela com as colunas informadas
tabela = pd.DataFrame(columns=colunas)

# Visualizar tabela
tabela

In [None]:
# Criar laço de repetição para acessar todos os links e extrair as informações dos artigos
driver = webdriver.Chrome() # Criar navegador
id = 0 # Contador
for j in lista_de_links:
    try:
        # Acessar link
        driver.get(j)
    
        # Título
        titulo = driver.find_element(By.ID, 'item-titulo').text
        # Ano de publicação
        ano = driver.find_element(By.ID, 'item-ano').text
        # Editora
        editora = driver.find_element(By.ID, 'item-instituicao').text
        # Volume
        volume = driver.find_element(By.ID, 'item-volume').text
        # Edição
        edicao = driver.find_element(By.ID, 'item-issue').text
        # Idioma
        idioma = driver.find_element(By.ID, 'item-language').text
        # DOI
        doi = driver.find_element(By.XPATH, '//*[@id="content-print"]/div[1]/p[3]').text
        # ISSN
        issn = driver.find_element(By.XPATH, '//*[@id="content-print"]/div[1]/p[4]').text
        # Autores
        autores = driver.find_element(By.ID, 'item-autores').text
        # Topico(s)
        topicos = driver.find_elements(By.ID, 'item-autores')[1].text
        # Resumo
        resumo = driver.find_element(By.ID, 'item-resumo').text
        # Link
        link = j        

        # Insere uma nova linha na tabela com as informações do produto
        tabela.loc[len(tabela)] = [titulo,ano,editora,volume,edicao,idioma,doi,issn,autores,topicos,resumo,link]

        print(f'Link: {id} - Raspagem concluída com sucesso')

    except:
        print(f'Link: {id} - Não foi possível obter os dados solicitados')

    # Incrementa uma posição no contador
    id = id+1

### Nesta etapa, é possível que tenha ocorrido alguns problemas

#### Passo 9: Inspecionar tabela

In [None]:
# Quantidade de entradas na tabela
len(tabela)

In [None]:
# visualizar tabela
tabela

In [None]:
# Criar nova tabela
nova_tabela = pd.DataFrame(columns=colunas)

#### Passo 10: Tratar erros

In [None]:
# Criar laço de repetição para acessar todos os links e extrair as informações dos artigos
driver = webdriver.Chrome() # Criar navegador
id = 0 # Contador
for j in lista_de_links:
    try:
        # Acessar link
        driver.get(j)
    
        # Título
        try:
            titulo = driver.find_element(By.ID, 'item-titulo').text
        except: titulo = None
            
        # Ano de publicação
        try:
            ano = driver.find_element(By.ID, 'item-ano').text
        except: ano = None
        
        # Editora
        try:
            editora = driver.find_element(By.ID, 'item-instituicao').text
        except: editora = None
            
        # Volume
        try:
            volume = driver.find_element(By.ID, 'item-volume').text
        except: volume = None
            
        # Edição
        try:
            edicao = driver.find_element(By.ID, 'item-issue').text
        except: edicao = None
            
        # Idioma
        try:
            idioma = driver.find_element(By.ID, 'item-language').text
        except: idioma = None
            
        # DOI
        try:
            doi = driver.find_element(By.XPATH, '//*[@id="content-print"]/div[1]/p[3]').text
        except: doi = None
            
        # ISSN
        try:
            issn = driver.find_element(By.XPATH, '//*[@id="content-print"]/div[1]/p[4]').text
        except: issn = None
            
        # Autores
        try:
            autores = driver.find_element(By.ID, 'item-autores').text
        except: autores = None
            
        # Topico(s)
        try:
            topicos = driver.find_elements(By.ID, 'item-autores')[1].text
        except: topicos = None
            
        # Resumo
        try:
            resumo = driver.find_element(By.ID, 'item-resumo').text
        except: resumo = None
        # Link
        link = j        

        # Insere uma nova linha na tabela com as informações do produto
        nova_tabela.loc[len(nova_tabela)] = [titulo,ano,editora,volume,edicao,idioma,doi,issn,autores,topicos,resumo,link]

        print(f'Link: {id} - Raspagem concluída com sucesso')
        
    except:
        print(f'Link: {id} - Não foi possível obter os dados solicitados')
    
    # Incrementa uma posição no contador
    id = id+1

#### Passo 11: Inspecionar tabela corrigida

In [None]:
# Quantidade de entradas na tabela
len(nova_tabela)

In [None]:
# visualizar tabela
nova_tabela

#### Passo: Exportar DataFrame para Excel

In [None]:
nova_tabela.to_excel('Levantamento_da_Literatura_Selenium.xlsx')