# Web Scraping com Selenium
Nesta aula iremos criar uma **automação na internet** utilizando a biblioteca Selenium 

#### Passo 1: Instalar biblioteca

In [1]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
#!pip install --upgrade selenium
#!pip install webdriver-manager

#### Passo 2: Importar bibliotecas

In [2]:
import pandas as pd

# Módulo que fornece a classe principal para criar e controlar instâncias do navegador
from selenium import webdriver

#Módulo para gerenciar o serviço ChromeDriver
#Iniciar/Parar/Configurar Ações/Gerenciar Processos...
from selenium.webdriver.chrome.service import Service

# Gerencia as versões do ChromeDriver
from webdriver_manager.chrome import ChromeDriverManager

#Módulo para localização de elementos da página
from selenium.webdriver.common.by import By

#Módulo para simular teclas
from selenium.webdriver.common.keys import Keys

#### Passo 3: Criar navegador

In [5]:
driver = webdriver.Chrome(service = Service(ChromeDriverManager().install()))

#### Passo 4: Acessar site

In [7]:
driver.get('http://www.google.com.br')

#### Passo 5: Fechar navegador

In [8]:
driver.quit()

#### Passo 6: Acessar site e obter elementos elementos html

Para obter os elementos do site existem basicamente dois comandos
- find_element() -> Para acessar apenas um elemento
- find_elements() -> Para acessar vários elementos de uma vez

A partir destes comandos podemos usar vários métodos de seleção, por:
- **tag_name:** Localiza elementos com nome de tag correspondente ao valor de pesquisa
- **id:** Localiza elementos com atributo ID correspondente ao valor de pesquisa
- **class_name:** Localiza elementos com nome de classe que contém o valor de pesquisa (nomes de classe compostos não são permitidos)
- **css_selector:** Localiza elementos que correspondem a um seletor CSS
- **name:** Localiza elementos com atributo NAME correspondente ao valor de pesquisa
- **xpath:** Localiza elementos que correspondem a uma empressão XPath
- **link_text:** Localiza elementos âncora em que o texto visível corresponde ao valor de pesquisa
- **partial link text:** Localiza elementos âncora em que o texto visível contém o valor de pesquisa. Se vários elementos forem correspondentes, apenas o primeiro será selecionado

Após selecionar os elementos podemos executar algumas ações:
- **click():** Simula um clique do mouse em um elemento. Exemplo: elemento.click().
- **send_keys('Text'):** Insira texto em um campo. Exemplo: elemento.send_keys("texto a ser inserido").
- **clear():** Remova o texto existente em um campo de texto. Exemplo: elemento.clear().
- **submit():** Envie um formulário. Exemplo: elemento.submit().
- **select_by_visible_text('Texto'):** Selecione uma opção em uma lista suspensa por texto visível. Exemplo: elemento.select_by_visible_text("Opção Desejada").
- **Keys.ENTER:** Simula a tecla Enter. Pode ser usado em combinação com send_keys()para enviar formulários ou em outras situações que desative a tecla Enter. Exemplo: elemento.send_keys(Keys.ENTER).

In [18]:
driver = webdriver.Chrome(service = Service(ChromeDriverManager().install()))
# Acessa link
driver.get('https://pubmed.ncbi.nlm.nih.gov/')
# Seleciona o campo de busca pelo id
campo_busca = driver.find_element(By.ID, 'id_term')
# Escreve um texto no campo de busca + a tecla Enter para iniciar a busca
campo_busca.send_keys('Irlen Syndrome', Keys.ENTER)

In [10]:
driver.get('https://pubmed.ncbi.nlm.nih.gov/')

In [11]:
campo_busca = driver.find_element(By.ID, 'id_term')

In [12]:
campo_busca.send_keys('Irlen Syndrome')

In [13]:
driver.find_element(By.CLASS_NAME, 'search-btn').click()

In [15]:
driver.quit()

#### Passo 7: Obter elementos dos resultados de busca

In [19]:
# Listar todos os resultados
# Atenção para a função find_elements (no plural)
resultados = driver.find_elements(By.CLASS_NAME, 'full-docsum')
len(resultados)

10

In [22]:
lista_de_titulos = []
for i in resultados:
    lista_de_titulos.append(i.text)

for j in lista_de_titulos:
    print(j)

1
Irlen syndrome: systematic review and level of evidence analysis.
Miyasaka JDS, et al. Arq Neuropsiquiatr. 2019. PMID: 30970133 Free article.
BACKGROUND: Scotopic sensitivity syndrome, later called Meares-Irlen syndrome or simply Irlen syndrome (I …
Cite
2
Dyslexia with and without Irlen syndrome: A study of influence on abilities and brain-derived neurotrophic factor level.
Abdelraouf ER, et al. Ibrain. 2022. PMID: 37786524 Free PMC article.
The presence of comorbid Irlen syndrome (IS) in children with developmental dyslexia (DD) may have an impact on their reading …
Cite
3
Irlen lenses: a critical appraisal.
Solan HA, et al. J Am Optom Assoc. 1990. PMID: 2136527 Review.
The purpose of this paper is to assess the credibility of the Irlen lenses, Irlen's hypotheses, and the scotopic sensitivity …
Cite
4
Dizziness in a Child With Irlen Syndrome: Differentiating Visual and Vestibular Complaints.
Hoppes CW, et al. Pediatr Phys Ther. 2019. PMID: 31469774
PURPOSE: A case study of a 12-yea

In [23]:
lista_de_links = []
for i in resultados:
    link_element = i.find_element(By.CLASS_NAME, 'docsum-title') #Encontra a tag a
    lista_de_links.append(link_element.get_attribute('href')) #Encontra o atributo href
lista_de_links

['https://pubmed.ncbi.nlm.nih.gov/30970133/',
 'https://pubmed.ncbi.nlm.nih.gov/37786524/',
 'https://pubmed.ncbi.nlm.nih.gov/2136527/',
 'https://pubmed.ncbi.nlm.nih.gov/31469774/',
 'https://pubmed.ncbi.nlm.nih.gov/25239616/',
 'https://pubmed.ncbi.nlm.nih.gov/19089876/',
 'https://pubmed.ncbi.nlm.nih.gov/14694847/',
 'https://pubmed.ncbi.nlm.nih.gov/24688259/',
 'https://pubmed.ncbi.nlm.nih.gov/2261178/',
 'https://pubmed.ncbi.nlm.nih.gov/8524579/']

#### Exercício: Automatizar levantamento da literatura no site da Capes
Extrair as informações abaixo de cada um dos links obtidos

- Título
- Ano
- Editora
- Volume
- Edição
- Idioma
- DOI
- ISSN
- Autores
- Tópico(s)
- Resumo
- Link

In [29]:
import requests
from bs4 import BeautifulSoup

urls = [
    'https://pubmed.ncbi.nlm.nih.gov/30970133/',
    'https://pubmed.ncbi.nlm.nih.gov/37786524/',
    'https://pubmed.ncbi.nlm.nih.gov/2136527/',
    'https://pubmed.ncbi.nlm.nih.gov/31469774/',
    'https://pubmed.ncbi.nlm.nih.gov/25239616/',
    'https://pubmed.ncbi.nlm.nih.gov/19089876/',
    'https://pubmed.ncbi.nlm.nih.gov/14694847/',
    'https://pubmed.ncbi.nlm.nih.gov/24688259/',
    'https://pubmed.ncbi.nlm.nih.gov/2261178/',
    'https://pubmed.ncbi.nlm.nih.gov/8524579/'
]

for i, url in enumerate(urls, 1):
    try:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, "html.parser")

        # Título
        titulo = soup.select_one("h1.heading-title").get_text(strip=True)

        # Detalhes de publicação (ano, mês, volume, edição)
        detalhes = soup.select_one("span.cit").get_text(strip=True)
        try:
            partes = detalhes.split(";")
            ano_mes = partes[0].strip()
            ano, mes = ano_mes.split(" ")
            volume_ed = partes[1].split(":")[0].strip()
            volume = volume_ed.split("(")[0]
            edicao = volume_ed.split("(")[1].replace(")", "")
        except:
            ano, mes, volume, edicao = "?", "?", "?", "?"

        # DOI
        doi_elem = soup.select_one("span.citation-doi")
        doi = doi_elem.get_text(strip=True).replace("doi: ", "") if doi_elem else "DOI não disponível"

        # Autores
        autores = soup.select_one("div.authors-list")
        autores = autores.get_text(" ", strip=True) if autores else "Autores não disponíveis"

        # Resumo
        resumo_elem = soup.select_one("div.abstract-content.selected#eng-abstract")
        resumo = resumo_elem.get_text(" ", strip=True) if resumo_elem else "Resumo não disponível"

        # Exibir resultados
        print("="*100)
        print(f"ARTIGO {i}")
        print("="*100)
        print(f"Título  : {titulo}\n")
        print("=== PUBLICAÇÃO ===")
        print(f"Ano     : {ano}")
        print(f"Mês     : {mes}")
        print(f"Volume  : {volume}")
        print(f"Edição  : {edicao}")
        print(f"DOI     : {doi}")
        print(f"Link    : {url}\n")
        print("=== AUTORES ===")
        print(autores, "\n")
        print("=== RESUMO ===")
        print(resumo)
        print("\n\n")

    except Exception as e:
        print(f"❌ Erro ao processar {url}: {e}")


ARTIGO 1
Título  : Irlen syndrome: systematic review and level of evidence analysis

=== PUBLICAÇÃO ===
Ano     : 2019
Mês     : Mar
Volume  : 77
Edição  : 3
DOI     : 10.1590/0004-282X20190014.
Link    : https://pubmed.ncbi.nlm.nih.gov/30970133/

=== AUTORES ===
Jordan Da Silva Miyasaka 1 , Raphael V Gonzaga Vieira 1 , Elaine Shizue Novalo-Goto 1 , Erik Montagna 1 , Rubens Wajnsztejn 1 

=== RESUMO ===
Background: Scotopic sensitivity syndrome, later called Meares-Irlen syndrome or simply Irlen syndrome (IS) has been described as symptoms of poor reading ability due to poor color matching and distorted graphic images. Individuals with this syndrome are considered slow, ineffective readers with low comprehension and visual fatigue. It is still uncertain whether the disease pathophysiology is an independent entity or part of the dyslexia spectrum. Nevertheless, treatments with lenses and colored filters have been proposed to alleviate the effect of the luminous contrast and improve pati