# Web Scraping com Selenium
Nesta aula iremos criar uma **automação na internet** utilizando a biblioteca Selenium

#### Passo 1: Instalar biblioteca

In [None]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
!pip install --upgrade selenium
!pip install webdriver-manager

Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


#### Passo 2: Importar bibliotecas

In [None]:
import pandas as pd

# Módulo que fornece a classe principal para criar e controlar instâncias do navegador
from selenium import webdriver

# Módulo para gerenciar o serviço do ChromeDriver (processo em segundo plano que controla o Chrome)
# - Iniciar/parar o ChromeDriver
# - Configurar opções de execução
# - Gerenciar portas e processos
# - Definir caminhos do executável
from selenium.webdriver.chrome.service import Service

# Módulo para gerenciamento do ChromeDriver:
# - Baixa automaticamente a versão correta do ChromeDriver
# - Verifica e atualiza drivers desatualizados
# - Elimina a necessidade de baixar manualmente o driver
# - Gerencia compatibilidade de versões
from webdriver_manager.chrome import ChromeDriverManager

# Módulo para localização de elementos na página
from selenium.webdriver.common.by import By

# Módulo para simular as teclas
from selenium.webdriver.common.keys import Keys

#### Passo 3: Criar navegador

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

#### Passo 4: Acessar site

In [None]:
driver.get('https://pubmed.ncbi.nlm.nih.gov/')

#### Passo 5: Fechar navegador

In [None]:
driver.quit()

#### Passo 6: Acessar site e obter elementos elementos html

Para obter os elementos do site existem basicamente dois comandos
- find_element() -> Para acessar apenas um elemento
- find_elements() -> Para acessar vários elementos de uma vez

A partir destes comandos podemos usar vários métodos de seleção, por:
- **tag_name:** Localiza elementos com nome de tag correspondente ao valor de pesquisa
- **id:** Localiza elementos com atributo ID correspondente ao valor de pesquisa
- **class_name:** Localiza elementos com nome de classe que contém o valor de pesquisa (nomes de classe compostos não são permitidos)
- **css_selector:** Localiza elementos que correspondem a um seletor CSS
- **name:** Localiza elementos com atributo NAME correspondente ao valor de pesquisa
- **xpath:** Localiza elementos que correspondem a uma empressão XPath
- **link_text:** Localiza elementos âncora em que o texto visível corresponde ao valor de pesquisa
- **partial link text:** Localiza elementos âncora em que o texto visível contém o valor de pesquisa. Se vários elementos forem correspondentes, apenas o primeiro será selecionado

Após selecionar os elementos podemos executar algumas ações:
- **click():** Simula um clique do mouse em um elemento. Exemplo: elemento.click().
- **send_keys('Text'):** Insira texto em um campo. Exemplo: elemento.send_keys("texto a ser inserido").
- **clear():** Remova o texto existente em um campo de texto. Exemplo: elemento.clear().
- **submit():** Envie um formulário. Exemplo: elemento.submit().
- **select_by_visible_text('Texto'):** Selecione uma opção em uma lista suspensa por texto visível. Exemplo: elemento.select_by_visible_text("Opção Desejada").
- **Keys.ENTER:** Simula a tecla Enter. Pode ser usado em combinação com send_keys()para enviar formulários ou em outras situações que desative a tecla Enter. Exemplo: elemento.send_keys(Keys.ENTER).

#### 6.1: Criar navegador e acessar site

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get('https://pubmed.ncbi.nlm.nih.gov/')

#### 6.2: Selecionar o campo de busca pelo id

In [None]:
campo_busca = driver.find_element(By.ID, 'id_term')

#### 6.3: Escrever um texto no campo de busca

In [None]:
campo_busca.send_keys('Irlen Syndrome')

#### 6.4: Clicar no Botão Pesquisar

In [None]:
driver.find_element(By.CLASS_NAME, 'search-btn').click()
# campo_busca.send_keys('Irlen Syndrome', Keys.ENTER)

#### 6.5: Fechar navegador

In [None]:
# driver.quit()

#### Passo 7: Obter elementos dos resultados de busca

In [None]:
# Listar todos os resultados
# Atenção para a função find_elements (no plural)
resultados = driver.find_elements(By.CLASS_NAME, 'full-docsum')
len(resultados)

10

#### 7.1: Listar o título de todos os resultados

In [None]:
lista_de_titulos = []

for i in resultados:
    lista_de_titulos.append(i.text)

for j in lista_de_titulos:
    print(j)

1
Cite
Irlen syndrome: systematic review and level of evidence analysis.
Miyasaka JDS, Vieira RVG, Novalo-Goto ES, Montagna E, Wajnsztejn R.
Arq Neuropsiquiatr. 2019 Mar;77(3):194-207. doi: 10.1590/0004-282X20190014.
PMID: 30970133 Free article.
BACKGROUND: Scotopic sensitivity syndrome, later called Meares-Irlen syndrome or simply Irlen syndrome (IS) has been described as symptoms of poor reading ability due to poor color matching and distorted graphic images. Individuals with this …
2
Cite
Dyslexia with and without Irlen syndrome: A study of influence on abilities and brain-derived neurotrophic factor level.
Abdelraouf ER, Kilany A, Elhadidy ME, Zeidan HM, Elsaied A, Eid OM, El-Saied MM, Anwar R, Nashaat NH.
Ibrain. 2022 Dec 1;9(1):32-42. doi: 10.1002/ibra.12080. eCollection 2023 Spring.
PMID: 37786524 Free PMC article.
The presence of comorbid Irlen syndrome (IS) in children with developmental dyslexia (DD) may have an impact on their reading and cognitive abilities. ...The particip

#### 7.2: Listar o link de todos os resultados

In [None]:
lista_de_links = []
for i in resultados:
    link_element = i.find_element(By.CLASS_NAME, 'docsum-title') # Encontra a tag 'a'
    lista_de_links.append(link_element.get_attribute('href')) # Encontra a atributo href

lista_de_links

['https://pubmed.ncbi.nlm.nih.gov/30970133/',
 'https://pubmed.ncbi.nlm.nih.gov/37786524/',
 'https://pubmed.ncbi.nlm.nih.gov/31469774/',
 'https://pubmed.ncbi.nlm.nih.gov/2136527/',
 'https://pubmed.ncbi.nlm.nih.gov/14694847/',
 'https://pubmed.ncbi.nlm.nih.gov/25239616/',
 'https://pubmed.ncbi.nlm.nih.gov/14738334/',
 'https://pubmed.ncbi.nlm.nih.gov/21930551/',
 'https://pubmed.ncbi.nlm.nih.gov/24688259/',
 'https://pubmed.ncbi.nlm.nih.gov/2261178/']

#### 7.3: Acessar um dos links

In [None]:
driver.get(lista_de_links[0])

## Exercício 1
Acesse um dos links da lista e obtenha:

##### 1) Título

In [None]:
driver.find_element(By.CLASS_NAME, 'heading-title').text

'Irlen syndrome: systematic review and level of evidence analysis'

##### 2) Autores

In [None]:
driver.find_element(By.CLASS_NAME, 'authors-list').text

'Jordan Da Silva Miyasaka  1 , Raphael V Gonzaga Vieira  1 , Elaine Shizue Novalo-Goto  1 , Erik Montagna  1 , Rubens Wajnsztejn  1'

##### 3) Ano de publicação

In [None]:
driver.find_element(By.CLASS_NAME, 'cit').text.split()[0]

'2019'

##### 4) DOI

In [None]:
driver.find_element(By.CLASS_NAME, 'citation-doi').text

'doi: 10.1590/0004-282X20190014.'

##### 5) Tipo de publicação

In [None]:
driver.find_element(By.XPATH, '//*[@id="publication-types"]/ul/li/div/button').text

'Systematic Review'

##### 6) Resumo

In [None]:
driver.find_element(By.ID, 'eng-abstract').text

"Background: Scotopic sensitivity syndrome, later called Meares-Irlen syndrome or simply Irlen syndrome (IS) has been described as symptoms of poor reading ability due to poor color matching and distorted graphic images. Individuals with this syndrome are considered slow, ineffective readers with low comprehension and visual fatigue. It is still uncertain whether the disease pathophysiology is an independent entity or part of the dyslexia spectrum. Nevertheless, treatments with lenses and colored filters have been proposed to alleviate the effect of the luminous contrast and improve patients' reading performance. However, no evidence of treatment effectiveness has been achieved.\nObjective: The aim of the present study was to obtain evidence about IS etiology, diagnosis and intervention efficacy.\nMethods: A systematic review was performed covering the available studies on IS, assessing the available data according to their level of evidence, focusing on diagnostic tools, proposed inte

##### 7) Link de acesso (como registro de referência)

In [None]:
lista_de_links[0]

'https://pubmed.ncbi.nlm.nih.gov/30970133/'

In [None]:
driver.quit()

## Exercício 2: Automatizar o processo anterior para todos os links da lista
Extrair as informações abaixo de cada um dos links obtidos

- Título
- Autores
- Ano
- DOI
- Tipo de publicação
- Resumo
- Link

### Armazene todas as informações em um DataFrame

#### 1) Criar tabela para armazenar dados

In [None]:
# 1 - Criar o nome de cada coluna
colunas = ['Título', 'Autores', 'Ano', 'DOI', 'Tipo de publicação', 'Resumo', 'Link']

# 2 - Criar a tabela com as colunas informadas
tabela = pd.DataFrame(columns = colunas)

# 3 - Visualizar tabela
tabela

Unnamed: 0,Título,Autores,Ano,DOI,Tipo de publicação,Resumo,Link


#### 2) Obter dados dos links e armazenar na tabela

In [None]:
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))


# Contador
id = 0
for i in lista_de_links:
    try:
        driver.get(i)
        # Título
        try:
            titulo = driver.find_element(By.CLASS_NAME, 'heading-title').text
        except:
            titulo = None
            print(f'Link: {id} - Não foi possível obter o título')
        # Autores
        try:
            autores = driver.find_element(By.CLASS_NAME, 'authors-list').text
        except:
            autores = None
            print(f'Link: {id} - Não foi possível obter os autores')
        # Ano
        try:
            ano = driver.find_element(By.CLASS_NAME, 'cit').text.split()[0]
        except:
            ano = None
            print(f'Link: {id} - Não foi possível obter o ano')
        # Doi
        try:
            doi = driver.find_element(By.CLASS_NAME, 'citation-doi').text
        except:
            doi = None
            print(f'Link: {id} - Não foi possível obter o doi')
        # Tipo de Pubicação
        try:
            tipo = driver.find_element(By.XPATH, '//*[@id="publication-types"]/ul/li/div/button').text
        except:
            tipo = None
            print(f'Link: {id} - Não foi possível obter o tipo')
        # Resumo
        try:
            resumo = driver.find_element(By.ID, 'eng-abstract').text
        except:
            resumo = None
            print(f'Link: {id} - Não foi possível obter o resumo')
        # Link
        link = i

        tabela.loc[len(tabela)] = [titulo, autores, ano, doi, tipo, resumo, link]
        print(f'Link: {id} - Raspagem concluída com sucesso!')

    except:
        print(f'Link: {id} - Não foi possível obter os dados solicitados!')

    id += 1



Link: 0 - Raspagem concluída com sucesso!
Link: 1 - Não foi possível obter o tipo
Link: 1 - Raspagem concluída com sucesso!
Link: 2 - Raspagem concluída com sucesso!
Link: 3 - Não foi possível obter o doi
Link: 3 - Raspagem concluída com sucesso!
Link: 4 - Não foi possível obter o resumo
Link: 4 - Raspagem concluída com sucesso!
Link: 5 - Não foi possível obter o tipo
Link: 5 - Não foi possível obter o resumo
Link: 5 - Raspagem concluída com sucesso!
Link: 6 - Não foi possível obter o tipo
Link: 6 - Raspagem concluída com sucesso!
Link: 7 - Raspagem concluída com sucesso!
Link: 8 - Não foi possível obter o tipo
Link: 8 - Raspagem concluída com sucesso!
Link: 9 - Raspagem concluída com sucesso!


#### 3) Visualizar tabela

In [None]:
tabela

Unnamed: 0,Título,Autores,Ano,DOI,Tipo de publicação,Resumo,Link
0,Irlen syndrome: systematic review and level of...,"Jordan Da Silva Miyasaka 1 , Raphael V Gonzag...",2019,doi: 10.1590/0004-282X20190014.,Systematic Review,"Background: Scotopic sensitivity syndrome, lat...",https://pubmed.ncbi.nlm.nih.gov/30970133/
1,Dyslexia with and without Irlen syndrome: A st...,"Ehab R Abdelraouf 1 2 , Ayman Kilany 1 3...",2022,doi: 10.1002/ibra.12080.,,The presence of comorbid Irlen syndrome (IS) i...,https://pubmed.ncbi.nlm.nih.gov/37786524/
2,Dizziness in a Child With Irlen Syndrome: Diff...,"Carrie W Hoppes 1 , Rebecca L Morrell, Laura ...",2019,doi: 10.1097/PEP.0000000000000652.,Case Reports,Purpose: A case study of a 12-year-old boy wit...,https://pubmed.ncbi.nlm.nih.gov/31469774/
3,Irlen lenses: a critical appraisal,"H A Solan 1 , J Richman",1990,,Review,The purpose of this paper is to assess the cre...,https://pubmed.ncbi.nlm.nih.gov/2136527/
4,[The Irlen syndrome--are there pathophysiologi...,"M Döhnert 1 , E D Englert",2003,doi: 10.1024/1422-4917.31.4.305.,Review,,https://pubmed.ncbi.nlm.nih.gov/14694847/
5,Irlen syndrome: expensive lenses for this ill ...,Gwyn Samuel Williams,2014,doi: 10.1136/bmj.g4872.,,,https://pubmed.ncbi.nlm.nih.gov/25239616/
6,Plasma cholesterol levels and Irlen syndrome: ...,"D L Sparkes 1 , G L Robinson, H Dunstan, T K ...",2003,doi: 10.2466/pms.2003.97.3.743.,,The preliminary study investigated metabolic a...,https://pubmed.ncbi.nlm.nih.gov/14738334/
7,Irlen colored overlays do not alleviate readin...,"Stuart J Ritchie 1 , Sergio Della Sala, Rober...",2011,doi: 10.1542/peds.2011-0314.,Randomized Controlled Trial,Objectives: To test the efficacy of Irlen colo...,https://pubmed.ncbi.nlm.nih.gov/21930551/
8,Specific visual symptoms and signs of Meares-I...,"Minwook Chang 1 , Seung-Hyun Kim 1 , Joo-You...",2014,doi: 10.3341/kjo.2014.28.2.159.,,Purpose: To discriminate the visual symptoms a...,https://pubmed.ncbi.nlm.nih.gov/24688259/
9,A review of the use of Irlen (tinted) lenses,"M M Cotton 1 , K M Evans",1990,doi: 10.1111/j.1442-9071.1990.tb00625.x.,Review,Helen Irlen identified a syndrome defined as '...,https://pubmed.ncbi.nlm.nih.gov/2261178/


#### 4) Exportar DataFrame para Excel

In [None]:
tabela.to_excel('lista_pesquisas.xlsx')