## Utilizando Web-Scraping para levantar a literatura

#### Passo 1: instalar bibliotecas

In [50]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
#!pip install requests
#!pip install beautifulsoup4

#### Passo 2: Importar bibliotecas

In [1]:
import requests
from bs4 import BeautifulSoup

#### Passo 3: Formatar link de busca

In [2]:
# Copie o modelo do link de busca
url_busca = 'https://www-periodicos-capes-gov-br.ezl.periodicos.capes.gov.br/index.php/acervo/buscador.html?q='

# Informe a palvra chave
palavra_chave = 'Irlen Syndrome'

# Formata a palavra chave conforme modelo do site de busca
palavra_chave = palavra_chave.replace(' ','+')

# Formata link
link = url_busca+palavra_chave
print(link)

https://www-periodicos-capes-gov-br.ezl.periodicos.capes.gov.br/index.php/acervo/buscador.html?q=Irlen+Syndrome


#### Passo 4: Obter informações do link

In [3]:
response = requests.get(link)
site = BeautifulSoup(response.content, 'html.parser')

#### Passo 5: Encontrar elementos

In [4]:
# Encontrar por id
resultados = site.find('div', attrs={'id': 'resultados'}).find_all('h6')                    
print(resultados)

[<h6>
<span class="text-muted titulo-busca-nun mr-2"><strong>1</strong></span>
<a class="titulo-busca" href="/index.php/acervo/buscador.html?task=detalhes&amp;source=&amp;id=W2023931792" type="button">Optometric correlates of Meares-<b>Irlen</b> <b>Syndrome</b>: a matched group study</a>
</h6>, <h6>
<span class="text-muted titulo-busca-nun mr-2"><strong>2</strong></span>
<a class="titulo-busca" href="/index.php/acervo/buscador.html?task=detalhes&amp;source=&amp;id=W1978377520" type="button">The need for optometric investigation in suspected Meares–<b>Irlen</b> <b>syndrome</b> or visual stress</a>
</h6>, <h6>
<span class="text-muted titulo-busca-nun mr-2"><strong>3</strong></span>
<a class="titulo-busca" href="/index.php/acervo/buscador.html?task=detalhes&amp;source=&amp;id=W2108805797" type="button">A Biochemical Analysis of People with Chronic Fatigue Who Have <b>Irlen</b> <b>Syndrome</b>: Speculation concerning Immune System Dysfunction</a>
</h6>, <h6>
<span class="text-muted titulo-

In [5]:
# Título
titulo = resultados[0].find('a').text
print('Título:',titulo)

Título: Optometric correlates of Meares-Irlen Syndrome: a matched group study


In [6]:
# Link
link_ext = resultados[0].find('a')['href']
url_site = 'https://www-periodicos-capes-gov-br.ezl.periodicos.capes.gov.br'
link = url_site+link_ext

print('Link:',link)

Link: https://www-periodicos-capes-gov-br.ezl.periodicos.capes.gov.br/index.php/acervo/buscador.html?task=detalhes&source=&id=W2023931792


#### Passo 6: Armazenar dados

In [7]:
# Cria uma lista vazia para guardar dados
lista_de_titulos = []
lista_de_links = []

# Cria laço de repetição para filtrar todos os dados
for i in resultados:
    lista_de_titulos.append(i.find('a').text)
    lista_de_links.append(url_site+i.find('a')['href'])

#### Passo 7: Visualizar listas

In [8]:
#lista_de_titulos
#lista_de_links

#### Passo 8: Organizar tabelas e salvar

In [9]:
# Importar biblioteca Pandas para criar DataFrames
import pandas as pd

In [14]:
# Transforma arrays em DataFrame
df = pd.DataFrame({'Títulos': lista_de_titulos, 'Link': lista_de_links})

# Salvar DataFrame
df.to_excel('Levantamento_da_Literatura.xlsx')

In [13]:
# Visualizar DataFrame
df.head()

Unnamed: 0,Títulos,Link
0,Optometric correlates of Meares-Irlen Syndrome...,https://www-periodicos-capes-gov-br.ezl.period...
1,The need for optometric investigation in suspe...,https://www-periodicos-capes-gov-br.ezl.period...
2,A Biochemical Analysis of People with Chronic ...,https://www-periodicos-capes-gov-br.ezl.period...
3,Irlen Colored Overlays Do not Alleviate Readin...,https://www-periodicos-capes-gov-br.ezl.period...
4,Functional Magnetic Resonance Imaging Findings...,https://www-periodicos-capes-gov-br.ezl.period...


#### Exercício: Extrair as demais informações abaixo
- Link
- Título
- DOI
- ISSN
- Autores
- Tópico(s)
- Resumo
- Referência(s)

### Desafio: Encontrar uma solução listar todos os resultados para quando houver 2 ou mais páginas de resultado