## Utilizando Web-Scraping para levantar a literatura

#### Passo 1: instalar bibliotecas

In [None]:
# Remova o comentário(#) da linha abaixo caso esteja executando este script pela primeira vez
#!pip install requests
#!pip install beautifulsoup4

#### Passo 2: Importar bibliotecas

In [None]:
import requests
from bs4 import BeautifulSoup

#### Passo 3: Formatar link de busca

In [None]:
# Copie o modelo do link de busca
url_busca = 'https://www-periodicos-capes-gov-br.ezl.periodicos.capes.gov.br/index.php/acervo/buscador.html?q='

# Informe a palvra chave
palavra_chave = 'Irlen Syndrome'

# Formata a palavra chave conforme modelo do site de busca
palavra_chave = palavra_chave.replace(' ','+')

# Formata link
link = url_busca+palavra_chave
print(link)

#### Passo 4: Obter informações do link

In [None]:
response = requests.get(link)
soup = BeautifulSoup(response.content, 'html.parser')

#### Passo 5: Encontrar elementos

In [None]:
# Encontrar por id
resultados = soup.find('div', attrs={'id': 'resultados'}).find_all('h6')                    
print(resultados)

In [None]:
# Título
titulo = resultados[0].find('a').text
print('Título:',titulo)

In [None]:
# Link
link_ext = resultados[0].find('a')['href']
url_site = 'https://www-periodicos-capes-gov-br.ezl.periodicos.capes.gov.br'
link = url_site+link_ext

print('Link:',link)

#### Passo 6: Armazenar dados

In [None]:
# Cria uma lista vazia para guardar dados
lista_de_titulos = []
lista_de_links = []

# Cria laço de repetição para filtrar todos os dados
for i in resultados:
    lista_de_titulos.append(i.find('a').text)
    lista_de_links.append(url_site+i.find('a')['href'])

#### Passo 7: Visualizar listas

In [None]:
lista_de_titulos

In [None]:
lista_de_links

#### Passo 8: Organizar tabelas e salvar

In [None]:
# Importar biblioteca Pandas para criar DataFrames
import pandas as pd

In [None]:
# Transforma arrays em DataFrame
df = pd.DataFrame({'Títulos': lista_de_titulos, 'Link': lista_de_links})

# Salvar DataFrame
df.to_excel('Levantamento_da_Literatura_Soup.xlsx')

In [None]:
# Visualizar DataFrame
df.head()

#### Exercício: Extrair as demais informações abaixo
- Título
- Ano
- Editora
- Volume
- Edição
- Idioma
- DOI
- ISSN
- Autores
- Tópico(s)
- Resumo
- Link

#### Tentativa de resposta

In [None]:
# Acessar site
response = requests.get(lista_de_links[0])
# Criar objeto BeautifulSoup
soup = BeautifulSoup(response.content, 'html.parser')
# Encontra título
resultados = soup.find('h5', {'id':'item-titulo'})

In [None]:
# Visualizar tag com informações sobre o título
resultados

In [None]:
# Visualizar informações sobre o título
resultados.text

# Como resolver esse problema ???