# Webscraping Artigos Fisioterapia

# 1.Introdução

- Objetivo desse projeto começou devido a dificuldade de acompanhar a evolução e atualizações das publicações na área de fisioterapia, especialmente na especialidade de fisioterapia ortopédica.

- Inumeras bases de dados e repositórios são usados por profissionais que atuam baseados em evidencia, porém o número de publicações cresce a cada dia, dificultando a identificação das melhores publicações/evidencias assim como adquirir tais trabalhos para serem consumidos.

- Inicialmente a base de dados PEDro (Physiotherapy Evidence Database) foi utilizada para aplicação da ideia.

- O grande diferencial é a possibilidade de coletar as informações relevantes sobre os trabalhos, como titulo, resumo, links de acesso, DOI, ano de publicação, revista, etc, e resumi-los em um só documento, sem precisar acessar a pagina de cada um dos artigos. 

- Caso o programa não funcione uma possível causa é a incompatibilidade entre a versão do navegador (no caso utilizei o chrome) e o driver da biblioteca selenium.

# 2.Carregando bibliotecas

In [8]:
from queue import Full
from selenium import webdriver
from webdriver_auto_update import check_driver
from selenium.webdriver.common.by import By
from time import sleep

# 3.Criando função para preenchimento das especificações dos campos de busca dos artigos 

- Alguns desses campos são predeterminados pela plataforma, enquanto outros são livre para preenchimento, como titulo do artigo e ano de publicação. Utilizaremos exemplos para ilustrar. Para isso é necessário conhecimento basico de HTML, e nessa função utilizei a tag ID da pagina para identificar o campo que quermos encontrar. Explicarei mais sobre interação com paginas da internet mais a frente.

In [9]:
def caixa_busca(nome, cod):
    if cod != "":
        driver.find_element(By.ID, nome).send_keys(cod)
    else:
        pass

# 4.Inicializando o driver do chrome e acessando o endereço

- Podemos escolher entre visualizar todo o processo ou esconder o navegador

    - Opção com visualização do processo no navegador

In [10]:
driver = webdriver.Chrome()
driver.maximize_window()
driver.get("https://pedro.org.au/")
sleep(2)

    - Escondendo navegador

In [None]:
# options = webdriver.ChromeOptions()
# options.add_argument("--headless")
# driver = webdriver.Chrome(options=options)
# driver.get("https://pedro.org.au/")
# sleep(2)

# 5.Interagindo com a página e escolhendo parametros para busca

- A partir daqui é necessário conhecimento básico de html para interação com as paginas na internet. Basicamente investigamos a pagina (clicando com botão direito em qualquer lugar de uma pagina e escolhendo 'Inspecionar'), e tentamos descobrir qual tag é a adequada para interagirmos com ela, seja um botão, um texto ou um campo para ser preenchido. Deixarei referencia de tutorial no README.

- Utilizei dois metodos diferentes (como XPATH, ID) para interação com o site.

## 5.1.Identificando botão para a página de busca

In [11]:
botao0 = driver.find_element(By.XPATH, "/html/body/header/div/nav[2]/div/div/ul/li[1]/a")
botao0.click()
sleep(2)

## 5.2.Enviando as informações para busca dos artigos

- Aqui utilizamos a função criada no início para preencher os campos que podemos especificar quais artigos queremos. O preenchimento de ao menos 3 ou 5 campos auxilia a afunilarmos os resultados para otimizar nossas buscas.

- Ao todo é possível preencher 9 campos, porém muitos deles podem se sobrepor. Minha sugestão é fazer a pergunta nos moldes PICOT (Paciente, Intervenção, Comparação, Desfecho e Tempo) para conseguir selecionar os artigos mais adequados e com melhor qualidade metodologica.

- Utilizarei de exemplos para ilustrar como seria feita uma busca. As linhas com "#" mostram os campos vazios e logo em seguida as especificações que utilizei para fazer a busca. Sugiro substituir os campos com os termos desejados para testar os resultados.

In [12]:
# Campo para especificar o titulo/resumo (livre)

# caixa_busca('abstract_with_title', '')
caixa_busca('abstract_with_title', 'ankle sprain')

# -----------------------------------------------------------------------------------------
# Campo para especificar o tipo de terapia (lista predeterminada)

lista_terapia = [
   'acupuncture', 'behaviour modification', 'education', 'electrotherapies, heat, cold',
   'fitness training', 'health promotion', 'hydrotherapy, balneotherapy',
   'neurodevelopmental therapy, neurofacilitation', 'orthoses, taping, splinting',
   'respiratory therapy', 'skill training', 'strength training',
   'stretching, mobilisation, manipulation, massage'
   ]
# caixa_busca('therapy', '')
caixa_busca('therapy', 'orthoses, taping, splinting')

# -----------------------------------------------------------------------------------------
# Campo para especificar o problema (lista predeterminada)

lista_problema = [
    'dificulty with sputum clearance', 'frailty', 'impaired ventilation',
    'incontinence', 'motor incoordination', 'muscle shortening, reduced joint compliance',
    'muscle weakness', 'oedema', 'pain', 'reduced exercise tolerance',
    'reduced work tolerance', 'skin lesion, wound, burn'
    ]
# caixa_busca('problem', '')
caixa_busca('problem', 'pain')

# -----------------------------------------------------------------------------------------
# Campo para especificar o região do corpo (lista predeterminada)

regiao = [
   'head or neck', 'upper arm, shoulder or shoulder gridle', 'forearm or elbow',
   'hand or wrist', 'chest', 'thoracic spine', 'lumbar spine, sacro-iliac joint or pelvis',
   'perinium or genito-urinary system', 'thigh or hip', 'lower leg or knee', 'foot or ankle'
   ]
# caixa_busca('body_part', '')
caixa_busca('body_part', '')

# -----------------------------------------------------------------------------------------
# Campo para especificar a subdisciplina (lista predeterminada)

lista_subdisciplina = [
   "cardiothoracics", "continence and women's health",
   "ergonomics and occupational health", "gerontology",
   "musculoskeletal", "neurology", "oncology",
   "orthopaedics", "pediatrics", "sports"
   ]
# caixa_busca('subdiscipline', '')
caixa_busca('subdiscipline', '')

# -----------------------------------------------------------------------------------------
# Campo para especificar o metodo do artigo (lista predeterminada)
# # No caso desse campo em específico foi necessário adaptar a busca, devido funcionalidade 
# # mais a frente no código. Escolha um numero de 0 a 2 para colocar entre []:
# # 0 para guidelines, 1 para revisões sistematicas e 2 para ensaio clínico

lista_metodo = ['practice guideline', 'systematic review', 'clinical trial']
# met = lista_metodo[]
met = lista_metodo[2]
caixa_busca('method', met)

# -----------------------------------------------------------------------------------------
# Campo para especificar desde que ano queremos publicações (livre)

# caixa_busca('year_of_publication', '')
caixa_busca('year_of_publication', '2010')

# -----------------------------------------------------------------------------------------
# Campo para especificar a pontuação minima na escala PEDro (de 1 a 10)

# caixa_busca('nscore', '')
caixa_busca('nscore', '5')

# -----------------------------------------------------------------------------------------
# Campo para especificar a quantidade de artigos por pagina (lista predeterminada porém
# estabeleci em 50, pois assim é necessário menos interações com a pagina)

# caixa_busca('perpage', '')
caixa_busca('perpage', '50')

# -----------------------------------------------------------------------------------------
# Botão para iniciar a busca

botao1 = driver.find_element(By.CLASS_NAME, "button")
botao1.click()
sleep(2)

# 6.Passando pelas paginas de resultados e selecionando os artigos desejados

- Aqui iremos passar por todas as paginas de resultado (se houver mais de 1) e coletar os titulos dos artigos encontrados. Um indicador com o numero total de artigos encontrados e logo após uma lista numerada com os todos os artigos encontrados serão mostrados. Caso apareçam muitos resultados sugiro que anote os numeros dos artigos de interesse para serem buscados na proxima sessão. 

- Caso nenhum artigo seja encontrado sugiro reiniciar a busca com outros parametros ou verificar se algum campo livre foi preenchido de maneira inadequada (erros de grafia ou numeros que não estão dentro dos valores corretos)

In [13]:
proxima_pagina = driver.find_elements(By.PARTIAL_LINK_TEXT, '»')
lista_geral_titulo = []
lista_geral_links = []
lista_doi = []
lista_scihub = []

try:
    while proxima_pagina != False:
        lista_pagina = driver.find_elements(By.CLASS_NAME, "left")
        for titulo in lista_pagina:
            lista_geral_titulo.append(titulo.text)
            lista_geral_links.append(titulo.get_attribute('href'))
        sleep(1)
        proxima_pagina = driver.find_element(By.PARTIAL_LINK_TEXT, '»')
        proxima_pagina.click()
except:
    print("")
    print("="*28)
    print("{} artigo(s) encontrado(s).".format(len(lista_geral_titulo)))
    print("="*28)
    for i, artigo in enumerate(lista_geral_titulo):
        print("")
        print(i+1,'-', artigo)
        print("")


8 artigo(s) encontrado(s).

1 - Effectiveness of mobilization of the talus and distal fibula in the management of acute lateral ankle sprain


2 - Kinesio Taping does not decrease swelling in acute, lateral ankle sprain of athletes: a randomised trial [with consumer summary]


3 - Elastic stockings or Tubigrip for ankle sprain: a randomised clinical trial


4 - Add-on effect of Kinesiotape in patients with acute lateral ankle sprain: a randomized controlled trial


5 - Bracing superior to neuromuscular training for the prevention of self-reported recurrent ankle sprains: a three-arm randomised controlled trial [with consumer summary]


6 - The effect of taping versus semi-rigid bracing on patient outcome and satisfaction in ankle sprains: a prospective, randomized controlled trial


7 - Early functional outcome of two different orthotic concepts in ankle sprains: a randomized controlled trial


8 - Effect of foot orthoses on ankle and foot injuries in military service recruits: a rand

# 7.Selecionando artigos de interesse e obtendo informações

- No exemplo utilizado acima encontramos 6 artigos.
- Para selecionar os artigos de interesse digite o numero correspondente da lista um de cada vez pressionando 'Enter'. 
    - Exemplo: se quero buscar o primeiro, o terceiro e o quinto artigo digito o numero 1 seguido de 'Enter', e assim sucessivamente.
- Após selecionar todos os artigos digite 'ok' e pressione 'Enter'.

In [14]:
try:
    selecao_artigos = []
    while True:
        selecao_artigos.append(int(input("Artigo(s) que desejo ler resumo: ")))
except:
    for num in selecao_artigos:
        num = int(num)
        num -= 1
        driver.get(lista_geral_links[num])
        sleep(2)
        revista = driver.find_element(By.XPATH, '//*[@id="search-content"]/table/tbody/tr[3]/td')
        tipo = driver.find_element(By.XPATH, '//*[@id="search-content"]/table/tbody/tr[4]/td')
        try:
            escala_pedro = driver.find_element(By.XPATH, '//*[@id="search-content"]/table/tbody/tr[5]')
        except:
            escala_pedro = driver.find_element(By.XPATH, '//*[@id="search-content"]/table/tbody/tr[5]/td')
        finally:
            pass
        try:
            resumo = driver.find_element(By.XPATH, '//*[@id="search-content"]/table/tbody/tr[5]/td/p[1]')
            resumo = resumo.text.removesuffix('Full text (sometimes free) may be available at these link(s):      help')
        except:
            resumo = driver.find_element(By.XPATH, '//*[@id="search-content"]/table/tbody/tr[6]/td/p[1]')
            resumo = resumo.text.removesuffix('Full text (sometimes free) may be available at these link(s):      help')
        finally:
            pass
        try:
            doi = driver.find_element(By.PARTIAL_LINK_TEXT, 'DOI').get_attribute('href')
        except:
            pass
        try:
            lista_doi.append(doi)
        except:
            pass
        print("="*160)
        print(num + 1, '-', lista_geral_titulo[num])
        print("")
        print(revista.text, "-", tipo.text.upper())
        print("")
        try:
            print(doi)
            print("")
        except:
            pass
        if met == lista_metodo[2]:
            try:
                print(escala_pedro.text)
                print("")
            except:
                pass
        else:
            pass
        try:
            print(resumo)
            print("")
        except:
            pass

1 - Effectiveness of mobilization of the talus and distal fibula in the management of acute lateral ankle sprain

Physical Therapy 2021 Aug;101(8):pzab111 - CLINICAL TRIAL

https://dx.doi.org/10.1093/ptj/pzab111

8/10 [Eligibility criteria: Yes; Random allocation: Yes; Concealed allocation: Yes; Baseline comparability: Yes; Blind subjects: No; Blind therapists: No; Blind assessors: Yes; Adequate follow-up: Yes; Intention-to-treat analysis: Yes; Between-group comparisons: Yes; Point estimates and variability: Yes. Note: Eligibility criteria item does not contribute to total score] *This score has been confirmed*

OBJECTIVE: Distal fibula mobilization with movement (MWM), with and without a posterior gliding fibular tape, and anteroposterior mobilization of the talus (MOB) are widely used to treat acute lateral ankle sprains. The purpose of this study was to investigate the short-term and long-term relative effectiveness of these techniques. METHODS: In this double-blind randomized contr

# Ao final temos uma relação de todos os artigos selecionados com as informações relevantes. 

- Esse programa é muito util principalmente quando encontramos muitos artigos nas buscas ou quando estamos buscando de forma menos especificas.

- De todo modo é um auxilio para evitar ter de manualmente entrar em todas as paginas para obter as informações

- Alguns erros podem ocorrer durante o processo, como não encontrar artigos correspondentes a busca, digitar numero fora na lista recebida e até duplicatas de textos no resultado final. Aos poucos essas falhas estão sendo resolvidas, mas o feito é melhor do que o perfeito :)

### Espero que esse programinha possa ajudar quem quer agilizar o processo de busca e leitura de artigos. 
### Futuramente serão adicionadas outras funcionalidades e facilidades!

