Script para buscar resumos na BDTD, testar se eles são relevantes para o domínio de óleo e gás e baixar o documento original no repositório institucional.

In [1]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
import json
import nltk
from nltk.tokenize import word_tokenize
from langdetect import detect
from langdetect import detect_langs
from keras.models import load_model
import gensim
from gensim.models import Word2Vec
import csv
import re

Using TensorFlow backend.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [2]:
# Definindo configurações globais de proxy para realizar a extração dentro da rede Petrobras
chave = 'XXXX'
pwd = 'XXXXXXXXXX'
proxy_url = 'http://'+chave+':'+pwd+'@inet-sys.gnet.petrobras.com.br:804/'
proxies = {
  'http' : proxy_url ,
  'https' : proxy_url ,
}

Inicialmente entraremos no site da BDTD e buscaremos os links de todas as teses de uma determinada intituição.

In [3]:
#função para coletar os links das tese

def get_links(page):
        
    #preparar a url
    url = ('http://bdtd.ibict.br/vufind/Search/Results?filter%5B%5D=institution%3A%22UFBA%22&type=AllFields&page=' +
           str(page))
    
    #Fazer requisição e parsear o arquivo html
    f = requests.get(url, proxies = proxies).text 
    soup = bs(f, "html.parser")

    #Coletando link para as teses
    links = []
    for doc in soup.find_all('a', href=True):
        if 'title' in doc.get('class', []):
            links.append(doc['href'])
    return links

In [4]:
#Coletar o link de todas as teses
start_page = 1
n_pages = 500 # Cada página retorna 20 teses

links = []

for p in range(start_page, n_pages):
    link = get_links(p)
    if link != []:
        links = links + link
    else:
        break
    
    if p % 100 == 0:
        print (p*20, ' links capturados, ', p, ' páginas')
        with open('links_ufba', "w") as output:
            writer = csv.writer(output, lineterminator='\n')
            for val in links:
                writer.writerow([val])
                
with open('links_ufba', "w") as output:
    writer = csv.writer(output, lineterminator='\n')
    for val in links:
        writer.writerow([val]) 
print (p*20, ' links capturados, ', p, ' páginas')

2000  links capturados,  100  páginas
4000  links capturados,  200  páginas
6000  links capturados,  300  páginas
8000  links capturados,  400  páginas
9940  links capturados,  497  páginas


In [5]:
# Abrindo arquivo gravado anteriormente

#links = []
#with open('links_ufba', 'r') as f:
#    reader = csv.reader(f)
#    for link in reader:
#        links.append(link[0])

Em seguida vamos recuperar os metadados de cada link coletado anteriormente.

In [6]:
#função para buscar os metadados das teses no BDTD
def tese_link(link):
    #definir url
    url = 'http://bdtd.ibict.br' + link
    
    #Requisitar html e fazer o parser
    f = requests.get(url, proxies = proxies).text 
    soup = bs(f, "html.parser")

    #Dicionário para armazenar as informações da tese
    tese = {}  
    
    #Adicionar título
    tese['Title'] = soup.find('h3').get_text()
    for doc in soup.find_all('tr'):
        #Identificar atributo
        try:
            atributo = doc.find('th').get_text()
        except:
            pass
        #Verificar se o atributo possui mais de um dado
        for row in doc.find_all('td'):
            #Adicionar o atributo no dicionário
            if row.find('div') == None:
                try:
                    tese[atributo] = doc.find('td').get_text()
                except:
                    pass
            else:
                element = []
                #No dicionário, adicionar todos os dados ao seu respectivo atributo
                for e in doc.find_all('div'):
                    try:
                        sub_e = []
                        for sub_element in e.find_all('a'):
                            element.append(sub_element.get_text()) 
                        #element.append(sub_e)
                    except:
                        pass
                tese[atributo] = element
    
    return(tese)

Como em alguns casos o resumo português e inglês se misturaram, foi implementado uma função para separar os textos misturados

In [7]:
# Função para separar resumos português e inglês
def separacao_port_engl(abstract):

    mix_sent = nltk.sent_tokenize(abstract)

    new_mix = []
    for sent in mix_sent:
        position = sent.find('.')
        if position != len(sent)-1:
            sent_1 = sent[:position+1]
            sent_2 = sent[position+1:]
            new_mix.append(sent_1)
            new_mix.append(sent_2)
        else:
            new_mix.append(sent)

    mix_sent = new_mix

    port = []
    engl = []

    for sent in mix_sent:
        try:
            if detect (sent) == 'pt':
                port.append(sent)
            else:
                engl.append (sent)
        except:
            pass

    port = " ".join(port)
    engl = " ".join(engl)

    return(port, engl)

Até esse momento estamos recuperando as informações de todas as teses de uma determinada instituição. No entanto o objetivo é gravar os metadados e salvar o arquivo apenas das teses relacionadas a O&G. Portanto, vamos carregar os algoritmos de classificação e de vetorização de palavras treinados previamente.

In [8]:
# Carregando modelo Word2Vec
BDTD_word2vec_50 = Word2Vec.load("..\..\..\Embeddings\BDTD_word2vec_50")
# Carregando modelo keras
model_keras = load_model('..\..\..\model_cnn.h5')
model_keras.summary()

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL






Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.



Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_6 (InputLayer)         (None, 400)               0         
_________________________________________________________________
embedding_6 (Embedding)      (None, 400, 50)           9289150   
_________________________________________________________________
spatial_dropout1d_6 (Spatial (None, 400, 50)           0         
_________________________________________________________________
conv1d_13 (Conv1D)           (None, 396, 128)          32128     
_________________________________________________________________
max_pooling1d_9 (MaxPooling1 (None, 198, 128)          0         
__________________________________________________________

In [9]:
# dicionário proveniente do modelo de word embedding para converter palavras em índices
word2index = {}
for index, word in enumerate(BDTD_word2vec_50.wv.index2word):
    word2index[word] = index
    
# Função para converter texto em sequência de índices
def index_pad_text(text, maxlen, word2index):
    maxlen = 400
    new_text = [] 
    
    for word in word_tokenize(text):
        try:
            new_text.append(word2index[word])
        except:
            pass
    # Add the padding for each sentence. Here I am padding with 0
    if len(new_text) > maxlen:
        new_text = new_text[:400]
    else:
        new_text += [0] * (maxlen - len(new_text))

    return np.array(new_text)

maxlen = 400

Para cada link coletado será fita as seguintes tarefas:
* verificar se o texto português e inglês estão misturados;
* transformar o texto em sequência de índices;
* classificar quanto a relevância ao domínio de O&G;
* se for relevante, gravar os metadados

In [10]:
# Dicionário para agrupar os metadados
metadados = {}
# Contadores te links testados e classificados como O&G
n_test = 0
n_pet = 0
# Testando cada link de links
for link in links:
    n_test += 1
    try:
        # Recuperar o metadados de uma tese
        metadado = tese_link(link)
        # Verificar se existe resumo em inglês, separar texto português/inglês e realocar 
        # os textos separados nas respectivas colunas
        if 'Resumo inglês:' not in metadado:
            metadado['Resumo inglês:'] = separacao_port_engl(metadado['Resumo Português:'])[1]
        metadado['Resumo Português:'] = separacao_port_engl(metadado['Resumo Português:'])[0]
        # Colocando o texto em minúscula
        text = metadado['Resumo Português:'].lower()
        # Convertendo as palavras em sequencias de acordo com o modelo word2vec
        text_seq = index_pad_text(text, maxlen, word2index)
        text_seq = text_seq.reshape((1, 400))
        # Usando o algoritmo classificador para prever se a tese é relevante
        pred = model_keras.predict(text_seq)[0]
        #Se a classificação for menor do que 0.2 manter os metadados
        if (pred < 0.2 and len(text) > 100):
            metadado['Classificador'] = pred[0]
            texto_completo = metadado['Download Texto Completo:']
            metadados[texto_completo] = metadado
            n_pet += 1
            # Gravando os resultados em JSON
            metadados_ufba = pd.DataFrame.from_dict(metadados, orient='index')
            metadados_ufba.to_json('metadados_ufba.json', orient = 'index')
            print(n_test, " teses avaliadas e ", n_pet, " teses relacionadas a O&G encontradas.")
    
    except:
        pass
    
    

27  teses avaliadas e  1  teses relacionadas a O&G encontradas.
37  teses avaliadas e  2  teses relacionadas a O&G encontradas.
132  teses avaliadas e  3  teses relacionadas a O&G encontradas.
173  teses avaliadas e  4  teses relacionadas a O&G encontradas.
218  teses avaliadas e  5  teses relacionadas a O&G encontradas.
241  teses avaliadas e  6  teses relacionadas a O&G encontradas.
343  teses avaliadas e  7  teses relacionadas a O&G encontradas.
427  teses avaliadas e  8  teses relacionadas a O&G encontradas.
448  teses avaliadas e  9  teses relacionadas a O&G encontradas.
467  teses avaliadas e  10  teses relacionadas a O&G encontradas.
488  teses avaliadas e  11  teses relacionadas a O&G encontradas.
597  teses avaliadas e  12  teses relacionadas a O&G encontradas.
727  teses avaliadas e  13  teses relacionadas a O&G encontradas.
823  teses avaliadas e  14  teses relacionadas a O&G encontradas.
862  teses avaliadas e  15  teses relacionadas a O&G encontradas.
865  teses avaliadas 

5929  teses avaliadas e  124  teses relacionadas a O&G encontradas.
5930  teses avaliadas e  125  teses relacionadas a O&G encontradas.
5931  teses avaliadas e  126  teses relacionadas a O&G encontradas.
5971  teses avaliadas e  127  teses relacionadas a O&G encontradas.
5974  teses avaliadas e  128  teses relacionadas a O&G encontradas.
5990  teses avaliadas e  129  teses relacionadas a O&G encontradas.
5991  teses avaliadas e  130  teses relacionadas a O&G encontradas.
6178  teses avaliadas e  131  teses relacionadas a O&G encontradas.
6210  teses avaliadas e  132  teses relacionadas a O&G encontradas.
6242  teses avaliadas e  133  teses relacionadas a O&G encontradas.
6315  teses avaliadas e  134  teses relacionadas a O&G encontradas.
6322  teses avaliadas e  135  teses relacionadas a O&G encontradas.
6324  teses avaliadas e  136  teses relacionadas a O&G encontradas.
6408  teses avaliadas e  137  teses relacionadas a O&G encontradas.
6409  teses avaliadas e  138  teses relacionadas

In [11]:
# Incluindo um ID para cada tese
universidade = 'UFBA'
metadados_ufba['PDF_ID'] = metadados_ufba['Download Texto Completo:'].apply(lambda x: universidade + 
                                                                            '_' + 
                                                                            re.sub('/', '_', x[-6:]))

In [12]:
metadados_ufba.to_json('metadados_ufba.json', orient = 'index')

In [13]:
# Carregando arquivos já gravados
metadados_ufba = pd.read_json('metadados_ufba.json', orient = 'index')

A próxima etapa será fazer o download das teses classificadas como relevante para o domínio de O&G

In [14]:
for tese in metadados_ufba.iterrows():
    print(tese[1]['PDF_ID'])
    try:
        #preparar a url
        url = tese[1]['Download Texto Completo:']

        #Fazer requisição e parsear o arquivo html
        f = requests.get(url, proxies = proxies).text 
        soup = bs(f, "html.parser")

        #Coletando link para arquivo das teses
        links = []
        for doc in soup.find_all('a', href=True):
            if doc.get_text() == 'View/Open':
                links.append(doc['href'])

        #Recuperando e gravando arquivo PDF
        url = 'http://repositorio.ufba.br' + links[0]
        pdf = requests.get(url, proxies = proxies)
        filename = tese[1]['PDF_ID'] + '.pdf'
        with open(filename, 'wb') as f:
            f.write(pdf.content)
    except:
        pass

UFBA__15263
UFBA__16019
UFBA__16132
UFBA__16133
UFBA__16220
UFBA__16253
UFBA__16319
UFBA__16473
UFBA__16687
UFBA__16914
UFBA__16996
UFBA__16997
UFBA__17225
UFBA__17228
UFBA__17344
UFBA__17986
UFBA__18451
UFBA__18607
UFBA__18618
UFBA__18667
UFBA__18740
UFBA__18744
UFBA__18832
UFBA__18834
UFBA__18860
UFBA__18862
UFBA__19076
UFBA__19079
UFBA__19127
UFBA__19128
UFBA__19130
UFBA__19147
UFBA__19148
UFBA__19156
UFBA__19177
UFBA__19368
UFBA__19402
UFBA__19526
UFBA__19544
UFBA__19591
UFBA__19592
UFBA__19622
UFBA__19679
UFBA__19682
UFBA__19683
UFBA__20243
UFBA__20271
UFBA__20274
UFBA__20282
UFBA__20378
UFBA__20628
UFBA__21240
UFBA__21329
UFBA__21334
UFBA__21336
UFBA__21463
UFBA__21480
UFBA__21489
UFBA__21511
UFBA__21526
UFBA__21528
UFBA__21560
UFBA__21569
UFBA__21646
UFBA__21689
UFBA__21973
UFBA__21975
UFBA__21977
UFBA__22498
UFBA__22530
UFBA__22940
UFBA__22953
UFBA__23359
UFBA__23365
UFBA__23427
UFBA__23450
UFBA__23487
UFBA__23493
UFBA__23512
UFBA__23879
UFBA__23901
UFBA__23944
UFBA__24222
UFBA