Script para buscar resumos das teses elaboradas pelos empregados da Petrobras

In [1]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
import json
import nltk
from nltk.tokenize import word_tokenize
from langdetect import detect
from langdetect import detect_langs
from keras.models import load_model
import gensim
from gensim.models import Word2Vec
import csv
import re

Using TensorFlow backend.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [2]:
# Definindo configurações globais de proxy para realizar a extração dentro da rede Petrobras
chave = 'upe2'
pwd = 'fBO61291'
proxy_url = 'http://'+chave+':'+pwd+'@inet-sys.gnet.petrobras.com.br:804/'
proxies = {
  'http' : proxy_url ,
  'https' : proxy_url ,
}

Inicialmente entraremos no site da BDTD e buscaremos os links de todas as teses de uma determinada intituição.

In [3]:
#função para coletar os links das tese

def get_links(page):
        
    #preparar a url
    url = ('http://bdtd.ibict.br/vufind/Search/Results?filter%5B%5D=institution%3A%22UFRN%22&type=AllFields&page=' +
           str(page))
    
    #Fazer requisição e parsear o arquivo html
    f = requests.get(url, proxies = proxies).text 
    soup = bs(f, "html.parser")

    #Coletando link para as teses
    links = []
    for doc in soup.find_all('a', href=True):
        if 'title' in doc.get('class', []):
            links.append(doc['href'])
    return links

In [4]:
#Coletar o link de todas as teses
start_page = 1
n_pages = 633 # Cada página retorna 20 teses

links = []

for p in range(start_page, n_pages):
    link = get_links(p)
    if link != []:
        links = links + link
    else:
        break
    
    if p % 100 == 0:
        print (p*20, ' links capturados, ', p, ' páginas')
        with open('links_ufrn', "w") as output:
            writer = csv.writer(output, lineterminator='\n')
            for val in links:
                writer.writerow([val])
                
with open('links_ufrn', "w") as output:
    writer = csv.writer(output, lineterminator='\n')
    for val in links:
        writer.writerow([val]) 
print (p*20, ' links capturados, ', p, ' páginas')

2000  links capturados,  100  páginas
4000  links capturados,  200  páginas
6000  links capturados,  300  páginas
8000  links capturados,  400  páginas
10000  links capturados,  500  páginas
12000  links capturados,  600  páginas
12640  links capturados,  632  páginas


In [5]:
# Abrindo arquivo gravado anteriormente

#links = []
#with open('links_ufrn', 'r') as f:
#    reader = csv.reader(f)
#    for link in reader:
#        links.append(link[0])

Em seguida vamos recuperar os metadados de cada link coletado anteriormente.

In [6]:
#função para buscar os metadados das teses no BDTD
def tese_link(link):
    #definir url
    url = 'http://bdtd.ibict.br' + link
    
    #Requisitar html e fazer o parser
    f = requests.get(url, proxies = proxies).text 
    soup = bs(f, "html.parser")

    #Dicionário para armazenar as informações da tese
    tese = {}  
    
    #Adicionar título
    tese['Title'] = soup.find('h3').get_text()
    for doc in soup.find_all('tr'):
        #Identificar atributo
        try:
            atributo = doc.find('th').get_text()
        except:
            pass
        #Verificar se o atributo possui mais de um dado
        for row in doc.find_all('td'):
            #Adicionar o atributo no dicionário
            if row.find('div') == None:
                try:
                    tese[atributo] = doc.find('td').get_text()
                except:
                    pass
            else:
                element = []
                #No dicionário, adicionar todos os dados ao seu respectivo atributo
                for e in doc.find_all('div'):
                    try:
                        sub_e = []
                        for sub_element in e.find_all('a'):
                            element.append(sub_element.get_text()) 
                        #element.append(sub_e)
                    except:
                        pass
                tese[atributo] = element
    
    return(tese)

Como em alguns casos o resumo português e inglês se misturaram, foi implementado uma função para separar os textos misturados

In [7]:
# Função para separar resumos português e inglês
def separacao_port_engl(abstract):

    mix_sent = nltk.sent_tokenize(abstract)

    new_mix = []
    for sent in mix_sent:
        position = sent.find('.')
        if position != len(sent)-1:
            sent_1 = sent[:position+1]
            sent_2 = sent[position+1:]
            new_mix.append(sent_1)
            new_mix.append(sent_2)
        else:
            new_mix.append(sent)

    mix_sent = new_mix

    port = []
    engl = []

    for sent in mix_sent:
        try:
            if detect (sent) == 'pt':
                port.append(sent)
            else:
                engl.append (sent)
        except:
            pass

    port = " ".join(port)
    engl = " ".join(engl)

    return(port, engl)

Até esse momento estamos recuperando as informações de todas as teses de uma determinada instituição. No entanto o objetivo é gravar os metadados e salvar o arquivo apenas das teses relacionadas a O&G. Portanto, vamos carregar os algoritmos de classificação e de vetorização de palavras treinados previamente.

In [8]:
# Carregando modelo Word2Vec
BDTD_word2vec_50 = Word2Vec.load("..\..\..\Embeddings\BDTD_word2vec_50")
# Carregando modelo keras
model_keras = load_model('..\..\..\model_cnn.h5')
model_keras.summary()

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL






Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.



Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_6 (InputLayer)         (None, 400)               0         
_________________________________________________________________
embedding_6 (Embedding)      (None, 400, 50)           9289150   
_________________________________________________________________
spatial_dropout1d_6 (Spatial (None, 400, 50)           0         
_________________________________________________________________
conv1d_13 (Conv1D)           (None, 396, 128)          32128     
_________________________________________________________________
max_pooling1d_9 (MaxPooling1 (None, 198, 128)          0         
__________________________________________________________

In [9]:
# dicionário proveniente do modelo de word embedding para converter palavras em índices
word2index = {}
for index, word in enumerate(BDTD_word2vec_50.wv.index2word):
    word2index[word] = index
    
# Função para converter texto em sequência de índices
def index_pad_text(text, maxlen, word2index):
    maxlen = 400
    new_text = [] 
    
    for word in word_tokenize(text):
        try:
            new_text.append(word2index[word])
        except:
            pass
    # Add the padding for each sentence. Here I am padding with 0
    if len(new_text) > maxlen:
        new_text = new_text[:400]
    else:
        new_text += [0] * (maxlen - len(new_text))

    return np.array(new_text)

maxlen = 400

Para cada link coletado será fita as seguintes tarefas:
* verificar se o texto português e inglês estão misturados;
* transformar o texto em sequência de índices;
* classificar quanto a relevância ao domínio de O&G;
* se for relevante, gravar os metadados

In [10]:
# Dicionário para agrupar os metadados
metadados = {}
# Contadores te links testados e classificados como O&G
n_test = 0
n_pet = 0
# Testando cada link de links
for link in links:
    n_test += 1
    try:
        # Recuperar o metadados de uma tese
        metadado = tese_link(link)
        # Verificar se existe resumo em inglês, separar texto português/inglês e realocar 
        # os textos separados nas respectivas colunas
        if 'Resumo inglês:' not in metadado:
            metadado['Resumo inglês:'] = separacao_port_engl(metadado['Resumo Português:'])[1]
        metadado['Resumo Português:'] = separacao_port_engl(metadado['Resumo Português:'])[0]
        # Colocando o texto em minúscula
        text = metadado['Resumo Português:'].lower()
        # Convertendo as palavras em sequencias de acordo com o modelo word2vec
        text_seq = index_pad_text(text, maxlen, word2index)
        text_seq = text_seq.reshape((1, 400))
        # Usando o algoritmo classificador para prever se a tese é relevante
        pred = model_keras.predict(text_seq)[0]
        #Se a classificação for menor do que 0.2 manter os metadados
        if (pred < 0.2 and len(text) > 100):
            metadado['Classificador'] = pred[0]
            texto_completo = metadado['Download Texto Completo:']
            metadados[texto_completo] = metadado
            n_pet += 1
            # Gravando os resultados em JSON
            metadados_ufrn = pd.DataFrame.from_dict(metadados, orient='index')
            metadados_ufrn.to_json('metadados_ufrn.json', orient = 'index')
            print(n_test, " teses avaliadas e ", n_pet, " teses relacionadas a O&G encontradas.")
    
    except:
        pass
    
    

4  teses avaliadas e  1  teses relacionadas a O&G encontradas.
39  teses avaliadas e  2  teses relacionadas a O&G encontradas.
40  teses avaliadas e  3  teses relacionadas a O&G encontradas.
131  teses avaliadas e  4  teses relacionadas a O&G encontradas.
222  teses avaliadas e  5  teses relacionadas a O&G encontradas.
250  teses avaliadas e  6  teses relacionadas a O&G encontradas.
330  teses avaliadas e  7  teses relacionadas a O&G encontradas.
334  teses avaliadas e  8  teses relacionadas a O&G encontradas.
346  teses avaliadas e  9  teses relacionadas a O&G encontradas.
355  teses avaliadas e  10  teses relacionadas a O&G encontradas.
364  teses avaliadas e  11  teses relacionadas a O&G encontradas.
370  teses avaliadas e  12  teses relacionadas a O&G encontradas.
371  teses avaliadas e  13  teses relacionadas a O&G encontradas.
456  teses avaliadas e  14  teses relacionadas a O&G encontradas.
457  teses avaliadas e  15  teses relacionadas a O&G encontradas.
458  teses avaliadas e 

2932  teses avaliadas e  124  teses relacionadas a O&G encontradas.
2933  teses avaliadas e  125  teses relacionadas a O&G encontradas.
2938  teses avaliadas e  126  teses relacionadas a O&G encontradas.
3015  teses avaliadas e  127  teses relacionadas a O&G encontradas.
3052  teses avaliadas e  128  teses relacionadas a O&G encontradas.
3058  teses avaliadas e  129  teses relacionadas a O&G encontradas.
3078  teses avaliadas e  130  teses relacionadas a O&G encontradas.
3079  teses avaliadas e  131  teses relacionadas a O&G encontradas.
3189  teses avaliadas e  132  teses relacionadas a O&G encontradas.
3190  teses avaliadas e  133  teses relacionadas a O&G encontradas.
3247  teses avaliadas e  134  teses relacionadas a O&G encontradas.
3249  teses avaliadas e  135  teses relacionadas a O&G encontradas.
3261  teses avaliadas e  136  teses relacionadas a O&G encontradas.
3285  teses avaliadas e  137  teses relacionadas a O&G encontradas.
3348  teses avaliadas e  138  teses relacionadas

5664  teses avaliadas e  245  teses relacionadas a O&G encontradas.
5665  teses avaliadas e  246  teses relacionadas a O&G encontradas.
5672  teses avaliadas e  247  teses relacionadas a O&G encontradas.
5674  teses avaliadas e  248  teses relacionadas a O&G encontradas.
5675  teses avaliadas e  249  teses relacionadas a O&G encontradas.
5680  teses avaliadas e  250  teses relacionadas a O&G encontradas.
5681  teses avaliadas e  251  teses relacionadas a O&G encontradas.
5683  teses avaliadas e  252  teses relacionadas a O&G encontradas.
5686  teses avaliadas e  253  teses relacionadas a O&G encontradas.
5689  teses avaliadas e  254  teses relacionadas a O&G encontradas.
5693  teses avaliadas e  255  teses relacionadas a O&G encontradas.
5694  teses avaliadas e  256  teses relacionadas a O&G encontradas.
5697  teses avaliadas e  257  teses relacionadas a O&G encontradas.
5698  teses avaliadas e  258  teses relacionadas a O&G encontradas.
5699  teses avaliadas e  259  teses relacionadas

8558  teses avaliadas e  366  teses relacionadas a O&G encontradas.
8577  teses avaliadas e  367  teses relacionadas a O&G encontradas.
8590  teses avaliadas e  368  teses relacionadas a O&G encontradas.
8606  teses avaliadas e  369  teses relacionadas a O&G encontradas.
8648  teses avaliadas e  370  teses relacionadas a O&G encontradas.
8699  teses avaliadas e  371  teses relacionadas a O&G encontradas.
8700  teses avaliadas e  372  teses relacionadas a O&G encontradas.
8708  teses avaliadas e  373  teses relacionadas a O&G encontradas.
8714  teses avaliadas e  374  teses relacionadas a O&G encontradas.
8735  teses avaliadas e  375  teses relacionadas a O&G encontradas.
8982  teses avaliadas e  376  teses relacionadas a O&G encontradas.
8983  teses avaliadas e  377  teses relacionadas a O&G encontradas.
8984  teses avaliadas e  378  teses relacionadas a O&G encontradas.
8992  teses avaliadas e  379  teses relacionadas a O&G encontradas.
8994  teses avaliadas e  380  teses relacionadas

11208  teses avaliadas e  487  teses relacionadas a O&G encontradas.
11221  teses avaliadas e  488  teses relacionadas a O&G encontradas.
11223  teses avaliadas e  489  teses relacionadas a O&G encontradas.
11246  teses avaliadas e  490  teses relacionadas a O&G encontradas.
11247  teses avaliadas e  491  teses relacionadas a O&G encontradas.
11262  teses avaliadas e  492  teses relacionadas a O&G encontradas.
11286  teses avaliadas e  493  teses relacionadas a O&G encontradas.
11292  teses avaliadas e  494  teses relacionadas a O&G encontradas.
11306  teses avaliadas e  495  teses relacionadas a O&G encontradas.
11321  teses avaliadas e  496  teses relacionadas a O&G encontradas.
11322  teses avaliadas e  497  teses relacionadas a O&G encontradas.
11327  teses avaliadas e  498  teses relacionadas a O&G encontradas.
11332  teses avaliadas e  499  teses relacionadas a O&G encontradas.
11351  teses avaliadas e  500  teses relacionadas a O&G encontradas.
11356  teses avaliadas e  501  tes

12365  teses avaliadas e  606  teses relacionadas a O&G encontradas.
12366  teses avaliadas e  607  teses relacionadas a O&G encontradas.
12367  teses avaliadas e  608  teses relacionadas a O&G encontradas.
12368  teses avaliadas e  609  teses relacionadas a O&G encontradas.
12369  teses avaliadas e  610  teses relacionadas a O&G encontradas.
12371  teses avaliadas e  611  teses relacionadas a O&G encontradas.
12374  teses avaliadas e  612  teses relacionadas a O&G encontradas.
12375  teses avaliadas e  613  teses relacionadas a O&G encontradas.
12377  teses avaliadas e  614  teses relacionadas a O&G encontradas.
12379  teses avaliadas e  615  teses relacionadas a O&G encontradas.
12380  teses avaliadas e  616  teses relacionadas a O&G encontradas.
12381  teses avaliadas e  617  teses relacionadas a O&G encontradas.
12384  teses avaliadas e  618  teses relacionadas a O&G encontradas.
12385  teses avaliadas e  619  teses relacionadas a O&G encontradas.
12386  teses avaliadas e  620  tes

In [11]:
# Incluindo um ID para cada tese
universidade = 'UFRN'
metadados_ufrn['PDF_ID'] = metadados_ufrn['Download Texto Completo:'].apply(lambda x: universidade + 
                                                                            '_' + 
                                                                            re.sub('/', '_', x[-6:]))

In [12]:
metadados_ufrn.to_json('metadados_ufrn.json', orient = 'index')

In [13]:
# Carregando arquivos já gravados
metadados_ufrn = pd.read_json('metadados_ufrn.json', orient = 'index')

A próxima etapa será fazer o download das teses classificadas como relevante para o domínio de O&G

In [14]:
for tese in metadados_ufrn.iterrows():
    print(tese[1]['PDF_ID'])
    try:
        #preparar a url
        url = tese[1]['Download Texto Completo:']

        #Fazer requisição e parsear o arquivo html
        f = requests.get(url, proxies = proxies).text 
        soup = bs(f, "html.parser")

        #Coletando link para arquivo das teses
        links = []
        for doc in soup.find_all('a', href=True):
            if doc.get_text() == 'View/Open':
                links.append(doc['href'])

        #Recuperando e gravando arquivo PDF
        url = 'http://repositorio.ufrn.br' + links[0]
        pdf = requests.get(url, proxies = proxies)
        filename = tese[1]['PDF_ID'] + '.pdf'
        with open(filename, 'wb') as f:
            f.write(pdf.content)
    except:
        pass

UFRN__19271
UFRN__19291
UFRN__19293
UFRN__19370
UFRN__19380
UFRN__19393
UFRN__19398
UFRN__19421
UFRN__19424
UFRN__19428
UFRN__19443
UFRN__19500
UFRN__19536
UFRN__19557
UFRN__19621
UFRN__19652
UFRN__19670
UFRN__19675
UFRN__19690
UFRN__19734
UFRN__19778
UFRN__19828
UFRN__19834
UFRN__19837
UFRN__19840
UFRN__19852
UFRN__19897
UFRN__19900
UFRN__19938
UFRN__19939
UFRN__19994
UFRN__20014
UFRN__20022
UFRN__20026
UFRN__20027
UFRN__20033
UFRN__20056
UFRN__20106
UFRN__20146
UFRN__20162
UFRN__20182
UFRN__20186
UFRN__20222
UFRN__20295
UFRN__20337
UFRN__20379
UFRN__20394
UFRN__20403
UFRN__20414
UFRN__20434
UFRN__20437
UFRN__20477
UFRN__20491
UFRN__20550
UFRN__20555
UFRN__20560
UFRN__20563
UFRN__20566
UFRN__20567
UFRN__20598
UFRN__20604
UFRN__20605
UFRN__20624
UFRN__20631
UFRN__20693
UFRN__20711
UFRN__20773
UFRN__20779
UFRN__20909
UFRN__20933
UFRN__20935
UFRN__20944
UFRN__20966
UFRN__21036
UFRN__21045
UFRN__21046
UFRN__21047
UFRN__21053
UFRN__21136
UFRN__21178
UFRN__21184
UFRN__21230
UFRN__21231
UFRN