Script para buscar resumos das teses elaboradas pelos empregados da Petrobras

In [1]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import numpy as np
import json
import nltk
from nltk.tokenize import word_tokenize
from langdetect import detect
from langdetect import detect_langs
from keras.models import load_model
import gensim
from gensim.models import Word2Vec
import csv
import re

Using TensorFlow backend.
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [2]:
# Definindo configurações globais de proxy para realizar a extração dentro da rede Petrobras
chave = 'upe2'
pwd = 'fBO61291'
proxy_url = 'http://'+chave+':'+pwd+'@inet-sys.gnet.petrobras.com.br:804/'
proxies = {
  'http' : proxy_url ,
  'https' : proxy_url ,
}

Inicialmente entraremos no site da BDTD e buscaremos os links de todas as teses de uma determinada intituição.

In [3]:
#função para coletar os links das tese

def get_links(page):
        
    #preparar a url
    url = ('http://bdtd.ibict.br/vufind/Search/Results?filter%5B%5D=institution%3A%22UNB%22&type=AllFields&page=' +
           str(page))
    
    #Fazer requisição e parsear o arquivo html
    f = requests.get(url, proxies = proxies).text 
    soup = bs(f, "html.parser")

    #Coletando link para as teses
    links = []
    for doc in soup.find_all('a', href=True):
        if 'title' in doc.get('class', []):
            links.append(doc['href'])
    return links

In [4]:
#Coletar o link de todas as teses
start_page = 601
n_pages = 1040 # Cada página retorna 20 teses

links = []

for p in range(start_page, n_pages):
    link = get_links(p)
    if link != []:
        links = links + link
    else:
        break
    
    if p % 100 == 0:
        print (p*20, ' links capturados, ', p, ' páginas')
        with open('links_unb', "w") as output:
            writer = csv.writer(output, lineterminator='\n')
            for val in links:
                writer.writerow([val])
                
with open('links_unb', "w") as output:
    writer = csv.writer(output, lineterminator='\n')
    for val in links:
        writer.writerow([val]) 
print (p*20, ' links capturados, ', p, ' páginas')

14000  links capturados,  700  páginas
16000  links capturados,  800  páginas
18000  links capturados,  900  páginas
20000  links capturados,  1000  páginas
20780  links capturados,  1039  páginas


In [5]:
# Abrindo arquivo gravado anteriormente

#links = []
#with open('links_unb', 'r') as f:
#    reader = csv.reader(f)
#    for link in reader:
#        links.append(link[0])

Em seguida vamos recuperar os metadados de cada link coletado anteriormente.

In [6]:
#função para buscar os metadados das teses no BDTD
def tese_link(link):
    #definir url
    url = 'http://bdtd.ibict.br' + link
    
    #Requisitar html e fazer o parser
    f = requests.get(url, proxies = proxies).text 
    soup = bs(f, "html.parser")

    #Dicionário para armazenar as informações da tese
    tese = {}  
    
    #Adicionar título
    tese['Title'] = soup.find('h3').get_text()
    for doc in soup.find_all('tr'):
        #Identificar atributo
        try:
            atributo = doc.find('th').get_text()
        except:
            pass
        #Verificar se o atributo possui mais de um dado
        for row in doc.find_all('td'):
            #Adicionar o atributo no dicionário
            if row.find('div') == None:
                try:
                    tese[atributo] = doc.find('td').get_text()
                except:
                    pass
            else:
                element = []
                #No dicionário, adicionar todos os dados ao seu respectivo atributo
                for e in doc.find_all('div'):
                    try:
                        sub_e = []
                        for sub_element in e.find_all('a'):
                            element.append(sub_element.get_text()) 
                        #element.append(sub_e)
                    except:
                        pass
                tese[atributo] = element
    
    return(tese)

Como em alguns casos o resumo português e inglês se misturaram, foi implementado uma função para separar os textos misturados

In [7]:
# Função para separar resumos português e inglês
def separacao_port_engl(abstract):

    mix_sent = nltk.sent_tokenize(abstract)

    new_mix = []
    for sent in mix_sent:
        position = sent.find('.')
        if position != len(sent)-1:
            sent_1 = sent[:position+1]
            sent_2 = sent[position+1:]
            new_mix.append(sent_1)
            new_mix.append(sent_2)
        else:
            new_mix.append(sent)

    mix_sent = new_mix

    port = []
    engl = []

    for sent in mix_sent:
        try:
            if detect (sent) == 'pt':
                port.append(sent)
            else:
                engl.append (sent)
        except:
            pass

    port = " ".join(port)
    engl = " ".join(engl)

    return(port, engl)

Até esse momento estamos recuperando as informações de todas as teses de uma determinada instituição. No entanto o objetivo é gravar os metadados e salvar o arquivo apenas das teses relacionadas a O&G. Portanto, vamos carregar os algoritmos de classificação e de vetorização de palavras treinados previamente.

In [8]:
# Carregando modelo Word2Vec
BDTD_word2vec_50 = Word2Vec.load("..\..\..\Embeddings\BDTD_word2vec_50")
# Carregando modelo keras
model_keras = load_model('..\..\..\model_cnn.h5')
model_keras.summary()

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL






Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.



Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_6 (InputLayer)         (None, 400)               0         
_________________________________________________________________
embedding_6 (Embedding)      (None, 400, 50)           9289150   
_________________________________________________________________
spatial_dropout1d_6 (Spatial (None, 400, 50)           0         
_________________________________________________________________
conv1d_13 (Conv1D)           (None, 396, 128)          32128     
_________________________________________________________________
max_pooling1d_9 (MaxPooling1 (None, 198, 128)          0         
__________________________________________________________

In [9]:
# dicionário proveniente do modelo de word embedding para converter palavras em índices
word2index = {}
for index, word in enumerate(BDTD_word2vec_50.wv.index2word):
    word2index[word] = index
    
# Função para converter texto em sequência de índices
def index_pad_text(text, maxlen, word2index):
    maxlen = 400
    new_text = [] 
    
    for word in word_tokenize(text):
        try:
            new_text.append(word2index[word])
        except:
            pass
    # Add the padding for each sentence. Here I am padding with 0
    if len(new_text) > maxlen:
        new_text = new_text[:400]
    else:
        new_text += [0] * (maxlen - len(new_text))

    return np.array(new_text)

maxlen = 400

Para cada link coletado será fita as seguintes tarefas:
* verificar se o texto português e inglês estão misturados;
* transformar o texto em sequência de índices;
* classificar quanto a relevância ao domínio de O&G;
* se for relevante, gravar os metadados

In [10]:
# Dicionário para agrupar os metadados
metadados = {}
# Contadores te links testados e classificados como O&G
n_test = 0
n_pet = 0
# Testando cada link de links
for link in links:
    n_test += 1
    try:
        # Recuperar o metadados de uma tese
        metadado = tese_link(link)
        # Verificar se existe resumo em inglês, separar texto português/inglês e realocar 
        # os textos separados nas respectivas colunas
        if 'Resumo inglês:' not in metadado:
            metadado['Resumo inglês:'] = separacao_port_engl(metadado['Resumo Português:'])[1]
        metadado['Resumo Português:'] = separacao_port_engl(metadado['Resumo Português:'])[0]
        # Colocando o texto em minúscula
        text = metadado['Resumo Português:'].lower()
        # Convertendo as palavras em sequencias de acordo com o modelo word2vec
        text_seq = index_pad_text(text, maxlen, word2index)
        text_seq = text_seq.reshape((1, 400))
        # Usando o algoritmo classificador para prever se a tese é relevante
        pred = model_keras.predict(text_seq)[0]
        #Se a classificação for menor do que 0.2 manter os metadados
        if (pred < 0.2 and len(text) > 100):
            metadado['Classificador'] = pred[0]
            texto_completo = metadado['Download Texto Completo:']
            metadados[texto_completo] = metadado
            n_pet += 1
            # Gravando os resultados em JSON
            metadados_unb = pd.DataFrame.from_dict(metadados, orient='index')
            metadados_unb.to_json('metadados_unb_2.json', orient = 'index')
            print(n_test, " teses avaliadas e ", n_pet, " teses relacionadas a O&G encontradas.")
    
    except:
        pass
    
    

1485  teses avaliadas e  1  teses relacionadas a O&G encontradas.
1645  teses avaliadas e  2  teses relacionadas a O&G encontradas.
2177  teses avaliadas e  3  teses relacionadas a O&G encontradas.
2334  teses avaliadas e  4  teses relacionadas a O&G encontradas.
2439  teses avaliadas e  5  teses relacionadas a O&G encontradas.
2668  teses avaliadas e  6  teses relacionadas a O&G encontradas.
2709  teses avaliadas e  7  teses relacionadas a O&G encontradas.
2745  teses avaliadas e  8  teses relacionadas a O&G encontradas.
2946  teses avaliadas e  9  teses relacionadas a O&G encontradas.
3101  teses avaliadas e  10  teses relacionadas a O&G encontradas.
3251  teses avaliadas e  11  teses relacionadas a O&G encontradas.
3461  teses avaliadas e  12  teses relacionadas a O&G encontradas.
3673  teses avaliadas e  13  teses relacionadas a O&G encontradas.
4102  teses avaliadas e  14  teses relacionadas a O&G encontradas.
4105  teses avaliadas e  15  teses relacionadas a O&G encontradas.
4229

In [11]:
# Incluindo um ID para cada tese
universidade = 'UNB'
metadados_unb['PDF_ID'] = metadados_unb['Download Texto Completo:'].apply(lambda x: universidade + 
                                                                            '_' + 
                                                                            re.sub('/', '_', x[-6:]))

In [12]:
metadados_unb.to_json('metadados_unb_2.json', orient = 'index')

In [13]:
# Carregando arquivos já gravados
metadados_unb = pd.read_json('metadados_unb_2.json', orient = 'index')

In [15]:
metadados_unb

Unnamed: 0,Autor/a:,Citação:,Classificador,Data de Defesa:,Download Texto Completo:,Idioma:,Nível de Acesso:,Orientador/a:,PDF_ID,Resumo Português:,Resumo inglês:,Tipo Documento:,Title
http://repositorio.unb.br/handle/10482/1034,"\n\n Pinho, Alice Kinue Jomori","PINHO, Alice Kinue Jomori. Defesa da concorrên...",0.040532,2008,http://repositorio.unb.br/handle/10482/1034,por,openAccess,"\n\n Mattos, César Costa Alves de",UNB_2_1034,O mercado de derivados de petróleo brasileiro ...,______________________________________________...,Dissertação\n,Defesa da concorrência e integração vertical n...
http://repositorio.unb.br/handle/10482/1356,"\n\n Paulo Neto, Flávio José Régis","PAULO NETO, Flávio José Régis. Marcos da aprox...",0.121829,2007,http://repositorio.unb.br/handle/10482/1356,por,openAccess,"\n\n Santos, Norma Breda dos",UNB_2_1356,O foco da dissertação Marcos da Aproximação en...,______________________________________________...,Dissertação\n,Marcos da aproximação energética entre o Brasi...
http://repositorio.unb.br/handle/10482/1393,"\n\n Castro, Elton Anderson Santos de","CASTRO, Elton Anderson Santos de. Estudo teóri...",0.199958,2007,http://repositorio.unb.br/handle/10482/1393,por,openAccess,"\n\n Martins, João Batista Lopes",UNB_2_1393,Foram realizados cálculos de mecânica molecula...,______________________________________________...,Tese\n,Estudo teórico da adsorção em aluminossilicatos
http://repositorio.unb.br/handle/10482/1458,"\n\n Martins, Cynthia Rodor de Oliveira","MARTINS, Cynthia Rodor de Oliveira. Avaliação ...",0.060269,2007,http://repositorio.unb.br/handle/10482/1458,por,openAccess,"\n\n Grisolia, Cesar Koppe",UNB_2_1458,Dentre os diferentes tipos de poluentes tipica...,______________________________________________...,Tese\n,Avaliação da estrutura dos postos de revenda d...
http://repositorio.unb.br/handle/10482/23907,"\n\n Souza, Alberto Pereira de","SOUZA, Alberto Pereira de. Aplicação da Teoria...",0.114029,2017,http://repositorio.unb.br/handle/10482/23907,por,openAccess,"\n\n Souza, Álvaro Nogueira de",UNB__23907,A utilização da madeira de eucalipto em termel...,,Tese\n,Aplicação da Teoria de Opções Reais na análise...
http://repositorio.unb.br/handle/10482/24274,"\n\n Jesus, Sylvia Regina Corrêa Brant ...","JESUS, Sylvia Regina Corrêa Brant Pereira de. ...",0.030876,2017,http://repositorio.unb.br/handle/10482/24274,,openAccess,"\n\n Cordão Neto, Manoel Porfírio",UNB__24274,A presente pesquisa tem por objetivo avaliar a...,,Tese\n,Análise de fluxo multifásico e multiescala em ...
http://repositorio.unb.br/handle/10482/24363,"\n\n Lima, Pollyne Bororema Almeida de","LIMA, Pollyne Borborema Almeida de. Engenharia...",0.153792,2017,http://repositorio.unb.br/handle/10482/24363,por,openAccess,"\n\n Parachin, Nádia Skorupa",UNB__24363,O descarte de resíduos plásticos no meio ambie...,,Tese\n,Engenharia metabólica em Pichia pastoris para ...
http://repositorio.unb.br/handle/10482/24917,"\n\n Vieira, Gabriel Campos","VIEIRA, Gabriel Campos. Inibição e toxicidade ...",0.189649,2017,http://repositorio.unb.br/handle/10482/24917,por,openAccess,"\n\n Amorim, Ariuska Karla Barbosa",UNB__24917,A digestão anaeróbia de lodos gerados em Estaç...,,Dissertação\n,Inibição e toxicidade no processo de digestão ...
http://repositorio.unb.br/handle/10482/30986,"\n\n Sousa, Kleverson Carvalho de","SOUSA, Kleverson Carvalho de. Modelagem de pai...",0.038093,2017,http://repositorio.unb.br/handle/10482/30986,por,openAccess,"\n\n Fabro, Adriano Todorovic",UNB__30986,A hipótese de estruturas periódicas é muito us...,,Dissertação\n,Modelagem de painéis Sandwich Honeycomb utiliz...
http://repositorio.unb.br/handle/10482/31256,"\n\n Lins, Glauce Araújo Ideião","LINS, Glauce Araújo Ideião. Subconjunto termin...",0.040352,2017,http://repositorio.unb.br/handle/10482/31256,por,openAccess,"\n\n Kamada, Ivone",UNB__31256,O esforço por uma linguagem específica culmino...,,Dissertação\n,Subconjunto terminológico CIPE® para a prática...


A próxima etapa será fazer o download das teses classificadas como relevante para o domínio de O&G

In [20]:
for tese in metadados_unb.iterrows():
    print(tese[1]['PDF_ID'])
    try:
        #preparar a url
        url = tese[1]['Download Texto Completo:']

        #Fazer requisição e parsear o arquivo html
        f = requests.get(url, proxies = proxies).text 
        soup = bs(f, "html.parser")

        #Coletando link para arquivo das teses
        links = []
        for doc in soup.find_all('a', href=True):
            if doc.get_text() == 'Visualizar/Abrir':
                links.append(doc['href'])

        #Recuperando e gravando arquivo PDF
        url = 'http://repositorio.unb.br' + links[0]
        pdf = requests.get(url, proxies = proxies)
        filename = tese[1]['PDF_ID'] + '.pdf'
        with open(filename, 'wb') as f:
            f.write(pdf.content)
    except:
        pass

UNB_2_1034
['/bitstream/10482/1034/1/2008_AliceKinueJomoriPinho.pdf']
UNB_2_1356
['/bitstream/10482/1356/1/Dissertacao_2007_FlavioPauloNeto.pdf']
UNB_2_1393
['/bitstream/10482/1393/1/Tese_2007_EltonCastro.pdf']
UNB_2_1458
['/bitstream/10482/1458/1/2007_CynthiaRodorMartins.pdf']
UNB__23907
['/bitstream/10482/23907/1/2017_AlbertoPereiradeSouza.pdf']
UNB__24274
['/bitstream/10482/24274/1/2017_SylviaReginaCorreaBrantPereiradeJesus.pdf']
UNB__24363
['/bitstream/10482/24363/1/2017_PollyneBororemaAlmeidadeLima.pdf']
UNB__24917
['/bitstream/10482/24917/1/2017_GabrielCamposVieira.pdf']
UNB__30986
['/bitstream/10482/30986/1/2017_KleversonCarvalhodeSousa.pdf']
UNB__31256
['/bitstream/10482/31256/3/2017_GlauceAra%c3%bajoIdei%c3%a3oLins_PARCIAL.pdf']
UNB__31599
['/bitstream/10482/31599/1/2017_LuizFilipePaivaBrand%c3%a3o.pdf']
UNB__31933
['/bitstream/10482/31933/1/2017_Nat%c3%a1liaCarolinaSilvaGomes.pdf']
UNB__32002
['/bitstream/10482/32002/1/2017_GuilhermeBentoSperandio.pdf']
UNB__32040
['/bitstrea