In [1]:
#%pip install beautifulsoup4
#%pip install pip-system-certs

In [1]:
import requests
from bs4 import BeautifulSoup as bs
import pandas as pd
import os
from langchain_community.graphs import Neo4jGraph
from PyPDF2 import PdfReader
from langdetect import detect
import spacy
import re
from unidecode import unidecode
import time

Conectando ao Neo4j 

In [2]:
from neo4j import GraphDatabase

# Neo4j variables
NEO4J_URL = os.getenv("NEO4J_URL")
NEO4J_USERNAME =os.getenv("NEO4J_USERNAME")
NEO4J_PASSWORD = os.getenv("NEO4J_PASSWORD")


graph = GraphDatabase.driver(NEO4J_URL, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

- Buscar os links para a tese no Neo4j
- Buscar o link do PDF no repositório da universidade
- Baixar o PDF
- Extrair o texto do PDF 

Buscar links para a tese no Neo4j

In [10]:
# Query to get theses and their repositories from the Neo4j database
# This query retrieves theses that are published by the Federal University of Santa Catarina (UFSC) and have not been processed yet.
query1 = """
MATCH (t:Thesis)-[:publisher]-(uni:University{uri:'tag:stardog:api:UFSC'})
WHERE NOT EXISTS {(t{processed:true})}
RETURN distinct(t["uri"]) as Thesis, t["repository"] as repository 
"""

# Alternative query to get theses that do not have excerpts and have been processed.
query2 = """ 
match (t:Thesis)-[:publisher]-(uni:University{uri:'tag:stardog:api:UFSC'})
where (not (t:Thesis)-[:BFO_0000050]-(:Exerpt)) and  exists {(t{processed:true})}
return distinct(t["uri"]) as Thesis, t["repository"] as repository
"""

# Query to retrive theses with few pages and their repositories.
query3 = """
MATCH (t:Thesis)-[:publisher]-(uni:University{uri:'tag:stardog:api:UFSC'})
Match (t:Thesis)-[:BFO_0000050]-(e:Exerpt)
RETURN count(e) as pages, t["uri"] as Thesis, t["repository"] as repository
 order by (pages) limit 40
"""

query4 = """
MATCH (t:Thesis)-[:publisher]-(uni:University{uri:'tag:stardog:api:UFSC'})
WHERE NOT EXISTS {(t{processed:true})}
RETURN distinct(t["uri"]) as Thesis, t["title"] as title 
"""

query5 = """
MATCH (t:Thesis {processed: true})-[:publisher]-(uni:University {uri: 'tag:stardog:api:UFSC'})
WHERE NOT (t)--(:Exerpt)
RETURN distinct(t["uri"]) as Thesis, t["title"] as title 
"""

graph = GraphDatabase.driver(NEO4J_URL, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))
results = graph.execute_query(query4).records
graph.close()

#results = graph.query(query2)
# Convert the results to a DataFrame
#thesis_repository = pd.DataFrame(results, columns=["pages", "Thesis", "repository"])
thesis_repository = pd.DataFrame(results, columns=["Thesis", "title"])
thesis_repository = thesis_repository[2:].reset_index(drop=True) 
thesis_repository

Unnamed: 0,Thesis,title
0,tag:stardog:api:imagens_invisiveis_de_africas_...,Imagens invisíveis de Áfricas presentes : expe...
1,tag:stardog:api:silencios_na_historia_e_disput...,Silêncios na História e disputas entre memória...
2,tag:stardog:api:proposta_de_acoes_para_ingress...,Proposta de ações para ingresso e permanência ...
3,tag:stardog:api:criminologia_e_racismo_,Criminologia e racismo :
4,tag:stardog:api:mulheres_negras_soropositivas_...,Mulheres negras soropositivas e as interseccio...
...,...,...
209,tag:stardog:api:jequitiboaba_do_samba_o_eco_da...,Jequitiboabá do samba: o eco da voz do dono
210,tag:stardog:api:avaliacao_da_evapotranspiracao...,Avaliação da evapotranspiração real da bacia d...
211,tag:stardog:api:a_protecao_integral_de_crianca...,A Proteção integral de crianças e adolescentes...
212,tag:stardog:api:ue_gaucho_em_floripa_tem_samba...,"Ué gaúcho, em Floripa tem samba?: uma antropol..."


Criando as utils functions

In [11]:
# Funcao para coletar link do repositorio na página da BDTD

def get_repository_link(title):

    bdtd_url = 'https://bdtd.ibict.br/vufind/Search/Results?lookfor=' + title.replace(' ', '+') + '&type=Title' #&limit=1'
    #Fazer requisição e parsear o arquivo html
    try:
        f = requests.get(bdtd_url, verify=True).text#, verify=False) 
    except:
        print("Sleeping for 5 seconds before retrying... (get_repository_link)")
        time.sleep(5)
        try:
            f = requests.get(bdtd_url, verify=True).text#, verify=False) 
        except:
            print("Sleeping for 30 seconds before retrying... (get_repository_link)")
            time.sleep(30)
            f = requests.get(bdtd_url, verify=True).text#, verify=False)    
    soup = bs(f, "html.parser")

    #Coletando link para o repositório
    link_list = []
    for doc in soup.find_all('a', href=True):

        if (doc['href'].startswith('https://repositorio.ufsc.br/') |
            doc['href'].startswith('http://repositorio.ufsc.br/')):
            path = doc['href']
            link_list.append(path)
    if link_list != []:
        return list(set(link_list))[0]
    else:
        return None



# Funcao para coletar link do pdf

def get_pdf_link(url):
    
    #Fazer requisição e parsear o arquivo html
    try:
        f = requests.get(url, verify=True).text#, verify=False) 
    except:
        print("Sleeping for 5 seconds before retrying... (get_pdf_link)")
        time.sleep(5)
        try:
            f = requests.get(url, verify=True).text#, verify=False) 
        except:
            print("Sleeping for 30 seconds before retrying... (get_pdf_link)")
            time.sleep(30)
            f = requests.get(url, verify=True).text#, verify=False)    
    soup = bs(f, "html.parser")
    
    #Coletando link para as teses
    link_list = []
    for doc in soup.find_all('a', href=True):
        if doc['href'].startswith('/bitstream'):     # (doc['href'].endswith('.pdf')):# & doc['href'].startswith('/bitstream')):
            path = doc['href']
            prefix_uni = 'https://repositorio.ufsc.br'
            link = prefix_uni + path
            link_list.append(link)
    if link_list != []:
        return list(set(link_list))
    else:
        return None
    
    #return None

#fazer download do arquivo
def download_file(pdf_link, thesis_uri):


    # NOTE the stream=True parameter below
    try:
        r = requests.get(pdf_link, verify=True, stream=True)
    except:
        print("Sleeping for 5 seconds before retrying... (download_file)")
        time.sleep(5)
        try:
            r = requests.get(pdf_link, verify=True, stream=True)
        except:
            print("Sleeping for 30 seconds before retrying... (download_file)")
            time.sleep(30)
            r = requests.get(pdf_link, verify=True, stream=True)
    # raise_for_status() is not needed with stream=True
    # r.raise_for_status()
    with open('tese UFSC.pdf', 'wb') as f:
        for chunk in r.iter_content(chunk_size=8192):
            f.write(chunk)
    return 

#Carregando os modelos SpaCy para inglês e português 
nlp_en = spacy.load("en_core_web_lg")
nlp_pt = spacy.load("pt_core_news_lg")

# Funcão que recebe uma string e a limpar para ficar no formato aceitável para uma URI
def process_uri(x):
    return (re.sub('[^a-zA-Z0-9_ ]', '',
            unidecode(x.strip())
                        .replace(" ", "_")
                        .replace("[","")
                        .replace("]","")
                        .replace("?","")
                        .replace("'","")
                        .lower()))


# Função para extrair texto de uma tese em PDF e identificar entidades
def extratc_text(tese_path):
    
    # Processando o arquivo em PDF
    try:
        reader = PdfReader(tese_path)
        number_of_pages = len(reader.pages)
    except:
        print(f"Erro ao ler o arquivo {tese_path}. ")
        excerpt = {}
        return excerpt
    
    excerpt = {}
    

    # Iterando por cada página
    for page_number in range(number_of_pages):
        
        
        
        # Extraindo o texto da página
        try:
            if page_number == 0:
                try:
                    page_text = (reader.pages[page_number].extract_text() + '\n ' 
                                + reader.pages[page_number+1].extract_text()[:400])
                except:
                    page_text = reader.pages[page_number].extract_text()
            else:
                
                if page_number == number_of_pages -1:
                    try:
                        page_text = (reader.pages[page_number-1].extract_text()[-400:] + '\n ' 
                                    + reader.pages[page_number].extract_text())
                    except:
                        page_text = reader.pages[page_number].extract_text()
                
                else:
                    try:
                        page_text = (reader.pages[page_number-1].extract_text()[-400:] + '\n ' 
                                    + reader.pages[page_number].extract_text() + '\n ' 
                                    + reader.pages[page_number+1].extract_text()[:400])  
                    except:
                        page_text = reader.pages[page_number].extract_text()
        except:
            page_text = ''
        
        # Limpando page text         
        page_text = page_text.replace("'", "").replace('"', '')
        # Verifica se o último caractere é uma barra invertida
        if page_text != '':
            if page_text[-1] == '\\': 
                page_text = page_text[:-2]
        page_text = re.sub(r"[\ud800-\udfff]", " ", page_text)
        page_text = page_text.encode('utf-8').decode('utf-8')
        
        
        # Detectando o idioma do texto
        try:
            lang = detect(page_text)
            
        except:
            lang = 'Não_detectado'
        
        
        # Extraindo as entidades
        page_extracted = False
        if lang == 'pt':
            doc = nlp_pt(page_text)
            page_extracted = True
        if lang == 'en':
            doc = nlp_en(page_text)
            page_extracted = True
        

        if page_extracted:

            persons = []
            gpes = []
            #orgs = []
            for ent in doc.ents:
                if ent.label_ == "PER": #"PERSON":
                    persons.append(process_uri(ent.text))
                if ent.label_ == "LOC": #"GPE":
                    gpes.append(process_uri(ent.text))
                #if ent.label_ == "ORG":
                #    orgs.append(process_uri(ent.text))
                    
            excerpt[page_number] = {'text': page_text, 
                                    'lang': lang, 
                                    'persons': list(set(persons)), 
                                    'gpes': list(set(gpes)),
                                #'orgs': list(set(orgs))
                                }

    return excerpt

Iterando por todas as URI para extrair o texto e gravar no grafo NEO4j

In [None]:
# Gravar hora de início do processamento
start_time = pd.Timestamp.now()
parcial_time = pd.Timestamp.now()

for i in range(0,len(thesis_repository)):

    title = thesis_repository['title'][i].replace("?","").replace('-', ' ').replace('&', ' ').replace('/', ' ').replace('\\', ' ')  
    repo = get_repository_link(title)

    # Coletando o link do PDF
    #url = thesis_repository['repository'][i]
    thesis_uri = thesis_repository['Thesis'][i][16:]
    pdf_link = get_pdf_link(repo)
    if pdf_link is not None:
        # Itereando pelos links de PDF encontrados (em alguns casos há outros materiais além da tese)
        for pdf_num in range(len(pdf_link)):
            print(f"{i} - Downloading and extracting: {thesis_uri} from {pdf_link[pdf_num]}")
            download_file(pdf_link[pdf_num], thesis_uri)

            # Extraindo o texto e entidades
            tese_path = 'tese UFSC.pdf'
            excerpt = extratc_text(tese_path)

            excerpts = []
            persons = []
            gpes = []

            # Salvando as triplas em CSV
            for n in excerpt.keys():

                excerpt_uri = thesis_repository['Thesis'][i] + '_pdf_' + str(pdf_num) + '_p_' + str(n)
                excerpt_text = excerpt[n]['text']
                # Verifica se o último caractere é uma barra invertida
                #if excerpt_text[-1] == '\\': 
                #    excerpt_text = excerpt_text[:-1]
                

                excerpt_page = 'pdf_' + str(pdf_num) + '_p_' + str(n)
                excerpt_lang = excerpt[n]['lang']
                
                excerpts.append([thesis_repository['Thesis'][i], excerpt_uri, excerpt_text, excerpt_page, excerpt_lang])
                    
                #Criando as relações com as entidades
                for person in excerpt[n]['persons']:
                    persons.append([excerpt_uri, 'tag:stardog:api:' + person])
                
                for gpe in excerpt[n]['gpes']:
                    gpes.append([excerpt_uri, 'tag:stardog:api:' + gpe])
            
            # Salvando os dados em CSV no diretório de importação do Neo4j
            pd.DataFrame(excerpts).to_csv('C:\\Users\\facordei\\.Neo4jDesktop\\relate-data\\dbmss\\dbms-792eabfc-5517-4220-ab29-30ef6ec3236e\\import\\excerptsUFSC.csv', index=False, header=False)
            pd.DataFrame(persons).to_csv('C:\\Users\\facordei\\.Neo4jDesktop\\relate-data\\dbmss\\dbms-792eabfc-5517-4220-ab29-30ef6ec3236e\\import\\personsUFSC.csv', index=False, header=False)
            pd.DataFrame(gpes).to_csv('C:\\Users\\facordei\\.Neo4jDesktop\\relate-data\\dbmss\\dbms-792eabfc-5517-4220-ab29-30ef6ec3236e\\import\\gpesUFSC.csv', index=False, header=False)

            #Deletando o arquivo PDF após o processamento
            os.remove('tese UFSC.pdf')

            print(f"Loading triplas: {thesis_uri}")

            # Importanto os dados para o Neo4j
            #Excerpts
            query = """
            LOAD CSV FROM 'file:///excerptsUFSC.csv'
            AS row
            MATCH  (t:Thesis{uri: row[0]})
            MERGE  (e:Exerpt{
                    uri: row[1],
                    text: row[2],
                    page: row[3],
                    lang: row[4]
                    })-[r:BFO_0000050]-(t);
            """
            graph = GraphDatabase.driver(NEO4J_URL, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))
            results = graph.execute_query(query)
            graph.close()

            #Persons
            query = """
            LOAD CSV FROM 'file:///personsUFSC.csv'
            AS row
            MATCH  (e:Exerpt{uri: row[0]})
            MERGE  (p:Person{uri: row[1]})
            MERGE  (e)-[r:mentions]-(p);
            """
            graph = GraphDatabase.driver(NEO4J_URL, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))
            results = graph.execute_query(query)
            graph.close()

            #GPEs
            query = """
            LOAD CSV FROM 'file:///gpesUFSC.csv'
            AS row
            MATCH  (e:Exerpt{uri: row[0]})
            MERGE  (p:Place{uri: row[1]})
            MERGE  (e)-[r:mentions]-(p);
            """
            graph = GraphDatabase.driver(NEO4J_URL, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))
            results = graph.execute_query(query)
            graph.close()

            # Removendo os arquivos CSV após a importação
            os.remove('C:\\Users\\facordei\\.Neo4jDesktop\\relate-data\\dbmss\\dbms-792eabfc-5517-4220-ab29-30ef6ec3236e\\import\\excerptsUFSC.csv')
            os.remove('C:\\Users\\facordei\\.Neo4jDesktop\\relate-data\\dbmss\\dbms-792eabfc-5517-4220-ab29-30ef6ec3236e\\import\\personsUFSC.csv')
            os.remove('C:\\Users\\facordei\\.Neo4jDesktop\\relate-data\\dbmss\\dbms-792eabfc-5517-4220-ab29-30ef6ec3236e\\import\\gpesUFSC.csv')

            print(f"Total time: {pd.Timestamp.now() - start_time}")
            print(f"Partial time: {pd.Timestamp.now() - parcial_time}")
            # Atualizando a hora parcial
            parcial_time = pd.Timestamp.now()
    else:
        print(f"No PDF link found for {thesis_uri}")

    # gravando no grafo que a tese foi processada
    query = """
    MATCH  (t:Thesis{uri: \'""" + thesis_repository['Thesis'][i] +  """\'})
    SET t.processed = true
    SET t.repository = \'""" + str(repo) +  """\'
    """
    graph = GraphDatabase.driver(NEO4J_URL, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))
    results = graph.execute_query(query)
    graph.close()


No PDF link found for imagens_invisiveis_de_africas_presentes__experiencias_das_populacoes_negras_no_cotidiano_da_cidade_de_florianopolis_19301940_
1 - Downloading and extracting: silencios_na_historia_e_disputas_entre_memorias_os_processos_de_reconhecimento_identitario_e_titulacao_territorial_das_comunidades_quilombolas from https://repositorio.ufsc.br/bitstream/handle/123456789/219203/PHST0710-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: silencios_na_historia_e_disputas_entre_memorias_os_processos_de_reconhecimento_identitario_e_titulacao_territorial_das_comunidades_quilombolas
Total time: 0 days 00:01:35.231187
Partial time: 0 days 00:01:35.231187
2 - Downloading and extracting: proposta_de_acoes_para_ingresso_e_permanencia_de_estudantes_indigenas_e_quilombolas_no_ensino_superior from https://repositorio.ufsc.br/bitstream/handle/123456789/254855/PPAU0301-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: proposta_de_acoes_para_ingresso_e_permanencia_de_estudantes_indigenas_e_quilombolas_no_ensino_superior
Total time: 0 days 00:02:12.510381
Partial time: 0 days 00:00:37.279194
No PDF link found for criminologia_e_racismo_
No PDF link found for mulheres_negras_soropositivas_e_as_interseccionalidades_entre_genero_classe_e_racaetnia
5 - Downloading and extracting: trajetorias_negras_e_racismos_memorias_da_convivencia_interracial_na_infancia from https://repositorio.ufsc.br/bitstream/handle/123456789/215891/PASO0525-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: trajetorias_negras_e_racismos_memorias_da_convivencia_interracial_na_infancia
Total time: 0 days 00:03:03.130100
Partial time: 0 days 00:00:50.619719
6 - Downloading and extracting: je_est_un_autre_a_construcao_da_invisibilidade_negra_no_cinema_cubano_produzido_pelo_icaic from https://repositorio.ufsc.br/bitstream/handle/123456789/191269/PASO0454-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: je_est_un_autre_a_construcao_da_invisibilidade_negra_no_cinema_cubano_produzido_pelo_icaic
Total time: 0 days 00:03:42.569951
Partial time: 0 days 00:00:39.439851
7 - Downloading and extracting: gestao_e_abordagem_sistemica_do_design_para_a_intergeracionalidade_na_educacao_quilombola_com_foco_na_sustentabilidade_cultural_de_itamatatiua from https://repositorio.ufsc.br/bitstream/handle/123456789/250259/PGDE0253-T.pdf?sequence=1&isAllowed=y
Loading triplas: gestao_e_abordagem_sistemica_do_design_para_a_intergeracionalidade_na_educacao_quilombola_com_foco_na_sustentabilidade_cultural_de_itamatatiua
Total time: 0 days 00:05:01.656200
Partial time: 0 days 00:01:19.086249
8 - Downloading and extracting: parteiras_tradicionais_encruzilhadas_entre_a_producao_de_conhecimentos_indigenas_afrodiasporicos_e_cientifico_modernos from https://repositorio.ufsc.br/bitstream/handle/123456789/252482/PICH0280-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: parteiras_tradicionais_encruzilhadas_entre_a_producao_de_conhecimentos_indigenas_afrodiasporicos_e_cientifico_modernos
Total time: 0 days 00:08:20.631157
Partial time: 0 days 00:03:18.974957
9 - Downloading and extracting: terra_trabalho_e_racismo_veias_abertas_de_uma_analise_historicoestrutural_no_brasil from https://repositorio.ufsc.br/bitstream/handle/123456789/204570/PGSS0221-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: terra_trabalho_e_racismo_veias_abertas_de_uma_analise_historicoestrutural_no_brasil
Total time: 0 days 00:08:36.257083
Partial time: 0 days 00:00:15.625926
10 - Downloading and extracting: saberes_e_fazeres_do_quilombo_sao_roque_subsidios_para_uma_pedagogia_quilombola_na_educacao_de_jovens_e_adultos from https://repositorio.ufsc.br/bitstream/handle/123456789/254868/PICH0282-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: saberes_e_fazeres_do_quilombo_sao_roque_subsidios_para_uma_pedagogia_quilombola_na_educacao_de_jovens_e_adultos
Total time: 0 days 00:09:07.344864
Partial time: 0 days 00:00:31.087781
11 - Downloading and extracting: a_implementacao_da_lei_1063903_nos_cursos_tecnicos_integrados_do_instituto_federal_de_santa_catarina__ifsc__campus_florianopolis_20042018_perspectivas_docentes_sobre_o_racismo_institucional from https://repositorio.ufsc.br/bitstream/handle/123456789/221266/PEED1557-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: a_implementacao_da_lei_1063903_nos_cursos_tecnicos_integrados_do_instituto_federal_de_santa_catarina__ifsc__campus_florianopolis_20042018_perspectivas_docentes_sobre_o_racismo_institucional
Total time: 0 days 00:10:00.945468
Partial time: 0 days 00:00:53.600604
12 - Downloading and extracting: direito_e_relacoes_raciais_uma_introducao_critica_ao_racismo from https://repositorio.ufsc.br/bitstream/handle/123456789/106299/PDPC0003-D.pdf?sequence=1&isAllowed=y
Loading triplas: direito_e_relacoes_raciais_uma_introducao_critica_ao_racismo
Total time: 0 days 00:10:20.939614
Partial time: 0 days 00:00:19.994146
13 - Downloading and extracting: os_saberes_emancipadores_de_maria_de_lourdes_mina_aprendendo_com_as_memorias_de_uma_professora_e_militante_negra_em_santa_catarina from https://repositorio.ufsc.br/bitstream/handle/123456789/235521/PEED1636-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: os_saberes_emancipadores_de_maria_de_lourdes_mina_aprendendo_com_as_memorias_de_uma_professora_e_militante_negra_em_santa_catarina
Total time: 0 days 00:11:03.416573
Partial time: 0 days 00:00:42.476959
14 - Downloading and extracting: grupo_afro_ganga_zumba_danca_e_canto_de_mulheres_quilombolas_como_educacao_antirracista_na_zona_da_mata_mineira from https://repositorio.ufsc.br/bitstream/handle/123456789/240886/PEED1652-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: grupo_afro_ganga_zumba_danca_e_canto_de_mulheres_quilombolas_como_educacao_antirracista_na_zona_da_mata_mineira
Total time: 0 days 00:11:48.982836
Partial time: 0 days 00:00:45.566263
15 - Downloading and extracting: encontros_com_lia_vieira_uma_experiencia_de_leitura from https://repositorio.ufsc.br/bitstream/handle/123456789/229040/PLIT0880-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: encontros_com_lia_vieira_uma_experiencia_de_leitura
Total time: 0 days 00:12:02.457989
Partial time: 0 days 00:00:13.475153
No PDF link found for saude_ecocultural_e_resiliencia_conhecimentos_e_praticas_da_medicina_tradicional_em_comunidades_rurais_da_chapada_do_araripe_no_ceara_e_em_comunidades_quilombolas_do_litoral_de_santa_catarina
No PDF link found for processos_de_mobilizacao_quilombola_a_aconeruq_e_o_moquibom_no_maranhao
No PDF link found for acerca_do_pertencimento_percursos_da_comunidade_invernada_paiol_de_telha_em_um_contexto_de_reivindicacao_de_terra
No PDF link found for promocao_da_saude_das_mulheres_quilombolas_a_relacao_com_os_determinantes_sociais
20 - Downloading and extracting: o_cuidado_como_potencia__entre_o_publico_e_o_privado_e_as_liderancas_de_mulheres_nas_comunidades_remanescentes_de_quilombo_aldeia_e_toca_de_santa_cruz from https://repositorio.ufsc.br/bitstream/handle/123456789/189950/PASO0446-D.pdf?sequenc

incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: o_cuidado_como_potencia__entre_o_publico_e_o_privado_e_as_liderancas_de_mulheres_nas_comunidades_remanescentes_de_quilombo_aldeia_e_toca_de_santa_cruz
Total time: 0 days 00:12:54.822955
Partial time: 0 days 00:00:52.364966
No PDF link found for jovens_quilombolas_e_ocupacoes_nao_agricolas_tensoes_em_um_programa_de_educacao_do_campo
No PDF link found for dos_bailes_de_outrora_a_festa_da_tainha_significados_e_principios_educativos_das_festas_no_quilombo_aldeia
No PDF link found for relacoes_juridicas_de_uso_e_apropriacao_territorial_em_comunidades_quilombolas_brasileiras_embates_de_poder_e_decolonialismo_juridico_sob_lentes_etnograficas_e_etnodocumentarias
24 - Downloading and extracting: mulheres_de_um_quilombo_e_seus_processos_de_socializacao_com_as_criancas from https://repositorio.ufsc.br/bitstream/handle/123456789/185540/PEED1269-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: mulheres_de_um_quilombo_e_seus_processos_de_socializacao_com_as_criancas
Total time: 0 days 00:13:37.777374
Partial time: 0 days 00:00:42.954419
No PDF link found for quotvem_brincar_na_ruaquot_entre_o_quilombo_e_a_educacao_infantil__capturando_expressoes_experiencias_e_conflitos_de_criancas_quilombolas_no_entremeio_desses_contextos
No PDF link found for itinerarios_terapeuticos_de_quilombolas_um_olhar_bioetico_sobre_a_atencao_e_o_cuidado_a_saude
No PDF link found for visagens_e_profecias_ecos_da_territorialidade_quilombola
No PDF link found for por_entre_as_tramas_e_os_meios__as_relacoes_raciais_na_escola
29 - Downloading and extracting: estrategias_de_resistencia_na_luta_pela_terra_um_estudo_sobre_o_quilombo_da_pedra_branca_no_municipio_de_praia_grandesc from https://repositorio.ufsc.br/bitstream/handle/123456789/211655/PGSS0236-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: estrategias_de_resistencia_na_luta_pela_terra_um_estudo_sobre_o_quilombo_da_pedra_branca_no_municipio_de_praia_grandesc
Total time: 0 days 00:15:10.993774
Partial time: 0 days 00:01:33.216400
30 - Downloading and extracting: protecao_juridica_e_gestao_em_colaboracao_do_patrimonio_cultural_quilombola_as_arqueologias_praticas_comunitarias_como_base_para_a_protecao_e_autogestao_cultural_e_territorial_sustentavel_do_lugar_ao_planeta from https://repositorio.ufsc.br/bitstream/handle/123456789/186176/PDPC1342-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: protecao_juridica_e_gestao_em_colaboracao_do_patrimonio_cultural_quilombola_as_arqueologias_praticas_comunitarias_como_base_para_a_protecao_e_autogestao_cultural_e_territorial_sustentavel_do_lugar_ao_planeta
Total time: 0 days 00:16:47.286007
Partial time: 0 days 00:01:36.292233
No PDF link found for de_pai_para_filho_tecendo_um_novo_territorio_familiar__uma_etnografia_sobre_as_relacoes_geracionais_na_agricultura_familiar_do_municipio_de_quilombosc
No PDF link found for comunidades_quilombolas_e_o_direito_a_saude_percepcao_das_mulheres_quanto_ao_acesso_a_assistencia_prenatal
No PDF link found for papeis_ecologicos_e_papeis_culturais_de_plantas_conhecidas_por_comunidades_quilombolas_do_litoral_de_santa_catarina_brasil
34 - Downloading and extracting: o_papel_da_avicultura_na_construcao_do_territorio_e_na_reproducao_social_da_agricultura_familiar_o_caso_de_chapeco_e_quilombo_no_oeste_catarinense from https://repositorio.ufsc.br/bitstream/handle/123456789/106642/271248.pd

incorrect startxref pointer(1)


Loading triplas: os_quilombolas_e_o_estado_participacao_representacao_e_politicas_publicas_nas_comunidades_de_terra_firme_do_baixo_amazonas_obidos__pa
Total time: 0 days 00:18:37.631367
Partial time: 0 days 00:00:49.473158
No PDF link found for marcas_da_integracao_na_agricultura_familiar_de_quilombo_sc
No PDF link found for exodos_e_encruzilhadas_da_missa_dos_quilombos
39 - Downloading and extracting: fornecimento_de_alimentos_provenientes_da_agricultura_familiar_quilombola_para_o_programa_nacional_de_alimentacao_escolar_uma_abordagem_etnografica from https://repositorio.ufsc.br/bitstream/handle/123456789/215618/PNTR0264-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: fornecimento_de_alimentos_provenientes_da_agricultura_familiar_quilombola_para_o_programa_nacional_de_alimentacao_escolar_uma_abordagem_etnografica
Total time: 0 days 00:19:09.169322
Partial time: 0 days 00:00:31.537955
40 - Downloading and extracting: avaliacao_da_diversidade_genetica_e_morfologica_da_goiabeiraserrana_acca_sellowiana_o_berg_burret_em_terras_indigenas_areas_quilombolas_e_em_unidades_de_conservacao_no_sul_do_brasil_e_acesso_ao_conhecimento_tradicional_associado_ao_uso_e_manejo_da_especie from https://repositorio.ufsc.br/bitstream/handle/123456789/191068/PRGV0278-T.pdf?sequence=1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: avaliacao_da_diversidade_genetica_e_morfologica_da_goiabeiraserrana_acca_sellowiana_o_berg_burret_em_terras_indigenas_areas_quilombolas_e_em_unidades_de_conservacao_no_sul_do_brasil_e_acesso_ao_conhecimento_tradicional_associado_ao_uso_e_manejo_da_especie
Total time: 0 days 00:19:30.249685
Partial time: 0 days 00:00:21.080363
No PDF link found for a_constituicao_local_direito_e_territorio_quilombola_em_bairro_alto_ilha_do_marajo_para
42 - Downloading and extracting: ja_raiou_a_liberdade__um_diagnostico_das_politicas_publicas_de_combate_ao_trabalho_analogo_a_escravidao_no_brasil_a_partir_das_convencoes_da_organizacao_internacional_do_trabalho from https://repositorio.ufsc.br/bitstream/handle/123456789/250016/PDPC1687-D.pdf?sequence=1&isAllowed=y
Loading triplas: ja_raiou_a_liberdade__um_diagnostico_das_politicas_publicas_de_combate_ao_trabalho_analogo_a_escravidao_no_brasil_a_partir_das_convencoes_da_organizacao_internacional_do_tra

incorrect startxref pointer(1)


Loading triplas: lavradores_pobres_trabalho_escravizado_e_a_pequena_propriedade_na_freguesia_de_sao_joao_baptista_do_rio_vermelho__18311899
Total time: 0 days 00:21:11.611891
Partial time: 0 days 00:00:54.804481
46 - Downloading and extracting: do_absolutismo_paterno_e_de_tantos_tribunaes_caseiros_direito_penal_castigos_aos_escravos_e_duplo_nivel_de_legalidade_no_brasil_18301888 from https://repositorio.ufsc.br/bitstream/handle/123456789/231207/PDPC1575-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: do_absolutismo_paterno_e_de_tantos_tribunaes_caseiros_direito_penal_castigos_aos_escravos_e_duplo_nivel_de_legalidade_no_brasil_18301888
Total time: 0 days 00:21:57.111215
Partial time: 0 days 00:00:45.499324
47 - Downloading and extracting: da_escrita_a_consagracao_os_caminhos_da_obra_de_maria_firmina_dos_reis from https://repositorio.ufsc.br/bitstream/handle/123456789/251535/PLIT0933-T.pdf?sequence=1&isAllowed=y
Loading triplas: da_escrita_a_consagracao_os_caminhos_da_obra_de_maria_firmina_dos_reis
Total time: 0 days 00:22:37.054511
Partial time: 0 days 00:00:39.943296
48 - Downloading and extracting: a_escravidao_contemporanea_em_santa_catarina_uma_analise_de_processos_na_justica_do_trabalho_20012015 from https://repositorio.ufsc.br/bitstream/handle/123456789/251577/PASO579-D.pdf?sequence=1&isAllowed=y
Loading triplas: a_escravidao_contemporanea_em_santa_catarina_uma_analise_de_processos_na_justica_do_trabalho_20012015
Total time: 0 days 00:23:06.178533
Partial time

incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: a_branquitude_no_direito_internacional_e_as_reparacoes_por_colonialismo_e_escravidao_o_legado_da_exploracao_britanica_e_a_demanda_por_justica_historica_no_caribe
Total time: 0 days 00:23:20.941835
Partial time: 0 days 00:00:14.763302
50 - Downloading and extracting: medicina_e_comercio_na_dinamica_colonial_a_trajetoria_social_de_joao_cardoso_de_miranda_seculo_xviii from https://repositorio.ufsc.br/bitstream/handle/123456789/198648/PHST0633-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: medicina_e_comercio_na_dinamica_colonial_a_trajetoria_social_de_joao_cardoso_de_miranda_seculo_xviii
Total time: 0 days 00:23:34.512980
Partial time: 0 days 00:00:13.571145
51 - Downloading and extracting: escravidao_liberdade_e_os_arranjos_de_trabalho_na_ilha_de_santa_catarina_nas_ultimas_decadas_de_escravidao_18501888 from https://repositorio.ufsc.br/bitstream/handle/123456789/101610/213255.pdf?sequence=1&isAllowed=y
Loading triplas: escravidao_liberdade_e_os_arranjos_de_trabalho_na_ilha_de_santa_catarina_nas_ultimas_decadas_de_escravidao_18501888
Total time: 0 days 00:24:02.955666
Partial time: 0 days 00:00:28.442686
52 - Downloading and extracting: questao_social_no_brasil_contribuicao_para_a_compreensao_de_sua_genese from https://repositorio.ufsc.br/bitstream/handle/123456789/262854/PGSS0298-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: questao_social_no_brasil_contribuicao_para_a_compreensao_de_sua_genese
Total time: 0 days 00:24:53.082483
Partial time: 0 days 00:00:50.126817
53 - Downloading and extracting: livres_e_libertos_como_partes_justas_e_contractadas_alvos_e_usos_da_regulacao_juridica_do_trabalho_por_contrato_no_brasil_oitocentista_18301888 from https://repositorio.ufsc.br/bitstream/handle/123456789/241077/PHST0746-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: livres_e_libertos_como_partes_justas_e_contractadas_alvos_e_usos_da_regulacao_juridica_do_trabalho_por_contrato_no_brasil_oitocentista_18301888
Total time: 0 days 00:26:08.337894
Partial time: 0 days 00:01:15.255411
54 - Downloading and extracting: da_mortalha_escravagista_ordem_do_mundo_escravidao_e_racismo_como_construtores_da_bionecropolitica_brasileira from https://repositorio.ufsc.br/bitstream/handle/123456789/216607/PDPC1498-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: da_mortalha_escravagista_ordem_do_mundo_escravidao_e_racismo_como_construtores_da_bionecropolitica_brasileira
Total time: 0 days 00:26:25.352828
Partial time: 0 days 00:00:17.014934
No PDF link found for muito_mais_que_senhores_e_escravos_relacoes_de_trabalho_conflitos_e_mobilidade_social_em_um_distrito_agropecuario_do_sul_do_imperio_do_brasil_sao_francisco_de_paula_de_cima_da_serra_rs_18501871
56 - Downloading and extracting: mathias_jose_dos_santos_identidade_escravidao_e_colonialidade_do_poder_18601875 from https://repositorio.ufsc.br/bitstream/handle/123456789/205740/PHST0638-D.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: mathias_jose_dos_santos_identidade_escravidao_e_colonialidade_do_poder_18601875
Total time: 0 days 00:26:49.787560
Partial time: 0 days 00:00:24.434732
No PDF link found for de_herdeiro_da_fortuna_a_diplomata_aposentado_a_representacao_do_masculino_em_machado_de_assis
No PDF link found for o_crime_de_reduzir_pessoa_livre_a_escravidao_nas_casas_de_morada_da_justica_no_rio_grande_do_sul_18351874
No PDF link found for a_sinfonia_do_sagrado_em_castro_alves_deus_eros_e_mae_em_os_escravos
60 - Downloading and extracting: quanto_vale_um_escravo_hoje_a_vulnerabilidade_des_fiscalizada_os_rastros_da_necrobiopolitica_e_a_tentativa_de_controle_do_controle_dos_discursos_na_contemporaneidade from https://repositorio.ufsc.br/bitstream/handle/123456789/220487/PLLG0822-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Loading triplas: quanto_vale_um_escravo_hoje_a_vulnerabilidade_des_fiscalizada_os_rastros_da_necrobiopolitica_e_a_tentativa_de_controle_do_controle_dos_discursos_na_contemporaneidade
Total time: 0 days 00:28:24.437550
Partial time: 0 days 00:01:34.649990
No PDF link found for fugas_escravas_e_quilombos_na_ilha_de_santa_catarina_seculo_xix
No PDF link found for cativeiro_e_dependencia_na_fronteira_de_ocupacao_palmas_pr_18501888
63 - Downloading and extracting: os_sinais_da_escravidao_na_identidade_do_trabalhador_a_legislacao_neoescravista_da_caderneta_policial_de_trabalho_e_a_resistencia_dos_trabalhadores_do_comercio_no_rio_de_janeiro_da_1a_republica_df_anos_20 from https://repositorio.ufsc.br/bitstream/handle/123456789/192811/PDPC1384-T.pdf?sequence=-1&isAllowed=y


incorrect startxref pointer(1)


Erro ao ler o arquivo tese UFSC.pdf. 
Loading triplas: os_sinais_da_escravidao_na_identidade_do_trabalhador_a_legislacao_neoescravista_da_caderneta_policial_de_trabalho_e_a_resistencia_dos_trabalhadores_do_comercio_no_rio_de_janeiro_da_1a_republica_df_anos_20
Total time: 0 days 00:28:56.937630
Partial time: 0 days 00:00:32.500080
No PDF link found for papeis_da_escravidao_a_matricula_especial_de_escravos
No PDF link found for infancia_trabalho_escravo_e_direitos_sociais_o_brasil_e_os_direitos_humanos_em_questao


In [9]:
thesis_repository['title'][i]
#get_repository_link('Exterminate all the brutes colonialism and racism in Joseph Conrads heart of darkness')

'Exterminate all the brutes: colonialism and racism in Joseph Conrads heart of darkness'