In [4]:
import sys
import tiktoken

from rag.chains import rag_chain_with_source
from rag.retriever import retriever, vectostore, metadata_field_info, document_content_description, llm

from langchain.chains.query_constructor.base import (
    StructuredQueryOutputParser,
    get_query_constructor_prompt,
)

  from tqdm.autonotebook import tqdm


In [5]:
def get_cost(query, answer):
    price_per_milion_input = 0.150
    price_per_milion_output = 0.600

    encoding = tiktoken.encoding_for_model("gpt-4o-mini")

    num_tokens_input = len(encoding.encode(query))
    num_tokens_output = len(encoding.encode(answer))

    cost_input = price_per_milion_input * num_tokens_input / 1_000_000
    cost_output = price_per_milion_output * num_tokens_output / 1_000_000

    print(f"Input cost: ${cost_input:.6f}")
    print(f"Output cost: ${cost_output:.6f}")

In [6]:
prompt = get_query_constructor_prompt(
    document_content_description,
    metadata_field_info
)

parser = StructuredQueryOutputParser.from_components()

def get_query_constructor(query):
    query_constructor = prompt | llm | parser

    print(query_constructor.invoke(query))

# Category

## Q1

In [7]:
query = "Me retorne 2 trabalhos acadêmicos"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [8]:
get_query_constructor(query)

query=' ' filter=None limit=None


In [9]:
print(answer)

Título: Moduladores Sigma-Delta passa-banda programáveis usando filtro N-Path (2023)  
Autor: Evelyn Cristina de Oliveira Lima (Mestrado)  
Orientador: Diomadson Rodrigues Belfort  
Resumo: No Rádio Definido por Software (SDR) a maioria das funções analógicas, como a conversão descendente e a seleção de canal são movidas para o domínio digital. Com esses recursos, um SDR pode ser facilmente programado e adaptado a novos padrões. No entanto, sua implementação usando um conversor analógico-digital (ADC) de taxa de Nyquist tem sido desafiadora e com consumo muito elevado, o que o torna impróprio para aplicativos móveis. SDM (Modulador Sigma-Delta) usando ressonadores LC são bem adequados para essa finalidade, pois podem converter uma banda estreita em torno de uma frequência central de radiofrequência (RF). Na literatura, o SDM baseado em LC de alta ordem usa os nós entre os tanques LC para feedforward ou coeficientes de realimentação, de modo a obter a função de transferência de ruído de

In [10]:
get_cost(query, answer)

Input cost: $0.000001
Output cost: $0.000591


## Q2

In [8]:
query = "Me retorne 2 trabalhos acadêmicos de mestrado"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [9]:
get_query_constructor(query)

query=' ' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='MSc') limit=None


In [10]:
print(answer)

Título: Dispositivos internos para coleta automática de dados de material particulado no ar com aplicação na prevenção e mitigação de Covid-19 e outras endemias de síndrome respiratória aguda grave (2022)
Autor: Arthur Andrade Bezerra (Mestrado)
Orientador: Luiz Marcos Garcia Gonçalves
Resumo: Este trabalho propõe o desenvolvimento, calibração e validação de um dispositivo capaz de capturar ativamente dados relacionados à aferição de qualidade do ar para uma futura prevenção e comparação com índices de dados pandêmicos/endêmicos por localização utilizando sensores PM2.5, temperatura e umidade, juntamente com um microcontrolador capaz de enviar todas as informações necessárias para um banco de dados. Por ser um projeto que necessita de grande escala para que seja possível capturar índices de qualidade do ar na maior quantidade de pontos possível visando obter dados com uma granularidade muito alta, o desenvolvimento está sendo pensado sempre visualizando o custo-benefício dos componente

In [11]:
get_cost(query, answer)

Input cost: $0.000002
Output cost: $0.000403


## Q3

In [12]:
query = "Me retorne 2 trabalhos acadêmicos de doutorado"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [13]:
get_query_constructor(query)

query=' ' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='PhD') limit=None


In [14]:
print(answer)

Título: Stacked Sparse Autoencoder applied to SARS-CoV-2 virus classification based on image representations of genome sequences (2023)  
Autor: Maria Gracielly Fernandes Coutinho (Doutorado)  
Orientador: Marcelo Augusto Costa Fernandes  
Resumo: Desde dezembro de 2019, o mundo foi severamente afetado pela pandemia de COVID19, ocasionada pelo vírus SARS-CoV-2. Em casos como este de nova identificação viral, a elucidação precoce da classificação taxonômica e origem dos genomas de vírus são essenciais para planejamento, contenção e tratamentos. As técnicas de Aprendizagem Profunda vêm sendo utilizadas com sucesso em diversos problemas de classificação viral, associadas ao diagnóstico de infecções virais, metagenômica, análise filogenética, entre outros. Considerando esta motivação, este trabalho tem como proposta gerar um eficaz classificador do genoma viral direcionado ao vírus SARS-CoV-2, utilizando a técnica de Aprendizagem Profunda baseada em Stacked Sparse Autoencoder (SSAE). Para 

In [15]:
get_cost(query, answer)

Input cost: $0.000002
Output cost: $0.000643


# Title

## Q1

In [16]:
query = "Me retorne o trabalho entitulado 'Análise de desempenho de sistemas de comunicação sem-fio para monitoramento de unidade de produção de poços petrolíferos terrestres'"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [17]:
get_query_constructor(query)

query='Análise de desempenho de sistemas de comunicação sem-fio para monitoramento de unidade de produção de poços petrolíferos terrestres' filter=None limit=None


In [18]:
print(answer)

Título: Análise de desempenho de sistemas de comunicação sem-fio para monitoramento de unidade de produção de poços petrolíferos terrestres (2008)  
Autor: Ivanovitch Medeiros Dantas da Silva (Mestrado)  
Orientador: Luiz Affonso Henderson Guedes de Oliveira  
Resumo: Grande parte do monitoramento de poços petrolíferos terrestres realizados atualmente está baseado em soluções sem fio (wireless). Todavia, essas soluções apresentam uma configuração defasada tecnologicamente na medida em que são utilizados rádios analógicos e topologias de comunicação ineficientes. Por outro lado, tecnologias que adotam rádios digitais podem proporcionar soluções mais eficientes relacionadas com o consumo de energia, segurança e tolerância a falhas. O trabalho investiga se as Redes de Sensores Sem Fio, tecnologia de comunicação que utiliza rádios digitais, são adequadas para o monitoramento de poços petrolíferos terrestres. Porcentagem de pacotes entregues com sucesso, consumo de energia, atrasos de comun

In [19]:
get_cost(query, answer)

Input cost: $0.000006
Output cost: $0.000183


# Author

## Q1

In [20]:
query = "Me retorne trabalhos acadêmicos cujo autor seja Ivanovitch Medeiros Dantas da Silva"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [21]:
get_query_constructor(query)

query=' ' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='author', value='Ivanovitch Medeiros Dantas da Silva') limit=None


In [22]:
print(answer)

Título: Análise de desempenho de sistemas de comunicação sem-fio para monitoramento de unidade de produção de poços petrolíferos terrestres (2008)
Autor: Ivanovitch Medeiros Dantas da Silva (Mestrado)
Orientador: Luiz Affonso Henderson Guedes de Oliveira
Resumo: Grande parte do monitoramento de poços petrolíferos terrestres realizados atualmente está baseado em soluções sem fio (wireless). Todavia, essas soluções apresentam uma configuração defasada tecnologicamente na medida em que são utilizados rádios analógicos e topologias de comunicação ineficientes. Por outro lado, tecnologias que adotam rádios digitais podem proporcionar soluções mais eficientes relacionadas com o consumo de energia, segurança e tolerância a falhas. O trabalho investiga se as Redes de Sensores Sem Fio, tecnologia de comunicação que utiliza rádios digitais, são adequadas para o monitoramento de poços petrolíferos terrestres. Porcentagem de pacotes entregues com sucesso, consumo de energia, atrasos de comunicação

In [23]:
get_cost(query, answer)

Input cost: $0.000003
Output cost: $0.000497


# Advisor

## Q1

In [24]:
query = "Me retorne trabalhos acadêmicos cujo orientador seja Ivanovitch Medeiros Dantas da Silva"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [25]:
get_query_constructor(query)

query=' ' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='advisor', value='Ivanovitch Medeiros Dantas da Silva') limit=None


In [26]:
print(answer)

Título: Um algoritmo online e evolutivo para compressão automática de dados em cenários de IoT (2021)  
Autor: Gabriel Lucas Albuquerque Maia Signoretti (Mestrado)  
Orientador: Ivanovitch Medeiros Dantas da Silva  
Resumo: Com o avanço e adoção em massa de soluções no campo de Internet das Coisas (IoT) e cidades conectadas, o número de dispositivos e sensores conectados à rede tende a crescer exponencialmente. Nesse cenário, a transmissão e armazenamento do crescente volume de dados trazem novos desafios...  
Palavras-chave: ('Compressão de dados online', 'IoT', 'Veículos inteligentes', 'TinyML', 'Aprendizado de máquina', 'Excentricidade de dados')  
ODS: 9  

Título: A deep learning model for identifying academic publications aligned with the sustainable development goals (2023)  
Autor: Alexandre Henrique Soares Dias (Mestrado)  
Orientador: Ivanovitch Medeiros Dantas da Silva  
Resumo: Em 2015, as Nações Unidas estabeleceram os 17 Objetivos de Desenvolvimento Sustentável (ODS) para

In [27]:
get_cost(query, answer)

Input cost: $0.000003
Output cost: $0.000387


# Defense Year

## Q1

In [28]:
query = "Me retorne trabalhos acadêmicos defendidos em 2021"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [29]:
get_query_constructor(query)

query=' ' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='defense_date_year', value=2021) limit=None


In [30]:
print(answer)

Título: Um algoritmo online e evolutivo para compressão automática de dados em cenários de IoT (2021)  
Autor: Gabriel Lucas Albuquerque Maia Signoretti (Mestrado)  
Orientador: Ivanovitch Medeiros Dantas da Silva  
Resumo: Com o avanço e adoção em massa de soluções no campo de Internet das Coisas (IoT) e cidades conectadas, o número de dispositivos e sensores conectados à rede tende a crescer exponencialmente. Nesse cenário, a transmissão e armazenamento do crescente volume de dados trazem novos desafios. Quando dispositivos transmitem dados potencialmente irrelevantes ou redundantes, há um maior gasto de energia e processamento, além do uso desnecessário do canal de comunicação. Dessa forma, soluções de compressão de dados localmente nos próprios dispositivos de IoT se tornam cada vez mais atrativas, possibilitando a eliminação de amostras que teriam pouca ou nenhuma contribuição para a aplicação, de forma a reduzir significativamente o volume de dados necessários para representar as

In [31]:
get_cost(query, answer)

Input cost: $0.000002
Output cost: $0.001034


## Q2

In [32]:
query = "Me retorne 2 trabalhos acadêmicos de mestrado defendidos entre 2020 e 2023"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [33]:
get_query_constructor(query)

query=' ' filter=Operation(operator=<Operator.AND: 'and'>, arguments=[Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='MSc'), Comparison(comparator=<Comparator.GTE: 'gte'>, attribute='defense_date_year', value=2020), Comparison(comparator=<Comparator.LTE: 'lte'>, attribute='defense_date_year', value=2023)]) limit=None


In [34]:
print(answer)

Título: Dispositivos internos para coleta automática de dados de material particulado no ar com aplicação na prevenção e mitigação de Covid-19 e outras endemias de síndrome respiratória aguda grave (2022)  
Autor: Arthur Andrade Bezerra (Mestrado)  
Orientador: Luiz Marcos Garcia Gonçalves  
Resumo: Este trabalho propõe o desenvolvimento, calibração e validação de um dispositivo capaz de capturar ativamente dados relacionados à aferição de qualidade do ar para uma futura prevenção e comparação com índices de dados pandêmicos/endêmicos por localização utilizando sensores PM2.5, temperatura e umidade, juntamente com um microcontrolador capaz de enviar todas as informações necessárias para um banco de dados. Por ser um projeto que necessita de grande escala para que seja possível capturar índices de qualidade do ar na maior quantidade de pontos possível visando obter dados com uma granularidade muito alta, o desenvolvimento está sendo pensado sempre visualizando o custo-benefício dos comp

In [35]:
get_cost(query, answer)

Input cost: $0.000003
Output cost: $0.000408


# ODS

## Q1

In [36]:
query = "Me retorne trabalhos que foram classificados como ODS 2"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [37]:
get_query_constructor(query)

query=' ' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='ods', value=2) limit=None


In [38]:
print(answer)

Título: Identificação de nematóides através de técnicas de processamento inteligentes de imagens (2002)  
Autor: Carlos Alberto da Silva (Mestrado)  
Orientador: Adrião Duarte Dória Neto  
Resumo: O desenvolvimento de técnicas automáticas para a identificação da presença de namatóides em imagens capturadas através de câmeras acopladas em microscópios para análise e obtenção de métodos de controle destes microorganismos, acarretará em um enorme impacto financeiro considerando os prejuízos causados por esta praga à agricultura. O objetivo deste trabalho, consiste no desenvolvimento de um sistema inteligente com base nas técnicas de processamento digital de imagens e redes neurais artificiais para detectar a presença de nematóides em imagens digitais capturadas via microscópio com câmera acoplada. Os elementos básicos do sistema inteligente consiste de um módulo de pré-processamento da imagem seguido pela auto-segmentação e, por fim, de um módulo de identificação de nametóides. Técnicas c

In [39]:
get_cost(query, answer)

Input cost: $0.000002
Output cost: $0.000984


# Multi Query

## Q1

In [55]:
query = "Me retorne 3 trabalhos de mestrado que foram classificados como ODS 2"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [56]:
get_query_constructor(query)

query=' ' filter=Operation(operator=<Operator.AND: 'and'>, arguments=[Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='MSc'), Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='ods', value=2)]) limit=None


In [57]:
print(answer)

Título: Identificação de nematóides através de técnicas de processamento inteligentes de imagens (2002)  
Autor: Carlos Alberto da Silva (Mestrado)  
Orientador: Adrião Duarte Dória Neto  
Resumo: O desenvolvimento de técnicas automáticas para a identificação da presença de namatóides em imagens capturadas através de câmeras acopladas em microscópios para análise e obtenção de métodos de controle destes microorganismos, acarretará em um enorme impacto financeiro considerando os prejuízos causados por esta praga à agricultura. O objetivo deste trabalho, consiste no desenvolvimento de um sistema inteligente com base nas técnicas de processamento digital de imagens e redes neurais artificiais para detectar a presença de nematóides em imagens digitais capturadas via microscópio com câmera acoplada. Os elementos básicos do sistema inteligente consiste de um módulo de pré-processamento da imagem seguido pela auto-segmentação e, por fim, de um módulo de identificação de nametóides. Técnicas c

In [58]:
get_cost(query, answer)

Input cost: $0.000003
Output cost: $0.000207


## Q2

In [59]:
query = "Me retorne 3 trabalhos de doutorado que foram classificados como ODS 2"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [60]:
get_query_constructor(query)

query=' ' filter=Operation(operator=<Operator.AND: 'and'>, arguments=[Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='PhD'), Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='ods', value=2)]) limit=None


In [61]:
print(answer)

Título: Análise da determinação da constante elétrica de materiais sólidos e líquidos usando parâmetros de transmissão na faixa de microondas (2018)
Autor: André Soffiatti (Doutorado)
Orientador: Laercio Martins de Mendonça
Resumo: Com o rápido crescimento da tecnologia, tornou-se necessário o desenvolvimento de dispositivos sensoriais para o controle e a automação de vários processos agrícolas, farmacêuticos e alimentícios, a fim de um melhor entendimento das propriedades dielétricas dos materiais e das técnicas de medição. Este trabalho apresenta uma investigação e construção de um sistema sensor eletromagnético baseado em antenas planares e não-planares que são utilizadas para avaliar impurezas em substâncias sólidas e líquidas de acordo com a qualidade de transmissão entre elas. Para isso, foi implementada uma configuração dedicada com testes em várias frequências para monitorar o comportamento da variação de transmissão entre as antenas utilizando o método do espaço livre. Também 

In [62]:
get_cost(query, answer)

Input cost: $0.000003
Output cost: $0.000778


## Q3

In [63]:
query = "Me retorne 2 trabalhos de mestrado entre 2020 e 2023 foram classificados como ODS 7"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [64]:
get_query_constructor(query)

query=' ' filter=Operation(operator=<Operator.AND: 'and'>, arguments=[Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='MSc'), Comparison(comparator=<Comparator.GTE: 'gte'>, attribute='defense_date_year', value=2020), Comparison(comparator=<Comparator.LTE: 'lte'>, attribute='defense_date_year', value=2023), Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='ods', value=7)]) limit=None


In [65]:
print(answer)

Título: Moduladores Sigma-Delta passa-banda programáveis usando filtro N-Path (2023)  
Autor: Evelyn Cristina de Oliveira Lima (Mestrado)  
Orientador: Diomadson Rodrigues Belfort  
Resumo: No Rádio Definido por Software (SDR) a maioria das funções analógicas, como a conversão descendente e a seleção de canal são movidas para o domínio digital. Com esses recursos, um SDR pode ser facilmente programado e adaptado a novos padrões. No entanto, sua implementação usando um conversor analógico-digital (ADC) de taxa de Nyquist tem sido desafiadora e com consumo muito elevado, o que o torna impróprio para aplicativos móveis. SDM (Modulador Sigma-Delta) usando ressonadores LC são bem adequados para essa finalidade, pois podem converter uma banda estreita em torno de uma frequência central de radiofrequência (RF). Na literatura, o SDM baseado em LC de alta ordem usa os nós entre os tanques LC para feedforward ou coeficientes de realimentação, de modo a obter a função de transferência de ruído de

In [66]:
get_cost(query, answer)

Input cost: $0.000004
Output cost: $0.000546


# Complex Query

## Q1

In [79]:
query = "Gostaria de desenvolver um projeto na area de Inteligência Artificial, quais trabalhos de mestrado você me recomenda?"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [80]:
get_query_constructor(query)

query='Inteligência Artificial' filter=Comparison(comparator=<Comparator.EQ: 'eq'>, attribute='category', value='MSc') limit=None


In [81]:
print(answer)

Título: Implementação e aplicação de algoritmos de aprendizado em um sistema neuro-simbólico (2017)  
Autor: André Quintiliano Bezerra Silva (Mestrado)  
Orientador: André Laurindo Maitelli  
Resumo: Um dos principais objetivos da inteligência artificial é a criação de agentes inspirados na inteligência humana. Isso vem sendo pesquisado utilizando várias abordagens, e entre as mais promissoras para o aprendizado de máquinas estão os sistemas simbólicos baseados na lógica e as redes neurais artificiais. Até a última década, ambas as abordagens progrediam de forma independente, mas os progressos obtidos em ambas as áreas fizeram com que os pesquisadores começassem a investigar maneiras de integrar as duas técnicas. Diversos modelos que proporcionam a integração híbrida ou integrada desses métodos inteligentes surgiram na década de 90 e continuam sendo utilizadas e melhoradas até hoje. Esse trabalho tem como objetivo principal a implementação e uso do algoritmo de conversão neuro-simbólic

## Q2

In [92]:
query = "Existe algum trabalho na base de dados que envolva blockchain?"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [93]:
get_query_constructor(query)

query='blockchain' filter=None limit=None


In [94]:
print(answer)

Não encontrei informações sobre trabalhos acadêmicos que envolvam blockchain na base de dados fornecida.


In [88]:
get_cost(query, answer)

Input cost: $0.000002
Output cost: $0.000010


## Q2

In [95]:
query = "Existe algum trabalho na base de dados que envolva blockchain na perspectiva de promover a segurança no compartilhamento dos dados dos pacientes?"

answer = rag_chain_with_source.invoke({"prompt": query})["answer"]

In [96]:
get_query_constructor(query)

query='blockchain segurança compartilhamento dados pacientes' filter=None limit=None


In [97]:
print(answer)

Título: Plataforma RevELA: uma solução de saúde digital para a gestão do cuidado e vigilância dos pacientes com Esclerose Lateral Amiotrófica no Brasil (2023)  
Autor: Ingridy Marina Pierre Barbalho (Doutorado)  
Orientador: Ricardo Alexsandro de Medeiros Valentim  
Resumo: A Esclerose Lateral Amiotrófica (ELA) é uma doença neurodegenerativa rara considerada complexa em virtude da sua heterogeneidade. Apesar de ser conhecida há muitos anos, poucos países têm informações precisas sobre a sua epidemiologia e as características dos indivíduos diagnosticados com ELA. No Brasil, a falta de informação sobre a ELA limita a utilização de dados para o avanço de pesquisas e desenvolvimento de políticas públicas que favoreçam pessoas acometidas por essa condição de saúde. Nesse sentido, esta tese tem como objetivo apresentar o desenvolvimento de uma solução de saúde digital para gestão do cuidado e monitoramento da doença ELA no Brasil, de forma a munir a vigilância em saúde com informações úteis

In [98]:
get_cost(query, answer)

Input cost: $0.000004
Output cost: $0.000368
