<a href="https://colab.research.google.com/github/JoseArthurSoares/ProjetoFinal-PLN/blob/main/Vers%C3%A3oFinal_ProjetoPLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Identificação dos alunos**

**Email: alexandre.santos@ccc.ufcg.edu.br**

**Email: jose.arthur.bezerra@ccc.ufcg.edu.br**

**Matrícula: 119210883**

**Matrícula: 121110566**

# Construindo o RAG System

**Problema**

A dificuldade em encontrar artigos relevantes, seja por métodos manuais ou por meio de recomendações de modelos de linguagem de última geração (LLMs) como ChatGPT ou Gemini, é um problema significativo no contexto acadêmico e de pesquisa.

**Objetivo**

O objetivo deste projeto é criar um sistema inteligente de recomendação de papers acadêmicos que utiliza técnicas de recuperação da informação e processamento de linguagem natural (NLP) para encontrar e sugerir artigos relevantes com base nas consultas dos usuários.

**O que usamos?**


*   RAG System (Retrieval-Augmented Generation) -  é uma abordagem que combina a recuperação de informações com a geração de texto. Em vez de depender exclusivamente de um modelo de linguagem para gerar respostas, o sistema primeiro recupera informações relevantes de uma base de dados ou de documentos e, em seguida, usa essas informações como contexto para gerar uma resposta mais precisa e informativa.
*   Gemini - É uma série de modelos de inteligência artificial desenvolvidos pelo Google DeepMind, focados em tarefas de aprendizado profundo, incluindo geração de texto, compreensão de linguagem natural e outras aplicações relacionadas à IA.
*   MongoDB - MongoDB é um banco de dados NoSQL orientado a documentos que permite o armazenamento e a recuperação de dados de forma flexível e escalável. Ele armazena dados em formato JSON (ou BSON), o que permite que os desenvolvedores trabalhem com dados não estruturados ou semiestruturados de maneira mais natural.


## Passo 1: Instalando as bibliotecas


In [None]:
!pip install datasets pandas pymongo sentence_transformers
!pip install -U transformers
# Install below if using GPU
!pip install accelerate

## Step 2: Recuperando e preparando os dados

Utilizamos a API arXiv que é O arXiv é um repositório online de pré-publicações científicas e artigos acadêmicos, que permite a pesquisadores de diversas áreas compartilhar suas pesquisas antes da revisão por pares. Criado em 1991, o arXiv é amplamente utilizado nas disciplinas de física, matemática, ciência da computação, biologia quantitativa, estatística e mais.

In [None]:
import requests
import time
from xml.etree import ElementTree


# Function to get data from arXiv API
def get_data(query, max_results, max_retries):
    url = f"http://export.arxiv.org/api/query?search_query={query}&start=0&max_results={max_results}"
    for attempt in range(max_retries):
        try:
            response = requests.get(url)
            root = ElementTree.fromstring(response.content)
            xml_namespace = "{http://www.w3.org/2005/Atom}"
            papers = [{'title': entry.find(f'{xml_namespace}title').text,
                       'summary': entry.find(f'{xml_namespace}summary').text,
                       'link': entry.find(f'{xml_namespace}id').text}
                      for entry in root.findall(f'{xml_namespace}entry')]
            return papers
        except requests.ConnectionError:
            time.sleep(2 ** attempt)

query = "Computer science OR software engineer OR artificial intelligence"
papers = get_data(query, max_results=1000, max_retries=5)
for paper in papers[0:10]:
    print(paper)

Pré-processamento dos dados com o objetivo de melhorar a qualidade dos dados.  Foi utilizado as seguintes técnicas:

* Tokenização: Divide o texto em palavras e as transforma para minúsculas.
* Remoção de Stop Words: Remove palavras comuns e pontuações que não agregam valor à análise.
* Filtragem de Comprimento: Mantém apenas tokens com comprimento entre 3 e 15 caracteres.
* Lematização: Reduz palavras à sua forma base, como transformar "caminhando" em "caminhar".

In [None]:
import nltk
import string
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

# Preprocess text
def preprocess_text(text):
    tokens = word_tokenize(text.lower())
    tokens = [token for token in tokens if 3 <= len(token) <= 15]
    stop_words = set(stopwords.words('english') + list(string.punctuation))
    tokens = [token for token in tokens if token not in stop_words]
    lemmatizer = WordNetLemmatizer()
    processed_tokens = [lemmatizer.lemmatize(token) for token in tokens]
    return ' '.join(processed_tokens)  # Retorna como uma string separada por espaços


for paper in papers:
    paper['summary'] = preprocess_text(paper['summary'])

Foi criado um DataFrame a partir de papers, selecionando apenas as colunas relevantes (título, resumo e link). Isso simplifica a análise, focando apenas nas informações importantes.

In [None]:
import pandas as pd

dataset_df = pd.DataFrame(papers)
relevant_columns = ['title', 'summary', 'link']
dataset_df = dataset_df[relevant_columns]
dataset_df.head()

Concantenando todas as colunas relevantes para gerar um embedding:

In [None]:
dataset_df['text_to_embed'] = (
    dataset_df['title'].astype(str) + ' ' +
    dataset_df['summary'].astype(str) + ' ' + \
    dataset_df['link'].astype(str) + ' '
)

dataset_df['text_to_embed'][0]

## Passo 3: Gerando os embeddings

* Modelo: Inicializa o modelo gte-large para embeddings.

* Função: generate_embeddings retorna uma lista vazia para textos vazios ou gera embeddings para textos não vazios.
* Aplicação: Aplica a função à coluna text_to_embed do DataFrame dataset_df, adicionando uma nova coluna embedding com os resultados.

In [None]:
from sentence_transformers import SentenceTransformer

embedding_model = SentenceTransformer('thenlper/gte-large')


def generate_embeddings(text):
  if not text.strip():
    # retorna uma lista fazia caso o texto passado seja vazio
    print("Attempted to get embedding for empty text")
    return []

  embedding = embedding_model.encode(text)
  return embedding.tolist()

dataset_df['embedding'] = dataset_df['text_to_embed'].apply(generate_embeddings)
dataset_df.head()

In [None]:
dataset_df['embedding'][:5]

## Passo 4: Estabelecendo conexão de dados

Estabelecendo uma conexão com um banco de dados MongoDB:

In [None]:
import pymongo
#from google.colab import userdata


def get_mongo_client(mongo_uri):
  """Establish connection to the MongoDB."""
  try:
    client = pymongo.MongoClient(mongo_uri)
    print("Connection to MongoDB successful")
    return client
  except pymongo.errors.ConnectionFailure as e:
    print(f"Connection failed: {e}")
    return None

mongo_uri = "mongodb+srv://projetopln:projeto1234@projetopln.jaqd1.mongodb.net/?retryWrites=true&w=majority&appName=ProjetoPLN"
mongo_client = get_mongo_client(mongo_uri)

# Ingest data into MongoDB
db = mongo_client["games"]
collection = db["games_collection"]

In [None]:
collection.delete_many({})

In [None]:
documents = dataset_df.to_dict("records")
collection.insert_many(documents)

print("Data ingestion into MongoDB completed")

In [None]:
docs = collection.find()
for doc in docs:
  print(doc)
  break

# Passo 5: Executar busca vetorial nas consultas do usuário

* Geração de Embeddings: Gera embeddings para a consulta do usuário usando a função generate_embeddings.

* Pipeline de Busca Vetorial:

    * $vectorSearch: Realiza uma busca vetorial na coleção com base no embedding gerado, considerando até 150 candidatos e retornando os 4 melhores resultados.
    * $project: Define os campos a serem retornados, excluindo o _id e incluindo title, summary, link e a pontuação da busca.

* Execução da Busca: Executa a pipeline de agregação na coleção e retorna os resultados como uma lista.

In [None]:
def vector_search(user_query, collection):
    query_embedding = generate_embeddings(user_query)

    if query_embedding is None:
        return "Invalid query or embedding generation failed."

    # Define the vector search pipeline
    pipeline = [
        {
            "$vectorSearch": {
                "index": "vector_index",
                "queryVector": query_embedding,
                "path": "embedding",
                "numCandidates": 150,  # Number of candidate matches to consider
                "limit": 4,  # Return top 4 matches
            }
        },
        {
            "$project": {
                "_id": 0,  # Exclude the _id field
                "title": 1,  # Include the title field
                "summary": 1,  # Include the summary field
                "link": 1,  # Include the link field
                "score": {"$meta": "vectorSearchScore"},  # Include the search score
            }
        },
    ]

    # Execute the search
    results = collection.aggregate(pipeline)
    return list(results)

* Busca por Resultados: Chama a função vector_search com a consulta do usuário para obter artigos relevantes da coleção.

* Formatação dos Resultados: Para cada resultado encontrado, formata o título, resumo e link em uma string, assegurando que cada informação esteja claramente apresentada.

In [None]:
def get_search_result(query, collection):
    get_knowledge = vector_search(query, collection)

    if not get_knowledge:
        return "No relevant articles found."

    search_result = ""
    for result in get_knowledge:
        search_result += f"Title: {result.get('title', 'N/A')}\n"
        search_result += f"Summary: {result.get('summary', 'N/A')}\n"
        search_result += f"Link: {result.get('link', 'N/A')}\n\n"  # Ensure link is included

    return search_result


# Passo 6: Definição do Prompt e do Modelo de Linguagem (LLM)

Gera um prompt para recomendar artigos. O prompt inclui instruções para recomendar apenas artigos relevantes. Além disso, Define um formato específico para a saída, incluindo título do artigo, resumo, link e uma justificativa para a recomendação.



In [None]:
def generate_prompt(query, context):
    prompt = (
        "Recommend academic articles to the user based on their query and the following articles retrieved from the database. "
        "Only recommend articles if they are relevant to the query. If none of the retrieved articles are relevant, inform the user that "
        "you couldn't find any relevant articles.\n\n"
        "# OUTPUT TEMPLATE\n"
        "- **Article Title**:\n"
        "    - Abstract:\n"
        "    - Link:\n"
        "    - (Your justification for recommending this article)\n\n"
        f"Query: {query}\nContext:\n{context}"
    )
    return prompt

In [None]:
from huggingface_hub import login
login(token="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")

Agora é necessário carregar o tokenizador e o modelo de linguagem "gemma-2b-it" da Google usando a biblioteca Hugging Face Transformers. Ele configura o modelo para gerar texto, automaticamente utilizando GPU ou CPU conforme disponível.

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
# CPU Enabled uncomment below 👇🏽
# model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it")
# GPU Enabled use below 👇🏽
model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it", device_map="auto")

# Passo 7: Testes

Usando uma consulta mais geral: "Artigos sobre llms"

In [None]:
query = "papers about llms"
source_information = get_search_result(query, collection)
prompt = generate_prompt(query, source_information)

# Moving tensors to GPU
input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")
response = model.generate(
    **input_ids,
    max_new_tokens=500,
    do_sample=True,  # Usa amostragem para aumentar a diversidade
    temperature=0.7,  # Controla a aleatoriedade
    top_p=0.9,        # Nucleus sampling para limitar as probabilidades cumulativas
    repetition_penalty=1.2  # Penaliza repetições
)
print(tokenizer.decode(response[0]))

Usando uma consulta mais específica: "Artigos sobre inteligência artifical na manufatura aditiva"

In [None]:
query = "papers about artificial intelligence in additive manufacturing"
source_information = get_search_result(query, collection)
prompt = generate_prompt(query, source_information)

# Moving tensors to GPU
input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")
response = model.generate(
    **input_ids,
    max_new_tokens=500,
    do_sample=True,  # Usa amostragem para aumentar a diversidade
    temperature=0.7,  # Controla a aleatoriedade
    top_p=0.9,        # Nucleus sampling para limitar as probabilidades cumulativas
    repetition_penalty=1.2  # Penaliza repetições
)
print(tokenizer.decode(response[0]))