---

## Instalando Dependências

Antes de começar a utilizar o DocSearcher, é necessário instalar suas dependências. Você pode instalar todas as bibliotecas necessárias executando o seguinte comando:

```bash
pip install -r requirements.txt
```

Certifique-se de que está na pasta raiz do projeto, onde está localizado o artquivo `requirements.txt`.

Este arquivo contém todas as dependências necessárias para executar o DocSearcher, incluindo:

- `google-generativeai`
- `docx2python`
- `numpy`
- `pandas`
- `scikit-learn`

Além disso, para utilizar as funcionalidades de pesquisa do Google, é necessário configurar uma chave de API do Google. Certifique-se de ter uma chave de API válida e substitua `GOOGLE_API_KEY` no código pelo valor correspondente à sua chave de API.

Após a instalação bem-sucedida das dependências e a configuração da chave de API do Google, você estará pronto para utilizar todas as funcionalidades oferecidas pelo DocSearcher.

Além disso, para a execução adequada do DocSearcher, foi escolhido o modelo de incorporação "models/embedding-001" para processar os dados e fornecer resultados das buscas.

In [1]:
import numpy as np
import pandas as pd
import google.generativeai as genai
from docx2python import docx2python
import os
from sklearn.metrics.pairwise import cosine_similarity

GOOGLE_API_KEY="YOUR API GOES HERE"
genai.configure(api_key=GOOGLE_API_KEY)
model = "models/embedding-001"

Para utilizar a função abaixo e extrair o conteúdo de documentos .docx de um diretório específico, basta fornecer o caminho para esse diretório como argumento da função.

In [2]:
def extract_docx_contents(docs_path):
    """
    Extracts the content of .docx documents from a specific directory.

    Args:
        docs_path (str): The path to the directory containing the .docx documents.

    Returns:
        list: A list of dictionaries, where each dictionary contains the title and content of a document.

    Example:
        >>> docs_path = "/path/to/your/docs"
        >>> documents = extract_docx_contents(docs_path)
    """

    documents = []

    for doc in os.listdir(docs_path):
        if doc.endswith(".docx"):
            path_file = os.path.join(docs_path, doc)
            doc_title = os.path.splitext(doc)[0]
            docx_content = docx2python(path_file)
           
            if docx_content.body and len(docx_content.body) > 1:
                text = ''.join([''.join(subsublist) for sublist in docx_content.body[1] for subsublist in sublist])
            elif docx_content.body:
                text = docx_content.text

            document = {
                    "Title": doc_title,
                    "Content": text
                }
            documents.append(document)
            

    return documents


O seguinte bloco de código realiza a pré-processamento dos dados extraídos dos documentos .docx. Isso inclui a formatação dos títulos e conteúdos dos documentos para melhor organização e análise.


In [None]:
docs_path = "PATH TO YOUR DOCS"
documents = extract_docx_contents(docs_path)
df = pd.DataFrame(documents)
df.columns = ["Title", "Content"]
df["Content"] = df["Content"].str.replace(r"\t|\n", "", regex=True)
df

In [4]:
def embed_fn(title, text):
  """
    Generates an embedding for the provided title and text using a specific model.

    This function utilizes Google Generative AI to generate an embedding for the provided title and text.
    The resulting embedding is useful for document retrieval tasks, where documents can be compared
    based on the similarity of their embeddings.

    Args:
        title (str): The title of the document.
        text (str): The text of the document.

    Returns:
        numpy.ndarray: The embedding generated for the provided title and text.

    Example:
        >>> title = "Example Title"
        >>> text = "This is an example text."
        >>> embedding = embed_fn(title, text)
    """

  return genai.embed_content(model=model,
                                 content=text,
                                 title=title,
                                 task_type="RETRIEVAL_DOCUMENT")["embedding"]

A linha abaixo utiliza a função `embed_fn` para gerar embeddings para o título e o conteúdo de cada documento presente no DataFrame `df`. Esses embeddings são armazenados na coluna "Embeddings" do DataFrame para posterior análise ou processamento.


In [None]:
df["Embeddings"] = df.apply(lambda row: embed_fn(row["Title"], row["Content"]), axis=1)
df


---

## Buscas

Para simplificar a busca dentro dos documentos, o argumento `query` nas funções abaixo pode ser um trecho específico presente nos arquivos, uma parte do documento ou até mesmo algo relacionado ao tópico que você está procurando.

Essas funções foram projetadas para facilitar a localização de documentos relevantes com base em consultas específicas. Basta fornecer um termo ou frase relevante e as funções encontrarão os documentos mais adequados dentro da base de dados.

---


In [6]:
def generate_and_search_query(query, database, model):
    """
    Generates and searches a query within a given database using a specified model.

    This function generates an embedding for the provided query using the specified model.
    It then compares this embedding with the embeddings of documents in the database
    to find the most relevant document.

    Args:
        query (str): The query to be searched within the database.
        database (DataFrame): The DataFrame containing the database of documents.
        model (str): The model to be used for generating embeddings.

    Returns:
        str: The content of the most relevant document to the query.

    Example:
        >>> query = "Example query"
        >>> relevant_document = generate_and_search_query(query, df, "models/embedding-001")
    """
    embedding_of_query = genai.embed_content(model=model,
                                             content=query,
                                             task_type="RETRIEVAL_QUERY")["embedding"]

    dot_products = np.dot(np.stack(database["Embeddings"]), embedding_of_query)
    index = np.argmax(dot_products)

    return database.iloc[index]["Content"]


In [7]:
def generate_and_search_top_3_docs(query, database, model, similarity_threshold=0.65):
    """
    Generates and searches a query within a given database using a specified model, returning the top 3 most relevant documents with a similarity score equal to or greater than the specified threshold.

    This function generates an embedding for the provided query using the specified model.
    It then compares this embedding with the embeddings of documents in the database
    to find the top 3 most relevant documents with a similarity score equal to or greater than the specified threshold.

    Args:
        query (str): The query to be searched within the database.
        database (DataFrame): The DataFrame containing the database of documents.
        model (str): The model to be used for generating embeddings.
        similarity_threshold (float, optional): The minimum similarity score required for a document to be considered relevant. Defaults to 0.65.

    Returns:
        list: A list of tuples containing the content of the top 3 most relevant documents to the query, along with their similarity scores.

    Example:
        >>> query = "Example query"
        >>> top_3_documents = generate_and_search_top_3_docs(query, df, "models/embedding-001")
    """
    embedding_of_query = genai.embed_content(model=model,
                                             content=query,
                                             task_type="RETRIEVAL_QUERY")["embedding"]

    embeddings_of_database = np.stack(database["Embeddings"])
    similarities = cosine_similarity(embeddings_of_database, np.array(embedding_of_query).reshape(1, -1)).flatten()
    relevant_indices = np.where(similarities >= similarity_threshold)[0]
    sorted_indices = np.argsort(similarities[relevant_indices])[::-1][:3]

    top_relevant_documents = [(database.iloc[relevant_indices[index]]["Content"], similarities[relevant_indices[index]]) for index in sorted_indices]

    return top_relevant_documents


## Integração com Gemini AI

Para integrar com o Gemini AI, configure as definições de geração da seguinte forma para que seja retornado apenas uma resposta da API. Exemplos de prompts para português e inglês foram adicionados. Para maior precisão ao documento use "Não adicione nenhuma informação extra ao seguinte trecho.". Dessa forma a genai não vai adicionar informações extras ou suposições na resposta. A API do Gemini só aceita um documento sendo enviado por vez como trecho, então selecione qual documento quer usar quando for enviar para a API.



In [None]:
query = "WRITE YOUR QUERY HERE"

top_document = generate_and_search_query(query, df, model)


generation_config = {
  "temperature": 0,
  "candidate_count": 1
}

prompt_br = f"Me faça um resumo do texto. Não adicione nenhuma informação extra ao seguinte trecho. Trecho: {top_document}"
prompt_eng = f"Ask your question here. Do not add any extra information to the following passage. Passage: {top_document}"

model_2 = genai.GenerativeModel("gemini-1.0-pro",
                                generation_config=generation_config)
response = model_2.generate_content(prompt_br)
print(response.text)