In [1]:
# Python 3.9.12

In [2]:
from src.load_document import LoadDocument
from src.get_embeddings import GetEmbeddings
from src.qa_context import QAWithContext

In [3]:
document_dir = 'data_example_code'
type_doc = '.py'

## Get document

In [4]:
obj_load_doc = LoadDocument(document_dir, type_doc)
lgc_documents = obj_load_doc.get_lgc_documents()

[PosixPath('data_example_code/get_embeddings.py'), PosixPath('data_example_code/qa_context.py')]


## Get embeddings

In [5]:
obj_embeddings = GetEmbeddings(document_dir)

In [6]:
chunk_size_limit = 1000
max_chunk_overlap = 500
splitted_doc = obj_embeddings.calc_estimated_cost(
    lgc_documents, chunk_size_limit, max_chunk_overlap
)

Splitted doc: 14
Total word count: 973
Total tokens: 2643
Embedding Cost: $0.02 MXN


In [7]:
splitted_doc[0]

[Document(page_content='import os\nimport logging\nimport tiktoken\nimport numpy as np\nfrom dotenv import load_dotenv, find_dotenv\n\nfrom langchain.text_splitter import CharacterTextSplitter\nfrom langchain.embeddings.openai import OpenAIEmbeddings\nfrom langchain.vectorstores import FAISS\n\n\nclass GetEmbeddings(object):\n    def __init__(self, documents_dir):\n        """\n        Instanciate OpenAI api key from .env file.\n        Instanciate documents dir.\n        """\n        load_dotenv(find_dotenv())\n        os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")\n        self.documents_dir = documents_dir', metadata={'source': '/get_embeddings'}),
 Document(page_content='def split_text_chunks(\n        self, documents, chunk_size_limit, max_chunk_overlap\n    ):\n        """\n        Split complete document text into chunks. \n        The lenght of each chunk is determined by chunk_size_limit.\n        Also an overlap between chunks is permited.\n        \n        Param

In [8]:
chunk_size_limit = 1000
max_chunk_overlap = 500
vector_store_small = obj_embeddings.get_embeddings(
    lgc_documents, chunk_size_limit, max_chunk_overlap, 
    'vector_store_small_chunk'
)

Splitted doc: 14
Saved
created folder :  data_example_code/vector_store_small_chunk


In [9]:
chunk_size_limit = 1200
max_chunk_overlap = 800
vector_store_large = obj_embeddings.calc_estimated_cost(
    lgc_documents, chunk_size_limit, max_chunk_overlap
)

Splitted doc: 14
Total word count: 997
Total tokens: 2718
Embedding Cost: $0.02 MXN


In [10]:
chunk_size_limit = 1200
max_chunk_overlap = 800
vector_store_large = obj_embeddings.get_embeddings(
    lgc_documents, chunk_size_limit, max_chunk_overlap, 
    'vector_store_large_chunk'
)


Splitted doc: 14
Saved
created folder :  data_example_code/vector_store_large_chunk


## Q&A over document

In [11]:
obj_qa_context = QAWithContext(document_dir)

In [12]:
"quienes son los involucrados en el contrato? (incluye nombres)"

'quienes son los involucrados en el contrato? (incluye nombres)'

In [13]:
str_query = "Qué contiene esta data?"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

result[0]['answer']

Min similarity in large chunk embeds: 0.67280966
Min similarity in small chunk embeds: 0.67313385
Select large chunk embeds


'La data contiene el código de un programa que utiliza la biblioteca LangChain para realizar preguntas y respuestas utilizando el modelo de lenguaje GPT-3.5 Turbo de OpenAI. El programa incluye funciones para buscar documentos relevantes, calcular la similitud entre documentos, formatear los resultados y estimar el costo de la codificación de texto. También se utilizan otras bibliotecas como pandas, dotenv y IPython.'

In [14]:
str_query = "Qué hace el método ask_chat_gpt_w_multiq?"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

result[0]['answer']

Min similarity in large chunk embeds: 0.5701494
Min similarity in small chunk embeds: 0.5700538
Select small chunk embeds


'El método `ask_chat_gpt_w_multiq` realiza una consulta a un modelo de lenguaje GPT-4 con contexto y múltiples preguntas. Este método utiliza un modelo de recuperación de información (RetrievalQAWithSourcesChain) para buscar respuestas relevantes en una colección de documentos. \n\nPrimero, se utiliza un vector store (FAISS) para almacenar los embeddings de los documentos. Luego, se selecciona el vector store más apropiado para la pregunta del usuario utilizando la función `define_vector_store_to_use`. \n\nA continuación, se realiza una consulta al modelo de lenguaje GPT-4 utilizando el contexto y las preguntas proporcionadas. El resultado de la consulta incluye la pregunta, la respuesta y los documentos fuente relevantes. \n\nFinalmente, el método formatea y muestra los resultados utilizando la función `print_result`. \n\nEn resumen, el método `ask_chat_gpt_w_multiq` realiza una consulta a un modelo de lenguaje GPT-4 con contexto y múltiples preguntas, y muestra los resultados formate