In [1]:
# Python 3.9.12

In [1]:
from src.load_document import LoadDocument
from src.get_embeddings import GetEmbeddings
from src.qa_context import QAWithContext

In [2]:
document_dir = 'data_example_code'
type_doc = '.py'

## Get document

In [3]:
obj_load_doc = LoadDocument(document_dir, type_doc)
lgc_documents = obj_load_doc.get_lgc_documents()

[PosixPath('data_example_code/load_document.py'), PosixPath('data_example_code/get_embeddings.py'), PosixPath('data_example_code/qa_context.py')]


## Get embeddings

In [4]:
obj_embeddings = GetEmbeddings(document_dir)

In [5]:
chunk_size_limit = 1000
max_chunk_overlap = 500
splitted_doc = obj_embeddings.calc_estimated_cost(
    lgc_documents, chunk_size_limit, max_chunk_overlap
)

Splitted doc: 21
Total word count: 1503
Total tokens: 3782
Embedding Cost: $0.03 MXN


In [6]:
splitted_doc[0]

[Document(page_content='import os\nimport re\nimport pathlib\nfrom langchain.docstore.document import Document\n\n\nclass LoadDocument(object):\n    def __init__(self, documents_dir, type_of_file):\n        """\n        Instanciate document dir.\n        """\n        self.documents_dir = documents_dir\n        self.type_of_file = type_of_file\n\n    def convert_path_to_doc_url(self, doc_name):\n        """\n        Convert folder and file name into an url.\n        \n        Parameters\n        ----------\n        doc_name : string\n            Document name.\n        document_folder : string\n            Folder name.\n        Returns\n        -------\n        url_name: string\n            Url for document.\n        """\n        # Cast json to dataframe.\n        # Convert path string into url.\n        url_name = re.sub(\n            f"{self.documents_dir}/(.*)\\.[\\w\\d]+", f"/\\\\1",\n            str(doc_name)\n        )\n        return url_name', metadata={'source': '/load_document

In [7]:
chunk_size_limit = 1000
max_chunk_overlap = 500
vector_store_small = obj_embeddings.get_embeddings(
    lgc_documents, chunk_size_limit, max_chunk_overlap, 
    'vector_store_small_chunk'
)

Splitted doc: 21
Saved
created folder :  data_example_code/vector_store_small_chunk


In [8]:
chunk_size_limit = 1200
max_chunk_overlap = 800
vector_store_large = obj_embeddings.calc_estimated_cost(
    lgc_documents, chunk_size_limit, max_chunk_overlap
)

Splitted doc: 20
Total word count: 1733
Total tokens: 4388
Embedding Cost: $0.03 MXN


In [9]:
chunk_size_limit = 1200
max_chunk_overlap = 800
vector_store_large = obj_embeddings.get_embeddings(
    lgc_documents, chunk_size_limit, max_chunk_overlap, 
    'vector_store_large_chunk'
)


Splitted doc: 20
Saved
created folder :  data_example_code/vector_store_large_chunk


## Q&A over document

In [10]:
obj_qa_context = QAWithContext(document_dir)

In [12]:
str_query = "Qué contiene esta data?"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

result[0]['answer']

Min similarity in large chunk embeds: 0.6688988
Min similarity in small chunk embeds: 0.65705293
Select small chunk embeds


'La data contiene varias funciones y clases que parecen estar relacionadas con la implementación de un sistema de preguntas y respuestas (QA) utilizando el modelo de lenguaje GPT-3.5 de OpenAI. Algunas de las funciones y clases incluyen:\n\n1. `QAWithContext`: Esta clase inicializa la clave de la API de OpenAI y el directorio de documentos.\n\n2. `generate_prompt`: Esta función genera un mensaje de solicitud para el modelo de lenguaje.\n\n3. `ask_chat_gpt`: Esta función utiliza una base personalizada para ajustar el modelo de chat de OpenAI.\n\n4. `define_vector_store_to_use`: Esta función selecciona el documento con la mayor similitud a la pregunta del usuario.\n\n5. `LoadDocument`: Esta clase se utiliza para cargar documentos desde un directorio especificado.\n\n6. `convert_path_to_doc_url`: Esta función convierte la ruta de un documento en una URL.\n\n7. `calc_estimated_cost`: Esta función se utiliza para estimar el costo de incrustar un documento.\n\n8. `get_lgc_documents`: Esta fu

In [14]:
str_query = "Qué hace el método ask_chat_gpt_w_multiq?"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

result[0]['answer']

Min similarity in large chunk embeds: 0.5701494
Min similarity in small chunk embeds: 0.5700538
Select small chunk embeds


'El método `ask_chat_gpt_w_multiq` realiza una consulta a un modelo de lenguaje GPT-4 con contexto y múltiples preguntas. Este método utiliza un modelo de recuperación de información (RetrievalQAWithSourcesChain) para buscar respuestas relevantes en una colección de documentos. \n\nPrimero, se utiliza un vector store (FAISS) para almacenar los embeddings de los documentos. Luego, se selecciona el vector store más apropiado para la pregunta del usuario utilizando la función `define_vector_store_to_use`. \n\nA continuación, se realiza una consulta al modelo de lenguaje GPT-4 utilizando el contexto y las preguntas proporcionadas. El resultado de la consulta incluye la pregunta, la respuesta y los documentos fuente relevantes. \n\nFinalmente, el método formatea y muestra los resultados utilizando la función `print_result`. \n\nEn resumen, el método `ask_chat_gpt_w_multiq` realiza una consulta a un modelo de lenguaje GPT-4 con contexto y múltiples preguntas, y muestra los resultados formate