In [4]:
# Python 3.9.12

In [22]:
from src.load_document import LoadDocument
from src.get_embeddings import GetEmbeddings
from src.qa_context import QAWithContext

In [23]:
document_dir = 'data_example_code'
type_doc = '.py'

## Get document

In [24]:
obj_load_doc = LoadDocument(document_dir, type_doc)
lgc_documents = obj_load_doc.get_lgc_documents()

[PosixPath('data_example_code/get_embeddings.py'), PosixPath('data_example_code/qa_context.py')]


## Get embeddings

In [8]:
obj_embeddings = GetEmbeddings(document_dir)

In [9]:
chunk_size_limit = 1000
max_chunk_overlap = 500
splitted_doc = obj_embeddings.calc_estimated_cost(
    lgc_documents, chunk_size_limit, max_chunk_overlap
)

Splitted doc: 14
Total word count: 973
Total tokens: 2643
Embedding Cost: $0.02 MXN


In [10]:
splitted_doc[0]

Document(page_content='import os\nimport logging\nimport tiktoken\nimport numpy as np\nfrom dotenv import load_dotenv, find_dotenv\n\nfrom langchain.text_splitter import CharacterTextSplitter\nfrom langchain.embeddings.openai import OpenAIEmbeddings\nfrom langchain.vectorstores import FAISS\n\n\nclass GetEmbeddings(object):\n    def __init__(self, documents_dir):\n        """\n        Instanciate OpenAI api key from .env file.\n        Instanciate documents dir.\n        """\n        load_dotenv(find_dotenv())\n        os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")\n        self.documents_dir = documents_dir', metadata={'source': '/get_embeddings'})

In [11]:
chunk_size_limit = 1000
max_chunk_overlap = 500
vector_store_small = obj_embeddings.get_embeddings(
    lgc_documents, chunk_size_limit, max_chunk_overlap, 
    'vector_store_small_chunk'
)

Vector store already created.


In [12]:
chunk_size_limit = 1200
max_chunk_overlap = 800
vector_store_large = obj_embeddings.calc_estimated_cost(
    lgc_documents, chunk_size_limit, max_chunk_overlap
)

Splitted doc: 14
Total word count: 997
Total tokens: 2718
Embedding Cost: $0.02 MXN


In [13]:
chunk_size_limit = 1200
max_chunk_overlap = 800
vector_store_large = obj_embeddings.get_embeddings(
    lgc_documents, chunk_size_limit, max_chunk_overlap, 
    'vector_store_large_chunk'
)


Vector store already created.


## Q&A over document

In [14]:
obj_qa_context = QAWithContext(document_dir)

In [None]:
"quienes son los involucrados en el contrato? (incluye nombres)"

In [15]:
str_query = "Qué contiene esta data?"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

result['answer']

Min similarity in large chunk embeds: 0.6448673
Min similarity in small chunk embeds: 0.64997864
Select large chunk embeds


INFO:langchain.retrievers.multi_query:Generated queries: ['1. ¿Cuál es el contenido de esta información?', '2. ¿Qué información se encuentra en esta base de datos?', '3. ¿Qué datos están incluidos en esta fuente de información?']


'La data contiene una serie de funciones y clases que se utilizan para realizar preguntas y obtener respuestas utilizando el modelo de lenguaje GPT-3.5-turbo-16k de OpenAI. También se incluyen funciones para cargar y utilizar vectores de palabras y realizar búsquedas en ellos. Además, se proporciona un contexto de conversación para guiar la generación de respuestas.'

In [16]:
str_query = "Qué hace el método ask_chat_gpt_w_multiq?"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

obj_qa_context.print_result(result)

Min similarity in large chunk embeds: 0.4225699
Min similarity in small chunk embeds: 0.4225699
Select large chunk embeds


INFO:langchain.retrievers.multi_query:Generated queries: ['1. Cuál es la función del método ask_chat_gpt_w_multiq?', '2. Cuáles son las acciones realizadas por el método ask_chat_gpt_w_multiq?', '3. Para qué se utiliza el método ask_chat_gpt_w_multiq?']



          ### Question: 
          Qué hace el método ask_chat_gpt_w_multiq?
          ### Answer: 
          El método `ask_chat_gpt_w_multiq` es una función que se utiliza para realizar consultas utilizando el modelo de chat GPT-3.5-turbo-16k de OpenAI. Toma una cadena de consulta, un vector de almacenamiento y un número de argumentos k como argumentos.

En este método, se genera un prompt utilizando la función `generate_prompt`, que incluye un mensaje del sistema y un mensaje humano. Luego se crea una instancia del modelo de chat `ChatOpenAI` con el modelo "gpt-3.5-turbo-16k" y se configuran los parámetros de temperatura y max_tokens.

A continuación, se crea una cadena de recuperación y pregunta y respuesta utilizando la clase `RetrievalQAWithSourcesChain`. Se utiliza el vector de almacenamiento como recuperador y se configuran los parámetros de búsqueda y tipo de búsqueda. También se especifica que se deben devolver los documentos fuente.

Finalmente, se llama a la cadena de recuperación con la cadena de consulta y se devuelve el resultado.

Fuentes: /untitled
          ### All relevant sources:
          /untitled
        

In [13]:
str_query = "Descripción del equipo o maquinaria"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt(
    str_query, vector_store, n_k_args
)

obj_qa_context.print_result(result)

Min similarity in large chunk embeds: 0.33860582
Min similarity in small chunk embeds: 0.35162324
Select large chunk embeds



          ### Question: 
          Descripción del equipo o maquinaria
          ### Answer: 
          La descripción del equipo o maquinaria es la siguiente:

- Marca: Caterpillar
- Modelo: 250G
- Serie: CCATO950GTAXX02079
- Año: 2006
- Tipo de equipo: Cargador frontal de accionamiento hidráulico montado sobre ruedas
- Estado: Usado
- Pedimento número: 22 34 3803 2001554
- Ubicación: Ciudad Miguel Alemán, Tamaulipas


          ### All relevant sources:
          /ocr_text
        

In [28]:
str_query = "Descripción del equipo o maquinaria"

vector_store, n_k_args = obj_qa_context.define_vector_store_to_use(
    str_query
)

result = obj_qa_context.ask_chat_gpt_w_multiq(
    str_query, vector_store, n_k_args
)

obj_qa_context.print_result(result)

Min similarity in large chunk embeds: 0.33870715
Min similarity in small chunk embeds: 0.35162324
Select large chunk embeds


INFO:langchain.retrievers.multi_query:Generated queries: ['1. ¿Cuál es la descripción del equipo o maquinaria?', '2. ¿Puedes darme información sobre el equipo o maquinaria?', '3. ¿Podrías proporcionar detalles acerca del equipo o maquinaria?']



          ### Question: 
          Descripción del equipo o maquinaria
          ### Answer: 
          El equipo o maquinaria descrito en el anexo de arrendamiento es un cargador frontal de accionamiento hidráulico montado sobre ruedas. Es usado y tiene el número de pedimento 22 34 3803 2001554. Es de la marca Caterpillar, modelo 250G, serie CCATO950GTAXX02079 y fue fabricado en el año 2006. 
Source: /ocr_text
          ### All relevant sources:
          /ocr_text
        