https://medium.com/@rubentak/unleashing-the-power-of-intelligent-chatbots-with-gpt-4-and-vector-databases-a-step-by-step-8027e2ce9e78

In [37]:
import dotenv
import openai
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.document_loaders import DirectoryLoader, CSVLoader

import utils.globalsettings as gs

%reload_ext autoreload
%autoreload 2

In [16]:
dotenv.load_dotenv('.env')
openai.api_key = os.getenv("OPENAI_API_KEY")

# Documents

In [17]:
os.listdir(gs.the_folders.MMM_DOCS)

['doc_mmm.csv']

In [18]:
import pandas as pd

df = pd.read_csv(gs.the_files.MMM_DOCS, sep=';')
df

Unnamed: 0,FUNCIÓN,OBJETIVO,ARGUMENTOS,RETURN,EJEMPLO
0,R2(),Calcula la bondad del ajuste de un modelo esta...,fit : sm.regression.linear_model.RegressionRes...,float\r\nEl coeficiente de determinación R² de...,>>> import statsmodels.api as sm\n >>> ...
1,calculate_geom_ad_stock,Calcula el 'ad stock' geométrico de una serie ...,series : List[float]\r\nLista de valores que r...,List[float]\r\nLista de valores actualizados r...,">>> series = [100, 200, 300, 400]\n >>>..."


In [19]:
loader = CSVLoader(gs.the_files.MMM_DOCS, encoding="utf-8", csv_args={'delimiter': ';'})
data = loader.load()

In [20]:
# Print number of txt files in directory
# loader = DirectoryLoader('../../mmm/html/mmm', glob="./*.html")
loader = DirectoryLoader(
    gs.the_folders.MMM_DOCS,
    loader_cls=CSVLoader, 
    loader_kwargs={'encoding': 'utf-8', 'csv_args': {'delimiter': ';'}}
    )
doc = loader.load ( )
len(doc)

2

In [21]:
# Splitting the text into chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size    = 1000, 
    chunk_overlap = 200
    )
texts = text_splitter.split_documents(doc)


# Count the number of chunks
len(texts)

3

In [22]:
texts

[Document(page_content='\ufeffFUNCIÓN: R2()\nOBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.\r\n\r\nEste método calcula el coeficiente de determinación (R²), que es una medida de qué tan bien las variables independientes predicen la variable dependiente. Un R² más alto indica un mejor ajuste del modelo.\nARGUMENTOS: fit :\u2002sm.regression.linear_model.RegressionResultsWrapper\r\nUn modelo ajustado utilizando la biblioteca statsmodels. Este objeto contiene tanto los residuos como la variable dependiente del modelo.\nRETURN: float\r\nEl coeficiente de determinación R² del modelo.\nEJEMPLO: >>> import statsmodels.api as sm\n    >>> import numpy as np\n    >>> x = np.array([1, 2, 3, 4, 5])\n    >>> y = np.array([2, 4, 6, 8, 10])\n    >>> model = sm.OLS(y, x).fit()\n    >>> R2(model)\n    1.0', metadata={'source': 'C:\\Users\\mcondedesimon\\Documents\\PLAYGROUND\\auto_mmm\\PYTHON\\utils\\..\\..\\mmm\\docs\\doc_mmm.csv', 'row': 0}),
 Document(page_content="\ufeffFUNCIÓN: c

In [23]:
print(texts[1].page_content)

FUNCIÓN: calculate_geom_ad_stock
OBJETIVO: Calcula el 'ad stock' geométrico de una serie de datos aplicando un factor de decaimiento.

El 'ad stock' es un concepto en marketing y economía que representa el impacto acumulado de la publicidad a lo largo del tiempo. Esta función aplica un modelo de ad stock geométrico, donde el efecto de la publicidad se deprecia de forma geométrica en cada período.
ARGUMENTOS: series : List[float]
Lista de valores que representan la inversión o impacto publicitario en cada período.
decay_factor : float
Factor de decaimiento que se aplica a la acumulación de ad stock. Si es mayor que 1, se considera como porcentaje y se divide por 100.
initial_value : float, optional
Valor inicial de ad stock. Por defecto es 0.
RETURN: List[float]
Lista de valores actualizados representando el ad stock acumulado.
EJEMPLO: >>> series = [100, 200, 300, 400]
    >>> decay_factor = 0.9
    >>> initial_value = 50


# ChromaDB Database

In [24]:
persist_directory = gs.the_folders.VECTORSTORE
docs_directory    = gs.the_folders.MMM_DOCS

# OpenAI embeddings
embedding = OpenAIEmbeddings()

if os.path.exists(persist_directory):
    # Load the persisted database from disk
    print("Loading existing Vector DB")
    vectordb = Chroma(
        persist_directory  = persist_directory,
        embedding_function = embedding
        )
else:
    print("Creating VectorDB")

    # Load text in docs
    loader = DirectoryLoader(
        docs_directory, 
        loader_cls=CSVLoader, 
        loader_kwargs={'encoding': 'utf-8', 'csv_args': {'delimiter': ';'}}
    )
    doc = loader.load()

    # Splitting the text into chunks
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size    = 1000, 
        chunk_overlap = 200
        )
    texts = text_splitter.split_documents(doc)

    # Put the text chunks into embeddings in a local Chroma vector database.
    # Supplying a persist_directory will store the embeddings on the disk.
    vectordb = Chroma.from_documents(
        documents         = texts,
        embedding         = embedding,
        persist_directory = persist_directory
        )
    
    # Persist the db to disk
    vectordb.persist()

Loading existing Vector DB


In [25]:
texts


[Document(page_content='\ufeffFUNCIÓN: R2()\nOBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.\r\n\r\nEste método calcula el coeficiente de determinación (R²), que es una medida de qué tan bien las variables independientes predicen la variable dependiente. Un R² más alto indica un mejor ajuste del modelo.\nARGUMENTOS: fit :\u2002sm.regression.linear_model.RegressionResultsWrapper\r\nUn modelo ajustado utilizando la biblioteca statsmodels. Este objeto contiene tanto los residuos como la variable dependiente del modelo.\nRETURN: float\r\nEl coeficiente de determinación R² del modelo.\nEJEMPLO: >>> import statsmodels.api as sm\n    >>> import numpy as np\n    >>> x = np.array([1, 2, 3, 4, 5])\n    >>> y = np.array([2, 4, 6, 8, 10])\n    >>> model = sm.OLS(y, x).fit()\n    >>> R2(model)\n    1.0', metadata={'source': 'C:\\Users\\mcondedesimon\\Documents\\PLAYGROUND\\auto_mmm\\PYTHON\\utils\\..\\..\\mmm\\docs\\doc_mmm.csv', 'row': 0}),
 Document(page_content="\ufeffFUNCIÓN: c

## Retriever

In [26]:
# Create retriever
retriever = vectordb.as_retriever(
    # search_type   = 'mmr',
    search_kwargs = {"k": 1},
    # n_results = 1
    )

docs = retriever.get_relevant_documents("Qué función calcula el ad stock?")

In [27]:
[print(x.page_content + "\n\n##########\n\n") for x in docs]

FUNCIÓN: calculate_geom_ad_stock
OBJETIVO: Calcula el 'ad stock' geométrico de una serie de datos aplicando un factor de decaimiento.

El 'ad stock' es un concepto en marketing y economía que representa el impacto acumulado de la publicidad a lo largo del tiempo. Esta función aplica un modelo de ad stock geométrico, donde el efecto de la publicidad se deprecia de forma geométrica en cada período.
ARGUMENTOS: series : List[float]
Lista de valores que representan la inversión o impacto publicitario en cada período.
decay_factor : float
Factor de decaimiento que se aplica a la acumulación de ad stock. Si es mayor que 1, se considera como porcentaje y se divide por 100.
initial_value : float, optional
Valor inicial de ad stock. Por defecto es 0.
RETURN: List[float]
Lista de valores actualizados representando el ad stock acumulado.
EJEMPLO:

##########




[None]

In [28]:
docs = retriever.get_relevant_documents("Qué función calcula el coeficiente de determinacion?")
docs


[Document(page_content='\ufeffFUNCIÓN: R2()\nOBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.\r\n\r\nEste método calcula el coeficiente de determinación (R²), que es una medida de qué tan bien las variables independientes predicen la variable dependiente. Un R² más alto indica un mejor ajuste del modelo.\nARGUMENTOS: fit :\u2002sm.regression.linear_model.RegressionResultsWrapper\r\nUn modelo ajustado utilizando la biblioteca statsmodels. Este objeto contiene tanto los residuos como la variable dependiente del modelo.\nRETURN: float\r\nEl coeficiente de determinación R² del modelo.\nEJEMPLO:', metadata={'row': 0, 'source': 'C:\\Users\\mcondedesimon\\Documents\\PLAYGROUND\\auto_mmm\\PYTHON\\utils\\..\\..\\mmm\\docs\\doc_mmm.csv'})]

In [29]:
[print(x.page_content + "\n\n##########\n\n") for x in docs]

FUNCIÓN: R2()
OBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.

Este método calcula el coeficiente de determinación (R²), que es una medida de qué tan bien las variables independientes predicen la variable dependiente. Un R² más alto indica un mejor ajuste del modelo.
ARGUMENTOS: fit : sm.regression.linear_model.RegressionResultsWrapper
Un modelo ajustado utilizando la biblioteca statsmodels. Este objeto contiene tanto los residuos como la variable dependiente del modelo.
RETURN: float
El coeficiente de determinación R² del modelo.
EJEMPLO:

##########




[None]

# Delete Chroma DB

In [30]:
# vectordb.delete_collection()
# vectordb.persist()

In [31]:
# delete the directory
# !rm -rf the_folders.VECTORSTORE

# TEST

In [32]:
from utils.docretriever import DocRetriever

persist_directory = gs.the_folders.VECTORSTORE
docs_directory    = gs.the_folders.MMM_DOCS
loader_kwargs = {'encoding': 'utf-8', 'csv_args': {'delimiter': ';'}}

doc_retriever = DocRetriever(
    persist_directory = persist_directory, 
    docs_directory    = docs_directory,
    loader_kwargs     = loader_kwargs
)

Loading existing Vector DB


In [33]:
res = doc_retriever.get_relevant_documents("Qué función calcula el ad stock?", k = 2)
print("\n\n".join([x.page_content for x in res]))

FUNCIÓN: calculate_geom_ad_stock
OBJETIVO: Calcula el 'ad stock' geométrico de una serie de datos aplicando un factor de decaimiento.

El 'ad stock' es un concepto en marketing y economía que representa el impacto acumulado de la publicidad a lo largo del tiempo. Esta función aplica un modelo de ad stock geométrico, donde el efecto de la publicidad se deprecia de forma geométrica en cada período.
ARGUMENTOS: series : List[float]
Lista de valores que representan la inversión o impacto publicitario en cada período.
decay_factor : float
Factor de decaimiento que se aplica a la acumulación de ad stock. Si es mayor que 1, se considera como porcentaje y se divide por 100.
initial_value : float, optional
Valor inicial de ad stock. Por defecto es 0.
RETURN: List[float]
Lista de valores actualizados representando el ad stock acumulado.
EJEMPLO:

﻿FUNCIÓN: R2()
OBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.

Este método calcula el coeficiente de determinación (R²), que es una m

In [34]:
print(doc_retriever
      # .retriever
      .get_relevant_documents("Qué función calcula el ad stock?")[0]
      .page_content)

FUNCIÓN: calculate_geom_ad_stock
OBJETIVO: Calcula el 'ad stock' geométrico de una serie de datos aplicando un factor de decaimiento.

El 'ad stock' es un concepto en marketing y economía que representa el impacto acumulado de la publicidad a lo largo del tiempo. Esta función aplica un modelo de ad stock geométrico, donde el efecto de la publicidad se deprecia de forma geométrica en cada período.
ARGUMENTOS: series : List[float]
Lista de valores que representan la inversión o impacto publicitario en cada período.
decay_factor : float
Factor de decaimiento que se aplica a la acumulación de ad stock. Si es mayor que 1, se considera como porcentaje y se divide por 100.
initial_value : float, optional
Valor inicial de ad stock. Por defecto es 0.
RETURN: List[float]
Lista de valores actualizados representando el ad stock acumulado.
EJEMPLO:


In [35]:
print(doc_retriever
      #.retriever
      .get_relevant_documents("Qué función calcula el coeficiente de determinacion?")[0]
      .page_content)

FUNCIÓN: R2()
OBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.

Este método calcula el coeficiente de determinación (R²), que es una medida de qué tan bien las variables independientes predicen la variable dependiente. Un R² más alto indica un mejor ajuste del modelo.
ARGUMENTOS: fit : sm.regression.linear_model.RegressionResultsWrapper
Un modelo ajustado utilizando la biblioteca statsmodels. Este objeto contiene tanto los residuos como la variable dependiente del modelo.
RETURN: float
El coeficiente de determinación R² del modelo.
EJEMPLO:


In [36]:
doc_retriever = DocRetriever(
    persist_directory = persist_directory, 
    docs_directory    = docs_directory,
    k = 2,
    loader_kwargs = {'encoding': 'utf-8', 'csv_args': {'delimiter': ';'}}
)

TypeError: DocRetriever.__init__() got an unexpected keyword argument 'k'

In [None]:
doc_retriever.__dict__

{'persist_directory': 'C:\\Users\\migue\\Documents\\PROYECTOS DATA SCIENCE\\autobot\\PYTHON\\utils\\..\\..\\db',
 'docs_directory': 'C:\\Users\\migue\\Documents\\PROYECTOS DATA SCIENCE\\autobot\\PYTHON\\utils\\..\\..\\mmm\\docs',
 'embedding': OpenAIEmbeddings(client=<openai.resources.embeddings.Embeddings object at 0x0000015670BBB4D0>, async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x0000015670B98F10>, model='text-embedding-ada-002', deployment='text-embedding-ada-002', openai_api_version='', openai_api_base=None, openai_api_type='', openai_proxy='', embedding_ctx_length=8191, openai_api_key='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', openai_organization=None, allowed_special=set(), disallowed_special='all', chunk_size=1000, max_retries=2, request_timeout=None, headers=None, tiktoken_model_name=None, show_progress_bar=False, model_kwargs={}, skip_empty=False, default_headers=None, default_query=None, http_client=None),
 'vectordb': <langchain.vectorstor

In [None]:
print([print(x.page_content + "\n\n########\n\n") for x in doc_retriever
      #.retriever
      .get_relevant_documents("Aplica el adstock a las variables numericas, ajusta el modelo y calcula su R2")])


Number of requested results 20 is greater than number of elements in index 2, updating n_results = 2


FUNCIÓN: R2()
OBJETIVO: Calcula la bondad del ajuste de un modelo estadístico.

Este método calcula el coeficiente de determinación (R²), que es una medida de qué tan bien las variables independientes predicen la variable dependiente. Un R² más alto indica un mejor ajuste del modelo.
ARGUMENTOS: fit : sm.regression.linear_model.RegressionResultsWrapper
Un modelo ajustado utilizando la biblioteca statsmodels. Este objeto contiene tanto los residuos como la variable dependiente del modelo.
RETURN: float
El coeficiente de determinación R² del modelo.
EJEMPLO:

########


[None]
