In [8]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
import os

from dotenv import load_dotenv
import ast
import mlflow

load_dotenv()

# Run a quick validation that we have an entry for the OPEN_API_KEY within environment variables

assert "OPENAI_API_KEY" in os.environ, "OPENAI_API_KEY environment variable must be set"

In [3]:
# Load the document
loader = TextLoader("./inputs/knowledge_base.txt")
documents = loader.load()
# Split the documents into chunks
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
# Create embeddings
embeddings = OpenAIEmbeddings()
# Create a vector store
vectorstore = Chroma.from_documents(texts, embeddings)

In [4]:
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)


In [5]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vectorstore.as_retriever())

In [6]:
query = "Qu'est-ce que l'apprentissage supervisé ?"
result = qa.run(query)
result

"L'apprentissage supervisé est une approche en apprentissage automatique où le modèle est formé sur des données étiquetées, c'est-à-dire des données pour lesquelles on connaît à l'avance les sorties attendues. L'objectif de l'apprentissage supervisé est de prédire les étiquettes pour de nouvelles données d'entrée en se basant sur les exemples fournis lors de l'entraînement. Un exemple concret est la classification d'images où chaque image est associée à une classe (chien, chat, etc.)."

In [None]:
#Evaluate vector databse and retrieval using mlflow
