In [1]:
from getpass import getpass
import os

from langchain.document_loaders.unstructured import UnstructuredFileLoader 
from langchain.text_splitter import CharacterTextSplitter

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI

from langchain.chains import RetrievalQA

In [2]:
os.environ['OPENAI_API_KEY'] = getpass()

In [3]:
loader = UnstructuredFileLoader('rules.txt')
documents = loader.load()

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

Created a chunk of size 1006, which is longer than the specified 1000
Created a chunk of size 1003, which is longer than the specified 1000


In [4]:
embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_documents(texts, embeddings)

In [5]:
qa = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(),
    chain_type="stuff",
    retriever=docsearch.as_retriever()
)

In [6]:
query = "О чем говорится в документе?"
qa.run(query)

'Необходимо уточнить, о каком документе идет речь, так как в данном контексте упоминаются несколько документов и понятий, связанных с банковской деятельностью и регулированием ее в Республике Казахстан.'