In [1]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA


In [2]:
import glob
from langchain.document_loaders import UnstructuredPDFLoader

loaders = []
documents = []

for pdf_filepath in glob.iglob("docs/PDFs/*.pdf"):
    pdf_loader = UnstructuredPDFLoader(pdf_filepath)
    documents += pdf_loader.load()

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_documents(texts, embeddings)


Using embedded DuckDB without persistence: data will be transient


In [7]:
qa = RetrievalQA.from_chain_type(
    llm=OpenAI(),
    chain_type="stuff",
    retriever=docsearch.as_retriever(),
    return_source_documents=True,
)


In [8]:
query = "Vị trí và chức năng của cảnh sát cơ động trong luật cảnh sát cơ động 2022"
result = qa({"query": query})


In [9]:
result["result"]

' Cảnh sát cơ động được xem là một phần của lực lượng công an nhân dân, họ được yêu cầu thực hiện nhiệm vụ, quyền hạn và trách nhiệm đã được giao. Các nhiệm vụ bao gồm: phòng, chống khủng bố, bắt cóc con tin, chiếm đoạt tàu bay, tàu thủy, tộ phạm có tổ chức, tội phạm x'

In [10]:
result["source_documents"]

[Document(page_content='Đ i ề u 3. V ị trí, ch ứ c n ă ng c ủ a C ả nh sát c ơ độ ng\n\nĐ i ề u 4. Nguyên t ắ c ho ạ t độ ng c ủ a C ả nh sát c ơ độ ng\n\n1. Đặ t d ướ i s ự lãnh đạ o tuy ệ t đố i, tr ự c ti ế p v ề m ọ i m ặ t c ủ a Đả ng C ộ ng s ả n Vi ệ t Nam, s ự th ố ng l ĩ nh c ủ a Ch ủ t ị ch n ướ c, s ự th ố ng nh ấ t qu ả n lý nhà n ướ c c ủ a Chính ph ủ và s ự ch ỉ đạ o, ch ỉ huy, qu ả n lý tr ự c ti ế p c ủ a B ộ tr ưở ng B ộ Công an.\n\n2. Tuân th ủ Hi ế n pháp, pháp lu ậ t Vi ệ t Nam và đ i ề u ướ c qu ố c t ế mà n ướ c C ộ ng hòa xã h ộ i ch ủ ngh ĩ a Vi ệ t Nam là thành viên.\n\n3. D ự a vào Nhân dân, phát huy s ứ c m ạ nh c ủ a Nhân dân và ch ị u s ự giám sát ủ a Nhân dân; b ả o v ệ l ợ i ích c ủ a Nhà n ướ c, quy ề n và l ợ i ích h ợ p pháp c ủ a c ơ quan, t ổ ch ứ c, cá nhân theo quy đị nh c ủ a pháp lu ậ t.\n\n4. K ế t h ợ p ch ặ t ch ẽ bi ệ n pháp v ũ trang v ớ i các bi ệ n pháp công tác khác c ủ a l ự c ượ ng Công an nhân dân trong th ự c hi ệ n ch ứ c n ă ng, nhi