In [2]:
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
import os

In [9]:
! pip install sentence-transformers chromadb



In [3]:
documents = []
for filename in os.listdir('../../crawler/data/thutuchanhchinh_preprocessed'):
    text_loader = TextLoader('../../crawler/data/thutuchanhchinh_preprocessed/' + filename, encoding='utf-8')
    documents.extend(text_loader.load())
documents

[Document(page_content='Thủ tục hành chính tên Cấp lại Giấy phép vận tải đường bộ quốc tế giữa Việt Nam và Lào với mã 1.002859.000.00.00.H13 có các thông tin về  tên, số quyết định, cấp thực hiện, loại thủ tục và lĩnh vực như sau:\nThủ tục hành chính với mã thủ tục là 1.002859.000.00.00.H13 có tên là Cấp lại Giấy phép vận tải đường bộ quốc tế giữa Việt Nam và Lào được ban hành theo quyết định số 950/QĐ-UBND, thủ tục hành chính này được thực hiện ở các cấp: Cấp Bộ, Cấp Tỉnh. Nó thuộc loại thủ tục là TTHC được luật giao cho địa phương quy định hoặc quy định chi tiết (TTHC đặc thù của địa phương) và thuộc lĩnh vực Đường bộ.\n\nThủ tục hành chính tên Cấp lại Giấy phép vận tải đường bộ quốc tế giữa Việt Nam và Lào với mã 1.002859.000.00.00.H13 được thực hiện theo trình tự thực hiện như sau:\nb) Giải quyết TTHC:    - Cơ quan có thẩm quyền cấp giấy phép tiếp nhận, kiểm tra hồ sơ. Đối với hồ sơ nộp trực tiếp tại cơ quan có thẩm quyền cấp giấy phép hoặc qua đường bưu chính, cán bộ tiếp nhận hồ 

In [3]:
HF_EMBEDDING =  HuggingFaceEmbeddings(model_name="keepitreal/vietnamese-sbert")

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=1,
    chunk_overlap=0,
)

vectorstore = Chroma(persist_directory="./data" ,embedding_function=HF_EMBEDDING)
store = InMemoryStore()

# Parent document retriver without retrieve the full document.
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=text_splitter,
)



In [16]:
retriever.add_documents(documents)

Created a chunk of size 603, which is longer than the specified 1
Created a chunk of size 2424, which is longer than the specified 1
Created a chunk of size 729, which is longer than the specified 1
Created a chunk of size 617, which is longer than the specified 1
Created a chunk of size 827, which is longer than the specified 1
Created a chunk of size 613, which is longer than the specified 1
Created a chunk of size 318, which is longer than the specified 1
Created a chunk of size 484, which is longer than the specified 1
Created a chunk of size 713, which is longer than the specified 1
Created a chunk of size 707, which is longer than the specified 1
Created a chunk of size 671, which is longer than the specified 1
Created a chunk of size 1430, which is longer than the specified 1
Created a chunk of size 573, which is longer than the specified 1
Created a chunk of size 749, which is longer than the specified 1
Created a chunk of size 874, which is longer than the specified 1
Created 

In [5]:
question = "thủ tục đăng ký khai sinh cho con cần chuẩn bị hồ sơ gì?"
vectorstore.similarity_search_with_score(question)

[(Document(page_content='Cần chuẩn bị các hồ sơ sau đây và nộp tại Bộ phận Tiếp nhận và Trả kết quả của Ủy ban nhân dân cấp xã với thủ tục hành chính Thủ tục về Đăng ký khai sinh và cấp thẻ bảo hiểm y tế (cấp mới, cấp đổi và cấp lại) cho trẻ em dưới 6 tuổi:\n- Ghi chú: * Hồ sơ phải nộp:\n2. + Giấy chứng sinh. Trường hợp không có giấy chứng sinh thì nộp văn bản của người làm chứng xác nhận về việc sinh; nếu không có người làm chứng thì phải có Giấy cam đoan về việc sinh; trường hợp khai sinh cho trẻ em bị bỏ rơi phải có biên bản xác nhận việc trẻ bị bỏ rơi do cơ  quan có thẩm quyền lập; trường hợp khai sinh cho trẻ em sinh ra do mang thai hộ  phải có văn bản xác nhận của cơ sở y tế đã thực hiện kỹ thuật hỗ trợ sinh sản cho việc mang thai hộ. Văn bản ủy quyền theo quy định của pháp luật trong trường hợp ủy quyền thực hiện việc đăng ký khai sinh. Trường hợp người được ủy quyền là ông, bà, cha, mẹ, con, vợ, chồng, anh, chị, em ruột của người ủy quyền thì văn bản ủy quyền không phải công ch

In [7]:
retriever = vectorstore.as_retriever()
retriever.get_relevant_documents(question)

[Document(page_content='Cần chuẩn bị các hồ sơ sau đây và nộp tại Bộ phận Tiếp nhận và Trả kết quả của Ủy ban nhân dân cấp xã với thủ tục hành chính Thủ tục về Đăng ký khai sinh và cấp thẻ bảo hiểm y tế (cấp mới, cấp đổi và cấp lại) cho trẻ em dưới 6 tuổi:\n- Ghi chú: * Hồ sơ phải nộp:\n2. + Giấy chứng sinh. Trường hợp không có giấy chứng sinh thì nộp văn bản của người làm chứng xác nhận về việc sinh; nếu không có người làm chứng thì phải có Giấy cam đoan về việc sinh; trường hợp khai sinh cho trẻ em bị bỏ rơi phải có biên bản xác nhận việc trẻ bị bỏ rơi do cơ  quan có thẩm quyền lập; trường hợp khai sinh cho trẻ em sinh ra do mang thai hộ  phải có văn bản xác nhận của cơ sở y tế đã thực hiện kỹ thuật hỗ trợ sinh sản cho việc mang thai hộ. Văn bản ủy quyền theo quy định của pháp luật trong trường hợp ủy quyền thực hiện việc đăng ký khai sinh. Trường hợp người được ủy quyền là ông, bà, cha, mẹ, con, vợ, chồng, anh, chị, em ruột của người ủy quyền thì văn bản ủy quyền không phải công chứ