In [2]:
import os
import re
# Hàm trích xuất tên thủ tục
def extract_procedure_name(text):
    match = re.search(r"Tên thủ tục:\s*(.*)", text)
    if match:
        return match.group(1).strip()
    return None

# Hàm chia nhỏ tệp txt dựa trên đề mục
def split_text_sections(text, procedure_name, original_filepath):
    sections = {
        "Chi tiết thủ tục (Mã, số quyết định, tên, tên, cấp thực hiện, loại, lĩnh vực của thủ tục)": "",
        "Trình tự thực hiện (các bước thực hiện)": "",
        "Cách thức thực hiện (Hình thức nộp hồ sơ, Thời hạn giải quyết, phí, lệ phí nộp hồ sơ, mô tả của hồ sơ)": "",
        "Thành phần hồ sơ, các giấy tờ cần thiết (loại giấy tờ, số lượng bản chính bản sao, mẫu đơn tờ khai)": "",
        "Đối tượng thực hiện, các cơ quan liên quan, và căn cứ pháp lý": "",
        "Yêu cầu, điều kiện thực hiện (các yêu cầu, quy định cần thực hiện)": ""
    }
    
    # Chia văn bản dựa trên các đề mục
    chi_tiet_start = text.find("Chi tiết thủ tục hành chính:")
    trinh_tu_start = text.find("Trình tự thực hiện:")
    cach_thuc_start = text.find("Cách thức thực hiện:")
    doi_tuong_start = text.find("Đối tượng thực hiện:")
    thanh_phan_start = text.find("Thành phần hồ sơ:")
    yeu_cau_start = text.find("Yêu cầu, điều kiện thực hiện:")
    
    sections["Chi tiết thủ tục (Mã, số quyết định, tên, tên, cấp thực hiện, loại, lĩnh vực của thủ tục)"] = text[chi_tiet_start:trinh_tu_start].strip()
    sections["Trình tự thực hiện (các bước thực hiện)"] = text[trinh_tu_start:cach_thuc_start].strip()
    sections["Cách thức thực hiện (Hình thức nộp hồ sơ, Thời hạn giải quyết, phí, lệ phí nộp hồ sơ, mô tả của hồ sơ)"] = text[cach_thuc_start:thanh_phan_start].strip()
    sections["Thành phần hồ sơ, các giấy tờ cần thiết (loại giấy tờ, số lượng bản chính bản sao, mẫu đơn tờ khai)"] = text[thanh_phan_start:doi_tuong_start].strip()
    sections["Đối tượng thực hiện, các cơ quan liên quan, và căn cứ pháp lý"] = text[doi_tuong_start:yeu_cau_start].strip()
    sections["Yêu cầu, điều kiện thực hiện (các yêu cầu, quy định cần thực hiện)"] = text[yeu_cau_start:].strip()
    
    # Lưu các phần vào tệp với tên file gốc + "_1", "_2", "_3", "_4"
    base_filename = os.path.splitext(os.path.basename(original_filepath))[0]
    dir_path = "./data/selfquery_data/"
    
    for i, (section, content) in enumerate(sections.items(), start=1):
        new_content = f"Tên thủ tục: {procedure_name}\nNội dung: {section}\n\n{content}"
        
        new_filename = os.path.join(dir_path, f"{base_filename}_{i}.txt")
        with open(new_filename, "w", encoding="utf-8") as file:
            file.write(new_content)
        print(f"Đã lưu {new_filename}")

# Hàm đọc tệp và xử lý
def process_file_slice_chunk(filepath):
    # Đọc nội dung của tệp đầu vào từ đường dẫn filepath
    with open(filepath, "r", encoding="utf-8") as file:
        text = file.read()
    
    # Trích xuất tên thủ tục
    procedure_name = extract_procedure_name(text)
    # Chia và lưu từng phần vào các tệp mới
    split_text_sections(text, procedure_name, filepath)

# Đường dẫn file đầu vào
# input_filepath = "./data/txt_file/1.004095.txt"
def get_all_filepaths(folder_path):
    # Lấy tất cả các file trong folder_path
    file_paths = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            file_paths.append(os.path.join(root, file))
    return file_paths

# Đường dẫn đến thư mục
folder_path = "./data/txt_file"

def process_file_switch_url(filepath):
    # Đọc nội dung của tệp đầu vào từ đường dẫn filepath
    with open(filepath, "r", encoding="utf-8") as file:
        text = file.read()
    
    pattern = r'<a href="([^"]+)">([^<]+)</a>'
    replacement = r'[\2](\1)'
    converted_text = re.sub(pattern, replacement, text)
    base_filename = os.path.splitext(os.path.basename(filepath))[0]
    new_filename = os.path.join("./data/txt_file_new/", f"{base_filename}.txt")
    with open(new_filename, "w", encoding="utf-8") as file:
        file.write(converted_text)
        print(f"Đã lưu {new_filename}")



In [2]:
file_paths = get_all_filepaths(folder_path)
for path in file_paths:
    process_file_switch_url(path)

Đã lưu ./data/txt_file_new/1.000009.txt
Đã lưu ./data/txt_file_new/1.000010.txt
Đã lưu ./data/txt_file_new/1.000017.txt
Đã lưu ./data/txt_file_new/1.000023.txt
Đã lưu ./data/txt_file_new/1.000027.txt
Đã lưu ./data/txt_file_new/1.000028.txt
Đã lưu ./data/txt_file_new/1.000035.txt
Đã lưu ./data/txt_file_new/1.000037.txt
Đã lưu ./data/txt_file_new/1.000039.txt
Đã lưu ./data/txt_file_new/1.000045.txt
Đã lưu ./data/txt_file_new/1.000047.txt
Đã lưu ./data/txt_file_new/1.000049.txt
Đã lưu ./data/txt_file_new/1.000051.txt
Đã lưu ./data/txt_file_new/1.000052.txt
Đã lưu ./data/txt_file_new/1.000055.txt
Đã lưu ./data/txt_file_new/1.000058.txt
Đã lưu ./data/txt_file_new/1.000060.txt
Đã lưu ./data/txt_file_new/1.000063.txt
Đã lưu ./data/txt_file_new/1.000065.txt
Đã lưu ./data/txt_file_new/1.000066.txt
Đã lưu ./data/txt_file_new/1.000069.txt
Đã lưu ./data/txt_file_new/1.000070.txt
Đã lưu ./data/txt_file_new/1.000071.txt
Đã lưu ./data/txt_file_new/1.000077.txt
Đã lưu ./data/txt_file_new/1.000080.txt


In [9]:
import pandas as pd
pq = pd.read_parquet("./data/corpus.parquet")

In [1]:
from langchain_community.document_loaders import TextLoader
from pathlib import Path
from autorag.data.corpus import langchain_documents_to_parquet
directory_path = './data/txt_file_new/'
documents = []
for file_path in Path(directory_path).rglob('*.*'):
    if file_path.is_file():
        loader = TextLoader(str(file_path), encoding='utf8')
        data = loader.load()  # Returns a list of documents
        documents.extend(data)








In [None]:
corpus_df = langchain_documents_to_parquet(documents, './data/corpus.parquet')

In [10]:
pq 

Unnamed: 0,doc_id,contents,metadata
0,f9d8a6d3-b005-450d-9e2e-1afac960a143,Chi tiết thủ tục hành chính:\nMã thủ tục:\n1.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
1,fd7ef4c0-ca93-49e2-adea-ea7762c5c7f3,Chi tiết thủ tục hành chính:\nMã thủ tục:\n1.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
2,cb802b19-c2e2-4781-8d16-d784336611ef,Chi tiết thủ tục hành chính:\nMã thủ tục:\n1.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
3,38f9ad15-552d-43ab-9be5-05e24230035a,Chi tiết thủ tục hành chính:\nMã thủ tục:\n1.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
4,04008e9c-bd54-4713-9fc3-cac32fe483b8,Chi tiết thủ tục hành chính:\nMã thủ tục:\n1.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
...,...,...,...
2785,d13f40d9-36b1-4ab7-b4c9-794b167631a0,Chi tiết thủ tục hành chính:\nMã thủ tục:\n3.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
2786,64b3e153-7d2a-477d-9d74-1558a545d723,Chi tiết thủ tục hành chính:\nMã thủ tục:\n3.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
2787,029acf08-508c-4eec-912e-b4422ff2a7ae,Chi tiết thủ tục hành chính:\nMã thủ tục:\n3.0...,{'last_modified_datetime': 2024-11-23 23:41:11...
2788,c050b5ad-6838-49aa-8256-fce852230324,Chi tiết thủ tục hành chính:\nMã thủ tục:\n3.0...,{'last_modified_datetime': 2024-11-23 23:41:11...


In [3]:
file_paths = get_all_filepaths(folder_path)

In [5]:
file_paths = [os.path.splitext(os.path.basename(file_path))[0] for file_path in file_paths]

In [7]:
file_paths[:1000]

['1.000009',
 '1.000010',
 '1.000017',
 '1.000023',
 '1.000027',
 '1.000028',
 '1.000035',
 '1.000037',
 '1.000039',
 '1.000045',
 '1.000047',
 '1.000049',
 '1.000051',
 '1.000052',
 '1.000055',
 '1.000058',
 '1.000060',
 '1.000063',
 '1.000065',
 '1.000066',
 '1.000069',
 '1.000070',
 '1.000071',
 '1.000077',
 '1.000080',
 '1.000081',
 '1.000082',
 '1.000084',
 '1.000088',
 '1.000089',
 '1.000095',
 '1.000097',
 '1.000099',
 '1.000103',
 '1.000105',
 '1.000109',
 '1.000111',
 '1.000117',
 '1.000121',
 '1.000127',
 '1.000129',
 '1.000133',
 '1.000144',
 '1.000146',
 '1.000160',
 '1.000163',
 '1.000176',
 '1.000191',
 '1.000197',
 '1.000199',
 '1.000209',
 '1.000214',
 '1.000216',
 '1.000225',
 '1.000226',
 '1.000229',
 '1.000232',
 '1.000241',
 '1.000247',
 '1.000267',
 '1.000274',
 '1.000279',
 '1.000281',
 '1.000284',
 '1.000289',
 '1.000294',
 '1.000299',
 '1.000300',
 '1.000323',
 '1.000325',
 '1.000326',
 '1.000328',
 '1.000330',
 '1.000332',
 '1.000334',
 '1.000335',
 '1.000344',