In [1]:
from preprocess_data.parse_data import ParseHandler
from preprocess_data.chunking import ChunkHandler
import os
import io
api_key = os.environ["OPENAI_API_KEY"]

In [2]:
def parsing(file_stream, pdf_path):
    parsehandler = ParseHandler.get_instance(api_key=api_key)
    image_base64s = parsehandler.pdf_to_images(file_stream, pdf_path)
    pdf_info, tables = parsehandler.parse_pdf(image_base64s, pdf_path)
    return pdf_info, tables

In [3]:
def chunking(pdf_info, tables):
    chunkhandler = ChunkHandler.get_instance(api_key)
    chunks = []
    articles = chunkhandler.create_article(pdf_info)
    chunks.extend(articles)

    forms = chunkhandler.create_form(pdf_info)
    chunks.extend(forms)

    tbls = chunkhandler.create_table(tables)
    chunks.extend(tbls)

    equations = chunkhandler.create_equation(pdf_info)
    chunks.extend(equations)

    return chunks

In [4]:
def pdf_to_stream(file_path):
    with open(file_path, 'rb') as pdf_file:
        pdf_content = pdf_file.read()
        pdf_stream = io.BytesIO(pdf_content)
    return pdf_stream

In [9]:
file_path = 'thuvienphapluat/law_2. Tai lieu Khach hang cung cap_5. Salary Regulation 2024 (V) (1).pdf'
pdf_stream = pdf_to_stream(file_path)

In [10]:
pdf_info, tables = parsing(pdf_stream, file_path)

In [11]:
pdf_info

{'content': '* Trang 1\n\n# QUY ĐỊNH VỀ TIỀN LƯƠNG – TIỀN THƯỞNG\n\nSửa đổi 1: Ngày 01 tháng 01 năm 2011  \nSửa đổi 2: Ngày 01 tháng 05 năm 2011  \nSửa đổi 3: Ngày 01 tháng 01 năm 2012  \nSửa đổi 4: Ngày 01 tháng 05 năm 2013  \nSửa đổi 5: Ngày 01 tháng 01 năm 2014  \nSửa đổi 6: Ngày 01 tháng 01 năm 2015  \nSửa đổi 7: Ngày 01 tháng 01 năm 2016  \nSửa đổi 8: Ngày 01 tháng 01 năm 2017  \nSửa đổi 9: Ngày 01 tháng 01 năm 2022  \nSửa đổi 10: Ngày 01 tháng 01 năm 2023  \nSửa đổi 11: Ngày 01 tháng 12 năm 2023  \n\n# CÔNG TY TNHH BƠM Ebara VIỆT NAM\n\nPhê duyệt bởi  \nTổng giám đốc  \n\nSoạn thảo bởi  \nBan Nhân sự  \n\nTetsuya Fuchida  \nNguyen Tu Khanh  \n\n* Trang 2\n\n# Điều 1: Quy định về tiền lương\nCông ty sẽ trả lương cho toàn bộ công nhân viên theo lương tháng và lương ngày, coi đó là sự bù đắp sức lao động trên cơ sở xem xét kết quả trình làm việc, thành tích, năng suất, chất lượng, hiệu quả công việc và sinh hoạt phí phù hợp với tình hình xã hội và kết quả kinh doanh của công ty.\n\n

In [12]:
tables

[{'page': 5,
  'content': 'Table 1\n\n| Khấu trừ 1 ngày vắng mặt | = | Lương thường xuyên  | *  | (1 - Số ngày làm việc tiêu chuẩn hàng tháng (= 22*)) |\n\nTable 2\n\n| Lương tháng trong thời gian thử việc | = | [Lương thường xuyên * 85%] | * | (1 - Số ngày làm việc tiêu chuẩn hàng tháng (22 ngày) * \nSố ngày làm việc trong tháng)  |\n',
  'reference': 'QUY ĐỊNH VỀ TIỀN LƯƠNG – TIỀN THƯỞNG ',
  'src': 'thuvienphapluat/law_2. Tai lieu Khach hang cung cap_5. Salary Regulation 2024 (V) (1).pdf'},
 {'page': 6,
  'content': 'Table 1\n\n|                   | Ngày thường | Thứ 7, Chủ nhật & Ngày nghỉ Lễ của Công ty | Ngày lễ  |\n|-------------------|--------------|--------------------------------------------|----------|\n| 6:00AM - 22:00    | 1.5          | 2.0                                        | 3.0      |\n| 22:00 - 6:00AM    | 2.1 = 1.5 + 0.3**3 + (0.2**3 x 1.5) | 2.7 = 2.0 + 0.3**3 + (0.2**3 x 2.0)          | 3.9 = 3.0 + 0.3**3 + (0.2**3 x 3.0) |',
  'reference': 'QUY ĐỊNH VỀ TIỀN LƯ

In [13]:
print(pdf_info["content"])

* Trang 1

# QUY ĐỊNH VỀ TIỀN LƯƠNG – TIỀN THƯỞNG

Sửa đổi 1: Ngày 01 tháng 01 năm 2011  
Sửa đổi 2: Ngày 01 tháng 05 năm 2011  
Sửa đổi 3: Ngày 01 tháng 01 năm 2012  
Sửa đổi 4: Ngày 01 tháng 05 năm 2013  
Sửa đổi 5: Ngày 01 tháng 01 năm 2014  
Sửa đổi 6: Ngày 01 tháng 01 năm 2015  
Sửa đổi 7: Ngày 01 tháng 01 năm 2016  
Sửa đổi 8: Ngày 01 tháng 01 năm 2017  
Sửa đổi 9: Ngày 01 tháng 01 năm 2022  
Sửa đổi 10: Ngày 01 tháng 01 năm 2023  
Sửa đổi 11: Ngày 01 tháng 12 năm 2023  

# CÔNG TY TNHH BƠM Ebara VIỆT NAM

Phê duyệt bởi  
Tổng giám đốc  

Soạn thảo bởi  
Ban Nhân sự  

Tetsuya Fuchida  
Nguyen Tu Khanh  

* Trang 2

# Điều 1: Quy định về tiền lương
Công ty sẽ trả lương cho toàn bộ công nhân viên theo lương tháng và lương ngày, coi đó là sự bù đắp sức lao động trên cơ sở xem xét kết quả trình làm việc, thành tích, năng suất, chất lượng, hiệu quả công việc và sinh hoạt phí phù hợp với tình hình xã hội và kết quả kinh doanh của công ty.

# Điều 2: Cơ cấu tiền lương
## Lương thường x

In [14]:
import json
with open("preprocess_data/test_result.json", "w", encoding="utf-8") as json_file:
    json.dump({"pdf_info": pdf_info, "tables": tables}, json_file, indent=4, ensure_ascii=False)

In [5]:
import json
with open("preprocess_data/test_result.json", "r", encoding="utf-8") as json_file:
    data = json.load(json_file)

In [6]:
pdf_info = data["pdf_info"]
tables = data["tables"]

In [7]:
pdf_info

{'content': '* Trang 1\n\n# QUY ĐỊNH VỀ TIỀN LƯƠNG – TIỀN THƯỞNG\n\nSửa đổi 1: Ngày 01 tháng 01 năm 2011  \nSửa đổi 2: Ngày 01 tháng 05 năm 2011  \nSửa đổi 3: Ngày 01 tháng 01 năm 2012  \nSửa đổi 4: Ngày 01 tháng 05 năm 2013  \nSửa đổi 5: Ngày 01 tháng 01 năm 2014  \nSửa đổi 6: Ngày 01 tháng 01 năm 2015  \nSửa đổi 7: Ngày 01 tháng 01 năm 2016  \nSửa đổi 8: Ngày 01 tháng 01 năm 2017  \nSửa đổi 9: Ngày 01 tháng 01 năm 2022  \nSửa đổi 10: Ngày 01 tháng 01 năm 2023  \nSửa đổi 11: Ngày 01 tháng 12 năm 2023  \n\n# CÔNG TY TNHH BƠM Ebara VIỆT NAM\n\nPhê duyệt bởi  \nTổng giám đốc  \n\nSoạn thảo bởi  \nBan Nhân sự  \n\nTetsuya Fuchida  \nNguyen Tu Khanh  \n\n* Trang 2\n\n# Điều 1: Quy định về tiền lương\nCông ty sẽ trả lương cho toàn bộ công nhân viên theo lương tháng và lương ngày, coi đó là sự bù đắp sức lao động trên cơ sở xem xét kết quả trình làm việc, thành tích, năng suất, chất lượng, hiệu quả công việc và sinh hoạt phí phù hợp với tình hình xã hội và kết quả kinh doanh của công ty.\n\n

In [8]:
chunks = chunking(pdf_info, tables)

In [9]:
chunks

[{'raw_text': '# Điều 1: Quy định về tiền lương\nCông ty sẽ trả lương cho toàn bộ công nhân viên theo lương tháng và lương ngày, coi đó là sự bù đắp sức lao động trên cơ sở xem xét kết quả trình làm việc, thành tích, năng suất, chất lượng, hiệu quả công việc và sinh hoạt phí phù hợp với tình hình xã hội và kết quả kinh doanh của công ty.',
  'content': ' Điều 1: Quy định về tiền lương\nCông ty sẽ trả lương cho toàn bộ công nhân viên theo lương tháng và lương ngày, coi đó là sự bù đắp sức lao động trên cơ sở xem xét kết quả trình làm việc, thành tích, năng suất, chất lượng, hiệu quả công việc và sinh hoạt phí phù hợp với tình hình xã hội và kết quả kinh doanh của công ty.',
  'summary': 'Đoạn văn bản này chứa thông tin về quy định và chính sách tiền lương của công ty đối với công nhân viên.',
  'src': 'thuvienphapluat/law_2. Tai lieu Khach hang cung cap_5. Salary Regulation 2024 (V) (1).pdf',
  'chapter': '',
  'page': 2,
  'reference': 'QUY ĐỊNH VỀ TIỀN LƯƠNG – TIỀN THƯỞNG '},
 {'raw_t