In [6]:
import re
from pprint import pprint

# Job ban đầu
job_raw = {
    "title": "[Quận Tân Bình, HCM] Trưởng Nhóm Dự Án IT (Tiếng Nhật) (35Tr-52Tr) (24996)",
    "company": "Công Ty TNHH Reeracoen Việt Nam",
    "image_url": "https://images.careerviet.vn/employer_folders/lot6/174636/141243reeracoenlogonobackground.png",
    "salary": "35000000 - 52000000 ",
    "industry": "Điện / Điện tử / Điện lạnh , CNTT - Phần mềm , CNTT - Phần cứng / Mạng ",
    "position": "Trưởng nhóm / Giám sát",
    "location": "Hồ Chí Minh",
    "requirements": {
        "degree": "Đại học",
        "experience": "2-5 Năm",
        "context": "Tốt nghiệp Đại học chuyên ngành CNTT hoặc các ngành liên quan\n"
        "Tiếng Nhật: JLPT N3 trở lên\n"
        "Tối thiểu 2 năm kinh nghiệm quản lý dự án trong vai trò BrSE, Trưởng Dự Án, hoặc Trưởng Nhóm\n"
        "Kinh nghiệm phát triển phần mềm với các ngôn ngữ như Java, .Net, Python, v.v.\n"
        "Kiến thức tốt hoặc kinh nghiệm thực tế về cơ sở dữ liệu SQL/non-SQL như MS SQL, PostgreSQL, MongoDB, v.v.",
    },
    "jd": "① Nhiệm vụ quản lý,Dẫn dắt đội ngũ phát triển ứng dụng/trang web\n"
    "Hướng dẫn, đào tạo và hỗ trợ kỹ thuật\nƯớc lượng khối lượng công việc và chi phí cho dự án\n"
    "Giao tiếp và đàm phán với khách hàng,② Nhiệm vụ kỹ thuật,Dẫn dắt việc lập kế hoạch, thiết kế và phát triển các hệ thống phần mềm hoặc phần cứng nhằm giúp công ty hoặc khách hàng đạt được mục tiêu\n"
    "Xây dựng kế hoạch duy trì hoạt động kinh doanh\nCung cấp hướng dẫn kỹ thuật và chỉ đạo cụ thể cho các thành viên cấp dưới",
}

In [7]:
# Xử lý dữ liệu
def preprocess_job(job):
    # Đổi tên các trường để phù hợp với format đã xử lý
    processed_job = {
        "title": job["title"],
        "companyName": job["company"],
        "imageURL": job["image_url"],
        "salaryRange": job["salary"],
        "industry": job["industry"],
        "position": job["position"],
        "location": job["location"],
        "requirementContext": job["requirements"]["context"],
        "requiredDegree": job["requirements"]["degree"],
        "requiredExperience": job["requirements"]["experience"],
        "jobDescription": job["jd"],
    }

    # Trích xuất kỹ năng từ context và job description
    skills_pattern = re.compile(
        r"\b(?:java|\.net|python|sql|postgresql|mongodb|quản lý dự án|giao tiếp|đàm phán)\b",
        re.IGNORECASE,
    )
    context_skills = skills_pattern.findall(job["requirements"]["context"])
    jd_skills = skills_pattern.findall(job["jd"])
    unique_skills = list(set(context_skills + jd_skills))
    processed_job["skillsRequired"] = str([skill.lower() for skill in unique_skills])

    # Tạo combined_text từ JD, Context và Skills
    combined_text = (
        "[JD] " + job["jd"].replace("\n", " ") + " "
        "[Context] " + job["requirements"]["context"].replace("\n", " ") + " "
        "[Skills] " + str(unique_skills)
    )
    # Chuẩn hóa combined_text
    processed_job["combined_text"] = re.sub(r"\s+", " ", combined_text).strip()

    return processed_job

In [8]:
# Áp dụng tiền xử lý
processed_job = preprocess_job(job_raw)

# In kết quả
print("Job đã xử lý:")
pprint(processed_job)

Job đã xử lý:
{'combined_text': '[JD] ① Nhiệm vụ quản lý,Dẫn dắt đội ngũ phát triển ứng '
                  'dụng/trang web Hướng dẫn, đào tạo và hỗ trợ kỹ thuật Ước '
                  'lượng khối lượng công việc và chi phí cho dự án Giao tiếp '
                  'và đàm phán với khách hàng,② Nhiệm vụ kỹ thuật,Dẫn dắt việc '
                  'lập kế hoạch, thiết kế và phát triển các hệ thống phần mềm '
                  'hoặc phần cứng nhằm giúp công ty hoặc khách hàng đạt được '
                  'mục tiêu Xây dựng kế hoạch duy trì hoạt động kinh doanh '
                  'Cung cấp hướng dẫn kỹ thuật và chỉ đạo cụ thể cho các thành '
                  'viên cấp dưới [Context] Tốt nghiệp Đại học chuyên ngành '
                  'CNTT hoặc các ngành liên quan Tiếng Nhật: JLPT N3 trở lên '
                  'Tối thiểu 2 năm kinh nghiệm quản lý dự án trong vai trò '
                  'BrSE, Trưởng Dự Án, hoặc Trưởng Nhóm Kinh nghiệm phát triển '
                  'phần mềm với các ngôn 