In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sortedcontainers import SortedList
from sklearn.model_selection import train_test_split
import math
from datetime import datetime
import re

In [17]:
df = pd.read_csv('../dataset/job_data_final.csv')

df['id'] = range(1, len(df) + 1)

In [18]:

def get_average_experience(string):
    numbers = [int(s) for s in string.split() if s.isdigit()]
    if numbers:
        return sum(numbers) / len(numbers)
    else:
        return 0

df['job_experience'] = df['job_experience'].apply(get_average_experience)

In [19]:
def process_salary_range(salary_str):
    if isinstance(salary_str, str):
        numbers = [int(s) for s in salary_str.split() if s.isdigit()]
        
        if 'cạnh tranh' in salary_str.lower():
            return np.nan
        elif numbers:
            return sum(numbers) / len(numbers)
        else:
            return None
    else:
        return None

df['job_salary'] = df['job_salary'].apply(process_salary_range)

In [20]:
unique_job_levels = df['job_level'].unique()

job_level_mapping = {
    'Nhân viên': 1,
    'Mới tốt nghiệp': 2,
    'Quản lý': 3,
    'Trưởng nhóm / Giám sát': 4,
    'Giám đốc': 5,
    'Tổng giám đốc': 6,
    'Phó Giám đốc': 7,
    'Sinh viên/ Thực tập sinh': 8
}

df['job_level'] = df['job_level'].map(job_level_mapping).fillna(0).astype(int)

In [21]:
df = df.dropna(thresh=df.shape[1]-3)
df['job_name'] =df['job_name'].fillna('')
df = shuffle(df)
df.head(10)

Unnamed: 0,link,job_name,id_company,company_name,job_salary,job_experience,job_level,job_expired_date,job_details,job_required,company_logo,job_address,id
4149,https://careerviet.vn/vi/tim-viec-lam/service-...,Service Desk Engineer,35A5AF09,Teamwork Vietnam Ltd,14.5,5.5,1,10/02/2024,"Mô tả Công việc\nAs service desk engineer, you...",Yêu Cầu Công Việc\n· Advanced knowledge of ...,https://images.careerviet.vn/employers/50697/1...,Vĩnh Long,4150
385,https://careerviet.vn/vi/tim-viec-lam/chuyen-v...,Chuyên viên Khách hàng cá nhân - CN. Long An,35A66D70,Ngân Hàng TMCP Quân Đội,22.5,1.0,1,28/02/2024,Mô tả Công việc\nLập kế hoạch và triển khai cá...,Yêu Cầu Công Việc\nƯu tiên tốt nghiệp từ đại h...,https://images.careerviet.vn/employer_folders/...,Cao Bằng,386
944,https://careerviet.vn/vi/tim-viec-lam/truong-p...,Trưởng Phòng Tư Vấn Tuyển Sinh - Chi Nhánh Dươ...,35A7EA3E,Công ty CP Scots English Australia,20.0,1.5,4,31/01/2024,Mô tả Công việc\n- Quản lý 6-10 nhân viên kinh...,Yêu Cầu Công Việc\n- Nam/Nữ 23 - 30 tuổi\n- Tố...,https://images.careerviet.vn/employer_folders/...,Nam Định,945
945,https://careerviet.vn/vi/tim-viec-lam/phien-di...,Phiên dịch tiếng Nhật,35A99F9E,CÔNG TY TNHH JOB HOUSE,23.5,2.0,1,01/05/2024,Mô tả Công việc\nChi tiết công việc\nPhiên dịc...,Yêu Cầu Công Việc\nGiới tính : Nam\nĐộ tuổi : ...,https://images.careerviet.vn/employer_folders/...,Cao Bằng,946
1837,https://careerviet.vn/vi/tim-viec-lam/merchand...,Merchandising Manager,35A847FD,CÔNG TY TNHH DỊCH VỤ LEVELONE VIỆT NAM,,6.0,3,10/02/2024,Mô tả Công việc\n- Responsible for the project...,Yêu Cầu Công Việc\n1. Bachelor's degree i...,https://images.careerviet.vn/employer_folders/...,Lạng Sơn,1838
3899,https://careerviet.vn/vi/tim-viec-lam/101425-w...,101425 - Warehouse Manager (Fulfillment Site) ...,35A63BED,"RGF HR Agent Vietnam Co., LTD",25.5,6.0,1,12/02/2024,Mô tả Công việc\n- Work Location: Duc Hoa Dist...,Yêu Cầu Công Việc\n<Necessary Skill / Experien...,https://images.careerviet.vn/employer_folders/...,Bình Dương,3900
3891,https://careerviet.vn/vi/tim-viec-lam/tho-tien...,Thợ tiện-Phay bào,35A9045A,NHÀ MÁY TÔN HOA SEN PHÚ MỸ CHI NHÁNH CÔNG TY C...,9.5,0.0,1,12/02/2024,"Mô tả Công việc\nVận hành máy tiện, mài trục P...","Yêu Cầu Công Việc\nTrung cấp trở lên,cơ khí ch...",https://static.careerviet.vn/themes/kiemviecv3...,Vĩnh Long,3892
4465,https://careerviet.vn/vi/tim-viec-lam/chuyen-v...,CHUYÊN VIÊN THẨM ĐỊNH GIÁ – [BAC A BANK AMC],35A706C2,Ngân Hàng Thương mại cổ phần Bắc Á- BAC A BANK,,2.0,1,07/02/2024,Mô tả Công việc\nThực hiện vụ thẩm định giá th...,Yêu Cầu Công Việc\nTuổi dưới 35; tốt nghiệp đạ...,https://images.careerviet.vn/employer_folders/...,Kiên Giang,4466
3406,https://careerviet.vn/vi/tim-viec-lam/ho-chuye...,"HO - Chuyên viên cao cấp Báo cáo kế toán, Phòn...",35A5022A,Ngân Hàng TMCP Phương Đông - OCB,,3.0,1,16/02/2024,Mô tả Công việc\nThu thập và xử lý các số liệu...,Yêu Cầu Công Việc\nTốt nghiệp Đại học trở lên ...,https://images.careerviet.vn/employers/6442/14...,Đắk Lắk,3407
4633,https://careerviet.vn/vi/tim-viec-lam/quan-5-c...,[Quận 5] Chuyên Viên Tư Vấn Tài Chính - Kênh L...,35A82690,BIDV Metlife Life Insurance LLC,,2.0,1,05/02/2024,Mô tả Công việc\nI. MÔ TẢ CÔNG VIỆC:\nBạn biết...,Yêu Cầu Công Việc\nTrình độ: Cao đẳng / Đại họ...,https://images.careerviet.vn/employer_folders/...,Quảng Ngãi,4634


In [22]:
jobs = {}
for row in df.values:
  link,job_name,id_company,company_name,job_salary,job_experience,job_level,job_expired_date,job_details,job_required, company_logo, job_address, id =row
  jobs[id] = {
      'id': id,
      'job_name': job_name,
      'id_company': id_company,
      'company_name': company_name,
      'job_salary': job_salary,
      'job_experience': job_experience,
      'job_level': job_level,
      'job_expired_date':job_expired_date,
      'job_details': job_details,
      'job_required':job_required,
      'company_logo':company_logo,
      'job_address':job_address
  }

In [23]:
def get_sim_job_cv_target(cv_target, job_id_i):
    job_target = set(jobs[job_id_i]['job_name'])
    cv_target = set(cv_target)
    return  0.3 * len(cv_target.intersection(job_target)) / len(cv_target.union(job_target))

def get_sim_job_cv_skill(cv_skill, job_id_i):
    job_required = set(jobs[job_id_i]['job_required'])
    cv_skill = set(cv_skill)
    return  0.4 * len(cv_skill.intersection(job_required)) / len(cv_skill.union(job_required))

def get_sim_job_cv_interested(cv_interested, job_id_i):
    job_details = set(jobs[job_id_i]['job_details'])
    cv_interested = set(cv_interested)
    return  0.3 * len(cv_interested.intersection(job_details)) / len(cv_interested.union(job_details))

def get_job_cv_similarities(cv_target, cv_skill, cv_interested, job_id_i):
    sim_target = get_sim_job_cv_target(cv_target, job_id_i)
    sim_required = get_sim_job_cv_skill(cv_skill, job_id_i)
    sim_details = get_sim_job_cv_interested(cv_interested, job_id_i)
   
    return sim_target + sim_required + sim_details

In [24]:
job_id = 193
k = 10
cv_target = 'CHUYÊN VIÊN Lập trình'
cv_skill = 'PHP, Python'
cv_interested = 'Cài đặt và vận hành máy nguyên chuyền lắp ráp'
list = SortedList()
for id in jobs.keys():
    sim = get_job_cv_similarities(cv_target, cv_skill, cv_interested, id)
    list.add((sim, id))
    if len(list) > k:
        del list[0]
sorted_list = sorted(list, reverse=True) 
top_k = sorted_list[:k]  
result = []
for score, id in sorted_list:
    result.append({
        'id': id,
        'job_name': jobs[id]['job_name'],
        'id_company': jobs[id]['id_company'],
        'company_name': jobs[id]['company_name'],
        'job_salary': jobs[id]['job_salary'],
        'job_experience': jobs[id]['job_experience'],
        'job_level': jobs[id]['job_level'],
        'job_expired_date': jobs[id]['job_expired_date'],
        'job_details': jobs[id]['job_details'],
        'job_required': jobs[id]['job_required'],
        'company_logo': jobs[id]['company_logo'],
        'job_address': jobs[id]['job_address']
    })

print(result)

[{'id': 4412, 'job_name': 'CHUYÊN VIÊN TUYỂN SINH', 'id_company': '35A995A9', 'company_name': 'CÔNG TY CỔ PHẦN GIÁO DỤC CAN ENGLISH', 'job_salary': 12.5, 'job_experience': 0.0, 'job_level': 1, 'job_expired_date': '08/02/2024', 'job_details': 'Mô tả Công việc\nTìm kiếm khách hàng tiềm năng\nChăm sóc khách hàng tiềm năng\nPhối hợp liên phòng trong các hoạt động chung của Công ty và tập đoàn theo sự phân công của Quản lý trực tiếp và Ban lãnh đạo\nCác công việc theo sự chỉ đạo của trưởng phòng kinh doanh', 'job_required': 'Yêu Cầu Công Việc\n- Trách nhiệm, chủ động công việc.\n- Nam/ Nữ độ tuổi 35, trình độ Cao Đẳng/ Đại học trở lên.\n- Tác phong lịch sự, chuyên nghiệp.', 'company_logo': 'https://static.careerviet.vn/themes/kiemviecv32/images/graphics/logo-default.png', 'job_address': 'Lạng Sơn'}, {'id': 3005, 'job_name': 'Nhân Lập trình vận hành CNC', 'id_company': '35A97AFB', 'company_name': 'H. Nicholas & Co Joint Stock Company', 'job_salary': 15.0, 'job_experience': 0.0, 'job_level': 

In [9]:
def get_sim_job_name(job_id_i, job_id_j):
    job_name_i = set(jobs[job_id_i]['job_name'])
    job_name_j = set(jobs[job_id_j]['job_name'])

    return  0.4 * len(job_name_i.intersection(job_name_j)) / len(job_name_i.union(job_name_j))

def get_sim_id_company(job_id_i, job_id_j):
    id_company_i = jobs[job_id_i]['id_company']
    id_company_j = jobs[job_id_j]['id_company']

    if  id_company_i == id_company_j:
        return 0.1
    return  0

def get_sim_job_experience(job_id_i,job_id_j):
    job_experience_i = float(jobs[job_id_i]['job_experience'])
    job_experience_j = float(jobs[job_id_j]['job_experience'])

    if job_experience_i == 0 or job_experience_j == 0:
        return 0

    diff = abs(job_experience_i - job_experience_j)
    if diff < 0.25:
        return 0.2
    elif diff < 0.5:
        return 0.2 * 0.8
    elif diff < 0.75:
        return 0.2 * 0.6
    elif diff < 1:
        return 0.2 * 0.4
    return 0

def get_sim_job_salary(job_id_i,job_id_j):
    job_salary_i = float(jobs[job_id_i]['job_salary'])
    job_salary_j = float(jobs[job_id_j]['job_salary'])

    diff = abs(job_salary_i - job_salary_j)
    if diff < 1:
        return 0.2
    elif diff < 5:
        return 0.2 * 0.8
    elif diff < 8:
        return 0.2 * 0.6
    elif diff < 10:
        return 0.2 * 0.4
    return 0
    

def get_sim_job_level(job_id_i,job_id_j):
    job_level_i = int(jobs[job_id_i]['job_level'])
    job_level_j = int(jobs[job_id_j]['job_level'])
    if job_level_i == job_level_j: 
        return 0.1
    return  0

def get_job_similarities(job_id_i, job_id_j):
    sim_name = get_sim_job_name(job_id_i, job_id_j)
    sim_id_company = get_sim_id_company(job_id_i, job_id_j)
    sim_experience = get_sim_job_experience(job_id_i, job_id_j)
    sim_salary = get_sim_job_salary(job_id_i, job_id_j)
    sim_level = get_sim_job_level(job_id_i, job_id_j)
  
   
    return sim_name + sim_id_company + sim_experience + sim_salary + sim_level 

In [10]:
job_id = 193
k = 10
list = SortedList()
for id in jobs.keys():
    if (id == job_id):
        continue
    sim = get_job_similarities(job_id, id)
    list.add((sim, jobs[id]['job_name']))
    if len(list) > k:
        del list[0]
sorted_list = sorted(list, reverse=True) 
top_k = sorted_list[:k]  
print(top_k)

[(0.531578947368421, 'Digital Marketing Leader'), (0.5272727272727273, 'Tax Supervisor'), (0.5, 'Performance Marketing Leader'), (0.4904761904761905, 'Leader Thiết kế thời trang'), (0.4894736842105263, 'Product Owner'), (0.476, 'Chuyển giao Công nghệ (TT Leader)'), (0.476, 'Chuyên viên cao cấp Marketing'), (0.4714285714285714, 'Operation Supervisor'), (0.4666666666666667, 'Customs Liquidation Specialist'), (0.4647058823529412, 'Leader Media')]
