In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sortedcontainers import SortedList
from sklearn.model_selection import train_test_split
import math
from datetime import datetime
import re

In [2]:
df = pd.read_csv('../dataset/job_data_final.csv')

df['id'] = range(1, len(df) + 1)

In [3]:

def get_average_experience(string):
    numbers = [int(s) for s in string.split() if s.isdigit()]
    if numbers:
        return sum(numbers) / len(numbers)
    else:
        return 0

df['job_experience'] = df['job_experience'].apply(get_average_experience)

In [4]:
def process_salary_range(salary_str):
    if isinstance(salary_str, str):
        numbers = [int(s) for s in salary_str.split() if s.isdigit()]
        
        if 'cạnh tranh' in salary_str.lower():
            return np.nan
        elif numbers:
            return sum(numbers) / len(numbers)
        else:
            return None
    else:
        return None

df['job_salary'] = df['job_salary'].apply(process_salary_range)

In [5]:
unique_job_levels = df['job_level'].unique()

job_level_mapping = {
    'Nhân viên': 1,
    'Mới tốt nghiệp': 2,
    'Quản lý': 3,
    'Trưởng nhóm / Giám sát': 4,
    'Giám đốc': 5,
    'Tổng giám đốc': 6,
    'Phó Giám đốc': 7,
    'Sinh viên/ Thực tập sinh': 8
}

df['job_level'] = df['job_level'].map(job_level_mapping).fillna(0).astype(int)

In [6]:
df = df.dropna(thresh=df.shape[1]-3)
df['job_name'] =df['job_name'].fillna('')
df = shuffle(df)
df.head(10)

Unnamed: 0,link,job_name,id_company,company_name,job_salary,job_experience,job_level,job_expired_date,job_details,job_required,id
4581,https://careerviet.vn/vi/tim-viec-lam/nhan-vie...,"Nhân viên tư vấn kĩ thuật thú y (Gia súc, gia ...",35A79A1E,Công Ty TNHH Sunjin Vina,21.5,2.5,1,06/02/2024,Mô tả Công việc\na) Consultant for the custome...,Yêu Cầu Công Việc\nHave a University degree or...,4582
192,https://careerviet.vn/vi/tim-viec-lam/line-lea...,Line Leader work at Dau Giay,35A828EC,Techtronic Industries Vietnam (TTI),,4.0,4,29/02/2024,Mô tả Công việc\nHỗ trợ giám sát sản xuất phân...,Yêu Cầu Công Việc\nTốt nghiệp\nđộ trung cấp tr...,193
4825,https://careerviet.vn/vi/tim-viec-lam/senior-s...,Senior Sales Representative/销售代表,35A9749B,CÔNG TY TNHH CTS INTERNATIONAL LOGISTICS (VIỆT...,,2.5,1,04/02/2024,Mô tả Công việc\nProactively search for new cu...,Yêu Cầu Công Việc\nDegree:\nCollege or Univers...,4826
537,https://careerviet.vn/vi/tim-viec-lam/chuyen-v...,Chuyên viên kinh doanh sản phẩm ngoại hối - BA...,35A706C2,Ngân Hàng Thương mại cổ phần Bắc Á- BAC A BANK,,2.0,1,07/02/2024,Mô tả Công việc\nLà chuyên viên thực hiện các ...,Yêu Cầu Công Việc\nYêu cầu về bằng cấp và kinh...,538
4911,https://careerviet.vn/vi/tim-viec-lam/truong-p...,Trưởng Phòng Phát Triển Vật Liệu và Quy Trình,35A4FF46,Công Ty Cổ Phần Sản Xuất Nhựa Duy Tân,,8.5,3,04/02/2024,Mô tả Công việc\nKiểm soát định mức các nguyên...,Yêu Cầu Công Việc\nTốt nghiệp Đại học chuyên n...,4912
3067,https://careerviet.vn/vi/tim-viec-lam/senior-r...,(Senior) Receivable Accountant,35A70491,Concung.com - Con Cung Joint Stock Company,,3.5,1,19/03/2024,Mô tả Công việc\n- Nắm và hiểu rõ các điều kho...,Yêu Cầu Công Việc\n- Tốt nghiệp các ngành Kế t...,3068
4523,https://careerviet.vn/vi/tim-viec-lam/kiem-toa...,Kiểm toán Khối Khách hàng cá nhân,35A6ADCB,Ngân Hàng TMCP Quốc Tế Việt Nam,,4.5,1,06/02/2024,Mô tả Công việc\nMục đích công việc:\nChịu trá...,Yêu Cầu Công Việc\nTốt nghiệp Đại học chuyên n...,4524
2193,https://careerviet.vn/vi/tim-viec-lam/chuyen-v...,"Chuyên viên tín dụng, Chi nhánh Hà Nội (Ưu tiê...",35A89071,Ngân Hàng TNHH MTV Public Việt Nam,600.0,2.0,4,29/02/2024,Mô tả Công việc\nTiếp nhận thông tin về nhu cầ...,Yêu Cầu Công Việc\nTốt nghiệp đại học chuyên n...,2194
1335,https://careerviet.vn/vi/tim-viec-lam/nhan-vie...,Nhân viên kế toán kiêm hành chính,35A99A42,CÔNG TY CỔ PHẦN SWAN & MACLAREN (HÀ NỘI),10.5,2.0,1,25/02/2024,"Mô tả Công việc\n- Theo dõi doanh thu, chi phí...","Yêu Cầu Công Việc\n- Tốt nghiệp Cao đẳng, Đại ...",1336
3360,https://careerviet.vn/vi/tim-viec-lam/ky-su-de...,Kỹ sư DevOps,35A6E089,Ngân Hàng TMCP Sài Gòn - Hà Nội ( SHB ),,2.0,1,16/02/2024,Mô tả Công việc\nXây dựng cơ sở hạ tầng có khả...,Yêu Cầu Công Việc\nƯu tiên ứng viên chuyên ngà...,3361


In [7]:
jobs = {}
for row in df.values:
  link,job_name,id_company,company_name,job_salary,job_experience,job_level,job_expired_date,job_details,job_required,id =row
  jobs[id] = {
      'id': id,
      'job_name': job_name,
      'id_company': id_company,
      'company_name': company_name,
      'job_salary': job_salary,
      'job_experience': job_experience,
      'job_level': job_level,
      'job_expired_date':job_expired_date,
      'job_details': job_details,
      'job_required':job_required,
  }

In [None]:
def get_sim_job_cv_target(cv_target, job_id_i):
    job_target = set(jobs[job_id_i]['job_name'])
    return  0.3 * len(cv_target.intersection(job_target)) / len(cv_target.union(job_target))

def get_sim_job_cv_skill(cv_skill, job_id_i):
    job_required = set(jobs[job_id_i]['job_required'])
    return  0.4 * len(cv_skill.intersection(job_required)) / len(cv_skill.union(job_required))

def get_sim_job_cv_interested(cv_interested, job_id_i):
    job_details = set(jobs[job_id_i]['job_details'])
    return  0.3 * len(cv_interested.intersection(job_details)) / len(cv_interested.union(job_details))

def get_job_cv_similarities(cv_target, cv_skill, cv_interested, job_id_i):
    sim_target = get_sim_job_cv_target(cv_target, job_id_i)
    sim_required = get_sim_job_cv_skill(cv_skill, job_id_i)
    sim_details = get_sim_job_cv_interested(cv_interested, job_id_i)
   
    return sim_target + sim_required + sim_details

In [None]:
job_id = 193
k = 10
cv_target = ''
cv_skill = ''
cv_interested = ''
list = SortedList()
for i in range jobs:
    sim = get_job_cv_similarities(job_id, id)
    list.add((sim, jobs[id]['job_name']))
    if len(list) > k:
        del list[0]
sorted_list = sorted(list, reverse=True) 
top_k = sorted_list[:k]  
print(top_k)

In [8]:
def get_sim_job_name(job_id_i, job_id_j):
    job_name_i = set(jobs[job_id_i]['job_name'])
    job_name_j = set(jobs[job_id_j]['job_name'])

    return  0.4 * len(job_name_i.intersection(job_name_j)) / len(job_name_i.union(job_name_j))

def get_sim_id_company(job_id_i, job_id_j):
    id_company_i = jobs[job_id_i]['id_company']
    id_company_j = jobs[job_id_j]['id_company']

    if  id_company_i == id_company_j:
        return 0.1
    return  0

def get_sim_job_experience(job_id_i,job_id_j):
    job_experience_i = float(jobs[job_id_i]['job_experience'])
    job_experience_j = float(jobs[job_id_j]['job_experience'])

    if job_experience_i == 0 or job_experience_j == 0:
        return 0

    diff = abs(job_experience_i - job_experience_j)
    if diff < 0.25:
        return 0.2
    elif diff < 0.5:
        return 0.2 * 0.8
    elif diff < 0.75:
        return 0.2 * 0.6
    elif diff < 1:
        return 0.2 * 0.4
    return 0

def get_sim_job_salary(job_id_i,job_id_j):
    job_salary_i = float(jobs[job_id_i]['job_salary'])
    job_salary_j = float(jobs[job_id_j]['job_salary'])

    diff = abs(job_salary_i - job_salary_j)
    if diff < 1:
        return 0.2
    elif diff < 5:
        return 0.2 * 0.8
    elif diff < 8:
        return 0.2 * 0.6
    elif diff < 10:
        return 0.2 * 0.4
    return 0
    

def get_sim_job_level(job_id_i,job_id_j):
    job_level_i = int(jobs[job_id_i]['job_level'])
    job_level_j = int(jobs[job_id_j]['job_level'])
    if job_level_i == job_level_j: 
        return 0.1
    return  0

def get_job_similarities(job_id_i, job_id_j):
    sim_name = get_sim_job_name(job_id_i, job_id_j)
    sim_id_company = get_sim_id_company(job_id_i, job_id_j)
    sim_experience = get_sim_job_experience(job_id_i, job_id_j)
    sim_salary = get_sim_job_salary(job_id_i, job_id_j)
    sim_level = get_sim_job_level(job_id_i, job_id_j)
  
   
    return sim_name + sim_id_company + sim_experience + sim_salary + sim_level 

In [13]:
job_id = 193
k = 10
list = SortedList()
for id in jobs.keys():
    if (id == job_id):
        continue
    sim = get_job_similarities(job_id, id)
    list.add((sim, jobs[id]['job_name']))
    if len(list) > k:
        del list[0]
sorted_list = sorted(list, reverse=True) 
top_k = sorted_list[:k]  
print(top_k)

[(0.531578947368421, 'Digital Marketing Leader'), (0.5272727272727273, 'Tax Supervisor'), (0.5, 'Performance Marketing Leader'), (0.4904761904761905, 'Leader Thiết kế thời trang'), (0.4894736842105263, 'Product Owner'), (0.476, 'Chuyển giao Công nghệ (TT Leader)'), (0.476, 'Chuyên viên cao cấp Marketing'), (0.4714285714285714, 'Operation Supervisor'), (0.4666666666666667, 'Customs Liquidation Specialist'), (0.4647058823529412, 'Leader Media')]
