# 1) Test RE

In [1]:
import re

In [2]:
def cleanse_kinh_nghiem(raw_string):
    """
    raw_string = '\r\n     Trên    2 \r\n        Năm\r\n          '

    Phase 1: '\r\n     Trên    2 \r\n        Năm\r\n          '
        --> 'Trên    2 Năm'

    Phase 2: 'Trên    2 Năm'
        --> 'Trên 2 Năm'
    """

    raw_string = raw_string.strip()
    pat = '(\\r\\n[\s]*)'
    for m_start_end in reversed([(m.start(0), m.end(0)) for m in re.finditer(pat, raw_string)]):
        raw_string = raw_string[:m_start_end[0]] + "" + raw_string[m_start_end[1]:]

    pat = '[\s]{2,}'
    for m_start_end in reversed([(m.start(0), m.end(0)) for m in re.finditer(pat, raw_string)]):
        raw_string = raw_string[:m_start_end[0]] + " " + raw_string[m_start_end[1]:]

    return raw_string

In [3]:
raw_string = '                         2 Năm\r\n                         '
cleanse_kinh_nghiem(raw_string)

'2 Năm'

# 2) Processing raw data

In [4]:
import os
import numpy as np
import pandas as pd

## 2.1) Combine raw data

In [5]:
link_to_data_files = r"vn_data_jobs\data cb\raw data cb\all_jobs"
lst_data_files = list(filter(lambda x: x[:12]=="all_jobs_cb_", os.listdir(link_to_data_files)))
lst_data_files

['all_jobs_cb_202302251140.csv',
 'all_jobs_cb_202302251202.csv',
 'all_jobs_cb_202302251218.csv',
 'all_jobs_cb_202302251233.csv']

In [6]:
df = pd.DataFrame()
for file in lst_data_files:
    sub_df = pd.read_csv(os.path.join(link_to_data_files, file))
    print(len(sub_df))
    df = pd.concat([df, sub_df], ignore_index=True)

1074
2056
1527
1400


In [7]:
df

Unnamed: 0,job_title,job_id,job_url,company_title,company_url,company_video_url,salary,location,outstanding_welfare,announcement_date,nganh_nghe,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,detailed_welfare,job_description,job_requirements,other_info,job_tags
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,,Lương: Cạnh tranh,Tuyên Quang,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,25-02-2023,Bán hàng / Kinh doanh | Dược phẩm | Y tế / Chă...,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,Lương: Cạnh tranh,Tây Ninh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Ngành khác | Nông nghiệp | Quản lý điều hành,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,Lương: Cạnh tranh,Tây Ninh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Công nghệ sinh học | Hóa học | Ngành khác,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s,Lương: Cạnh tranh,Hồ Chí Minh,Chế độ bảo hiểm | Du Lịch | Phụ cấp,25-02-2023,Bán hàng / Kinh doanh | Bất động sản | Bán lẻ ...,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,Chế độ bảo hiểm | Du Lịch | Phụ cấp | Du lịch ...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk,Lương: 12 Tr - 14 Tr VND,Hà Nội,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Luật / Pháp lý | Hành chính / Thư ký | Nhân sự,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,,Lương: 9 Tr - 10 Tr VND,Hồ Chí Minh,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Bán hàng / Kinh doanh | Dịch vụ khách hàng | K...,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Chế độ th...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công Ty Cổ Phần Đồng Tâm,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=JN2CZymeE-Q,Lương: Cạnh tranh,Long An,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Môi trường,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,,Lương: Cạnh tranh,Hà Nội,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=WJHhUAu-Y3Y&t=9s,Lương: Cạnh tranh,Hải Phòng,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng | Sả...,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",


## 2.2) Check NaN

In [8]:
# Check NaN
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6057 entries, 0 to 6056
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   job_title            6057 non-null   object
 1   job_id               6057 non-null   object
 2   job_url              6057 non-null   object
 3   company_title        6056 non-null   object
 4   company_url          6057 non-null   object
 5   company_video_url    1952 non-null   object
 6   salary               6057 non-null   object
 7   location             6057 non-null   object
 8   outstanding_welfare  5885 non-null   object
 9   announcement_date    6057 non-null   object
 10  nganh_nghe           5733 non-null   object
 11  hinh_thuc            5733 non-null   object
 12  kinh_nghiem          5733 non-null   object
 13  cap_bac              5733 non-null   object
 14  expiration_date      4911 non-null   object
 15  detailed_welfare     5608 non-null   object
 16  job_de

In [9]:
# Chấp nhận NaN

## 2.3) Processing "location" column

In [10]:
from functools import reduce

In [11]:
# Check job_id unique
df['job_id'].unique().size  # ==> Unique

6057

In [12]:
set(reduce(lambda x, y: x+y, df['location'].map(lambda x: x.split(" | ")).values))

{'An Giang',
 'Bà Rịa - Vũng Tàu',
 'Bình Dương',
 'Bình Phước',
 'Bình Thuận',
 'Bình Định',
 'Bạc Liêu',
 'Bắc Giang',
 'Bắc Ninh',
 'Bến Tre',
 'Cà Mau',
 'Cần Thơ',
 'Dak Lak',
 'Dak Nông',
 'Gia Lai',
 'Hà Giang',
 'Hà Nam',
 'Hà Nội',
 'Hà Tĩnh',
 'Hòa Bình',
 'Hưng Yên',
 'Hải Dương',
 'Hải Phòng',
 'Hậu Giang',
 'Hồ Chí Minh',
 'KV Bắc Trung Bộ',
 'KV Nam Trung Bộ',
 'KV Tây Nguyên',
 'KV Đông Nam Bộ',
 'Khác',
 'Khánh Hòa',
 'Kiên Giang',
 'Kon Tum',
 'Kratie',
 'Lai Châu',
 'Long An',
 'Lào Cai',
 'Lâm Đồng',
 'Lạng Sơn',
 'Nam Định',
 'Nghệ An',
 'Ninh Bình',
 'Ninh Thuận',
 'Phnompenh',
 'Phú Thọ',
 'Phú Yên',
 'Quảng Bình',
 'Quảng Nam',
 'Quảng Ngãi',
 'Quảng Ninh',
 'Quảng Trị',
 'Quốc tế',
 'Sóc Trăng',
 'Sơn La',
 'Thanh Hóa',
 'Thái Bình',
 'Thái Nguyên',
 'Thừa Thiên- Huế',
 'Tiền Giang',
 'Tokyo',
 'Toàn quốc',
 'Trà Vinh',
 'Tuyên Quang',
 'Tây Ninh',
 'Vientiane',
 'Vĩnh Long',
 'Vĩnh Phúc',
 'Yên Bái',
 'Điện Biên',
 'Đà Nẵng',
 'Đồng Bằng Sông Cửu Long',
 'Đồng 

In [13]:
df['location'] = df['location'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | "))))

In [14]:
df[['location', 'company_title', 'job_id']].explode('location')

Unnamed: 0,location,company_title,job_id
0,Tuyên Quang,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,35BB7E70
1,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5A
2,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5D
3,Hồ Chí Minh,Công ty Cổ phần Đầu tư Kelsey,35BB7E59
4,Hà Nội,Công ty TNHH SX & TM Dược phẩm Tâm Bình,35BB7E5F
...,...,...,...
6052,Hồ Chí Minh,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,35BB1286
6053,Long An,Công Ty Cổ Phần Đồng Tâm,35BB128C
6054,Hà Nội,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,35BB12EA
6055,Hải Phòng,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,35BB1400


In [15]:
len(reduce(lambda x, y: x+y, df['location'].values))

6924

In [16]:
df_jobs = df[['location', 'company_title', 'job_id']].explode('location')\
    .rename(columns={"location": "City", "company_title": "Company"})
df_jobs

Unnamed: 0,City,Company,job_id
0,Tuyên Quang,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,35BB7E70
1,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5A
2,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5D
3,Hồ Chí Minh,Công ty Cổ phần Đầu tư Kelsey,35BB7E59
4,Hà Nội,Công ty TNHH SX & TM Dược phẩm Tâm Bình,35BB7E5F
...,...,...,...
6052,Hồ Chí Minh,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,35BB1286
6053,Long An,Công Ty Cổ Phần Đồng Tâm,35BB128C
6054,Hà Nội,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,35BB12EA
6055,Hải Phòng,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,35BB1400


In [17]:
df_jobs['job_id'].unique().size

6057

In [18]:
# Một job_id có thể có 2 City
df_jobs[df_jobs['job_id']=='35BB1CE3']

Unnamed: 0,City,Company,job_id
3648,Hưng Yên,Ngân Hàng Thương mại cổ phần Bắc Á- BAC A BANK,35BB1CE3
3648,Hà Nội,Ngân Hàng Thương mại cổ phần Bắc Á- BAC A BANK,35BB1CE3
3648,Hà Nam,Ngân Hàng Thương mại cổ phần Bắc Á- BAC A BANK,35BB1CE3


In [19]:
# Một Company có thể có nhiều job_id
df_jobs[(df_jobs['City']=='An Giang')&(df_jobs['Company']=='CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ PHÁT TRIỂN NEXTDOOR')]

Unnamed: 0,City,Company,job_id
104,An Giang,CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ PHÁT TRIỂN NEXTDOOR,35BB53E8
1379,An Giang,CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ PHÁT TRIỂN NEXTDOOR,35BB4A2C
1483,An Giang,CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ PHÁT TRIỂN NEXTDOOR,35BB5CF0
1486,An Giang,CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ PHÁT TRIỂN NEXTDOOR,35BB5CF6
2961,An Giang,CÔNG TY CỔ PHẦN ĐẦU TƯ VÀ PHÁT TRIỂN NEXTDOOR,35BB21EC


In [20]:
# Một job_id chỉ có 1 Company
df_jobs.groupby(['job_id'], as_index=False).agg({"Company": "nunique"}).sort_values(['Company'])

Unnamed: 0,job_id,Company
6030,35BB7E27,0
0,35B15222,1
4041,35BB5D65,1
4040,35BB5D62,1
4039,35BB5D5F,1
...,...,...
2015,35BB3ADD,1
2014,35BB3ADC,1
2013,35BB3AD2,1
2022,35BB3B13,1


In [21]:
df_jobs[df_jobs['job_id']=='35BB7E27']

Unnamed: 0,City,Company,job_id
83,Hồ Chí Minh,,35BB7E27


In [22]:
df_jobs.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6924 entries, 0 to 6056
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   City     6924 non-null   object
 1   Company  6923 non-null   object
 2   job_id   6924 non-null   object
dtypes: object(3)
memory usage: 216.4+ KB


In [23]:
df_jobs = df_jobs.fillna('Unknown')

In [24]:
df_jobs.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6924 entries, 0 to 6056
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   City     6924 non-null   object
 1   Company  6924 non-null   object
 2   job_id   6924 non-null   object
dtypes: object(3)
memory usage: 216.4+ KB


In [25]:
df_jobs['City'] = df_jobs['City'].map(lambda x: x.strip())
df_jobs['Company'] = df_jobs['Company'].map(lambda x: x.strip())
df_jobs['job_id'] = df_jobs['job_id'].map(lambda x: x.strip())

In [26]:
df_jobs.to_csv(r"vn_data_jobs\data cb\cleansed data cb\location_job.csv", index=False)

In [27]:
df = df.drop(['location'], axis=1)

## 2.4) Processing "company" column

In [28]:
df_companies = df[['company_title', 'company_url', 'company_video_url']].fillna('Unknown').drop_duplicates()
df_companies

Unnamed: 0,company_title,company_url,company_video_url
0,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,Unknown
1,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM
3,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s
4,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk
5,Công Ty TNHH TM AN SINH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...
6005,CÔNG TY CỔ PHẦN VIỆT MỸ . GROUP,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
6013,Công ty TNHH Điện Máy Aqua Việt Nam,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
6017,Công Ty TNHH TM - SX Hồ Nguyễn,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
6030,Công ty Cổ phần Liên Kết Toàn Cầu PWT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown


In [29]:
def filter_company_video_url(series_company_video_url):
    lst_company_video_url = list(filter(lambda x: x != "Unknown", series_company_video_url))
    if lst_company_video_url:
        return lst_company_video_url[0]
    else:
        return series_company_video_url.values[0]

In [30]:
df_companies = df_companies.groupby(['company_title'], as_index=False).agg({"company_url": "first",
                                                             "company_video_url": filter_company_video_url})
df_companies

Unnamed: 0,company_title,company_url,company_video_url
0,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...
1834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [31]:
df_companies[df_companies['company_title']=='PERSOLKELLY Vietnam']

Unnamed: 0,company_title,company_url,company_video_url
1621,PERSOLKELLY Vietnam,https://careerbuilder.vn/vi/nha-tuyen-dung/per...,https://www.youtube.com/watch?v=U19UzkTS7BU


In [32]:
df_companies = df_companies.reset_index().rename(columns={"index": "company_id"})
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,0,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,1,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,2,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,3,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,4,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,1834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,1835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,1836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,1837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [33]:
df_companies['company_id'] = df_companies['company_id'].map(lambda x: "C" + "0"*(5-len(str(x))) + str(x))
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [34]:
df_companies.to_csv(r"vn_data_jobs\data cb\cleansed data cb\companies.csv", index=False)

In [35]:
df = df.merge(df_companies, on='company_title',how='left')\
    .drop(['company_title', 'company_url_x', 'company_video_url_x', 'company_url_y', 'company_video_url_y'], axis=1)

In [36]:
df

Unnamed: 0,job_title,job_id,job_url,salary,outstanding_welfare,announcement_date,nganh_nghe,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,detailed_welfare,job_description,job_requirements,other_info,job_tags,company_id
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,Lương: Cạnh tranh,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,25-02-2023,Bán hàng / Kinh doanh | Dược phẩm | Y tế / Chă...,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...,C01796
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Ngành khác | Nông nghiệp | Quản lý điều hành,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...,C01021
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Công nghệ sinh học | Hóa học | Ngành khác,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...,C01021
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: Cạnh tranh,Chế độ bảo hiểm | Du Lịch | Phụ cấp,25-02-2023,Bán hàng / Kinh doanh | Bất động sản | Bán lẻ ...,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,Chế độ bảo hiểm | Du Lịch | Phụ cấp | Du lịch ...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...,C01163
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 12 Tr - 14 Tr VND,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Luật / Pháp lý | Hành chính / Thư ký | Nhân sự,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C01266
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 9 Tr - 10 Tr VND,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Bán hàng / Kinh doanh | Dịch vụ khách hàng | K...,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Chế độ th...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant,C00628
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Môi trường,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...,C00827
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Lương: Cạnh tranh,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...,C00837
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Lương: Cạnh tranh,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng | Sả...,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C00911


## 2.5) Processing "outstanding_welfare" column

In [37]:
df[['outstanding_welfare']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   outstanding_welfare  5885 non-null   object
dtypes: object(1)
memory usage: 94.6+ KB


In [38]:
df['outstanding_welfare'] = df['outstanding_welfare'].fillna('Unknown')

In [39]:
set(reduce(lambda x, y: x+y, df['outstanding_welfare'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | ")))).values))

{'CLB thể thao',
 'Chăm sóc sức khỏe',
 'Chế độ bảo hiểm',
 'Chế độ bảo hiểểm',
 'Chế độ thưởng',
 'Công tác phí',
 'Du Lịch',
 'Du lịch nước ngoài',
 'Laptop',
 'Nghỉ phép năm',
 'Phụ cấp',
 'Phụ cấp thâm niên',
 'Tăng lương',
 'Unknown',
 'Xe đưa đón',
 'Đào tạo',
 'Đồng phục'}

In [40]:
df['outstanding_welfare'] = df['outstanding_welfare'].map(lambda x: x.replace("hiểểm", "hiểm"))

In [41]:
set(reduce(lambda x, y: x+y, df['outstanding_welfare'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | ")))).values))

{'CLB thể thao',
 'Chăm sóc sức khỏe',
 'Chế độ bảo hiểm',
 'Chế độ thưởng',
 'Công tác phí',
 'Du Lịch',
 'Du lịch nước ngoài',
 'Laptop',
 'Nghỉ phép năm',
 'Phụ cấp',
 'Phụ cấp thâm niên',
 'Tăng lương',
 'Unknown',
 'Xe đưa đón',
 'Đào tạo',
 'Đồng phục'}

In [42]:
df['outstanding_welfare'] = df['outstanding_welfare'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | "))))

In [43]:
df_outstanding_welfare = df[['job_id', 'outstanding_welfare']].explode('outstanding_welfare')
df_outstanding_welfare

Unnamed: 0,job_id,outstanding_welfare
0,35BB7E70,Chế độ bảo hiểm
0,35BB7E70,Du Lịch
0,35BB7E70,Chế độ thưởng
1,35BB7E5A,Laptop
1,35BB7E5A,Chế độ bảo hiểm
...,...,...
6055,35BB1400,Du Lịch
6055,35BB1400,Chế độ thưởng
6056,35BB12E1,Chế độ bảo hiểm
6056,35BB12E1,Du Lịch


In [44]:
df_outstanding_welfare.to_csv(r"vn_data_jobs\data cb\cleansed data cb\outstanding_welfare_job.csv", index=False)

In [45]:
df = df.drop(['outstanding_welfare'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,salary,announcement_date,nganh_nghe,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,detailed_welfare,job_description,job_requirements,other_info,job_tags,company_id
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,Lương: Cạnh tranh,25-02-2023,Bán hàng / Kinh doanh | Dược phẩm | Y tế / Chă...,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...,C01796
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Ngành khác | Nông nghiệp | Quản lý điều hành,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...,C01021
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Công nghệ sinh học | Hóa học | Ngành khác,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...,C01021
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: Cạnh tranh,25-02-2023,Bán hàng / Kinh doanh | Bất động sản | Bán lẻ ...,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,Chế độ bảo hiểm | Du Lịch | Phụ cấp | Du lịch ...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...,C01163
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 12 Tr - 14 Tr VND,25-02-2023,Luật / Pháp lý | Hành chính / Thư ký | Nhân sự,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C01266
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 9 Tr - 10 Tr VND,04-02-2023,Bán hàng / Kinh doanh | Dịch vụ khách hàng | K...,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Chế độ th...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant,C00628
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,04-02-2023,Môi trường,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...,C00827
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Lương: Cạnh tranh,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...,C00837
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Lương: Cạnh tranh,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng | Sả...,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C00911


## 2.6) Processing "detailed_welfare" column

In [46]:
df[['detailed_welfare']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   detailed_welfare  5608 non-null   object
dtypes: object(1)
memory usage: 94.6+ KB


In [47]:
df['detailed_welfare'] = df['detailed_welfare'].fillna('Unknown')

In [48]:
set(reduce(lambda x, y: x+y, df['detailed_welfare'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | ")))).values))

{'CLB thể thao',
 'Chăm sóc sức khỏe',
 'Chế độ bảo hiểm',
 'Chế độ thưởng',
 'Công tác phí',
 'Du Lịch',
 'Du lịch nước ngoài',
 'Laptop',
 'Nghỉ phép năm',
 'Phụ cấp',
 'Phụ cấp thâm niên',
 'Tăng lương',
 'Unknown',
 'Xe đưa đón',
 'Đào tạo',
 'Đồng phục'}

In [49]:
df['detailed_welfare'] = df['detailed_welfare'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | "))))

In [50]:
df_detailed_welfare = df[['job_id', 'detailed_welfare']].explode('detailed_welfare')
df_detailed_welfare

Unnamed: 0,job_id,detailed_welfare
0,35BB7E70,Chế độ bảo hiểm
0,35BB7E70,Du Lịch
0,35BB7E70,Chế độ thưởng
0,35BB7E70,Chăm sóc sức khỏe
0,35BB7E70,Đào tạo
...,...,...
6056,35BB12E1,Du Lịch
6056,35BB12E1,Chế độ thưởng
6056,35BB12E1,Chăm sóc sức khỏe
6056,35BB12E1,Đào tạo


In [51]:
df_detailed_welfare.to_csv(r"vn_data_jobs\data cb\cleansed data cb\detailed_welfare_job.csv", index=False)

In [52]:
df = df.drop(['detailed_welfare'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,salary,announcement_date,nganh_nghe,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,job_tags,company_id
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,Lương: Cạnh tranh,25-02-2023,Bán hàng / Kinh doanh | Dược phẩm | Y tế / Chă...,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...,C01796
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Ngành khác | Nông nghiệp | Quản lý điều hành,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...,C01021
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Công nghệ sinh học | Hóa học | Ngành khác,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...,C01021
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: Cạnh tranh,25-02-2023,Bán hàng / Kinh doanh | Bất động sản | Bán lẻ ...,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...,C01163
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 12 Tr - 14 Tr VND,25-02-2023,Luật / Pháp lý | Hành chính / Thư ký | Nhân sự,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C01266
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 9 Tr - 10 Tr VND,04-02-2023,Bán hàng / Kinh doanh | Dịch vụ khách hàng | K...,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant,C00628
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,04-02-2023,Môi trường,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...,C00827
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Lương: Cạnh tranh,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...,C00837
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Lương: Cạnh tranh,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng | Sả...,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C00911


## 2.7) Processing "nganh_nghe" column

In [53]:
df[['nganh_nghe']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   nganh_nghe  5733 non-null   object
dtypes: object(1)
memory usage: 94.6+ KB


In [54]:
df['nganh_nghe'] = df['nganh_nghe'].fillna('Unknown')

In [55]:
set(reduce(lambda x, y: x+y, df['nganh_nghe'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | ")))).values))

{'An Ninh / Bảo Vệ',
 'An toàn lao động',
 'Biên phiên dịch',
 'Bán hàng / Kinh doanh',
 'Bán lẻ / Bán sỉ',
 'Bưu chính viễn thông',
 'Bảo hiểm',
 'Bảo trì / Sửa chữa',
 'Bất động sản',
 'CNTT - Phần cứng / Mạng',
 'CNTT - Phần mềm',
 'Chăn nuôi / Thú y',
 'Chứng khoán',
 'Công nghệ sinh học',
 'Công nghệ thực phẩm / Dinh dưỡng',
 'Cơ khí / Ô tô / Tự động hóa',
 'Du lịch',
 'Dược phẩm',
 'Dầu khí',
 'Dệt may / Da giày / Thời trang',
 'Dịch vụ khách hàng',
 'Giáo dục / Đào tạo',
 'Giải trí',
 'Hàng gia dụng / Chăm sóc cá nhân',
 'Hàng hải',
 'Hàng không',
 'Hành chính / Thư ký',
 'Hóa học',
 'In ấn / Xuất bản',
 'Khoáng sản',
 'Kiến trúc',
 'Kế toán / Kiểm toán',
 'Lao động phổ thông',
 'Luật / Pháp lý',
 'Lâm Nghiệp',
 'Môi trường',
 'Mới tốt nghiệp / Thực tập',
 'Mỹ thuật / Nghệ thuật / Thiết kế',
 'Ngành khác',
 'Ngân hàng',
 'Nhà hàng / Khách sạn',
 'Nhân sự',
 'Nông nghiệp',
 'Nội ngoại thất',
 'Phi chính phủ / Phi lợi nhuận',
 'Quản lý chất lượng (QA/QC)',
 'Quản lý điều hành',
 '

In [56]:
df['nganh_nghe'] = df['nganh_nghe'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | "))))

In [57]:
df_nganh_nghe = df[['job_id', 'nganh_nghe']].explode('nganh_nghe')
df_nganh_nghe

Unnamed: 0,job_id,nganh_nghe
0,35BB7E70,Bán hàng / Kinh doanh
0,35BB7E70,Dược phẩm
0,35BB7E70,Y tế / Chăm sóc sức khỏe
1,35BB7E5A,Ngành khác
1,35BB7E5A,Nông nghiệp
...,...,...
6055,35BB1400,CNTT - Phần cứng / Mạng
6055,35BB1400,Sản xuất / Vận hành sản xuất
6056,35BB12E1,Chứng khoán
6056,35BB12E1,Dịch vụ khách hàng


In [58]:
df_nganh_nghe.to_csv(r"vn_data_jobs\data cb\cleansed data cb\nganh_nghe_job.csv", index=False)

In [59]:
df = df.drop(['nganh_nghe'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,salary,announcement_date,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,job_tags,company_id
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...,C01796
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...,C01021
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...,C01021
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...,C01163
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 12 Tr - 14 Tr VND,25-02-2023,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C01266
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 9 Tr - 10 Tr VND,04-02-2023,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant,C00628
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,04-02-2023,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...,C00827
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Lương: Cạnh tranh,04-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...,C00837
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Lương: Cạnh tranh,04-02-2023,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",,C00911


## 2.8) Processing "job_tags" column

In [60]:
df[['job_tags']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   job_tags  4508 non-null   object
dtypes: object(1)
memory usage: 94.6+ KB


In [61]:
df['job_tags'] = df['job_tags'].fillna('Unknown')

In [62]:
set(reduce(lambda x, y: x+y, df['job_tags'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | ")))).values))

{'Nhân Viên QA-QC',
 'Salerep',
 '',
 'Giao dịch viên - Hà Nội khu vực Long Biên',
 'Trưởng phòng Kinh doanh Nhựa',
 'fashion',
 '[JHC] Assistant Manager of Business Development And Planning Division',
 'nhập liệu',
 'Chuyên viên pháp chế',
 'Sales Engineer Route Sales',
 'Back-End',
 'Trưởng Phòng Nghiên Cứu',
 'Transport specialist',
 'Video',
 'Economist Analyst',
 'Nhân viên đăng ký hồ sơ thuốc Làm việc Củ Chi',
 'Giao dịch viên tại Chi nhánh Quảng Ninh',
 'quan hệ lao động',
 'xây dựng thương hiệu tuyển dụng',
 'Chuyên viên Marketing Facebook Ads/Tiktok Ads/You Ads Có Kinh Nghiệm',
 'Operation',
 'Nhân viên phục vụ lễ tân',
 'Process & System Specialist Warehouse',
 '[Bình Dương] Quản Lý Siêu Thị',
 'xa xỉ',
 'sales supervisor',
 'Chuyên Viên Tư Vấn Cấp Cao Senior Education Consultant  - Quận',
 'GIÁM ĐỐC ĐÀO TẠO',
 'nagase',
 'Material supply manager',
 'Trade-Investment Promotion Specialist',
 'Chuyên gia truyền thông - Mảng tiếng anh',
 'Kỹ sư giám sát công trình chuyên ngành M

In [63]:
df['job_tags'] = df['job_tags'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | "))))

In [64]:
df_job_tags = df[['job_id', 'job_tags']].explode('job_tags')
df_job_tags

Unnamed: 0,job_id,job_tags
0,35BB7E70,QUẢN LÝ KINH DOANH
0,35BB7E70,BỆNH VIỆN
0,35BB7E70,NHÀ THUỐC
0,35BB7E70,KINH DOANH
0,35BB7E70,sales manager
...,...,...
6054,35BB12EA,Information Technology Engineer
6054,35BB12EA,Kỹ sư CNTT
6055,35BB1400,Unknown
6056,35BB12E1,chuyên viên


In [65]:
df_job_tags.to_csv(r"vn_data_jobs\data cb\cleansed data cb\job_tags_job.csv", index=False)

In [66]:
df = df.drop(['job_tags'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,salary,announcement_date,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: Cạnh tranh,25-02-2023,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 12 Tr - 14 Tr VND,25-02-2023,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Lương: 9 Tr - 10 Tr VND,04-02-2023,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Lương: Cạnh tranh,04-02-2023,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Lương: Cạnh tranh,04-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Lương: Cạnh tranh,04-02-2023,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911


## 2.9) Processing "salary" column

In [67]:
import re

In [68]:
df[df['salary'].map(lambda x: x[:7]!='Lương: ')]

Unnamed: 0,job_title,job_id,job_url,salary,announcement_date,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id


In [69]:
for i in sorted(df['salary'].map(lambda x: x[7:]).unique()):
    print(i)

1 Tr - 4 Tr VND
1,2 Tr - 17 Tr VND
1,5 Tr - 1,5 Tr VND
1,5 Tr - 2 Tr VND
10 Tr - 10 Tr VND
10 Tr - 11 Tr VND
10 Tr - 11,8 Tr VND
10 Tr - 12 Tr VND
10 Tr - 13 Tr VND
10 Tr - 13,5 Tr VND
10 Tr - 14 Tr VND
10 Tr - 15 Tr VND
10 Tr - 16 Tr VND
10 Tr - 17 Tr VND
10 Tr - 18 Tr VND
10 Tr - 20 Tr VND
10 Tr - 22 Tr VND
10 Tr - 25 Tr VND
10 Tr - 30 Tr VND
10 Tr - 35 Tr VND
10 Tr - 40 Tr VND
10 Tr - 50 Tr VND
10,5 Tr - 12 Tr VND
100 Tr - 110 Tr VND
11 Tr - 12 Tr VND
11 Tr - 12,5 Tr VND
11 Tr - 13 Tr VND
11 Tr - 14 Tr VND
11 Tr - 15 Tr VND
11 Tr - 16 Tr VND
11 Tr - 16,5 Tr VND
11 Tr - 17 Tr VND
11 Tr - 17,6 Tr VND
11 Tr - 18 Tr VND
11 Tr - 18,7 Tr VND
11 Tr - 19,8 Tr VND
11 Tr - 20 Tr VND
11 Tr - 22 Tr VND
11 Tr - 25 Tr VND
11 Tr - 26,4 Tr VND
11 Tr - 33 Tr VND
11 Tr - 44 Tr VND
110 Tr - 220 Tr VND
12 Tr - 12 Tr VND
12 Tr - 13 Tr VND
12 Tr - 14 Tr VND
12 Tr - 15 Tr VND
12 Tr - 16 Tr VND
12 Tr - 17 Tr VND
12 Tr - 18 Tr VND
12 Tr - 20 Tr VND
12 Tr - 22 Tr VND
12 Tr - 23 Tr VND
12 Tr - 24 Tr VND
12 Tr

In [70]:
# Số...
# Cạnh tranh
# Dưới...
# Trên...

In [71]:
df['salary'] = df['salary'].map(lambda x: x[7:])
df['salary']

0              Cạnh tranh
1              Cạnh tranh
2              Cạnh tranh
3              Cạnh tranh
4       12 Tr - 14 Tr VND
              ...        
6052     9 Tr - 10 Tr VND
6053           Cạnh tranh
6054           Cạnh tranh
6055           Cạnh tranh
6056           Cạnh tranh
Name: salary, Length: 6057, dtype: object

In [72]:
for i in sorted(df[df['salary'].map(lambda x: bool(re.match(r"(^[\d]+(,[\d]+)? Tr - [\d]+(,[\d]+)? Tr VND)", x)))]['salary'].unique()):
    print(i)

1 Tr - 4 Tr VND
1,2 Tr - 17 Tr VND
1,5 Tr - 1,5 Tr VND
1,5 Tr - 2 Tr VND
10 Tr - 10 Tr VND
10 Tr - 11 Tr VND
10 Tr - 11,8 Tr VND
10 Tr - 12 Tr VND
10 Tr - 13 Tr VND
10 Tr - 13,5 Tr VND
10 Tr - 14 Tr VND
10 Tr - 15 Tr VND
10 Tr - 16 Tr VND
10 Tr - 17 Tr VND
10 Tr - 18 Tr VND
10 Tr - 20 Tr VND
10 Tr - 22 Tr VND
10 Tr - 25 Tr VND
10 Tr - 30 Tr VND
10 Tr - 35 Tr VND
10 Tr - 40 Tr VND
10 Tr - 50 Tr VND
10,5 Tr - 12 Tr VND
100 Tr - 110 Tr VND
11 Tr - 12 Tr VND
11 Tr - 12,5 Tr VND
11 Tr - 13 Tr VND
11 Tr - 14 Tr VND
11 Tr - 15 Tr VND
11 Tr - 16 Tr VND
11 Tr - 16,5 Tr VND
11 Tr - 17 Tr VND
11 Tr - 17,6 Tr VND
11 Tr - 18 Tr VND
11 Tr - 18,7 Tr VND
11 Tr - 19,8 Tr VND
11 Tr - 20 Tr VND
11 Tr - 22 Tr VND
11 Tr - 25 Tr VND
11 Tr - 26,4 Tr VND
11 Tr - 33 Tr VND
11 Tr - 44 Tr VND
110 Tr - 220 Tr VND
12 Tr - 12 Tr VND
12 Tr - 13 Tr VND
12 Tr - 14 Tr VND
12 Tr - 15 Tr VND
12 Tr - 16 Tr VND
12 Tr - 17 Tr VND
12 Tr - 18 Tr VND
12 Tr - 20 Tr VND
12 Tr - 22 Tr VND
12 Tr - 23 Tr VND
12 Tr - 24 Tr VND
12 Tr

In [73]:
for i in sorted(df[df['salary'].map(lambda x: not bool(re.match(r"(^[\d]+(,[\d]+)? Tr - [\d]+(,[\d]+)? Tr VND)", x)))]['salary'].unique()):
    print(i)

Cạnh tranh
Dưới1 Tr VND
Dưới10 Tr VND
Dưới13 Tr VND
Dưới14 Tr VND
Dưới15 Tr VND
Dưới16 Tr VND
Dưới16,5 Tr VND
Dưới18 Tr VND
Dưới20 Tr VND
Dưới22 Tr VND
Dưới25 Tr VND
Dưới26,4 Tr VND
Dưới3,2 Tr VND
Dưới30 Tr VND
Dưới32 Tr VND
Dưới33 Tr VND
Dưới39 Tr VND
Dưới39,6 Tr VND
Dưới40 Tr VND
Dưới44 Tr VND
Dưới45 Tr VND
Dưới50 Tr VND
Dưới500,000 VND
Dưới54 Tr VND
Dưới55 Tr VND
Dưới66 Tr VND
Dưới7 Tr VND
Dưới77,5 Tr VND
Dưới8,5 Tr VND
Dưới88 Tr VND
Dưới9 Tr VND
Trên 1,5 Tr VND
Trên 10 Tr VND
Trên 100 Tr VND
Trên 11 Tr VND
Trên 12 Tr VND
Trên 13 Tr VND
Trên 13,2 Tr VND
Trên 13,5 Tr VND
Trên 14 Tr VND
Trên 15 Tr VND
Trên 16 Tr VND
Trên 17 Tr VND
Trên 17,6 Tr VND
Trên 19 Tr VND
Trên 20 Tr VND
Trên 22 Tr VND
Trên 25 Tr VND
Trên 30 Tr VND
Trên 45 Tr VND
Trên 5 Tr VND
Trên 5,1 Tr VND
Trên 5,5 Tr VND
Trên 6 Tr VND
Trên 7 Tr VND
Trên 8 Tr VND
Trên 8,5 Tr VND
Trên 9 Tr VND
Trên 9,1 Tr VND


In [74]:
for i in sorted(df[df['salary'].map(lambda x: bool(re.match(r"(^[\d]+(,[\d]+)? Tr - [\d]+(,[\d]+)? Tr VND)", x))
                                           or bool(re.match(r"^Dưới[\d]+(,[\d]+)? (Tr )?VND", x)))]['salary'].unique()):
    print(i)

1 Tr - 4 Tr VND
1,2 Tr - 17 Tr VND
1,5 Tr - 1,5 Tr VND
1,5 Tr - 2 Tr VND
10 Tr - 10 Tr VND
10 Tr - 11 Tr VND
10 Tr - 11,8 Tr VND
10 Tr - 12 Tr VND
10 Tr - 13 Tr VND
10 Tr - 13,5 Tr VND
10 Tr - 14 Tr VND
10 Tr - 15 Tr VND
10 Tr - 16 Tr VND
10 Tr - 17 Tr VND
10 Tr - 18 Tr VND
10 Tr - 20 Tr VND
10 Tr - 22 Tr VND
10 Tr - 25 Tr VND
10 Tr - 30 Tr VND
10 Tr - 35 Tr VND
10 Tr - 40 Tr VND
10 Tr - 50 Tr VND
10,5 Tr - 12 Tr VND
100 Tr - 110 Tr VND
11 Tr - 12 Tr VND
11 Tr - 12,5 Tr VND
11 Tr - 13 Tr VND
11 Tr - 14 Tr VND
11 Tr - 15 Tr VND
11 Tr - 16 Tr VND
11 Tr - 16,5 Tr VND
11 Tr - 17 Tr VND
11 Tr - 17,6 Tr VND
11 Tr - 18 Tr VND
11 Tr - 18,7 Tr VND
11 Tr - 19,8 Tr VND
11 Tr - 20 Tr VND
11 Tr - 22 Tr VND
11 Tr - 25 Tr VND
11 Tr - 26,4 Tr VND
11 Tr - 33 Tr VND
11 Tr - 44 Tr VND
110 Tr - 220 Tr VND
12 Tr - 12 Tr VND
12 Tr - 13 Tr VND
12 Tr - 14 Tr VND
12 Tr - 15 Tr VND
12 Tr - 16 Tr VND
12 Tr - 17 Tr VND
12 Tr - 18 Tr VND
12 Tr - 20 Tr VND
12 Tr - 22 Tr VND
12 Tr - 23 Tr VND
12 Tr - 24 Tr VND
12 Tr

In [75]:
for i in sorted(df[df['salary'].map(lambda x: not (bool(re.match(r"(^[\d]+(,[\d]+)? Tr - [\d]+(,[\d]+)? Tr VND)", x))
                                                or bool(re.match(r"^Dưới[\d]+(,[\d]+)? (Tr )?VND", x))))]['salary'].unique()):
    print(i)

Cạnh tranh
Trên 1,5 Tr VND
Trên 10 Tr VND
Trên 100 Tr VND
Trên 11 Tr VND
Trên 12 Tr VND
Trên 13 Tr VND
Trên 13,2 Tr VND
Trên 13,5 Tr VND
Trên 14 Tr VND
Trên 15 Tr VND
Trên 16 Tr VND
Trên 17 Tr VND
Trên 17,6 Tr VND
Trên 19 Tr VND
Trên 20 Tr VND
Trên 22 Tr VND
Trên 25 Tr VND
Trên 30 Tr VND
Trên 45 Tr VND
Trên 5 Tr VND
Trên 5,1 Tr VND
Trên 5,5 Tr VND
Trên 6 Tr VND
Trên 7 Tr VND
Trên 8 Tr VND
Trên 8,5 Tr VND
Trên 9 Tr VND
Trên 9,1 Tr VND


In [76]:
for i in sorted(df[df['salary'].map(lambda x: bool(re.match(r"(^[\d]+(,[\d]+)? Tr - [\d]+(,[\d]+)? Tr VND)", x))
                                           or bool(re.match(r"^Dưới[\d]+(,[\d]+)? (Tr )?VND", x))
                                           or bool(re.match(r"^Trên [\d]+(,[\d]+)? (Tr )?VND", x)))]['salary'].unique()):
    print(i)

1 Tr - 4 Tr VND
1,2 Tr - 17 Tr VND
1,5 Tr - 1,5 Tr VND
1,5 Tr - 2 Tr VND
10 Tr - 10 Tr VND
10 Tr - 11 Tr VND
10 Tr - 11,8 Tr VND
10 Tr - 12 Tr VND
10 Tr - 13 Tr VND
10 Tr - 13,5 Tr VND
10 Tr - 14 Tr VND
10 Tr - 15 Tr VND
10 Tr - 16 Tr VND
10 Tr - 17 Tr VND
10 Tr - 18 Tr VND
10 Tr - 20 Tr VND
10 Tr - 22 Tr VND
10 Tr - 25 Tr VND
10 Tr - 30 Tr VND
10 Tr - 35 Tr VND
10 Tr - 40 Tr VND
10 Tr - 50 Tr VND
10,5 Tr - 12 Tr VND
100 Tr - 110 Tr VND
11 Tr - 12 Tr VND
11 Tr - 12,5 Tr VND
11 Tr - 13 Tr VND
11 Tr - 14 Tr VND
11 Tr - 15 Tr VND
11 Tr - 16 Tr VND
11 Tr - 16,5 Tr VND
11 Tr - 17 Tr VND
11 Tr - 17,6 Tr VND
11 Tr - 18 Tr VND
11 Tr - 18,7 Tr VND
11 Tr - 19,8 Tr VND
11 Tr - 20 Tr VND
11 Tr - 22 Tr VND
11 Tr - 25 Tr VND
11 Tr - 26,4 Tr VND
11 Tr - 33 Tr VND
11 Tr - 44 Tr VND
110 Tr - 220 Tr VND
12 Tr - 12 Tr VND
12 Tr - 13 Tr VND
12 Tr - 14 Tr VND
12 Tr - 15 Tr VND
12 Tr - 16 Tr VND
12 Tr - 17 Tr VND
12 Tr - 18 Tr VND
12 Tr - 20 Tr VND
12 Tr - 22 Tr VND
12 Tr - 23 Tr VND
12 Tr - 24 Tr VND
12 Tr

In [77]:
for i in sorted(df[df['salary'].map(lambda x: not (bool(re.match(r"(^[\d]+(,[\d]+)? Tr - [\d]+(,[\d]+)? Tr VND)", x))
                                                or bool(re.match(r"^Dưới[\d]+(,[\d]+)? (Tr )?VND", x))
                                                or bool(re.match(r"^Trên [\d]+(,[\d]+)? (Tr )?VND", x))))]['salary'].unique()):
    print(i)

Cạnh tranh


In [78]:
def processing_salary(x):
    '''
    x = 'Dưới50,8 Tr VND'
    y = 'Dưới500,000 VND'
    z = '9,2 Tr - 30,2 Tr VND'
    t = 'Trên 17,6 Tr VND'
    
    processing_salary(y)
    '''
    pattern_so = r"(^[\d]+(,[\d]+)? (Tr )?- [\d]+(,[\d]+)? (Tr )?VND)"
    pattern_duoi = r"^Dưới[\d]+(,[\d]+)? (Tr )?VND"
    pattern_tren = r"^Trên [\d]+(,[\d]+)? (Tr )?VND"
    if x == "Cạnh tranh":
        return ['Unknown', 'Unknown']
    elif bool(re.match(pattern_so, x)):
        try:
            re_match_obj = re.match(r"^[\d]+(,[\d]+)? (Tr )?", x)
            idx_s_lb_salary = re_match_obj.start()
            idx_e_lb_salary = re_match_obj.end()
            lb_salary = x[idx_s_lb_salary:idx_e_lb_salary].strip()
            lb_salary = float(lb_salary.replace(",", ""))/1_000_000 if (lb_salary[-3:]!=" Tr")\
                else float(lb_salary[:-3].replace(",", "."))
            re_search_obj = re.search(r"[\d]+(,[\d]+)? (Tr )?", x[idx_e_lb_salary:])
            idx_s_ub_salary = re_search_obj.start()
            idx_e_ub_salary = re_search_obj.end()
            ub_salary = x[idx_e_lb_salary+idx_s_ub_salary:idx_e_lb_salary+idx_e_ub_salary].strip()
            ub_salary = float(ub_salary.replace(",", ""))/1_000_000 if (ub_salary[-3:]!=" Tr")\
                else float(ub_salary[:-3].replace(",", "."))
            return [lb_salary, ub_salary]
        except:
            return [x, '']
    elif bool(re.match(pattern_duoi, x)):
        try:
            re_search_obj = re.search(r"[\d]+(,[\d]+)? (Tr )?", x)
            idx_s_ub_salary = re_search_obj.start()
            idx_e_ub_salary = re_search_obj.end()
            ub_salary = x[idx_s_ub_salary:idx_e_ub_salary].strip()
            ub_salary = float(ub_salary.replace(",", ""))/1_000_000 if (ub_salary[-3:]!=" Tr")\
                else float(ub_salary[:-3].replace(",", "."))
            lb_salary = ub_salary * 0.32
            return [lb_salary, ub_salary]
        except:
            return [x, '']
    elif bool(re.match(pattern_tren, x)):
        try:
            re_search_obj = re.search(r"[\d]+(,[\d]+)? (Tr )?", x)
            idx_s_lb_salary = re_search_obj.start()
            idx_e_lb_salary = re_search_obj.end()
            lb_salary = x[idx_s_lb_salary:idx_e_lb_salary].strip()
            lb_salary = float(lb_salary.replace(",", ""))/1_000_000 if (lb_salary[-3:]!=" Tr")\
                else float(lb_salary[:-3].replace(",", "."))
            ub_salary = lb_salary * 1.4
            return [lb_salary, ub_salary]
        except:
            return [x, '']
    else:
        return [x, '']

[0.16, 0.5]

In [79]:
df['salary']

0              Cạnh tranh
1              Cạnh tranh
2              Cạnh tranh
3              Cạnh tranh
4       12 Tr - 14 Tr VND
              ...        
6052     9 Tr - 10 Tr VND
6053           Cạnh tranh
6054           Cạnh tranh
6055           Cạnh tranh
6056           Cạnh tranh
Name: salary, Length: 6057, dtype: object

In [80]:
df['salary'] = df['salary'].map(processing_salary)

In [81]:
df['lb_salary'] = df['salary'].map(lambda x: x[0])
df['ub_salary'] = df['salary'].map(lambda x: x[1])

In [82]:
df = df.drop(['salary'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,25-02-2023,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,25-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,25-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,25-02-2023,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,25-02-2023,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,04-02-2023,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,04-02-2023,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,04-02-2023,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,04-02-2023,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown


## 2.10) Processing "announcement_date" column

In [83]:
df['announcement_date'].map(len).min()

10

In [84]:
df['announcement_date'].map(len).max()

10

In [85]:
df['announcement_date'] = df['announcement_date'].map(lambda x: x[-4:] + "-" + x[3:5] + "-" + x[:2])

In [86]:
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown


## 2.11) Processing "hinh_thuc" column

In [87]:
df[['hinh_thuc']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   hinh_thuc  5733 non-null   object
dtypes: object(1)
memory usage: 94.6+ KB


In [88]:
df['hinh_thuc'] = df['hinh_thuc'].fillna("Unknown")

In [89]:
df['hinh_thuc'].unique()

array(['Nhân viên chính thức', 'Nhân viên chính thức, Thực tập',
       'Nhân viên chính thức, Bán thời gian, Thực tập', 'Unknown',
       'Thực tập', 'Thời vụ/ Nghề tự do',
       'Nhân viên chính thức, Bán thời gian',
       'Nhân viên chính thức, Thời vụ/ Nghề tự do',
       'Nhân viên chính thức, Bán thời gian, Thời vụ/ Nghề tự do, Thực tập',
       'Bán thời gian', 'Bán thời gian, Thời vụ/ Nghề tự do',
       'Nhân viên chính thức, Bán thời gian, Thời vụ/ Nghề tự do',
       'Bán thời gian, Thực tập',
       'Bán thời gian, Thời vụ/ Nghề tự do, Thực tập'], dtype=object)

In [90]:
set(reduce(lambda x, y: x+y, df['hinh_thuc'].map(lambda x: list(map(lambda y: y.strip(), x.split(", ")))).values))

{'Bán thời gian',
 'Nhân viên chính thức',
 'Thời vụ/ Nghề tự do',
 'Thực tập',
 'Unknown'}

In [91]:
df['hinh_thuc'] = df['hinh_thuc'].map(lambda x: list(map(lambda y: y.strip(), x.split(", "))))

In [92]:
df_hinh_thuc = df[['job_id', 'hinh_thuc']].explode('hinh_thuc')
df_hinh_thuc

Unnamed: 0,job_id,hinh_thuc
0,35BB7E70,Nhân viên chính thức
1,35BB7E5A,Nhân viên chính thức
2,35BB7E5D,Nhân viên chính thức
3,35BB7E59,Nhân viên chính thức
4,35BB7E5F,Nhân viên chính thức
...,...,...
6052,35BB1286,Thực tập
6053,35BB128C,Nhân viên chính thức
6054,35BB12EA,Nhân viên chính thức
6055,35BB1400,Nhân viên chính thức


In [93]:
df_hinh_thuc.to_csv(r"vn_data_jobs\data cb\cleansed data cb\hinh_thuc_job.csv", index=False)

In [94]:
df = df.drop(['hinh_thuc'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,kinh_nghiem,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,3 - 5 Năm,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Trên 1 Năm,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,2 - 5 Năm,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Trên 1 Năm,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,1 - 3 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Trên 1 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Trên 4 Năm,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown


## 2.12) Processing "kinh_nghiem" column

In [95]:
df[['kinh_nghiem']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   kinh_nghiem  5733 non-null   object
dtypes: object(1)
memory usage: 94.6+ KB


In [96]:
df['kinh_nghiem'] = df['kinh_nghiem'].fillna("Unknown")

In [97]:
for i in sorted(df['kinh_nghiem'].unique()):
    print(i)

0 - 0 Năm
1 - 10 Năm
1 - 15 Năm
1 - 2 Năm
1 - 20 Năm
1 - 3 Năm
1 - 4 Năm
1 - 5 Năm
1 - 6 Năm
1 - 7 Năm
1 - 8 Năm
1 Năm
10 - 12 Năm
10 - 13 Năm
10 - 15 Năm
10 - 17 Năm
10 - 20 Năm
10 - 25 Năm
12 - 15 Năm
12 - 18 Năm
15 - 20 Năm
15/03/2023
2 - 10 Năm
2 - 12 Năm
2 - 15 Năm
2 - 20 Năm
2 - 3 Năm
2 - 4 Năm
2 - 5 Năm
2 - 6 Năm
2 - 7 Năm
2 - 8 Năm
2 Năm
22/03/2023
3 - 10 Năm
3 - 15 Năm
3 - 20 Năm
3 - 4 Năm
3 - 5 Năm
3 - 6 Năm
3 - 7 Năm
3 - 8 Năm
3 - 9 Năm
3 Năm
4 - 10 Năm
4 - 15 Năm
4 - 20 Năm
4 - 5 Năm
4 - 6 Năm
4 - 7 Năm
4 - 8 Năm
5 - 10 Năm
5 - 15 Năm
5 - 20 Năm
5 - 25 Năm
5 - 6 Năm
5 - 7 Năm
5 - 8 Năm
5 - 9 Năm
5 Năm
6 - 10 Năm
6 - 15 Năm
6 - 20 Năm
6 - 8 Năm
7 - 10 Năm
7 - 12 Năm
7 - 13 Năm
7 - 15 Năm
7 - 17 Năm
7 - 20 Năm
7 - 8 Năm
8 - 10 Năm
8 - 12 Năm
8 - 15 Năm
8 - 20 Năm
8 - 28 Năm
8 Năm
Chưa có kinh nghiệm
Dưới 1Năm
Dưới 2Năm
Dưới 3Năm
Dưới 4Năm
Dưới 5Năm
Giám đốc
Mới tốt nghiệp
Nhân viên
Quản lý
Sinh viên/ Thực tập sinh
Trên 1 Năm
Trên 10 Năm
Trên 12 Năm
Trên 2 Năm
Trên 3 Năm
Trên 

In [98]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x)))]['kinh_nghiem'].unique()):
    print(i)

0 - 0 Năm
1 - 10 Năm
1 - 15 Năm
1 - 2 Năm
1 - 20 Năm
1 - 3 Năm
1 - 4 Năm
1 - 5 Năm
1 - 6 Năm
1 - 7 Năm
1 - 8 Năm
10 - 12 Năm
10 - 13 Năm
10 - 15 Năm
10 - 17 Năm
10 - 20 Năm
10 - 25 Năm
12 - 15 Năm
12 - 18 Năm
15 - 20 Năm
2 - 10 Năm
2 - 12 Năm
2 - 15 Năm
2 - 20 Năm
2 - 3 Năm
2 - 4 Năm
2 - 5 Năm
2 - 6 Năm
2 - 7 Năm
2 - 8 Năm
3 - 10 Năm
3 - 15 Năm
3 - 20 Năm
3 - 4 Năm
3 - 5 Năm
3 - 6 Năm
3 - 7 Năm
3 - 8 Năm
3 - 9 Năm
4 - 10 Năm
4 - 15 Năm
4 - 20 Năm
4 - 5 Năm
4 - 6 Năm
4 - 7 Năm
4 - 8 Năm
5 - 10 Năm
5 - 15 Năm
5 - 20 Năm
5 - 25 Năm
5 - 6 Năm
5 - 7 Năm
5 - 8 Năm
5 - 9 Năm
6 - 10 Năm
6 - 15 Năm
6 - 20 Năm
6 - 8 Năm
7 - 10 Năm
7 - 12 Năm
7 - 13 Năm
7 - 15 Năm
7 - 17 Năm
7 - 20 Năm
7 - 8 Năm
8 - 10 Năm
8 - 12 Năm
8 - 15 Năm
8 - 20 Năm
8 - 28 Năm


In [99]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: not bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x)))]['kinh_nghiem'].unique()):
    print(i)

1 Năm
15/03/2023
2 Năm
22/03/2023
3 Năm
5 Năm
8 Năm
Chưa có kinh nghiệm
Dưới 1Năm
Dưới 2Năm
Dưới 3Năm
Dưới 4Năm
Dưới 5Năm
Giám đốc
Mới tốt nghiệp
Nhân viên
Quản lý
Sinh viên/ Thực tập sinh
Trên 1 Năm
Trên 10 Năm
Trên 12 Năm
Trên 2 Năm
Trên 3 Năm
Trên 4 Năm
Trên 5 Năm
Trên 6 Năm
Trên 7 Năm
Trên 8 Năm
Trưởng nhóm / Giám sát
Unknown


In [100]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x))
                                                or bool(re.match(r"(^[\d]+ Năm)", x)))]['kinh_nghiem'].unique()):
    print(i)

0 - 0 Năm
1 - 10 Năm
1 - 15 Năm
1 - 2 Năm
1 - 20 Năm
1 - 3 Năm
1 - 4 Năm
1 - 5 Năm
1 - 6 Năm
1 - 7 Năm
1 - 8 Năm
1 Năm
10 - 12 Năm
10 - 13 Năm
10 - 15 Năm
10 - 17 Năm
10 - 20 Năm
10 - 25 Năm
12 - 15 Năm
12 - 18 Năm
15 - 20 Năm
2 - 10 Năm
2 - 12 Năm
2 - 15 Năm
2 - 20 Năm
2 - 3 Năm
2 - 4 Năm
2 - 5 Năm
2 - 6 Năm
2 - 7 Năm
2 - 8 Năm
2 Năm
3 - 10 Năm
3 - 15 Năm
3 - 20 Năm
3 - 4 Năm
3 - 5 Năm
3 - 6 Năm
3 - 7 Năm
3 - 8 Năm
3 - 9 Năm
3 Năm
4 - 10 Năm
4 - 15 Năm
4 - 20 Năm
4 - 5 Năm
4 - 6 Năm
4 - 7 Năm
4 - 8 Năm
5 - 10 Năm
5 - 15 Năm
5 - 20 Năm
5 - 25 Năm
5 - 6 Năm
5 - 7 Năm
5 - 8 Năm
5 - 9 Năm
5 Năm
6 - 10 Năm
6 - 15 Năm
6 - 20 Năm
6 - 8 Năm
7 - 10 Năm
7 - 12 Năm
7 - 13 Năm
7 - 15 Năm
7 - 17 Năm
7 - 20 Năm
7 - 8 Năm
8 - 10 Năm
8 - 12 Năm
8 - 15 Năm
8 - 20 Năm
8 - 28 Năm
8 Năm


In [101]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: not (bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x))
                                                     or bool(re.match(r"(^[\d]+ Năm)", x))))]['kinh_nghiem'].unique()):
    print(i)

15/03/2023
22/03/2023
Chưa có kinh nghiệm
Dưới 1Năm
Dưới 2Năm
Dưới 3Năm
Dưới 4Năm
Dưới 5Năm
Giám đốc
Mới tốt nghiệp
Nhân viên
Quản lý
Sinh viên/ Thực tập sinh
Trên 1 Năm
Trên 10 Năm
Trên 12 Năm
Trên 2 Năm
Trên 3 Năm
Trên 4 Năm
Trên 5 Năm
Trên 6 Năm
Trên 7 Năm
Trên 8 Năm
Trưởng nhóm / Giám sát
Unknown


In [102]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: (bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x))
                                                 or bool(re.match(r"(^[\d]+ Năm)", x))
                                                 or bool(re.match(r"(^Dưới [\d]+Năm)", x))))]['kinh_nghiem'].unique()):
    print(i)

0 - 0 Năm
1 - 10 Năm
1 - 15 Năm
1 - 2 Năm
1 - 20 Năm
1 - 3 Năm
1 - 4 Năm
1 - 5 Năm
1 - 6 Năm
1 - 7 Năm
1 - 8 Năm
1 Năm
10 - 12 Năm
10 - 13 Năm
10 - 15 Năm
10 - 17 Năm
10 - 20 Năm
10 - 25 Năm
12 - 15 Năm
12 - 18 Năm
15 - 20 Năm
2 - 10 Năm
2 - 12 Năm
2 - 15 Năm
2 - 20 Năm
2 - 3 Năm
2 - 4 Năm
2 - 5 Năm
2 - 6 Năm
2 - 7 Năm
2 - 8 Năm
2 Năm
3 - 10 Năm
3 - 15 Năm
3 - 20 Năm
3 - 4 Năm
3 - 5 Năm
3 - 6 Năm
3 - 7 Năm
3 - 8 Năm
3 - 9 Năm
3 Năm
4 - 10 Năm
4 - 15 Năm
4 - 20 Năm
4 - 5 Năm
4 - 6 Năm
4 - 7 Năm
4 - 8 Năm
5 - 10 Năm
5 - 15 Năm
5 - 20 Năm
5 - 25 Năm
5 - 6 Năm
5 - 7 Năm
5 - 8 Năm
5 - 9 Năm
5 Năm
6 - 10 Năm
6 - 15 Năm
6 - 20 Năm
6 - 8 Năm
7 - 10 Năm
7 - 12 Năm
7 - 13 Năm
7 - 15 Năm
7 - 17 Năm
7 - 20 Năm
7 - 8 Năm
8 - 10 Năm
8 - 12 Năm
8 - 15 Năm
8 - 20 Năm
8 - 28 Năm
8 Năm
Dưới 1Năm
Dưới 2Năm
Dưới 3Năm
Dưới 4Năm
Dưới 5Năm


In [103]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: not (bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x))
                                                 or bool(re.match(r"(^[\d]+ Năm)", x))
                                                 or bool(re.match(r"(^Dưới [\d]+Năm)", x))))]['kinh_nghiem'].unique()):
    print(i)

15/03/2023
22/03/2023
Chưa có kinh nghiệm
Giám đốc
Mới tốt nghiệp
Nhân viên
Quản lý
Sinh viên/ Thực tập sinh
Trên 1 Năm
Trên 10 Năm
Trên 12 Năm
Trên 2 Năm
Trên 3 Năm
Trên 4 Năm
Trên 5 Năm
Trên 6 Năm
Trên 7 Năm
Trên 8 Năm
Trưởng nhóm / Giám sát
Unknown


In [104]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: (bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x))
                                                 or bool(re.match(r"(^[\d]+ Năm)", x))
                                                 or bool(re.match(r"(^Dưới [\d]+Năm)", x))
                                                 or bool(re.match(r"(^Trên [\d]+ Năm)", x))))]['kinh_nghiem'].unique()):
    print(i)

0 - 0 Năm
1 - 10 Năm
1 - 15 Năm
1 - 2 Năm
1 - 20 Năm
1 - 3 Năm
1 - 4 Năm
1 - 5 Năm
1 - 6 Năm
1 - 7 Năm
1 - 8 Năm
1 Năm
10 - 12 Năm
10 - 13 Năm
10 - 15 Năm
10 - 17 Năm
10 - 20 Năm
10 - 25 Năm
12 - 15 Năm
12 - 18 Năm
15 - 20 Năm
2 - 10 Năm
2 - 12 Năm
2 - 15 Năm
2 - 20 Năm
2 - 3 Năm
2 - 4 Năm
2 - 5 Năm
2 - 6 Năm
2 - 7 Năm
2 - 8 Năm
2 Năm
3 - 10 Năm
3 - 15 Năm
3 - 20 Năm
3 - 4 Năm
3 - 5 Năm
3 - 6 Năm
3 - 7 Năm
3 - 8 Năm
3 - 9 Năm
3 Năm
4 - 10 Năm
4 - 15 Năm
4 - 20 Năm
4 - 5 Năm
4 - 6 Năm
4 - 7 Năm
4 - 8 Năm
5 - 10 Năm
5 - 15 Năm
5 - 20 Năm
5 - 25 Năm
5 - 6 Năm
5 - 7 Năm
5 - 8 Năm
5 - 9 Năm
5 Năm
6 - 10 Năm
6 - 15 Năm
6 - 20 Năm
6 - 8 Năm
7 - 10 Năm
7 - 12 Năm
7 - 13 Năm
7 - 15 Năm
7 - 17 Năm
7 - 20 Năm
7 - 8 Năm
8 - 10 Năm
8 - 12 Năm
8 - 15 Năm
8 - 20 Năm
8 - 28 Năm
8 Năm
Dưới 1Năm
Dưới 2Năm
Dưới 3Năm
Dưới 4Năm
Dưới 5Năm
Trên 1 Năm
Trên 10 Năm
Trên 12 Năm
Trên 2 Năm
Trên 3 Năm
Trên 4 Năm
Trên 5 Năm
Trên 6 Năm
Trên 7 Năm
Trên 8 Năm


In [105]:
for i in sorted(df[df['kinh_nghiem'].map(lambda x: not (bool(re.match(r"(^[\d]+ - [\d]+ Năm)", x))
                                                 or bool(re.match(r"(^[\d]+ Năm)", x))
                                                 or bool(re.match(r"(^Dưới [\d]+Năm)", x))
                                                 or bool(re.match(r"(^Trên [\d]+ Năm)", x))))]['kinh_nghiem'].unique()):
    print(i)

15/03/2023
22/03/2023
Chưa có kinh nghiệm
Giám đốc
Mới tốt nghiệp
Nhân viên
Quản lý
Sinh viên/ Thực tập sinh
Trưởng nhóm / Giám sát
Unknown


In [106]:
def processing_kinh_nghiem(x):
    pattern_1 = r"(^[\d]+ - [\d]+ Năm)"     # ? - ? Năm
    pattern_2 = r"(^[\d]+ Năm)"             # ? Năm
    pattern_3 = r"(^Dưới [\d]+Năm)"         # Dưới ?Năm
    pattern_4 = r"(^Trên [\d]+ Năm)"        # Trên ? Năm
    if x == "Chưa có kinh nghiệm":
        return [0, 0]
    elif bool(re.match(pattern_1, x)):
        try:
            re_match_obj = re.match(r"^[\d]+", x)
            idx_s_lb_kn = re_match_obj.start()
            idx_e_lb_kn = re_match_obj.end()
            lb_kn = x[idx_s_lb_kn:idx_e_lb_kn].strip()
            lb_kn = int(lb_kn)
            re_search_obj = re.search(r"[\d]+", x[idx_e_lb_kn:])
            idx_s_ub_kn = re_search_obj.start()
            idx_e_ub_kn = re_search_obj.end()
            ub_kn = x[idx_e_lb_kn+idx_s_ub_kn:idx_e_lb_kn+idx_e_ub_kn].strip()
            ub_kn = int(ub_kn)
            return [lb_kn, ub_kn]
        except:
            return [x, '']
    elif bool(re.match(pattern_2, x)):
        try:
            re_match_obj = re.match(r"^[\d]+", x)
            idx_s_lb_kn = re_match_obj.start()
            idx_e_lb_kn = re_match_obj.end()
            lb_kn = x[idx_s_lb_kn:idx_e_lb_kn].strip()
            lb_kn = int(lb_kn)
            return [lb_kn, lb_kn]
        except:
            return [x, '']
    elif bool(re.match(pattern_3, x)):
        try:
            re_match_obj = re.match(r"^[\d]+", x[5:])
            idx_s_ub_kn = re_match_obj.start()
            idx_e_ub_kn = re_match_obj.end()
            ub_kn = x[5+idx_s_ub_kn:5+idx_e_ub_kn].strip()
            ub_kn = int(ub_kn)
            return [0, ub_kn]
        except:
            return [x, '']
    elif bool(re.match(pattern_4, x)):
        try:
            re_match_obj = re.match(r"^[\d]+", x[5:])
            idx_s_lb_kn = re_match_obj.start()
            idx_e_lb_kn = re_match_obj.end()
            lb_kn = x[5+idx_s_lb_kn:5+idx_e_lb_kn].strip()
            lb_kn = int(lb_kn)
            return [lb_kn, 40]
        except:
            return [x, '']
    else:
        return [x, '']

x = '10 - 11 Năm'
y = '10 Năm'
z = 'Dưới 10Năm'
t = 'Trên 12 Năm'
processing_kinh_nghiem(x)

[10, 11]

In [107]:
df['kinh_nghiem']

0        3 - 5 Năm
1       Trên 1 Năm
2       Trên 1 Năm
3        2 - 5 Năm
4       Trên 1 Năm
           ...    
6052     1 - 3 Năm
6053    Trên 2 Năm
6054    Trên 1 Năm
6055    Trên 4 Năm
6056     1 - 3 Năm
Name: kinh_nghiem, Length: 6057, dtype: object

In [108]:
df['kinh_nghiem'].map(processing_kinh_nghiem)

0        [3, 5]
1       [1, 40]
2       [1, 40]
3        [2, 5]
4       [1, 40]
         ...   
6052     [1, 3]
6053    [2, 40]
6054    [1, 40]
6055    [4, 40]
6056     [1, 3]
Name: kinh_nghiem, Length: 6057, dtype: object

In [109]:
df['kinh_nghiem'] = df['kinh_nghiem'].map(processing_kinh_nghiem)

In [110]:
df['lb_kinh_nghiem'] = df['kinh_nghiem'].map(lambda x: x[0])
df['ub_kinh_nghiem'] = df['kinh_nghiem'].map(lambda x: x[1])

In [112]:
df = df.drop(['kinh_nghiem'], axis=1)
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


In [114]:
idx_repaired = df[df['ub_kinh_nghiem'].map(lambda x: True if not isinstance(x, int) else False)].index
idx_repaired

Int64Index([  13,   32,   33,   44,   46,   59,   79,   80,   83,   85,
            ...
            5993, 5999, 6004, 6006, 6010, 6012, 6016, 6021, 6026, 6047],
           dtype='int64', length=1148)

In [115]:
idx_repaired.size

1148

In [117]:
df_repaired = df.loc[idx_repaired]
df_repaired

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
13,Nhân Viên Bán Hàng tại cửa hàng,35BB7E64,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,20/03/2023,,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00960,Unknown,Unknown,Nhân viên,
32,Trưởng Phòng Kỹ thuật may,35BB7E2B,https://careerbuilder.vn/vi/tim-viec-lam/truon...,2023-02-25,,,"<div class=""job-tags "">\r\n <h2>Job tag...","<div class=""job-detail-bottom"">\r\n <div clas...","<div class=""job-detail-bottom-banner "" id="""">\...",C01464,Unknown,Unknown,Unknown,
33,Office Administrator,35BB7B16,https://careerbuilder.vn/vi/tim-viec-lam/offic...,2023-02-25,,,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01797,15.0,17.0,Unknown,
44,Nhân viên bán hàng tại Showroom - 165 Cộng Hòa...,35BB29E1,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-24,26/03/2023,,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01833,9.0,12.0,Nhân viên,
46,Giao dịch viên - Bình Định,35BB2997,https://careerbuilder.vn/vi/tim-viec-lam/giao-...,2023-02-24,26/03/2023,,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01593,4.4,8.8,Nhân viên,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6012,HEINEKEN Vietnam- Key Account Manager - Nation...,35BB31C9,https://careerbuilder.vn/vi/tim-viec-lam/heine...,2023-02-03,,,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01471,Unknown,Unknown,Unknown,
6016,TRƯỞNG NHÓM TƯ VẤN TUYỂN SINH,35BB5224,https://careerbuilder.vn/vi/tim-viec-lam/truon...,2023-02-03,,,"<div class=""job-tags "">\r\n <h2>Job tag...","<div class=""ViewRecommendJob"" id=""ViewRecommen...","<div class=""job-detail-bottom"">\r\n <div clas...",C00280,15.0,35.0,Unknown,
6021,Nhân Viên Media Marketing,35BB1199,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-03,05/03/2023,,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01750,10.0,15.0,Nhân viên,
6026,NHÂN VIÊN XỬ LÝ ĐƠN HÀNG,35BB545B,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,20/03/2023,,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01503,8.0,8.0,Nhân viên,


In [120]:
idx_repaired = df_repaired[~df_repaired['cap_bac'].isna()].index
idx_repaired

Int64Index([  13,   44,   46,   59,   79,   85,   92,   93,   98,  101,
            ...
            5968, 5985, 5991, 5993, 5999, 6004, 6006, 6021, 6026, 6047],
           dtype='int64', length=824)

In [121]:
idx_repaired.size

824

In [124]:
df.loc[idx_repaired, 'cap_bac']

13      20/03/2023
44      26/03/2023
46      26/03/2023
59      26/03/2023
79      26/03/2023
           ...    
6004    04/03/2023
6006    04/03/2023
6021    05/03/2023
6026    20/03/2023
6047    06/03/2023
Name: cap_bac, Length: 824, dtype: object

In [125]:
df.loc[idx_repaired, 'expiration_date'] = df.loc[idx_repaired, 'cap_bac']

In [127]:
idx_repaired = df[df['ub_kinh_nghiem'].map(lambda x: True if not isinstance(x, int) else False)].index
idx_repaired

Int64Index([  13,   32,   33,   44,   46,   59,   79,   80,   83,   85,
            ...
            5993, 5999, 6004, 6006, 6010, 6012, 6016, 6021, 6026, 6047],
           dtype='int64', length=1148)

In [131]:
df.loc[idx_repaired, 'cap_bac'] = df.loc[idx_repaired, 'lb_kinh_nghiem']

In [135]:
df.loc[idx_repaired]['lb_kinh_nghiem'].unique()

array(['Nhân viên', 'Unknown', 'Sinh viên/ Thực tập sinh',
       'Mới tốt nghiệp', 'Trưởng nhóm / Giám sát', 'Quản lý',
       '22/03/2023', '15/03/2023', 'Giám đốc'], dtype=object)

In [137]:
df.loc[idx_repaired, "lb_kinh_nghiem"] = "Unknown"
df.loc[idx_repaired, "ub_kinh_nghiem"] = "Unknown"

In [139]:
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,31/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,27/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,28/02/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,30/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,06/03/2023,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


## 2.13) Processing "cap_bac" column

In [140]:
df[['cap_bac']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   cap_bac  6057 non-null   object
dtypes: object(1)
memory usage: 223.7+ KB


In [142]:
df['cap_bac'].unique()

array(['Quản lý', 'Nhân viên', 'Trưởng nhóm / Giám sát', 'Giám đốc ',
       'Unknown', 'Sinh viên/ Thực tập sinh', 'Phó Giám đốc',
       'Mới tốt nghiệp', '22/03/2023', '15/03/2023', 'Giám đốc',
       'Tổng giám đốc'], dtype=object)

In [143]:
df['cap_bac'] = df['cap_bac'].replace("Giám đốc ", "Giám đốc")

In [144]:
df['cap_bac'].unique()

array(['Quản lý', 'Nhân viên', 'Trưởng nhóm / Giám sát', 'Giám đốc',
       'Unknown', 'Sinh viên/ Thực tập sinh', 'Phó Giám đốc',
       'Mới tốt nghiệp', '22/03/2023', '15/03/2023', 'Tổng giám đốc'],
      dtype=object)

In [None]:
kinh_nghiem = ['Chưa có kinh nghiệm']
cap_bac = ['Quản lý', 'Nhân viên', 'Trưởng nhóm / Giám sát',
    'Sinh viên/ Thực tập sinh', 'Phó Giám đốc',
    'Mới tốt nghiệp', 'Giám đốc', 'Tổng giám đốc']

In [149]:
idx_repaired = df[df['cap_bac'].map(lambda x: bool(re.match(r"(^[\d]{2}\/[\d]{2}\/[\d]{4}$)", x)))].index
idx_repaired

Int64Index([1828, 3535], dtype='int64')

In [152]:
tmp_data = df.loc[idx_repaired, 'expiration_date']
tmp_data

1828    Nhân viên
3535    Nhân viên
Name: expiration_date, dtype: object

In [153]:
df.loc[idx_repaired, 'expiration_date'] = df.loc[idx_repaired, 'cap_bac']
df.loc[idx_repaired]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
1828,Trợ lý kinh doanh tiếng Trung,35BB74DD,https://careerbuilder.vn/vi/tim-viec-lam/tro-l...,2023-02-21,22/03/2023,22/03/2023,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00094,9.0,12.0,Unknown,Unknown
3535,Kế Toán Viên,35BB66AA,https://careerbuilder.vn/vi/tim-viec-lam/ke-to...,2023-02-13,15/03/2023,15/03/2023,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00171,Unknown,Unknown,Unknown,Unknown


In [154]:
df.loc[idx_repaired, 'cap_bac'] = tmp_data
df.loc[idx_repaired]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
1828,Trợ lý kinh doanh tiếng Trung,35BB74DD,https://careerbuilder.vn/vi/tim-viec-lam/tro-l...,2023-02-21,Nhân viên,22/03/2023,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00094,9.0,12.0,Unknown,Unknown
3535,Kế Toán Viên,35BB66AA,https://careerbuilder.vn/vi/tim-viec-lam/ke-to...,2023-02-13,Nhân viên,15/03/2023,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00171,Unknown,Unknown,Unknown,Unknown


In [155]:
df['cap_bac'].unique()

array(['Quản lý', 'Nhân viên', 'Trưởng nhóm / Giám sát', 'Giám đốc',
       'Unknown', 'Sinh viên/ Thực tập sinh', 'Phó Giám đốc',
       'Mới tốt nghiệp', 'Tổng giám đốc'], dtype=object)

## 2.14) Processing "expiration_date" column

In [156]:
df[['expiration_date']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 1 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   expiration_date  5733 non-null   object
dtypes: object(1)
memory usage: 223.7+ KB


In [157]:
df['expiration_date'] = df['expiration_date'].fillna('Unknown')

In [451]:
df['expiration_date'].map(len).min()

7

In [158]:
df['expiration_date'].map(len).max()

10

In [160]:
df[df['expiration_date'].map(lambda x: len(x) != 10)]['expiration_date'].unique()

array(['Unknown'], dtype=object)

In [161]:
df[df['expiration_date'].map(lambda x: len(x) == 10)]['expiration_date'].unique()

array(['31/03/2023', '27/03/2023', '28/02/2023', '30/03/2023',
       '15/03/2023', '25/03/2023', '20/03/2023', '16/02/2023',
       '26/03/2023', '01/03/2023', '21/03/2023', '30/04/2023',
       '10/03/2023', '04/02/2023', '03/03/2023', '31/08/2022',
       '06/11/2022', '29/01/2023', '07/02/2023', '24/01/2023',
       '19/01/2023', '05/03/2023', '11/03/2023', '04/03/2023',
       '09/01/2023', '15/04/2023', '19/03/2023', '25/09/2022',
       '12/05/2022', '24/03/2023', '18/03/2023', '16/03/2023',
       '09/06/2022', '07/03/2023', '12/03/2023', '25/10/2022',
       '24/04/2023', '23/07/2022', '20/01/2023', '17/04/2022',
       '22/03/2023', '31/12/2023', '31/07/2023', '20/05/2023',
       '08/02/2023', '23/03/2023', '13/04/2023', '15/07/2022',
       '26/11/2022', '03/04/2022', '29/03/2023', '31/05/2023',
       '13/03/2023', '28/03/2023', '05/07/2022', '29/07/2022',
       '17/03/2023', '05/04/2023', '03/02/2023', '31/12/2022',
       '02/02/2023', '31/01/2023', '26/04/2023', '17/02

In [163]:
df['expiration_date']

0       31/03/2023
1       27/03/2023
2       27/03/2023
3       28/02/2023
4       30/03/2023
           ...    
6052    06/03/2023
6053    06/03/2023
6054    06/03/2023
6055    06/03/2023
6056    06/03/2023
Name: expiration_date, Length: 6057, dtype: object

In [162]:
df['expiration_date'].map(lambda x: x[-4:] + "-" + x[3:5] + "-" + x[:2])

0       2023-03-31
1       2023-03-27
2       2023-03-27
3       2023-02-28
4       2023-03-30
           ...    
6052    2023-03-06
6053    2023-03-06
6054    2023-03-06
6055    2023-03-06
6056    2023-03-06
Name: expiration_date, Length: 6057, dtype: object

In [164]:
df['expiration_date'] = df['expiration_date'].map(lambda x: x[-4:] + "-" + x[3:5] + "-" + x[:2])

In [167]:
df['expiration_date'].unique()

array(['2023-03-31', '2023-03-27', '2023-02-28', '2023-03-30',
       '2023-03-15', '2023-03-25', '2023-03-20', '2023-02-16',
       '2023-03-26', 'nown-no-Un', '2023-03-01', '2023-03-21',
       '2023-04-30', '2023-03-10', '2023-02-04', '2023-03-03',
       '2022-08-31', '2022-11-06', '2023-01-29', '2023-02-07',
       '2023-01-24', '2023-01-19', '2023-03-05', '2023-03-11',
       '2023-03-04', '2023-01-09', '2023-04-15', '2023-03-19',
       '2022-09-25', '2022-05-12', '2023-03-24', '2023-03-18',
       '2023-03-16', '2022-06-09', '2023-03-07', '2023-03-12',
       '2022-10-25', '2023-04-24', '2022-07-23', '2023-01-20',
       '2022-04-17', '2023-03-22', '2023-12-31', '2023-07-31',
       '2023-05-20', '2023-02-08', '2023-03-23', '2023-04-13',
       '2022-07-15', '2022-11-26', '2022-04-03', '2023-03-29',
       '2023-05-31', '2023-03-13', '2023-03-28', '2022-07-05',
       '2022-07-29', '2023-03-17', '2023-04-05', '2023-02-03',
       '2022-12-31', '2023-02-02', '2023-01-31', '2023-

In [171]:
idx_repaired = df[df['expiration_date'].map(lambda x: not (x[0]).isdigit())].index
idx_repaired

Int64Index([  32,   33,   80,   83,   86,   89,   91,   94,  173,  188,
            ...
            5930, 5932, 5950, 5973, 5975, 5976, 5981, 6010, 6012, 6016],
           dtype='int64', length=324)

In [172]:
idx_repaired.size

324

In [173]:
df.loc[idx_repaired]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
32,Trưởng Phòng Kỹ thuật may,35BB7E2B,https://careerbuilder.vn/vi/tim-viec-lam/truon...,2023-02-25,Unknown,nown-no-Un,"<div class=""job-tags "">\r\n <h2>Job tag...","<div class=""job-detail-bottom"">\r\n <div clas...","<div class=""job-detail-bottom-banner "" id="""">\...",C01464,Unknown,Unknown,Unknown,Unknown
33,Office Administrator,35BB7B16,https://careerbuilder.vn/vi/tim-viec-lam/offic...,2023-02-25,Unknown,nown-no-Un,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01797,15.0,17.0,Unknown,Unknown
80,"Sales Representative (Hải Châu, Đà Nẵng)",35BB4AEA,https://careerbuilder.vn/vi/tim-viec-lam/sales...,2023-02-24,Unknown,nown-no-Un,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01717,Unknown,Unknown,Unknown,Unknown
83,"Executive Assistant to COO, E-Gaming Project",35BB7E27,https://careerbuilder.vn/vi/tim-viec-lam/execu...,2023-02-24,Unknown,nown-no-Un,,,,,Unknown,Unknown,Unknown,Unknown
86,[Khu Vực HCM/HN] Chuyên Viên Tư Vấn Tài Chính ...,35BB6751,https://careerbuilder.vn/vi/tim-viec-lam/khu-v...,2023-02-24,Unknown,nown-no-Un,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00856,7.0,21.0,Unknown,Unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5976,Kỹ sư Điện Công Trình,35BB4BF8,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-01,Unknown,nown-no-Un,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00753,Unknown,Unknown,Unknown,Unknown
5981,Senior Specialist - Import and Export,35BB4ED0,https://careerbuilder.vn/vi/tim-viec-lam/senio...,2023-02-02,Unknown,nown-no-Un,,,,C01057,17.0,20.0,Unknown,Unknown
6010,Purchasing Officer,35BB5104,https://careerbuilder.vn/vi/tim-viec-lam/purch...,2023-02-03,Unknown,nown-no-Un,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01416,Unknown,Unknown,Unknown,Unknown
6012,HEINEKEN Vietnam- Key Account Manager - Nation...,35BB31C9,https://careerbuilder.vn/vi/tim-viec-lam/heine...,2023-02-03,Unknown,nown-no-Un,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01471,Unknown,Unknown,Unknown,Unknown


In [174]:
df.loc[idx_repaired, 'expiration_date'] = 'Unknown'

In [175]:
df.loc[idx_repaired]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
32,Trưởng Phòng Kỹ thuật may,35BB7E2B,https://careerbuilder.vn/vi/tim-viec-lam/truon...,2023-02-25,Unknown,Unknown,"<div class=""job-tags "">\r\n <h2>Job tag...","<div class=""job-detail-bottom"">\r\n <div clas...","<div class=""job-detail-bottom-banner "" id="""">\...",C01464,Unknown,Unknown,Unknown,Unknown
33,Office Administrator,35BB7B16,https://careerbuilder.vn/vi/tim-viec-lam/offic...,2023-02-25,Unknown,Unknown,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01797,15.0,17.0,Unknown,Unknown
80,"Sales Representative (Hải Châu, Đà Nẵng)",35BB4AEA,https://careerbuilder.vn/vi/tim-viec-lam/sales...,2023-02-24,Unknown,Unknown,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01717,Unknown,Unknown,Unknown,Unknown
83,"Executive Assistant to COO, E-Gaming Project",35BB7E27,https://careerbuilder.vn/vi/tim-viec-lam/execu...,2023-02-24,Unknown,Unknown,,,,,Unknown,Unknown,Unknown,Unknown
86,[Khu Vực HCM/HN] Chuyên Viên Tư Vấn Tài Chính ...,35BB6751,https://careerbuilder.vn/vi/tim-viec-lam/khu-v...,2023-02-24,Unknown,Unknown,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00856,7.0,21.0,Unknown,Unknown
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5976,Kỹ sư Điện Công Trình,35BB4BF8,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-01,Unknown,Unknown,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00753,Unknown,Unknown,Unknown,Unknown
5981,Senior Specialist - Import and Export,35BB4ED0,https://careerbuilder.vn/vi/tim-viec-lam/senio...,2023-02-02,Unknown,Unknown,,,,C01057,17.0,20.0,Unknown,Unknown
6010,Purchasing Officer,35BB5104,https://careerbuilder.vn/vi/tim-viec-lam/purch...,2023-02-03,Unknown,Unknown,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01416,Unknown,Unknown,Unknown,Unknown
6012,HEINEKEN Vietnam- Key Account Manager - Nation...,35BB31C9,https://careerbuilder.vn/vi/tim-viec-lam/heine...,2023-02-03,Unknown,Unknown,"<div class=""detail-row"">\r\n <...","<div class=""detail-row"">\r\n <h3 class=...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01471,Unknown,Unknown,Unknown,Unknown


## 2.15) Check NaN "company_id" column

In [177]:
df[df['company_id'].isna()]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
83,"Executive Assistant to COO, E-Gaming Project",35BB7E27,https://careerbuilder.vn/vi/tim-viec-lam/execu...,2023-02-24,Unknown,Unknown,,,,,Unknown,Unknown,Unknown,Unknown


In [178]:
df.loc[83, 'job_url']

'https://careerbuilder.vn/vi/tim-viec-lam/executive-assistant-to-coo-e-gaming-project.35BB7E27.html'

In [180]:
idx_row = len(df_companies)
df_companies.loc[idx_row, 'company_id'] = "C" + "0"*(5-len(str(idx_row))) + str(idx_row)
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c
1838,C01838,ĐỐI TÁC NHÂN SỰ NGÂN HÀNG,https://careerbuilder.vn/vi/nha-tuyen-dung/doi...,Unknown


In [181]:
df_companies.loc[idx_row, 'company_title'] = "Unknown"
df_companies.loc[idx_row, 'company_url'] = "Unknown"
df_companies.loc[idx_row, 'company_video_url'] = "Unknown"
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c
1838,C01838,ĐỐI TÁC NHÂN SỰ NGÂN HÀNG,https://careerbuilder.vn/vi/nha-tuyen-dung/doi...,Unknown


In [192]:
df_companies.to_csv(r"vn_data_jobs\data cb\cleansed data cb\companies.csv", index=False)

In [182]:
df[df['company_id'].isna()]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
83,"Executive Assistant to COO, E-Gaming Project",35BB7E27,https://careerbuilder.vn/vi/tim-viec-lam/execu...,2023-02-24,Unknown,Unknown,,,,,Unknown,Unknown,Unknown,Unknown


In [183]:
df.loc[83, 'company_id'] = "C01839"

In [186]:
df.loc[[83], :]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
83,"Executive Assistant to COO, E-Gaming Project",35BB7E27,https://careerbuilder.vn/vi/tim-viec-lam/execu...,2023-02-24,Unknown,Unknown,,,,C01839,Unknown,Unknown,Unknown,Unknown


In [187]:
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,2023-03-31,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-02-28,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-03-30,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


In [188]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   job_title          6057 non-null   object
 1   job_id             6057 non-null   object
 2   job_url            6057 non-null   object
 3   announcement_date  6057 non-null   object
 4   cap_bac            6057 non-null   object
 5   expiration_date    6057 non-null   object
 6   job_description    5993 non-null   object
 7   job_requirements   5993 non-null   object
 8   other_info         5990 non-null   object
 9   company_id         6057 non-null   object
 10  lb_salary          6057 non-null   object
 11  ub_salary          6057 non-null   object
 12  lb_kinh_nghiem     6057 non-null   object
 13  ub_kinh_nghiem     6057 non-null   object
dtypes: object(14)
memory usage: 838.8+ KB


In [189]:
df['job_description'] = df['job_description'].fillna("Unknown")
df['job_requirements'] = df['job_requirements'].fillna("Unknown")
df['other_info'] = df['other_info'].fillna("Unknown")

In [190]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6057 entries, 0 to 6056
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   job_title          6057 non-null   object
 1   job_id             6057 non-null   object
 2   job_url            6057 non-null   object
 3   announcement_date  6057 non-null   object
 4   cap_bac            6057 non-null   object
 5   expiration_date    6057 non-null   object
 6   job_description    6057 non-null   object
 7   job_requirements   6057 non-null   object
 8   other_info         6057 non-null   object
 9   company_id         6057 non-null   object
 10  lb_salary          6057 non-null   object
 11  ub_salary          6057 non-null   object
 12  lb_kinh_nghiem     6057 non-null   object
 13  ub_kinh_nghiem     6057 non-null   object
dtypes: object(14)
memory usage: 838.8+ KB


In [191]:
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,2023-03-31,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-02-28,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-03-30,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


In [193]:
df.to_csv(r"vn_data_jobs\data cb\cleansed data cb\jobs.csv", index=False)

# =============================================================

# =============================================================

# =============================================================

# =============================================================

## 2.16) Again processing "company" column

In [194]:
link_to_data_files = r"vn_data_jobs\data cb\raw data cb\all_jobs"
lst_data_files = list(filter(lambda x: x[:12]=="all_jobs_cb_", os.listdir(link_to_data_files)))
lst_data_files

['all_jobs_cb_202302251140.csv',
 'all_jobs_cb_202302251202.csv',
 'all_jobs_cb_202302251218.csv',
 'all_jobs_cb_202302251233.csv']

In [195]:
df_2 = pd.DataFrame()
for file in lst_data_files:
    sub_df = pd.read_csv(os.path.join(link_to_data_files, file))
    print(len(sub_df))
    df_2 = pd.concat([df_2, sub_df], ignore_index=True)

1074
2056
1527
1400


In [196]:
df_2

Unnamed: 0,job_title,job_id,job_url,company_title,company_url,company_video_url,salary,location,outstanding_welfare,announcement_date,nganh_nghe,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,detailed_welfare,job_description,job_requirements,other_info,job_tags
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,,Lương: Cạnh tranh,Tuyên Quang,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,25-02-2023,Bán hàng / Kinh doanh | Dược phẩm | Y tế / Chă...,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,Lương: Cạnh tranh,Tây Ninh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Ngành khác | Nông nghiệp | Quản lý điều hành,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,Lương: Cạnh tranh,Tây Ninh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Công nghệ sinh học | Hóa học | Ngành khác,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s,Lương: Cạnh tranh,Hồ Chí Minh,Chế độ bảo hiểm | Du Lịch | Phụ cấp,25-02-2023,Bán hàng / Kinh doanh | Bất động sản | Bán lẻ ...,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,Chế độ bảo hiểm | Du Lịch | Phụ cấp | Du lịch ...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk,Lương: 12 Tr - 14 Tr VND,Hà Nội,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Luật / Pháp lý | Hành chính / Thư ký | Nhân sự,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,,Lương: 9 Tr - 10 Tr VND,Hồ Chí Minh,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Bán hàng / Kinh doanh | Dịch vụ khách hàng | K...,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Chế độ th...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công Ty Cổ Phần Đồng Tâm,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=JN2CZymeE-Q,Lương: Cạnh tranh,Long An,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Môi trường,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,,Lương: Cạnh tranh,Hà Nội,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=WJHhUAu-Y3Y&t=9s,Lương: Cạnh tranh,Hải Phòng,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng | Sả...,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",


In [200]:
df_companies = pd.concat([df_2[['company_title', 'company_url', 'company_video_url']].fillna('Unknown'), df[['company_id']]], axis=1)
df_companies

Unnamed: 0,company_title,company_url,company_video_url,company_id
0,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,Unknown,C01796
1,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,C01021
2,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,C01021
3,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s,C01163
4,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk,C01266
...,...,...,...,...
6052,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00628
6053,Công Ty Cổ Phần Đồng Tâm,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=JN2CZymeE-Q,C00827
6054,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00837
6055,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=WJHhUAu-Y3Y&t=9s,C00911


In [202]:
df_companies[df_companies['company_title']=='Unknown']

Unnamed: 0,company_title,company_url,company_video_url,company_id
83,Unknown,https://careerbuilder.vn/vi/nha-tuyen-dung/n-a...,Unknown,C01839


In [204]:
df_companies = df_companies.drop_duplicates()
df_companies

Unnamed: 0,company_title,company_url,company_video_url,company_id
0,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,Unknown,C01796
1,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,C01021
3,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s,C01163
4,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk,C01266
5,Công Ty TNHH TM AN SINH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00960
...,...,...,...,...
6005,CÔNG TY CỔ PHẦN VIỆT MỸ . GROUP,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00006
6013,Công ty TNHH Điện Máy Aqua Việt Nam,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C01338
6017,Công Ty TNHH TM - SX Hồ Nguyễn,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00959
6030,Công ty Cổ phần Liên Kết Toàn Cầu PWT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C01107


In [205]:
def filter_company_video_url(series_company_video_url):
    lst_company_video_url = list(filter(lambda x: x != "Unknown", series_company_video_url))
    if lst_company_video_url:
        return lst_company_video_url[0]
    else:
        return series_company_video_url.values[0]

In [206]:
df_companies = df_companies.groupby(['company_id'], as_index=False).agg({"company_title": "first", "company_url": "first",
                                                             "company_video_url": filter_company_video_url})
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1835,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1836,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c
1837,C01838,ĐỐI TÁC NHÂN SỰ NGÂN HÀNG,https://careerbuilder.vn/vi/nha-tuyen-dung/doi...,Unknown


In [207]:
df_companies[df_companies['company_title']=='PERSOLKELLY Vietnam']

Unnamed: 0,company_id,company_title,company_url,company_video_url
1621,C01621,PERSOLKELLY Vietnam,https://careerbuilder.vn/vi/nha-tuyen-dung/per...,https://www.youtube.com/watch?v=U19UzkTS7BU


In [215]:
df_companies.loc[1780:, ]

Unnamed: 0,company_id,company_title,company_url,company_video_url
1780,C01780,Tổng công ty Cổ phần Bia - Rượu - Nước giải kh...,https://careerbuilder.vn/vi/nha-tuyen-dung/ton...,https://www.youtube.com/watch?v=mSkx0zll8zQ
1781,C01781,Tổng công ty Cổ phần Bảo Minh,https://careerbuilder.vn/vi/nha-tuyen-dung/ton...,https://www.youtube.com/watch?v=-alo-XRdyJs
1782,C01782,"UNIEXPORT CO., LTD",https://careerbuilder.vn/vi/nha-tuyen-dung/uni...,Unknown
1783,C01783,UPSG - United Potteries Saigon,https://careerbuilder.vn/vi/nha-tuyen-dung/ups...,Unknown
1784,C01784,Umami Bam,https://careerbuilder.vn/vi/nha-tuyen-dung/uma...,Unknown
1785,C01785,"Un-Available LTD Co.,",https://careerbuilder.vn/vi/nha-tuyen-dung/un-...,https://www.youtube.com/watch?v=RDQ2An5hvG8&t=51s
1786,C01786,Unilever Vietnam,https://careerbuilder.vn/vi/nha-tuyen-dung/uni...,Unknown
1787,C01787,Unilever Vietnam International,https://careerbuilder.vn/vi/nha-tuyen-dung/uni...,Unknown
1788,C01789,UrBox - Công ty Cổ phần Tiếp Thị Số Tô Quà,https://careerbuilder.vn/vi/nha-tuyen-dung/urb...,https://www.youtube.com/watch?v=rfFcJCLwAW0
1789,C01790,V-Key Pte Ltd,https://careerbuilder.vn/vi/nha-tuyen-dung/v-k...,Unknown


In [None]:
# C01788 từng là Unknown của công ty N/A nhưng do không biết nên ta đã tạo 1 mã mới

In [216]:
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1835,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1836,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c
1837,C01838,ĐỐI TÁC NHÂN SỰ NGÂN HÀNG,https://careerbuilder.vn/vi/nha-tuyen-dung/doi...,Unknown


In [220]:
df_jobs

Unnamed: 0,City,Company,job_id
0,Tuyên Quang,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,35BB7E70
1,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5A
2,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5D
3,Hồ Chí Minh,Công ty Cổ phần Đầu tư Kelsey,35BB7E59
4,Hà Nội,Công ty TNHH SX & TM Dược phẩm Tâm Bình,35BB7E5F
...,...,...,...
6052,Hồ Chí Minh,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,35BB1286
6053,Long An,Công Ty Cổ Phần Đồng Tâm,35BB128C
6054,Hà Nội,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,35BB12EA
6055,Hải Phòng,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,35BB1400


In [222]:
df_jobs = df_jobs.merge(df_companies[['company_id', 'company_title']], left_on='Company', right_on='company_title', how='left')
df_jobs

Unnamed: 0,City,Company,job_id,company_id,company_title
0,Tuyên Quang,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,35BB7E70,C01796,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM
1,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5A,C01021,Công ty CP Thành Thành Công - Biên Hòa
2,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5D,C01021,Công ty CP Thành Thành Công - Biên Hòa
3,Hồ Chí Minh,Công ty Cổ phần Đầu tư Kelsey,35BB7E59,C01163,Công ty Cổ phần Đầu tư Kelsey
4,Hà Nội,Công ty TNHH SX & TM Dược phẩm Tâm Bình,35BB7E5F,C01266,Công ty TNHH SX & TM Dược phẩm Tâm Bình
...,...,...,...,...,...
6919,Hồ Chí Minh,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,35BB1286,C00628,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH
6920,Long An,Công Ty Cổ Phần Đồng Tâm,35BB128C,C00827,Công Ty Cổ Phần Đồng Tâm
6921,Hà Nội,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,35BB12EA,C00837,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...
6922,Hải Phòng,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,35BB1400,C00911,Công Ty TNHH LG Innotek Việt Nam Hải Phòng


In [223]:
df_jobs[df_jobs['company_title'].isna()]

Unnamed: 0,City,Company,job_id,company_id,company_title
16,Hà Nội,Ngân Hàng TMCP Việt Á,35BB7E56,,
17,Hà Nội,Công Ty TNHH MTV Năng Lượng An Việt Phát,35BB7E58,,
23,Hà Nội,Tập đoàn Dược Phẩm Vimedimex,35BB2A12,,
28,Hà Nội,Tập đoàn Dược Phẩm Vimedimex,35BB2A1A,,
31,Hà Nội,Tập đoàn Dược Phẩm Vimedimex,35BB2A26,,
...,...,...,...,...,...
6874,Hà Nội,HEINEKEN Vietnam,35BB31C9,,
6891,Hồ Chí Minh,Công ty Cổ phần Tập đoàn Hoa Sen,35BB545E,,
6892,Bình Dương,Công ty Cổ phần Tập đoàn Hoa Sen,35BB545E,,
6906,Bình Định,Công Ty TNHH MTV Năng Lượng An Việt Phát,35BB33FE,,


In [34]:
df_companies.to_csv(r"vn_data_jobs\data cb\cleansed data cb\companies.csv", index=False)

## 2.17) Again processing "jobs" and "company" dataset

In [1]:
import os
import numpy as np
import pandas as pd

In [2]:
df = pd.read_csv(r"vn_data_jobs\data cb\cleansed data cb\jobs.csv")
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,2023-03-31,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-02-28,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-03-30,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


In [7]:
df.loc[[83], :]

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
83,"Executive Assistant to COO, E-Gaming Project",35BB7E27,https://careerbuilder.vn/vi/tim-viec-lam/execu...,2023-02-24,Unknown,Unknown,Unknown,Unknown,Unknown,C01788,Unknown,Unknown,Unknown,Unknown


In [6]:
df.loc[83, 'company_id'] = "C01788"

In [8]:
link_to_data_files = r"vn_data_jobs\data cb\raw data cb\all_jobs"
lst_data_files = list(filter(lambda x: x[:12]=="all_jobs_cb_", os.listdir(link_to_data_files)))
lst_data_files

['all_jobs_cb_202302251140.csv',
 'all_jobs_cb_202302251202.csv',
 'all_jobs_cb_202302251218.csv',
 'all_jobs_cb_202302251233.csv']

In [9]:
df_2 = pd.DataFrame()
for file in lst_data_files:
    sub_df = pd.read_csv(os.path.join(link_to_data_files, file))
    print(len(sub_df))
    df_2 = pd.concat([df_2, sub_df], ignore_index=True)

1074
2056
1527
1400


In [10]:
df_2

Unnamed: 0,job_title,job_id,job_url,company_title,company_url,company_video_url,salary,location,outstanding_welfare,announcement_date,nganh_nghe,hinh_thuc,kinh_nghiem,cap_bac,expiration_date,detailed_welfare,job_description,job_requirements,other_info,job_tags
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,,Lương: Cạnh tranh,Tuyên Quang,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,25-02-2023,Bán hàng / Kinh doanh | Dược phẩm | Y tế / Chă...,Nhân viên chính thức,3 - 5 Năm,Quản lý,31/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",QUẢN LÝ KINH DOANH | BỆNH VIỆN | NHÀ THUỐC | K...
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,Lương: Cạnh tranh,Tây Ninh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Ngành khác | Nông nghiệp | Quản lý điều hành,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư cầu đường Làm việc tại Tây Ninh | Thiết ...
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,Lương: Cạnh tranh,Tây Ninh,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Công nghệ sinh học | Hóa học | Ngành khác,Nhân viên chính thức,Trên 1 Năm,Nhân viên,27/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Kỹ sư nông học Làm việc tại Tây Ninh | Công ng...
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s,Lương: Cạnh tranh,Hồ Chí Minh,Chế độ bảo hiểm | Du Lịch | Phụ cấp,25-02-2023,Bán hàng / Kinh doanh | Bất động sản | Bán lẻ ...,Nhân viên chính thức,2 - 5 Năm,Nhân viên,28/02/2023,Chế độ bảo hiểm | Du Lịch | Phụ cấp | Du lịch ...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Đại diện kinh doanh | Nhân viên phòng kinh d...
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk,Lương: 12 Tr - 14 Tr VND,Hà Nội,Laptop | Chế độ bảo hiểm | Du Lịch,25-02-2023,Luật / Pháp lý | Hành chính / Thư ký | Nhân sự,"Nhân viên chính thức, Thực tập",Trên 1 Năm,Nhân viên,30/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,,Lương: 9 Tr - 10 Tr VND,Hồ Chí Minh,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Bán hàng / Kinh doanh | Dịch vụ khách hàng | K...,"Nhân viên chính thức, Thực tập",1 - 3 Năm,Nhân viên,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Chế độ th...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Accountant
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,Công Ty Cổ Phần Đồng Tâm,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=JN2CZymeE-Q,Lương: Cạnh tranh,Long An,Laptop | Chế độ bảo hiểm | Du Lịch,04-02-2023,Môi trường,Nhân viên chính thức,Trên 2 Năm,Trưởng nhóm / Giám sát,06/03/2023,Laptop | Chế độ bảo hiểm | Du Lịch | Phụ cấp |...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Historiographer | Người chép sử | Sử gia | ...
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,,Lương: Cạnh tranh,Hà Nội,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng,Nhân viên chính thức,Trên 1 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",Chuyên viên Công nghệ thông tin Hỗ trợ người d...
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=WJHhUAu-Y3Y&t=9s,Lương: Cạnh tranh,Hải Phòng,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng,04-02-2023,CNTT - Phần mềm | CNTT - Phần cứng / Mạng | Sả...,Nhân viên chính thức,Trên 4 Năm,Nhân viên,06/03/2023,Chế độ bảo hiểm | Du Lịch | Chế độ thưởng | Ch...,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",


In [11]:
df_companies = pd.concat([df_2[['company_title', 'company_url', 'company_video_url']].fillna('Unknown'), df[['company_id']]], axis=1)
df_companies

Unnamed: 0,company_title,company_url,company_video_url,company_id
0,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/vie...,Unknown,C01796
1,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,C01021
2,Công ty CP Thành Thành Công - Biên Hòa,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Ob2h1HljnvM,C01021
3,Công ty Cổ phần Đầu tư Kelsey,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=VEOjzyBZz6s,C01163
4,Công ty TNHH SX & TM Dược phẩm Tâm Bình,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=DdvG606jmSk,C01266
...,...,...,...,...
6052,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00628
6053,Công Ty Cổ Phần Đồng Tâm,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=JN2CZymeE-Q,C00827
6054,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown,C00837
6055,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=WJHhUAu-Y3Y&t=9s,C00911


In [12]:
df_companies[df_companies['company_title']=='Unknown']

Unnamed: 0,company_title,company_url,company_video_url,company_id
83,Unknown,https://careerbuilder.vn/vi/nha-tuyen-dung/n-a...,Unknown,C01788


In [13]:
def filter_company_video_url(series_company_video_url):
    lst_company_video_url = list(filter(lambda x: x != "Unknown", series_company_video_url))
    if lst_company_video_url:
        return lst_company_video_url[0]
    else:
        return series_company_video_url.values[0]

In [14]:
df_companies = df_companies.groupby(['company_id'], as_index=False).agg({"company_title": "first", "company_url": "first",
                                                             "company_video_url": filter_company_video_url})
df_companies

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [15]:
df_companies[df_companies['company_title']=='PERSOLKELLY Vietnam']

Unnamed: 0,company_id,company_title,company_url,company_video_url
1621,C01621,PERSOLKELLY Vietnam,https://careerbuilder.vn/vi/nha-tuyen-dung/per...,https://www.youtube.com/watch?v=U19UzkTS7BU


In [18]:
# Check old df_companies
df_companies_old = pd.read_csv(r"vn_data_jobs\data cb\cleansed data cb\companies.csv")
df_companies_old

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI V...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [20]:
all(df_companies['company_id'] == df_companies_old['company_id'])

True

In [21]:
all(df_companies['company_title'] == df_companies_old['company_title'])

True

In [22]:
all(df_companies['company_url'] == df_companies_old['company_url'])

True

In [23]:
all(df_companies['company_video_url'] == df_companies_old['company_video_url'])

True

## 2.17) Again processing "location_job.csv" dataset

In [33]:
df_jobs_old = pd.read_csv(r"vn_data_jobs\data cb\cleansed data cb\location_job.csv")
df_jobs_old

Unnamed: 0,City,Company,job_id
0,Tuyên Quang,VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,35BB7E70
1,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5A
2,Tây Ninh,Công ty CP Thành Thành Công - Biên Hòa,35BB7E5D
3,Hồ Chí Minh,Công ty Cổ phần Đầu tư Kelsey,35BB7E59
4,Hà Nội,Công ty TNHH SX & TM Dược phẩm Tâm Bình,35BB7E5F
...,...,...,...
6919,Hồ Chí Minh,CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,35BB1286
6920,Long An,Công Ty Cổ Phần Đồng Tâm,35BB128C
6921,Hà Nội,Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,35BB12EA
6922,Hải Phòng,Công Ty TNHH LG Innotek Việt Nam Hải Phòng,35BB1400


In [36]:
from functools import reduce

In [34]:
# Check job_id unique
df_2['job_id'].unique().size  # ==> Unique

6057

In [37]:
set(reduce(lambda x, y: x+y, df_2['location'].map(lambda x: x.split(" | ")).values))

{'An Giang',
 'Bà Rịa - Vũng Tàu',
 'Bình Dương',
 'Bình Phước',
 'Bình Thuận',
 'Bình Định',
 'Bạc Liêu',
 'Bắc Giang',
 'Bắc Ninh',
 'Bến Tre',
 'Cà Mau',
 'Cần Thơ',
 'Dak Lak',
 'Dak Nông',
 'Gia Lai',
 'Hà Giang',
 'Hà Nam',
 'Hà Nội',
 'Hà Tĩnh',
 'Hòa Bình',
 'Hưng Yên',
 'Hải Dương',
 'Hải Phòng',
 'Hậu Giang',
 'Hồ Chí Minh',
 'KV Bắc Trung Bộ',
 'KV Nam Trung Bộ',
 'KV Tây Nguyên',
 'KV Đông Nam Bộ',
 'Khác',
 'Khánh Hòa',
 'Kiên Giang',
 'Kon Tum',
 'Kratie',
 'Lai Châu',
 'Long An',
 'Lào Cai',
 'Lâm Đồng',
 'Lạng Sơn',
 'Nam Định',
 'Nghệ An',
 'Ninh Bình',
 'Ninh Thuận',
 'Phnompenh',
 'Phú Thọ',
 'Phú Yên',
 'Quảng Bình',
 'Quảng Nam',
 'Quảng Ngãi',
 'Quảng Ninh',
 'Quảng Trị',
 'Quốc tế',
 'Sóc Trăng',
 'Sơn La',
 'Thanh Hóa',
 'Thái Bình',
 'Thái Nguyên',
 'Thừa Thiên- Huế',
 'Tiền Giang',
 'Tokyo',
 'Toàn quốc',
 'Trà Vinh',
 'Tuyên Quang',
 'Tây Ninh',
 'Vientiane',
 'Vĩnh Long',
 'Vĩnh Phúc',
 'Yên Bái',
 'Điện Biên',
 'Đà Nẵng',
 'Đồng Bằng Sông Cửu Long',
 'Đồng 

In [38]:
df_2['location'] = df_2['location'].map(lambda x: list(map(lambda y: y.strip(), x.split(" | "))))

In [40]:
df_2[['location', 'company_title', 'job_id']]

Unnamed: 0,location,company_title,job_id
0,[Tuyên Quang],VIETMEC - CÔNG TY CỔ PHẦN DƯỢC LIỆU VIỆT NAM,35BB7E70
1,[Tây Ninh],Công ty CP Thành Thành Công - Biên Hòa,35BB7E5A
2,[Tây Ninh],Công ty CP Thành Thành Công - Biên Hòa,35BB7E5D
3,[Hồ Chí Minh],Công ty Cổ phần Đầu tư Kelsey,35BB7E59
4,[Hà Nội],Công ty TNHH SX & TM Dược phẩm Tâm Bình,35BB7E5F
...,...,...,...
6052,[Hồ Chí Minh],CÔNG TY TNHH THẨM MỸ QUỐC TẾ LINH ANH,35BB1286
6053,[Long An],Công Ty Cổ Phần Đồng Tâm,35BB128C
6054,[Hà Nội],Công Ty Quản Lý Nợ Và Khai Thác Tài Sản - Ngân...,35BB12EA
6055,[Hải Phòng],Công Ty TNHH LG Innotek Việt Nam Hải Phòng,35BB1400


In [41]:
df[['company_id']]

Unnamed: 0,company_id
0,C01796
1,C01021
2,C01021
3,C01163
4,C01266
...,...
6052,C00628
6053,C00827
6054,C00837
6055,C00911


In [44]:
pd.concat([df_2[['location', 'job_id']], df[['company_id']]], axis=1)

Unnamed: 0,location,job_id,company_id
0,[Tuyên Quang],35BB7E70,C01796
1,[Tây Ninh],35BB7E5A,C01021
2,[Tây Ninh],35BB7E5D,C01021
3,[Hồ Chí Minh],35BB7E59,C01163
4,[Hà Nội],35BB7E5F,C01266
...,...,...,...
6052,[Hồ Chí Minh],35BB1286,C00628
6053,[Long An],35BB128C,C00827
6054,[Hà Nội],35BB12EA,C00837
6055,[Hải Phòng],35BB1400,C00911


In [45]:
pd.concat([df_2[['location', 'job_id']], df[['company_id']]], axis=1).explode('location')

Unnamed: 0,location,job_id,company_id
0,Tuyên Quang,35BB7E70,C01796
1,Tây Ninh,35BB7E5A,C01021
2,Tây Ninh,35BB7E5D,C01021
3,Hồ Chí Minh,35BB7E59,C01163
4,Hà Nội,35BB7E5F,C01266
...,...,...,...
6052,Hồ Chí Minh,35BB1286,C00628
6053,Long An,35BB128C,C00827
6054,Hà Nội,35BB12EA,C00837
6055,Hải Phòng,35BB1400,C00911


In [46]:
len(reduce(lambda x, y: x+y, df_2['location'].values))

6924

In [47]:
df_jobs = pd.concat([df_2[['location', 'job_id']], df[['company_id']]], axis=1).explode('location')\
    .rename(columns={"location": "City"})
df_jobs

Unnamed: 0,City,job_id,company_id
0,Tuyên Quang,35BB7E70,C01796
1,Tây Ninh,35BB7E5A,C01021
2,Tây Ninh,35BB7E5D,C01021
3,Hồ Chí Minh,35BB7E59,C01163
4,Hà Nội,35BB7E5F,C01266
...,...,...,...
6052,Hồ Chí Minh,35BB1286,C00628
6053,Long An,35BB128C,C00827
6054,Hà Nội,35BB12EA,C00837
6055,Hải Phòng,35BB1400,C00911


In [48]:
df_jobs['job_id'].unique().size

6057

In [49]:
# Một job_id có thể có 2 City
df_jobs[df_jobs['job_id']=='35BB1CE3']

Unnamed: 0,City,job_id,company_id
3648,Hưng Yên,35BB1CE3,C01594
3648,Hà Nội,35BB1CE3,C01594
3648,Hà Nam,35BB1CE3,C01594


In [57]:
# Một Company có thể có nhiều job_id
df_jobs[(df_jobs['City']=='An Giang')&(df_jobs['company_id']=='C00401')]

Unnamed: 0,City,job_id,company_id
104,An Giang,35BB53E8,C00401
1379,An Giang,35BB4A2C,C00401
1483,An Giang,35BB5CF0,C00401
1486,An Giang,35BB5CF6,C00401
2961,An Giang,35BB21EC,C00401


In [59]:
# Một job_id chỉ có 1 Company
df_jobs.groupby(['job_id'], as_index=False).agg({"company_id": "nunique"}).sort_values(['company_id'])

Unnamed: 0,job_id,company_id
0,35B15222,1
4041,35BB5D65,1
4040,35BB5D62,1
4039,35BB5D5F,1
4038,35BB5D5C,1
...,...,...
2015,35BB3ADD,1
2014,35BB3ADC,1
2013,35BB3AD2,1
2022,35BB3B13,1


In [60]:
df_jobs[df_jobs['job_id']=='35BB7E27']

Unnamed: 0,City,job_id,company_id
83,Hồ Chí Minh,35BB7E27,C01788


In [61]:
df_jobs.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6924 entries, 0 to 6056
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   City        6924 non-null   object
 1   job_id      6924 non-null   object
 2   company_id  6924 non-null   object
dtypes: object(3)
memory usage: 216.4+ KB


In [63]:
df_jobs['City'] = df_jobs['City'].map(lambda x: x.strip())
df_jobs['company_id'] = df_jobs['company_id'].map(lambda x: x.strip())
df_jobs['job_id'] = df_jobs['job_id'].map(lambda x: x.strip())

In [64]:
df_jobs.to_csv(r"vn_data_jobs\data cb\cleansed data cb\location_job.csv", index=False)

In [27]:
df = df.drop(['location'], axis=1)

In [None]:
df_jobs.to_csv(r"vn_data_jobs\data cb\cleansed data cb\location_job.csv", index=False)

## 2.18) Creating ordered table "cap_bac"

In [65]:
df

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,2023-03-31,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-02-28,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-03-30,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


In [67]:
df['cap_bac'].unique()

array(['Quản lý', 'Nhân viên', 'Trưởng nhóm / Giám sát', 'Giám đốc',
       'Unknown', 'Sinh viên/ Thực tập sinh', 'Phó Giám đốc',
       'Mới tốt nghiệp', 'Tổng giám đốc'], dtype=object)

In [73]:
lst_ordered_cap_bac = [
 ['Tổng giám đốc', 1],
 ['Giám đốc', 2],
 ['Phó Giám đốc', 3],
 ['Quản lý', 4],
 ['Trưởng nhóm / Giám sát', 5],
 ['Nhân viên', 6],
 ['Mới tốt nghiệp', 7],
 ['Sinh viên/ Thực tập sinh', 8],
 ['Unknown', 9],
]
lst_ordered_cap_bac

[['Tổng giám đốc', 1],
 ['Giám đốc', 2],
 ['Phó Giám đốc', 3],
 ['Quản lý', 4],
 ['Trưởng nhóm / Giám sát', 5],
 ['Nhân viên', 6],
 ['Mới tốt nghiệp', 7],
 ['Sinh viên/ Thực tập sinh', 8],
 ['Unknown', 9]]

In [74]:
pd.DataFrame(lst_ordered_cap_bac, columns=['cap_bac', 'STT'])

Unnamed: 0,cap_bac,STT
0,Tổng giám đốc,1
1,Giám đốc,2
2,Phó Giám đốc,3
3,Quản lý,4
4,Trưởng nhóm / Giám sát,5
5,Nhân viên,6
6,Mới tốt nghiệp,7
7,Sinh viên/ Thực tập sinh,8
8,Unknown,9


In [75]:
pd.DataFrame(lst_ordered_cap_bac, columns=['cap_bac', 'STT'])\
    .to_csv(r"vn_data_jobs\data cb\cleansed data cb\ordered_cap_bac.csv", index=False)

## 2.19) Creating "country" dataset

In [77]:
df_jobs['City'].unique()

array(['Tuyên Quang', 'Tây Ninh', 'Hồ Chí Minh', 'Hà Nội', 'Bình Dương',
       'Thanh Hóa', 'Quảng Ngãi', 'Quảng Nam', 'Hải Phòng',
       'Bà Rịa - Vũng Tàu', 'Sóc Trăng', 'Hưng Yên', 'Bình Định',
       'Long An', 'Đồng Nai', 'Đà Nẵng', 'An Giang', 'Phú Thọ',
       'Lâm Đồng', 'Nam Định', 'Thái Bình', 'Hà Nam', 'Bắc Ninh',
       'Thái Nguyên', 'Kiên Giang', 'Hà Tĩnh', 'Cần Thơ', 'Bình Phước',
       'Quốc tế', 'Gia Lai', 'Bắc Giang', 'Quảng Bình', 'Quảng Trị',
       'Thừa Thiên- Huế', 'Bình Thuận', 'Ninh Bình', 'Vĩnh Long',
       'Hải Dương', 'Toàn quốc', 'Quảng Ninh', 'Dak Lak', 'Khánh Hòa',
       'Hậu Giang', 'KV Đông Nam Bộ', 'Điện Biên', 'Bạc Liêu', 'Nghệ An',
       'Lào Cai', 'Bến Tre', 'Vĩnh Phúc', 'Lạng Sơn', 'Cà Mau',
       'Đồng Tháp', 'Tiền Giang', 'KV Nam Trung Bộ',
       'Đồng Bằng Sông Cửu Long', 'Lai Châu', 'Phú Yên', 'Sơn La',
       'Hòa Bình', 'Ninh Thuận', 'Dak Nông', 'Yên Bái', 'Kratie',
       'Vientiane', 'Khác', 'Hà Giang', 'KV Tây Nguyên',
       'KV B

In [82]:
lst_cities = ['Tuyên Quang', 'Tây Ninh', 'Hồ Chí Minh', 'Hà Nội', 'Bình Dương',
       'Thanh Hóa', 'Quảng Ngãi', 'Quảng Nam', 'Hải Phòng',
       'Bà Rịa - Vũng Tàu', 'Sóc Trăng', 'Hưng Yên', 'Bình Định',
       'Long An', 'Đồng Nai', 'Đà Nẵng', 'An Giang', 'Phú Thọ',
       'Lâm Đồng', 'Nam Định', 'Thái Bình', 'Hà Nam', 'Bắc Ninh',
       'Thái Nguyên', 'Kiên Giang', 'Hà Tĩnh', 'Cần Thơ', 'Bình Phước',
       'Quốc tế', 'Gia Lai', 'Bắc Giang', 'Quảng Bình', 'Quảng Trị',
       'Thừa Thiên- Huế', 'Bình Thuận', 'Ninh Bình', 'Vĩnh Long',
       'Hải Dương', 'Toàn quốc', 'Quảng Ninh', 'Dak Lak', 'Khánh Hòa',
       'Hậu Giang', 'KV Đông Nam Bộ', 'Điện Biên', 'Bạc Liêu', 'Nghệ An',
       'Lào Cai', 'Bến Tre', 'Vĩnh Phúc', 'Lạng Sơn', 'Cà Mau',
       'Đồng Tháp', 'Tiền Giang', 'KV Nam Trung Bộ',
       'Đồng Bằng Sông Cửu Long', 'Lai Châu', 'Phú Yên', 'Sơn La',
       'Hòa Bình', 'Ninh Thuận', 'Dak Nông', 'Yên Bái', 'Khác',
       'Hà Giang', 'KV Tây Nguyên', 'KV Bắc Trung Bộ', 'Trà Vinh', 'Kon Tum',
       'Kratie', 'Vientiane', 'Tokyo', 'Phnompenh']

dic_other_countries = {
    'Kratie': 'Cambodia',
    'Vientiane': 'Laos',
    'Tokyo': 'Japan',
    'Phnompenh': 'Cambodia',
}
lst_countries = list()
for city in lst_cities:
    if city not in dic_other_countries:
        lst_countries.append([city, "Vietnam"])
    else:
        lst_countries.append([city, dic_other_countries[city]])

In [86]:
pd.DataFrame(lst_countries, columns=['City', 'Country'])

Unnamed: 0,City,Country
0,Tuyên Quang,Vietnam
1,Tây Ninh,Vietnam
2,Hồ Chí Minh,Vietnam
3,Hà Nội,Vietnam
4,Bình Dương,Vietnam
...,...,...
68,Kon Tum,Vietnam
69,Kratie,Cambodia
70,Vientiane,Laos
71,Tokyo,Japan


In [85]:
pd.DataFrame(lst_countries, columns=['City', 'Country'])\
    .to_csv(r"vn_data_jobs\data cb\cleansed data cb\city_country.csv", index=False)

## 2.20) Strip all cell values in all cleansed data

In [91]:
link_to_data_files = r"C:\Users\Admin\Downloads\DE 2nd folder\DE project\scrape component\vn_data_jobs\data cb\cleansed data cb"
lst_data_files = list(filter(lambda x: x[-3:]=='csv', os.listdir(link_to_data_files)))
lst_data_files

['city_country.csv',
 'companies.csv',
 'detailed_welfare_job.csv',
 'hinh_thuc_job.csv',
 'jobs.csv',
 'job_tags_job.csv',
 'location_job.csv',
 'nganh_nghe_job.csv',
 'ordered_cap_bac.csv',
 'outstanding_welfare_job.csv']

In [92]:
# Đã tạo file back up 202302262151

In [93]:
for file in lst_data_files:
    df = pd.read_csv(os.path.join(link_to_data_files, file))
    for col in df:
        df[col] = df[col].map(lambda x: x.strip() if isinstance(x, str) else x)
        df.to_csv(os.path.join(link_to_data_files, file), index=False)

## 2.21) Check unique primary columns

In [94]:
df_check = pd.read_csv(r"C:\Users\Admin\Downloads\DE 2nd folder\DE project\scrape component\vn_data_jobs\data cb\cleansed data cb\city_country.csv",
                       keep_default_na=False)
df_check

Unnamed: 0,City,Country
0,Tuyên Quang,Vietnam
1,Tây Ninh,Vietnam
2,Hồ Chí Minh,Vietnam
3,Hà Nội,Vietnam
4,Bình Dương,Vietnam
...,...,...
68,Kon Tum,Vietnam
69,Kratie,Cambodia
70,Vientiane,Laos
71,Tokyo,Japan


In [96]:
df_check['City'].unique().size

73

In [97]:
df_check = pd.read_csv(r"C:\Users\Admin\Downloads\DE 2nd folder\DE project\scrape component\vn_data_jobs\data cb\cleansed data cb\companies.csv",
                       keep_default_na=False)
df_check

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI VI...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [98]:
df_check['company_title'].unique().size

1834

In [107]:
df_check[df_check['company_title'].isin(df_check.groupby(['company_title'], as_index=False).agg({"company_id": "count"})\
    .sort_values(['company_id']).tail(5)['company_title'].values)].sort_values(['company_title', 'company_id'])

Unnamed: 0,company_id,company_title,company_url,company_video_url
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
118,C00118,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
452,C00452,CÔNG TY TNHH DAESANG VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
453,C00453,CÔNG TY TNHH DAESANG VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
688,C00688,Công Ty Avanti - Group,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
689,C00689,Công Ty Avanti - Group,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
12,C00012,Công Ty TNHH CJ Vina Agri,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
861,C00861,Công Ty TNHH CJ Vina Agri,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1459,C01459,GOT IT,https://careerbuilder.vn/vi/nha-tuyen-dung/got...,Unknown
1460,C01460,GOT IT,https://careerbuilder.vn/vi/nha-tuyen-dung/got...,Unknown


In [108]:
for idx in df_check[df_check['company_title'].isin(df_check.groupby(['company_title'], as_index=False).agg({"company_id": "count"})\
    .sort_values(['company_id']).tail(5)['company_title'].values)].sort_values(['company_title', 'company_id']).index:
    print(df_check.loc[idx, "company_url"])

https://careerbuilder.vn/vi/nha-tuyen-dung/careerbuilder-s-client.35A90091.html
https://careerbuilder.vn/vi/nha-tuyen-dung/careerbuilder-s-client.35A90091.html
https://careerbuilder.vn/vi/nha-tuyen-dung/cong-ty-tnhh-daesang-viet-nam.35A8B757.html
https://careerbuilder.vn/vi/nha-tuyen-dung/cong-ty-tnhh-daesang-viet-nam.35A8B757.html
https://careerbuilder.vn/vi/nha-tuyen-dung/cong-ty-avanti-group.35A87104.html
https://careerbuilder.vn/vi/nha-tuyen-dung/cong-ty-avanti-group.35A87104.html
https://careerbuilder.vn/vi/nha-tuyen-dung/cong-ty-tnhh-cj-vina-agri.35A5512F.html
https://careerbuilder.vn/vi/nha-tuyen-dung/cong-ty-tnhh-cj-vina-agri.35A79946.html
https://careerbuilder.vn/vi/nha-tuyen-dung/got-it.35A84C65.html
https://careerbuilder.vn/vi/nha-tuyen-dung/got-it.35A84C65.html


In [114]:
lst_company_id_drop = ['C00001', 'C00452', 'C00688', 'C00012', 'C01459']

In [116]:
df_check[df_check['company_id'].isin(lst_company_id_drop)]

Unnamed: 0,company_id,company_title,company_url,company_video_url
1,C00001,CareerBuilder's Client,https://careerbuilder.vn/vi/nha-tuyen-dung/car...,Unknown
12,C00012,Công Ty TNHH CJ Vina Agri,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
452,C00452,CÔNG TY TNHH DAESANG VIỆT NAM,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
688,C00688,Công Ty Avanti - Group,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1459,C01459,GOT IT,https://careerbuilder.vn/vi/nha-tuyen-dung/got...,Unknown


In [117]:
df_check = df_check[~df_check['company_id'].isin(lst_company_id_drop)]
df_check

Unnamed: 0,company_id,company_title,company_url,company_video_url
0,C00000,CEI International Investments VN,https://careerbuilder.vn/vi/nha-tuyen-dung/cei...,Unknown
2,C00002,CÔNG TY CỔ PHẦN GIÁO DỤC VÀ THƯƠNG MẠI RIKI VI...,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=esuw8wphLsI
3,C00003,CÔNG TY CỔ PHẦN MÙA GẶT,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
4,C00004,CÔNG TY CỔ PHẦN TM & SX NỘI THẤT THE ONE,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
5,C00005,CÔNG TY CỔ PHẦN TẬP ĐOÀN AMDI,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
...,...,...,...,...
1834,C01834,công ty cổ phần KTG Electric,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,https://www.youtube.com/watch?v=Aa7hKpWjy0s ht...
1835,C01835,công ty thép Cương Phát dst,https://careerbuilder.vn/vi/nha-tuyen-dung/con...,Unknown
1836,C01836,Điện Máy Chợ Lớn - Siêu Thị Điện Máy - Nội Thấ...,https://careerbuilder.vn/vi/nha-tuyen-dung/die...,Unknown
1837,C01837,Đắc Nhân Tâm Entrepreneurs School JSC.,https://careerbuilder.vn/vi/nha-tuyen-dung/dac...,https://www.youtube.com/watch?v=Xs2lq3XOO9c


In [118]:
df_check.to_csv(r"C:\Users\Admin\Downloads\DE 2nd folder\DE project\scrape component\vn_data_jobs\data cb\cleansed data cb\companies.csv",
                index=False)

In [120]:
df_check = pd.read_csv(r"C:\Users\Admin\Downloads\DE 2nd folder\DE project\scrape component\vn_data_jobs\data cb\cleansed data cb\jobs.csv",
                       keep_default_na=False)
df_check

Unnamed: 0,job_title,job_id,job_url,announcement_date,cap_bac,expiration_date,job_description,job_requirements,other_info,company_id,lb_salary,ub_salary,lb_kinh_nghiem,ub_kinh_nghiem
0,QUẢN LÝ KINH DOANH KHU VỰC TUYÊN QUANG,35BB7E70,https://careerbuilder.vn/vi/tim-viec-lam/quan-...,2023-02-25,Quản lý,2023-03-31,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01796,Unknown,Unknown,3,5
1,Kỹ sư cầu đường (Làm việc tại Tây Ninh),35BB7E5A,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
2,Kỹ sư nông học (Làm việc tại Tây Ninh),35BB7E5D,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-25,Nhân viên,2023-03-27,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01021,Unknown,Unknown,1,40
3,Nhân Viên Kinh Doanh Gạch Ốp Lát,35BB7E59,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-02-28,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01163,Unknown,Unknown,2,5
4,Nhân viên Hành chính nhân sự (Gia Lâm),35BB7E5F,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-25,Nhân viên,2023-03-30,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C01266,12.0,14.0,1,40
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6052,NHÂN VIÊN KẾ TOÁN DOANH THU,35BB1286,https://careerbuilder.vn/vi/tim-viec-lam/nhan-...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00628,9.0,10.0,1,3
6053,Kỹ sư quản lý cây xanh,35BB128C,https://careerbuilder.vn/vi/tim-viec-lam/ky-su...,2023-02-04,Trưởng nhóm / Giám sát,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00827,Unknown,Unknown,2,40
6054,Chuyên viên Công nghệ thông tin (Hỗ trợ người ...,35BB12EA,https://careerbuilder.vn/vi/tim-viec-lam/chuye...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00837,Unknown,Unknown,1,40
6055,MES Engineer,35BB1400,https://careerbuilder.vn/vi/tim-viec-lam/mes-e...,2023-02-04,Nhân viên,2023-03-06,"<div class=""detail-row reset-bullet"">\r\n ...","<div class=""detail-row"" reset-bullet>\r\n ...","<div class=""detail-row"">\r\n <h3 class=""detai...",C00911,Unknown,Unknown,4,40


In [121]:
df_check['job_id'].unique().size

6057

In [122]:
df_check = pd.read_csv(r"C:\Users\Admin\Downloads\DE 2nd folder\DE project\scrape component\vn_data_jobs\data cb\cleansed data cb\ordered_cap_bac.csv",
                       keep_default_na=False)
df_check

Unnamed: 0,cap_bac,STT
0,Tổng giám đốc,1
1,Giám đốc,2
2,Phó Giám đốc,3
3,Quản lý,4
4,Trưởng nhóm / Giám sát,5
5,Nhân viên,6
6,Mới tốt nghiệp,7
7,Sinh viên/ Thực tập sinh,8
8,Unknown,9


In [121]:
df_check['job_id'].unique().size

6057