In [1]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
from category_encoders import OneHotEncoder
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
import xgboost as xgb
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV, KFold, cross_val_score
from sklearn.feature_selection import RFE
from tabulate import tabulate
import json
import numpy as np


# Encode

- Read data

In [2]:
jobs = pd.read_csv("../data/clean data.csv")
jobs.head()

Unnamed: 0,Salary,Level,Year of Experience,Contract Type,Sex,Programming Language,Language,Location
0,20500000.0,Nhân viên,2 năm,Toàn thời gian,Không yêu cầu,java,tiếng anh,Hà Nội
1,36500000.0,Nhân viên,2 năm,Toàn thời gian,Không yêu cầu,Khác,tiếng anh,Hồ Chí Minh
2,22500000.0,Trưởng/Phó phòng,2 năm,Toàn thời gian,Không yêu cầu,Khác,Không yêu cầu,Hà Nội
3,22500000.0,Trưởng nhóm,3 năm,Toàn thời gian,Không yêu cầu,Khác,Không yêu cầu,Hà Nội
4,30000000.0,Nhân viên,3 năm,Toàn thời gian,Không yêu cầu,php,Không yêu cầu,Hà Nội


- Drop Sex, Contract Type

In [3]:
jobs = jobs.drop(columns = ['Sex', 'Contract Type'])
jobs.head()

Unnamed: 0,Salary,Level,Year of Experience,Programming Language,Language,Location
0,20500000.0,Nhân viên,2 năm,java,tiếng anh,Hà Nội
1,36500000.0,Nhân viên,2 năm,Khác,tiếng anh,Hồ Chí Minh
2,22500000.0,Trưởng/Phó phòng,2 năm,Khác,Không yêu cầu,Hà Nội
3,22500000.0,Trưởng nhóm,3 năm,Khác,Không yêu cầu,Hà Nội
4,30000000.0,Nhân viên,3 năm,php,Không yêu cầu,Hà Nội


- Categorical encoding for Level variable

In [4]:
jobs['Level'].unique()

array(['Nhân viên', 'Trưởng/Phó phòng', 'Trưởng nhóm', 'Thực tập sinh',
       'Quản lý / Giám sát', 'Giám đốc'], dtype=object)

In [5]:

encoder = OrdinalEncoder(categories=[['Thực tập sinh', 'Nhân viên', 'Trưởng nhóm', 'Trưởng/Phó phòng', 'Quản lý / Giám sát', 'Giám đốc']])
encoded_level = encoder.fit_transform(jobs[['Level']])
jobs['Level'] = encoded_level
jobs.head()

Unnamed: 0,Salary,Level,Year of Experience,Programming Language,Language,Location
0,20500000.0,1.0,2 năm,java,tiếng anh,Hà Nội
1,36500000.0,1.0,2 năm,Khác,tiếng anh,Hồ Chí Minh
2,22500000.0,3.0,2 năm,Khác,Không yêu cầu,Hà Nội
3,22500000.0,2.0,3 năm,Khác,Không yêu cầu,Hà Nội
4,30000000.0,1.0,3 năm,php,Không yêu cầu,Hà Nội


- Categorical encoding for Year of Experience variable

In [6]:
jobs['Year of Experience'].unique()

array(['2 năm', '3 năm', 'Không yêu cầu kinh nghiệm', '1 năm',
       'Dưới 1 năm', '5 năm', '4 năm', 'Trên 5 năm'], dtype=object)

In [7]:
encoder = OrdinalEncoder(categories=[['Không yêu cầu kinh nghiệm', 'Dưới 1 năm', '1 năm', '2 năm', '3 năm', '4 năm', '5 năm', 'Trên 5 năm']])
encoded_level = encoder.fit_transform(jobs[['Year of Experience']])
jobs['Year of Experience'] = encoded_level
jobs.head()

Unnamed: 0,Salary,Level,Year of Experience,Programming Language,Language,Location
0,20500000.0,1.0,3.0,java,tiếng anh,Hà Nội
1,36500000.0,1.0,3.0,Khác,tiếng anh,Hồ Chí Minh
2,22500000.0,3.0,3.0,Khác,Không yêu cầu,Hà Nội
3,22500000.0,2.0,4.0,Khác,Không yêu cầu,Hà Nội
4,30000000.0,1.0,4.0,php,Không yêu cầu,Hà Nội


- Categorical encoding for Language variable

In [8]:
one_hot_encoder = OneHotEncoder()
job_pl = one_hot_encoder.fit_transform(jobs['Language'])

jobs = pd.concat([jobs, job_pl], axis=1)
jobs = jobs.drop(columns = ['Language'])
jobs.head()

Unnamed: 0,Salary,Level,Year of Experience,Programming Language,Location,Language_1,Language_2,Language_3
0,20500000.0,1.0,3.0,java,Hà Nội,1,0,0
1,36500000.0,1.0,3.0,Khác,Hồ Chí Minh,1,0,0
2,22500000.0,3.0,3.0,Khác,Hà Nội,0,1,0
3,22500000.0,2.0,4.0,Khác,Hà Nội,0,1,0
4,30000000.0,1.0,4.0,php,Hà Nội,0,1,0


- Categorical encoding for Location variable

In [9]:
one_hot_encoder = OneHotEncoder()
job_pl = one_hot_encoder.fit_transform(jobs['Location'])

jobs = pd.concat([jobs, job_pl], axis=1)
jobs = jobs.drop(columns = ['Location'])
jobs.head()

Unnamed: 0,Salary,Level,Year of Experience,Programming Language,Language_1,Language_2,Language_3,Location_1,Location_2,Location_3,Location_4
0,20500000.0,1.0,3.0,java,1,0,0,1,0,0,0
1,36500000.0,1.0,3.0,Khác,1,0,0,0,1,0,0
2,22500000.0,3.0,3.0,Khác,0,1,0,1,0,0,0
3,22500000.0,2.0,4.0,Khác,0,1,0,1,0,0,0
4,30000000.0,1.0,4.0,php,0,1,0,1,0,0,0


- Categorical encoding for Programming Language variable

In [10]:
one_hot_encoder = OneHotEncoder()
job_pl = one_hot_encoder.fit_transform(jobs['Programming Language'])

jobs = pd.concat([jobs, job_pl], axis=1)
jobs = jobs.drop(columns = ['Programming Language'])
jobs

Unnamed: 0,Salary,Level,Year of Experience,Language_1,Language_2,Language_3,Location_1,Location_2,Location_3,Location_4,...,Programming Language_2,Programming Language_3,Programming Language_4,Programming Language_5,Programming Language_6,Programming Language_7,Programming Language_8,Programming Language_9,Programming Language_10,Programming Language_11
0,20500000.0,1.0,3.0,1,0,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,36500000.0,1.0,3.0,1,0,0,0,1,0,0,...,1,0,0,0,0,0,0,0,0,0
2,22500000.0,3.0,3.0,0,1,0,1,0,0,0,...,1,0,0,0,0,0,0,0,0,0
3,22500000.0,2.0,4.0,0,1,0,1,0,0,0,...,1,0,0,0,0,0,0,0,0,0
4,30000000.0,1.0,4.0,0,1,0,1,0,0,0,...,0,1,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2257,30000000.0,1.0,4.0,1,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
2258,11500000.0,1.0,2.0,1,0,0,1,0,0,0,...,1,0,0,0,0,0,0,0,0,0
2259,30000000.0,1.0,3.0,0,1,0,1,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2260,30000000.0,1.0,3.0,0,1,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Correlation with target variable

In [11]:
import pandas as pd

# Tính toán ma trận tương quan
correlation_matrix = jobs.corr()

# Hiển thị tương quan của từng đặc trưng với biến mục tiêu
target_correlation = correlation_matrix['Salary']
print(target_correlation)


Salary                     1.000000
Level                      0.400542
Year of Experience         0.656638
Language_1                -0.060058
Language_2                 0.042468
Language_3                 0.053869
Location_1                 0.021009
Location_2                 0.027226
Location_3                -0.012974
Location_4                -0.084484
Programming Language_1     0.216412
Programming Language_2    -0.342123
Programming Language_3     0.010497
Programming Language_4    -0.082874
Programming Language_5     0.168340
Programming Language_6     0.054714
Programming Language_7     0.101278
Programming Language_8     0.101291
Programming Language_9     0.159216
Programming Language_10    0.093613
Programming Language_11    0.019187
Name: Salary, dtype: float64


- List Models

In [12]:
models = {
    'LinearRegression': LinearRegression(),
    'Ridge': Ridge(),
    'Lasso': Lasso(),
    'GradientBoostingRegressor': GradientBoostingRegressor(),
    'RandomForestRegressor': RandomForestRegressor(),
    'DecisionTreeRegressor': DecisionTreeRegressor(),
    'SVR': SVR(),
    'XGB': xgb.XGBRegressor()
}


In [13]:
X = jobs.drop(columns = ['Salary'])
y = jobs['Salary']

In [14]:
import numpy as np
from sklearn.model_selection import cross_val_score, KFold

# Khởi tạo KFold để kiểm định chéo
kf = KFold(n_splits=5, shuffle=True, random_state=42)

results = []

for name, model in models.items():
    # Đánh giá mô hình sử dụng cross-validation và r2 làm thước đo
    scores = cross_val_score(model, X, y, cv=kf, scoring='r2')
    # Tính R² trung bình
    mean_r2 = np.mean(scores)
    results.append((name, mean_r2))

# Sắp xếp kết quả theo R² Score từ cao xuống thấp
results_df = pd.DataFrame(results, columns=['Model', 'R2 Score']).sort_values(by='R2 Score', ascending=False)

# In kết quả
print(results_df)

# Lấy tên của mô hình có điểm số R² cao nhất
model_best = results_df['Model'].iloc[0]
print("Best performing model:", model_best)


  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


                       Model  R2 Score
4      RandomForestRegressor  0.650821
3  GradientBoostingRegressor  0.647747
7                        XGB  0.639930
5      DecisionTreeRegressor  0.629352
1                      Ridge  0.555075
2                      Lasso  0.554910
0           LinearRegression  0.554490
6                        SVR -0.010912
Best performing model: RandomForestRegressor


# Feature Selection

In [15]:

# Khởi tạo KFold để kiểm định chéo
kf = KFold(n_splits=5, shuffle=True, random_state=42)

results = []
# Định nghĩa mô hình
model = models[model_best]

# Lặp qua số lượng đặc trưng từ 2 đến số lượng đặc trưng tối đa
for i in range(2, len(X.columns) + 1):
    # Thiết lập RFE với số đặc trưng hiện tại
    selector = RFE(model, n_features_to_select=i, step=1)
    selector.fit(X, y)  # Lưu ý là sử dụng toàn bộ dữ liệu X, y
    
    # Đặc trưng được chọn
    selected_features = X.columns[selector.support_]
    
    # Tạo tập dữ liệu chỉ với các đặc trưng được chọn
    X_selected = selector.transform(X)
    
    # Đánh giá mô hình sử dụng cross-validation
    scores = cross_val_score(model, X_selected, y, cv=kf, scoring='r2')
    
    # Tính R² Score trung bình
    mean_r2 = np.mean(scores)
    
    # Lưu kết quả
    results.append((i, selected_features.tolist(), mean_r2))

# Chuyển kết quả vào DataFrame và sắp xếp theo R²
results_df = pd.DataFrame(results, columns=['Num Features', 'Features', 'R2 Score'])
results_df = results_df.sort_values(by='R2 Score', ascending=False)

# In kết quả
print(results_df)

# Lưu các đặc trưng quan trọng nhất từ mô hình tốt nhất
variable_important = results_df.iloc[0, 1]
print("Most important features:", variable_important)


    Num Features                                           Features  R2 Score
8             10  [Level, Year of Experience, Language_1, Langua...  0.658754
12            14  [Level, Year of Experience, Language_1, Langua...  0.655732
9             11  [Level, Year of Experience, Language_1, Langua...  0.655460
10            12  [Level, Year of Experience, Language_1, Langua...  0.654105
7              9  [Level, Year of Experience, Language_1, Langua...  0.653983
13            15  [Level, Year of Experience, Language_1, Langua...  0.653806
11            13  [Level, Year of Experience, Language_1, Langua...  0.653119
6              8  [Level, Year of Experience, Language_2, Locati...  0.652996
14            16  [Level, Year of Experience, Language_1, Langua...  0.652230
15            17  [Level, Year of Experience, Language_1, Langua...  0.651837
17            19  [Level, Year of Experience, Language_1, Langua...  0.651763
5              7  [Level, Year of Experience, Language_2, Locati

# Training

- List Models and Parameter

In [16]:
# Danh sách các mô hình và tham số tương ứng
models = {
    'RandomForestRegressor': (RandomForestRegressor(), {
        'n_estimators': [100, 200, 500],
        'max_depth': [None, 10, 20],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4],
        'max_features': ['auto', 'sqrt']
    }),
    'XGBRegressor': (xgb.XGBRegressor(), {
        'n_estimators': [100, 200, 500],
        'max_depth': [3, 5, 10],
        'learning_rate': [0.01, 0.1, 0.2],
        'subsample': [0.8, 1.0],
        'colsample_bytree': [0.8, 1.0],
        'gamma': [0, 0.1, 0.2]
    }),
    'GradientBoostingRegressor': (GradientBoostingRegressor(), {
        'n_estimators': [100, 200, 500],
        'max_depth': [3, 5, 10],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4],
        'max_features': ['auto', 'sqrt'],
        'learning_rate': [0.01, 0.1, 0.2]
    }),
    'DecisionTreeRegressor': (DecisionTreeRegressor(), {
        'max_depth': [None, 10, 20],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4],
        'max_features': ['auto', 'sqrt']
    }),
    'Ridge': (Ridge(), {
        'alpha': [0.1, 1.0, 10.0]
    }),
    'Lasso': (Lasso(), {
        'alpha': [0.1, 1.0, 10.0]
    }),
    'LinearRegression': (LinearRegression(), {}),
    'SVR': (SVR(), {
        'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
        'C': [0.1, 1.0, 10.0],
        'epsilon': [0.1, 0.2, 0.5],
        'gamma': ['scale', 'auto']
    })
}

In [78]:

# Phân chia tập dữ liệu
X = jobs[variable_important]
y = jobs['Salary']

# Kết quả lưu tham số tốt nhất
best_params = {}

KFold = KFold(n_splits=5, shuffle=True, random_state=42)

# Đào tạo và điều chỉnh mô hình cho từng loại
for model_name, (model, params) in models.items():
    print(f"Training {model_name}...")
    
    # Thiết lập Grid Search với kiểm định chéo
    grid_search = GridSearchCV(estimator=model, param_grid=params, cv=KFold, scoring='neg_mean_squared_error', verbose=1)
    grid_search.fit(X, y)
    
    # Lưu tham số tốt nhất
    best_params[model_name] = grid_search.best_params_
    print(f"Best parameters for {model_name}: {grid_search.best_params_}")

# Ghi kết quả vào file JSON
with open('best_params.json', 'w') as fp:
    json.dump(best_params, fp)

print("All best parameters have been saved to 'best_params.json'.")


Training RandomForestRegressor...
Fitting 5 folds for each of 162 candidates, totalling 810 fits


405 fits failed out of a total of 810.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
405 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\model_selection\_validation.py", line 895, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\base.py", line 1467, in wrapper
    estimator._validate_params()
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\base.py", line 666, in _validate_params
    validate_parameter_constraints(
  File "c:\Users\Mai Xuan Truong\A

Best parameters for RandomForestRegressor: {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
Training XGBRegressor...
Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Best parameters for XGBRegressor: {'colsample_bytree': 0.8, 'gamma': 0, 'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 100, 'subsample': 0.8}
Training GradientBoostingRegressor...
Fitting 5 folds for each of 486 candidates, totalling 2430 fits


1215 fits failed out of a total of 2430.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
1215 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\model_selection\_validation.py", line 895, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\base.py", line 1467, in wrapper
    estimator._validate_params()
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\base.py", line 666, in _validate_params
    validate_parameter_constraints(
  File "c:\Users\Mai Xuan Truon

Best parameters for GradientBoostingRegressor: {'learning_rate': 0.1, 'max_depth': 5, 'max_features': 'sqrt', 'min_samples_leaf': 2, 'min_samples_split': 10, 'n_estimators': 200}
Training DecisionTreeRegressor...
Fitting 5 folds for each of 54 candidates, totalling 270 fits


135 fits failed out of a total of 270.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
135 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\model_selection\_validation.py", line 895, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\base.py", line 1467, in wrapper
    estimator._validate_params()
  File "c:\Users\Mai Xuan Truong\AppData\Local\Programs\Python\Python311\Lib\site-packages\sklearn\base.py", line 666, in _validate_params
    validate_parameter_constraints(
  File "c:\Users\Mai Xuan Truong\A

Best parameters for DecisionTreeRegressor: {'max_depth': 20, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'min_samples_split': 10}
Training Ridge...
Fitting 5 folds for each of 3 candidates, totalling 15 fits
Best parameters for Ridge: {'alpha': 1.0}
Training Lasso...
Fitting 5 folds for each of 3 candidates, totalling 15 fits
Best parameters for Lasso: {'alpha': 10.0}
Training LinearRegression...
Fitting 5 folds for each of 1 candidates, totalling 5 fits
Best parameters for LinearRegression: {}
Training SVR...
Fitting 5 folds for each of 72 candidates, totalling 360 fits
Best parameters for SVR: {'C': 10.0, 'epsilon': 0.5, 'gamma': 'scale', 'kernel': 'poly'}
All best parameters have been saved to 'best_params.json'.


In [39]:
from sklearn.model_selection import KFold
# Đọc file JSON
with open('best_params.json', 'r') as fp:
    best_params = json.load(fp)

# Tạo dictionary của các mô hình đã cấu hình với random_state
models_configured = {
    'RandomForestRegressor': RandomForestRegressor(random_state=42, **best_params['RandomForestRegressor']),
    'XGBRegressor': xgb.XGBRegressor(random_state=42, **best_params['XGBRegressor']),
    'GradientBoostingRegressor': GradientBoostingRegressor(random_state=42, **best_params['GradientBoostingRegressor']),
    'DecisionTreeRegressor': DecisionTreeRegressor(random_state=42, **best_params['DecisionTreeRegressor']),
    'Ridge': Ridge(random_state=42, **best_params['Ridge']),
    'Lasso': Lasso(random_state=42, **best_params['Lasso']),
    'LinearRegression': LinearRegression(**best_params['LinearRegression']),
    'SVR': SVR(**best_params['SVR'])
}


# Khởi tạo KFold
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Đánh giá mỗi mô hình sử dụng cross-validation và lưu kết quả
results = {}
for name, model in models_configured.items():
    scores = cross_val_score(model, X, y, cv=kf, scoring='r2')
    results[name] = np.mean(scores)

# Sắp xếp kết quả theo R2 Score giảm dần và in ra
sorted_results = sorted(results.items(), key=lambda x: x[1], reverse=True)
for model_name, score in sorted_results:
    print(f"{model_name}: R2 Score = {score}")



  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(


XGBRegressor: R2 Score = 0.6593867095909736
GradientBoostingRegressor: R2 Score = 0.6592706950769202
RandomForestRegressor: R2 Score = 0.6541111740961283
DecisionTreeRegressor: R2 Score = 0.6234154590458251
Ridge: R2 Score = 0.5550747244665604
Lasso: R2 Score = 0.5549118730981188
LinearRegression: R2 Score = 0.5544898469329764
SVR: R2 Score = -0.007950186934503733
