In [None]:
# Tìm thông số tốt nhất cho mô hình Random Forest dự đoán CPA từ GPA 6 kỳ đầu
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

# Đọc dữ liệu sinh viên 8 kỳ
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_8_ky.xlsx')

# Đặc trưng đầu vào: GPA 6 kỳ đầu
X = df[[
    'GPA_1', 'GPA_2', 'GPA_3', 'GPA_4', 'GPA_5', 'GPA_6',
    'TC_qua_1', 'TC_qua_2', 'TC_qua_3', 'TC_qua_4', 'TC_qua_5', 'TC_qua_6'
    ]]
y = df['Final CPA']

# Tách dữ liệu train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hoá
# scaler = StandardScaler()
# X_train_scaled = scaler.fit_transform(X_train)
# X_test_scaled = scaler.transform(X_test)

# Grid SearchCV sử dụng MSE
param_grid_rf = {
    'n_estimators': [100, 200],
    'max_depth': [5, 10],
    'max_features': ['sqrt'],
    'min_samples_leaf': [1, 2]
}

rf = RandomForestRegressor(random_state=42)
grid_rf = GridSearchCV(
    rf,
    param_grid_rf,
    cv=5,
    scoring='neg_mean_squared_error',
    verbose=2,
    n_jobs=-1
)

grid_rf.fit(X_train, y_train)

# Kết quả
print("🎯 Best Random Forest Params:", grid_rf.best_params_)

# Đánh giá MSE duy nhất
y_pred = grid_rf.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"MSE: {mse:.4f}")

Fitting 5 folds for each of 8 candidates, totalling 40 fits
🎯 Best Random Forest Params: {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'n_estimators': 200}
MSE: 0.0077


In [None]:
# Tìm thông số tốt nhất cho mô hình SVR dự đoán CPA từ GPA 6 kỳ đầu
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

# Đọc dữ liệu sinh viên 8 kỳ
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_8_ky.xlsx')

# Đặc trưng đầu vào: GPA 6 kỳ đầu
X = df[[
    'GPA_1', 'GPA_2', 'GPA_3', 'GPA_4', 'GPA_5', 'GPA_6',
    'TC_qua_1', 'TC_qua_2', 'TC_qua_3', 'TC_qua_4', 'TC_qua_5', 'TC_qua_6'
    ]]
y = df['Final CPA']

# Tách dữ liệu train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hoá đặc trưng
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# GridSearchCV cho SVR với MSE
param_grid_svr = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf'],
    'gamma': ['scale', 'auto']
}

svr = SVR()
grid_svr = GridSearchCV(svr, param_grid_svr, cv=5, scoring='neg_mean_squared_error', verbose=2, n_jobs=-1)
grid_svr.fit(X_train_scaled, y_train)

# Kết quả
print("🎯 Best SVR Params:", grid_svr.best_params_)

# Đánh giá bằng MSE duy nhất
y_pred = grid_svr.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f"MSE: {mse:.4f}")

Fitting 5 folds for each of 12 candidates, totalling 60 fits
🎯 Best SVR Params: {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
MSE: 0.0075


In [None]:
# Tìm thông số tốt nhất cho mô hình XGBoost dự đoán CPA từ GPA 6 kỳ đầu
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

# Đọc dữ liệu
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_8_ky.xlsx')

X = df[[ 'GPA_1', 'GPA_2', 'GPA_3', 'GPA_4', 'GPA_5', 'GPA_6',
         'TC_qua_1', 'TC_qua_2', 'TC_qua_3', 'TC_qua_4', 'TC_qua_5', 'TC_qua_6' ]]
y = df['Final CPA']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Không cần chuẩn hoá với XGB
param_grid_xgb = {
    'n_estimators': [100, 200],
    'max_depth': [3, 6],
    'learning_rate': [0.05, 0.1],
    'subsample': [0.8, 1.0]
}

xgb = XGBRegressor(random_state=42)
grid_xgb = GridSearchCV(xgb, param_grid_xgb, cv=5, scoring='neg_mean_squared_error', verbose=2, n_jobs=-1)
grid_xgb.fit(X_train, y_train)

print("🎯 Best XGBoost Params:", grid_xgb.best_params_)

y_pred = grid_xgb.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"MSE: {mse:.4f}")


Fitting 5 folds for each of 16 candidates, totalling 80 fits
🎯 Best XGBoost Params: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
MSE: 0.0066


In [None]:
# Tìm thông số tốt nhất cho mô hình KNN dự đoán CPA từ GPA 6 kỳ đầu
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error

# Đọc dữ liệu
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_8_ky.xlsx')

X = df[[ 'GPA_1', 'GPA_2', 'GPA_3', 'GPA_4', 'GPA_5', 'GPA_6',
         'TC_qua_1', 'TC_qua_2', 'TC_qua_3', 'TC_qua_4', 'TC_qua_5', 'TC_qua_6' ]]
y = df['Final CPA']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Chuẩn hoá cho KNN
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

param_grid_knn = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'p': [1, 2]  # 1 = Manhattan, 2 = Euclidean
}

knn = KNeighborsRegressor()
grid_knn = GridSearchCV(knn, param_grid_knn, cv=5, scoring='neg_mean_squared_error', verbose=2, n_jobs=-1)
grid_knn.fit(X_train_scaled, y_train)

print("🎯 Best KNN Params:", grid_knn.best_params_)

y_pred = grid_knn.predict(X_test_scaled)
mse = mean_squared_error(y_test, y_pred)
print(f"MSE: {mse:.4f}")


Fitting 5 folds for each of 16 candidates, totalling 80 fits
🎯 Best KNN Params: {'n_neighbors': 9, 'p': 1, 'weights': 'distance'}
MSE: 0.0107


In [6]:
# So sánh các model đã tìm được
from sklearn.metrics import mean_absolute_error, root_mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.neighbors import KNeighborsRegressor

# Đọc dữ liệu
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_8_ky.xlsx')

# Các nhóm GPA, TC_qua theo từng học kỳ
gpa_tc_groups = {
    'GPA_TC_1': ['GPA_1', 'TC_qua_1'],
    'GPA_TC_1_2': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2'],
    'GPA_TC_1_2_3': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3'],
    'GPA_TC_1_2_3_4': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4'],
    'GPA_TC_1_2_3_4_5': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5'],
    'GPA_TC_1_2_3_4_5_6': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5', 'GPA_6', 'TC_qua_6'],
}
# Các mô hình
Best_RF_Params = {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'n_estimators': 200}
Best_SVR_Params = {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
Best_XGBoost_Params = {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Best_KNN_Params = {'n_neighbors': 9, 'p': 1, 'weights': 'distance'}

models = {
    'RandomForest': RandomForestRegressor(**Best_RF_Params ,random_state=42),
    'SVR': SVR(**Best_SVR_Params),
    'XGBoost': XGBRegressor(**Best_XGBoost_Params, random_state=42),
    'KNN': KNeighborsRegressor(**Best_KNN_Params)
}

# Hàm đánh giá mô hình
def evaluate_model(y_true, y_pred):
    return {
        'MAE': mean_absolute_error(y_true, y_pred),
        'RMSE': root_mean_squared_error(y_true, y_pred),
        'R2': r2_score(y_true, y_pred)
    }

# Luu trữ kết quả
results = []

# Lặp qua từng nhóm GPA, TC_qua
for group_name, features in gpa_tc_groups.items():
    
    X = df[features]
    y = df['Final_CPA']

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    for model_name, model in models.items():
        if model_name == 'SVR':
            scaler = StandardScaler()
            X_train_scaled = scaler.fit_transform(X_train)
            X_test_scaled = scaler.transform(X_test)
            model.fit(X_train_scaled, y_train)
            y_pred = model.predict(X_test_scaled)
        else:   
            model.fit(X_train, y_train)
            y_pred = model.predict(X_test)
        scores = evaluate_model(y_test, y_pred)
        results.append({
            'Group': group_name,
            'Model': model_name,
            'MAE': round(scores['MAE'], 4),
            'RMSE': round(scores['RMSE'], 4),
            'R2': round(scores['R2'], 4)
            })  


# In kết quả dạng bảng
results_df = pd.DataFrame(results)
# print("🎯 Đánh giá RMSE")
print(results_df.pivot(index='Group', columns='Model', values='RMSE'))
# print("🎯Đánh giá MAE")
print(results_df.pivot(index='Group', columns='Model', values='MAE'))
# print("🎯 Đánh giá R2")
print(results_df.pivot(index='Group', columns='Model', values='R2'))


Model                  KNN  RandomForest     SVR  XGBoost
Group                                                    
GPA_TC_1            0.3066        0.2889  0.2793   0.2804
GPA_TC_1_2          0.2534        0.2408  0.2488   0.2439
GPA_TC_1_2_3        0.2211        0.1891  0.2016   0.1897
GPA_TC_1_2_3_4      0.2059        0.1474  0.1555   0.1639
GPA_TC_1_2_3_4_5    0.1959        0.1223  0.1288   0.1268
GPA_TC_1_2_3_4_5_6  0.1860        0.0908  0.0867   0.0811
Model                  KNN  RandomForest     SVR  XGBoost
Group                                                    
GPA_TC_1            0.2408        0.2285  0.2223   0.2196
GPA_TC_1_2          0.1958        0.1888  0.1977   0.1880
GPA_TC_1_2_3        0.1747        0.1475  0.1574   0.1454
GPA_TC_1_2_3_4      0.1581        0.1140  0.1200   0.1249
GPA_TC_1_2_3_4_5    0.1535        0.0867  0.0931   0.0925
GPA_TC_1_2_3_4_5_6  0.1468        0.0652  0.0622   0.0609
Model                  KNN  RandomForest     SVR  XGBoost
Group         

In [None]:
# So sánh các model đã tìm được
from sklearn.metrics import mean_absolute_error, root_mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.neighbors import KNeighborsRegressor

# Đọc dữ liệu
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_10_ky.xlsx')

# Các nhóm GPA, TC_qua theo từng học kỳ
gpa_tc_groups = {
    'GPA_TC_1': ['GPA_1', 'TC_qua_1'],
    'GPA_TC_1_2': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2'],
    'GPA_TC_1_3': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3'],
    'GPA_TC_1_4': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4'],
    'GPA_TC_1_5': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5'],
    'GPA_TC_1_6': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5', 'GPA_6', 'TC_qua_6'],
    'GPA_TC_1_7': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5', 'GPA_6', 'TC_qua_6', 'GPA_7', 'TC_qua_7'],
    'GPA_TC_1_8': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5', 'GPA_6', 'TC_qua_6', 'GPA_7', 'TC_qua_7', 'GPA_8', 'TC_qua_8']
}
# Các mô hình
Best_RF_Params = {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'n_estimators': 200}
Best_SVR_Params = {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
Best_XGBoost_Params = {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Best_KNN_Params = {'n_neighbors': 9, 'p': 1, 'weights': 'distance'}

models = {
    'RandomForest': RandomForestRegressor(**Best_RF_Params ,random_state=42),
    'SVR': SVR(**Best_SVR_Params),
    'XGBoost': XGBRegressor(**Best_XGBoost_Params, random_state=42),
    'KNN': KNeighborsRegressor(**Best_KNN_Params)
}

# Hàm đánh giá mô hình
def evaluate_model(y_true, y_pred):
    return {
        'MAE': mean_absolute_error(y_true, y_pred),
        'RMSE': root_mean_squared_error(y_true, y_pred),
        'R2': r2_score(y_true, y_pred)
    }

# Luu trữ kết quả
results = []

# Lặp qua từng nhóm GPA, TC_qua
for group_name, features in gpa_tc_groups.items():
    
    X = df[features]
    y = df['Final_CPA']

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    if model_name == 'SVR':
        scaler = StandardScaler()
        X_train_scaled = scaler.fit_transform(X_train)
        X_test_scaled = scaler.transform(X_test)
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_test_scaled)
    else:   
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
    scores = evaluate_model(y_test, y_pred)
    results.append({
        'Group': group_name,
        'Model': model_name,
        'MAE': round(scores['MAE'], 4),
        'RMSE': round(scores['RMSE'], 4),
        'R2': round(scores['R2'], 4)
        })


# In kết quả dạng bảng
results_df = pd.DataFrame(results)
# print("🎯 Đánh giá RMSE")
print(results_df.pivot(index='Group', columns='Model', values='RMSE'))
# print("🎯Đánh giá MAE")
print(results_df.pivot(index='Group', columns='Model', values='MAE'))
# print("🎯 Đánh giá R2")
print(results_df.pivot(index='Group', columns='Model', values='R2'))


Model          KNN  RandomForest     SVR  XGBoost
Group                                            
GPA_TC_1    0.2710        0.2631  0.2576   0.2606
GPA_TC_1_2  0.1896        0.2014  0.2171   0.2054
GPA_TC_1_3  0.1629        0.1609  0.1785   0.1641
GPA_TC_1_4  0.1427        0.1376  0.1632   0.1382
GPA_TC_1_5  0.1280        0.1142  0.1359   0.1198
GPA_TC_1_6  0.1078        0.0921  0.1114   0.0939
GPA_TC_1_7  0.0911        0.0743  0.0891   0.0691
GPA_TC_1_8  0.0842        0.0629  0.0706   0.0596
Model          KNN  RandomForest     SVR  XGBoost
Group                                            
GPA_TC_1    0.2128        0.2095  0.2087   0.2102
GPA_TC_1_2  0.1304        0.1580  0.1716   0.1666
GPA_TC_1_3  0.1188        0.1268  0.1410   0.1269
GPA_TC_1_4  0.1046        0.1084  0.1287   0.1065
GPA_TC_1_5  0.0969        0.0885  0.1054   0.0949
GPA_TC_1_6  0.0796        0.0711  0.0867   0.0709
GPA_TC_1_7  0.0675        0.0557  0.0643   0.0528
GPA_TC_1_8  0.0626        0.0470  0.0518   0.0463


Từ những dữ liệu đã tìm được, chọn model XGBoost, huấn luyện và lưu mô hình tại gpa_cpa.ipynb


In [10]:
# So sánh các model đã tìm được
from sklearn.metrics import mean_absolute_error, root_mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.neighbors import KNeighborsRegressor

# Đọc dữ liệu
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_8_ky.xlsx')

# Các nhóm GPA, TC_qua theo từng học kỳ
gpa_tc_groups = {
    'GPA_2': ['GPA_1', 'TC_qua_1'],
    'GPA_3': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2'],
    'GPA_4': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3'],
    'GPA_5': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4'],
    'GPA_6': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5']
    }
# Các mô hình
Best_RF_Params = {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'n_estimators': 200}
Best_SVR_Params = {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
Best_XGBoost_Params = {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Best_KNN_Params = {'n_neighbors': 9, 'p': 1, 'weights': 'distance'}

models = {
    'RandomForest': RandomForestRegressor(**Best_RF_Params ,random_state=42),
    'SVR': SVR(**Best_SVR_Params),
    'XGBoost': XGBRegressor(**Best_XGBoost_Params, random_state=42),
    'KNN': KNeighborsRegressor(**Best_KNN_Params)
}

# Hàm đánh giá mô hình
def evaluate_model(y_true, y_pred):
    return {
        'MAE': mean_absolute_error(y_true, y_pred),
        'RMSE': root_mean_squared_error(y_true, y_pred),
        'R2': r2_score(y_true, y_pred)
    }

# Luu trữ kết quả
results = []

# Lặp qua từng nhóm GPA, TC_qua
for target, features in gpa_tc_groups.items():
    
    X = df[features]
    y = df[target]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    for model_name, model in models.items():
        if model_name == 'SVR':
            scaler = StandardScaler()
            X_train_scaled = scaler.fit_transform(X_train)
            X_test_scaled = scaler.transform(X_test)
            model.fit(X_train_scaled, y_train)
            y_pred = model.predict(X_test_scaled)
        else:   
            model.fit(X_train, y_train)
            y_pred = model.predict(X_test)

        scores = evaluate_model(y_test, y_pred)
        results.append({
            'Group': target,
            'Model': model_name,
            'MAE': round(scores['MAE'], 4),
            'RMSE': round(scores['RMSE'], 4),
            'R2': round(scores['R2'], 4)
        })


# In kết quả dạng bảng
results_df = pd.DataFrame(results)
print("🎯 Đánh giá RMSE")
print(results_df.pivot(index='Group', columns='Model', values='RMSE'))
print("🎯Đánh giá MAE")
print(results_df.pivot(index='Group', columns='Model', values='MAE'))
print("🎯 Đánh giá R2")
print(results_df.pivot(index='Group', columns='Model', values='R2'))


🎯 Đánh giá RMSE
Model     KNN  RandomForest     SVR  XGBoost
Group                                       
GPA_2  0.6143        0.5733  0.6460   0.5548
GPA_3  0.4589        0.4366  0.4506   0.4451
GPA_4  0.5021        0.4768  0.4923   0.4901
GPA_5  0.4946        0.4944  0.5179   0.5154
GPA_6  0.4339        0.4140  0.4328   0.4221
🎯Đánh giá MAE
Model     KNN  RandomForest     SVR  XGBoost
Group                                       
GPA_2  0.4747        0.4429  0.5044   0.4300
GPA_3  0.3380        0.3348  0.3426   0.3428
GPA_4  0.3846        0.3739  0.3851   0.3754
GPA_5  0.3563        0.3503  0.3683   0.3699
GPA_6  0.3263        0.3039  0.3104   0.3137
🎯 Đánh giá R2
Model     KNN  RandomForest     SVR  XGBoost
Group                                       
GPA_2  0.3025        0.3926  0.2286   0.4310
GPA_3  0.4618        0.5129  0.4812   0.4938
GPA_4  0.3826        0.4434  0.4066   0.4118
GPA_5  0.3495        0.3499  0.2865   0.2935
GPA_6  0.1944        0.2667  0.1987   0.2377


In [13]:
# So sánh các model đã tìm được
from sklearn.metrics import mean_absolute_error, root_mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.neighbors import KNeighborsRegressor

# Đọc dữ liệu
df = pd.read_excel('Data_clean/Data_GPA_CPA_final_10_ky.xlsx')

# Các nhóm GPA, TC_qua theo từng học kỳ
gpa_tc_groups = {
    'GPA_2': ['GPA_1', 'TC_qua_1'],
    'GPA_3': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2'],
    'GPA_4': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3'],
    'GPA_5': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4'],
    'GPA_6': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5'],
    'GPA_7': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5', 'GPA_6', 'TC_qua_6'],
    'GPA_8': ['GPA_1', 'TC_qua_1', 'GPA_2', 'TC_qua_2', 'GPA_3', 'TC_qua_3', 'GPA_4', 'TC_qua_4', 'GPA_5', 'TC_qua_5', 'GPA_6', 'TC_qua_6', 'GPA_7', 'TC_qua_7']
    }
# Các mô hình
Best_RF_Params = {'max_depth': 10, 'max_features': 'sqrt', 'min_samples_leaf': 1, 'n_estimators': 200}
Best_SVR_Params = {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
Best_XGBoost_Params = {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 200, 'subsample': 0.8}
Best_KNN_Params = {'n_neighbors': 9, 'p': 1, 'weights': 'distance'}

models = {
    'RandomForest': RandomForestRegressor(**Best_RF_Params ,random_state=42),
    'SVR': SVR(**Best_SVR_Params),
    'XGBoost': XGBRegressor(**Best_XGBoost_Params, random_state=42),
    'KNN': KNeighborsRegressor(**Best_KNN_Params)
}

# Hàm đánh giá mô hình
def evaluate_model(y_true, y_pred):
    return {
        'MAE': mean_absolute_error(y_true, y_pred),
        'RMSE': root_mean_squared_error(y_true, y_pred),
        'R2': r2_score(y_true, y_pred)
    }

# Luu trữ kết quả
results = []

# Lặp qua từng nhóm GPA, TC_qua
for target, features in gpa_tc_groups.items():
    
    X = df[features]
    y = df[target]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    for model_name, model in models.items():
        if model_name == 'SVR':
            scaler = StandardScaler()
            X_train_scaled = scaler.fit_transform(X_train)
            X_test_scaled = scaler.transform(X_test)
            model.fit(X_train_scaled, y_train)
            y_pred = model.predict(X_test_scaled)
        else:   
            model.fit(X_train, y_train)
            y_pred = model.predict(X_test)

        scores = evaluate_model(y_test, y_pred)
        results.append({
            'Group': target,
            'Model': model_name,
            'MAE': round(scores['MAE'], 4),
            'RMSE': round(scores['RMSE'], 4),
            'R2': round(scores['R2'], 4)
        })


# In kết quả dạng bảng
results_df = pd.DataFrame(results)
# print("🎯 Đánh giá RMSE")
print(results_df.pivot(index='Group', columns='Model', values='RMSE'))
# print("🎯Đánh giá MAE")
print(results_df.pivot(index='Group', columns='Model', values='MAE'))
# print("🎯 Đánh giá R2")
print(results_df.pivot(index='Group', columns='Model', values='R2'))


Model     KNN  RandomForest     SVR  XGBoost
Group                                       
GPA_2  0.6474        0.6417  0.6596   0.6409
GPA_3  0.4425        0.4570  0.5189   0.4852
GPA_4  0.4913        0.4650  0.5170   0.4834
GPA_5  0.4960        0.4778  0.5096   0.4844
GPA_6  0.4613        0.4290  0.4750   0.4502
GPA_7  0.4288        0.3871  0.4646   0.3951
GPA_8  0.3378        0.3043  0.3471   0.3068
Model     KNN  RandomForest     SVR  XGBoost
Group                                       
GPA_2  0.4999        0.5089  0.5207   0.5133
GPA_3  0.2969        0.3563  0.4058   0.3815
GPA_4  0.3445        0.3579  0.4046   0.3716
GPA_5  0.3504        0.3741  0.3984   0.3846
GPA_6  0.3482        0.3290  0.3638   0.3424
GPA_7  0.3092        0.2903  0.3387   0.3013
GPA_8  0.2502        0.2345  0.2601   0.2337
Model     KNN  RandomForest     SVR  XGBoost
Group                                       
GPA_2  0.3004        0.3126  0.2737   0.3143
GPA_3  0.4845        0.4502  0.2910   0.3802
GPA_4  0.5

Từ những dữ liệu đã tìm được, chọn model RandomForest, huấn luyện và lưu mô hình tại gpa_cpa.ipynb
