In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

In [2]:
!unzip data.zip -d /content/

Archive:  data.zip
  inflating: /content/data/annonimized.csv  
  inflating: /content/data/ck-public.csv  
  inflating: /content/data/qt-public.csv  
  inflating: /content/data/tbtl-public.csv  
  inflating: /content/data/th-public.csv  


In [3]:
df_annonimized = pd.read_csv('/content/data/annonimized.csv')
df_qt = pd.read_csv('/content/data/qt-public.csv')
df_th = pd.read_csv('/content/data/th-public.csv')
df_tbtl = pd.read_csv('/content/data/tbtl-public.csv', sep = ';')
df_ck = pd.read_csv('/content/data/ck-public.csv')

In [4]:
df_th.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 761 entries, 0 to 760
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   hash    761 non-null    object
 1   TH      755 non-null    object
dtypes: object(2)
memory usage: 12.0+ KB


In [5]:
df_tbtl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 799 entries, 0 to 798
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   username  799 non-null    object 
 1   TBTL      799 non-null    float64
dtypes: float64(1), object(1)
memory usage: 12.6+ KB


In [6]:
df_ck.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 761 entries, 0 to 760
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   hash    761 non-null    object 
 1   CK      755 non-null    float64
dtypes: float64(1), object(1)
memory usage: 12.0+ KB


In [7]:
df_qt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 761 entries, 0 to 760
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   hash    761 non-null    object
 1   diemqt  755 non-null    object
dtypes: object(2)
memory usage: 12.0+ KB


In [8]:
#https://chatgpt.com/c/2c25eb21-a114-4562-80f8-87d18cd2b54d
5678
def clean_convert(df):
    """
    Hàm làm sạch và chuyển đổi kiểu dữ liệu của các cột trong DataFrame từ object sang float,
    sau đó xóa các hàng chứa giá trị null.

    Args:
    df (pd.DataFrame): DataFrame đầu vào.

    Returns:
    pd.DataFrame: DataFrame đã làm sạch, chuyển đổi kiểu dữ liệu và xóa các giá trị null.
    """
    # Thay thế ký tự không hợp lệ
    df_clean = df.replace(r'\xa0', '', regex=True)
    # Chuyển đổi kiểu dữ liệu từ object sang float
    df_clean = df_clean.apply(pd.to_numeric, errors='coerce')
    # Xóa các hàng chứa giá trị null
    df_clean = df_clean.dropna()
    return df_clean

# Ví dụ sử dụng:
# df = pd.read_csv('your_data.csv')
# df_cleaned = clean_convert(df)
# print(df_cleaned)


In [9]:
df_th['TH'] = clean_convert(df_th['TH'])
df_th = df_th.rename(columns={'hash':'username'})
df_qt['diemqt'] = clean_convert(df_qt['diemqt'])
df_qt = df_qt.rename(columns={'hash':'username'})
df_ck['CK'] = clean_convert(df_ck['CK'])
df_ck = df_ck.rename(columns={'hash':'username'})

In [10]:
df_th.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 761 entries, 0 to 760
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   username  761 non-null    object 
 1   TH        753 non-null    float64
dtypes: float64(1), object(1)
memory usage: 12.0+ KB


In [11]:
df_annonimized.head()

Unnamed: 0,assignment_id,problem_id,username,is_final,status,pre_score,coefficient,language_id,created_at,updated_at,judgement
0,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,0,SCORE,0,100,it0012,10-09 08:02:04,10-09 08:06:58,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0..."
1,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,0,SCORE,0,100,it0012,10-09 08:04:41,10-09 08:04:51,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0..."
2,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 08:06:49,10-09 08:06:58,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0..."
3,90ce27571176d87961b565d5ef4b3de33ede04ac,bf96fbdc5f499538c3e2bfbec5779c8a14b0a9ff,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 08:47:52,10-09 08:48:01,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0..."
4,90ce27571176d87961b565d5ef4b3de33ede04ac,7a6e5ca470ff47c3b5048f240c4738de71010c78,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 09:19:35,10-09 09:19:45,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0..."


In [12]:
df_annonimized['status'].value_counts()

status
SCORE                235501
Compilation Error     59630
Syntax Error             57
pending                  10
Name: count, dtype: int64

In [13]:
df_annonimized[['month_day', 'time']] = df_annonimized['created_at'].str.split(' ', expand=True)

# Data Preparation

In [14]:
df_annonimized

Unnamed: 0,assignment_id,problem_id,username,is_final,status,pre_score,coefficient,language_id,created_at,updated_at,judgement,month_day,time
0,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,0,SCORE,0,100,it0012,10-09 08:02:04,10-09 08:06:58,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0...",10-09,08:02:04
1,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,0,SCORE,0,100,it0012,10-09 08:04:41,10-09 08:04:51,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0...",10-09,08:04:41
2,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 08:06:49,10-09 08:06:58,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0...",10-09,08:06:49
3,90ce27571176d87961b565d5ef4b3de33ede04ac,bf96fbdc5f499538c3e2bfbec5779c8a14b0a9ff,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 08:47:52,10-09 08:48:01,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0...",10-09,08:47:52
4,90ce27571176d87961b565d5ef4b3de33ede04ac,7a6e5ca470ff47c3b5048f240c4738de71010c78,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 09:19:35,10-09 09:19:45,"{""times"":[0,0,0,0,0,0,0,0,0,0],""mems"":[0,0,0,0...",10-09,09:19:35
...,...,...,...,...,...,...,...,...,...,...,...,...,...
295193,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,388516cbf597351226be1bdbe5ef30b9dcef570f,232cce96362898f08e9150ba244adaf2d6583ab2,1,SCORE,10000,100,it0012,01-15 16:03:43,01-15 16:03:53,"{""times"":[0,0,0,0,0,0,0,0,0,0,0,0,0,0],""mems"":...",01-15,16:03:43
295194,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,d2b96124ccb8e27b4b8dacdb935e729cb1ba546b,232cce96362898f08e9150ba244adaf2d6583ab2,0,Compilation Error,0,100,it0012,01-15 16:04:07,01-15 16:05:08,"{""times"":[],""mems"":[],""verdicts"":{""\n\nIn func...",01-15,16:04:07
295195,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,d2b96124ccb8e27b4b8dacdb935e729cb1ba546b,232cce96362898f08e9150ba244adaf2d6583ab2,1,SCORE,10000,100,it0012,01-15 16:04:58,01-15 16:05:08,"{""times"":[0,0,0,0,0,0,0,0,0,0,0,0,0,0],""mems"":...",01-15,16:04:58
295196,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,8c0f8dd4ff55e1609f733e043ac5e88b1dde6e7c,232cce96362898f08e9150ba244adaf2d6583ab2,1,SCORE,10000,100,it0012,01-15 16:05:13,01-15 16:05:22,"{""times"":[0,0,0,0,0,0,0,0,0,0,0,0,0],""mems"":[0...",01-15,16:05:13


In [15]:
#Tách các giá trị trong cột status thành từng cột riêng
df_annonimized['SCORE'] = df_annonimized['status'].apply(lambda x: 1 if x == 'SCORE' else 0)
df_annonimized['Compilation Error'] = df_annonimized['status'].apply(lambda x: 1 if x == 'Compilation Error' else 0)
df_annonimized['Syntax Error'] = df_annonimized['status'].apply(lambda x: 1 if x == 'Syntax Error' else 0)
df_annonimized['pending'] = df_annonimized['status'].apply(lambda x: 1 if x == 'pending' else 0)
#
df_annonimized['final'] = df_annonimized['is_final'].apply(lambda x: 1 if x == 1 else 0)
df_annonimized['not_final'] = df_annonimized['is_final'].apply(lambda x: 1 if x == 0 else 0)
df_annonimized['success'] = df_annonimized['pre_score'].apply(lambda x: 1 if x == 10000 else 0)
df_annonimized['non_success'] = df_annonimized['pre_score'].apply(lambda x: 1 if x != 10000 else 0)

df_annonimized

Unnamed: 0,assignment_id,problem_id,username,is_final,status,pre_score,coefficient,language_id,created_at,updated_at,...,month_day,time,SCORE,Compilation Error,Syntax Error,pending,final,not_final,success,non_success
0,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,0,SCORE,0,100,it0012,10-09 08:02:04,10-09 08:06:58,...,10-09,08:02:04,1,0,0,0,0,1,0,1
1,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,0,SCORE,0,100,it0012,10-09 08:04:41,10-09 08:04:51,...,10-09,08:04:41,1,0,0,0,0,1,0,1
2,90ce27571176d87961b565d5ef4b3de33ede04ac,789454427dd4097a14749e3dde63346b7a8d3811,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 08:06:49,10-09 08:06:58,...,10-09,08:06:49,1,0,0,0,1,0,1,0
3,90ce27571176d87961b565d5ef4b3de33ede04ac,bf96fbdc5f499538c3e2bfbec5779c8a14b0a9ff,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 08:47:52,10-09 08:48:01,...,10-09,08:47:52,1,0,0,0,1,0,1,0
4,90ce27571176d87961b565d5ef4b3de33ede04ac,7a6e5ca470ff47c3b5048f240c4738de71010c78,ed9eaeb6a707f50154024b24d7efcb874a9795dd,1,SCORE,10000,100,it0012,10-09 09:19:35,10-09 09:19:45,...,10-09,09:19:35,1,0,0,0,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
295193,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,388516cbf597351226be1bdbe5ef30b9dcef570f,232cce96362898f08e9150ba244adaf2d6583ab2,1,SCORE,10000,100,it0012,01-15 16:03:43,01-15 16:03:53,...,01-15,16:03:43,1,0,0,0,1,0,1,0
295194,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,d2b96124ccb8e27b4b8dacdb935e729cb1ba546b,232cce96362898f08e9150ba244adaf2d6583ab2,0,Compilation Error,0,100,it0012,01-15 16:04:07,01-15 16:05:08,...,01-15,16:04:07,0,1,0,0,0,1,0,1
295195,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,d2b96124ccb8e27b4b8dacdb935e729cb1ba546b,232cce96362898f08e9150ba244adaf2d6583ab2,1,SCORE,10000,100,it0012,01-15 16:04:58,01-15 16:05:08,...,01-15,16:04:58,1,0,0,0,1,0,1,0
295196,613aea04c978f5e72fffc8bcff1f7b695a63f7b1,8c0f8dd4ff55e1609f733e043ac5e88b1dde6e7c,232cce96362898f08e9150ba244adaf2d6583ab2,1,SCORE,10000,100,it0012,01-15 16:05:13,01-15 16:05:22,...,01-15,16:05:13,1,0,0,0,1,0,1,0


In [16]:
df_annonimized.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 295198 entries, 0 to 295197
Data columns (total 21 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   assignment_id      295198 non-null  object
 1   problem_id         295198 non-null  object
 2   username           295198 non-null  object
 3   is_final           295198 non-null  int64 
 4   status             295198 non-null  object
 5   pre_score          295198 non-null  int64 
 6   coefficient        295198 non-null  int64 
 7   language_id        295198 non-null  object
 8   created_at         295198 non-null  object
 9   updated_at         295198 non-null  object
 10  judgement          295198 non-null  object
 11  month_day          295198 non-null  object
 12  time               295198 non-null  object
 13  SCORE              295198 non-null  int64 
 14  Compilation Error  295198 non-null  int64 
 15  Syntax Error       295198 non-null  int64 
 16  pending            2

In [17]:
df_synthesis_origin = df_annonimized.groupby(['username']).agg(
     nums_assignment = ('assignment_id', "nunique"),
     nums_problem = ('problem_id', 'nunique'),
     nums_submissions = ('problem_id', 'count'),
     pre_score_mean = ('pre_score', 'mean'),
     pre_score_sum = ('pre_score', 'sum'),
     nums_problem_success = ('success', 'sum'),
     score_count=('SCORE', 'sum'),
     compilation_error_count=('Compilation Error', 'sum'),
     coefficient_mean=('coefficient', 'mean'),
     pending_count=('pending', 'sum'),
     syntax_error_count=('Syntax Error', 'sum'),
     is_final = ('final', "sum"),
     is_not_final = ('not_final', 'sum'),
     month_day = ('month_day', 'nunique')
)

df_synthesis_origin['problem_success_rate'] = df_synthesis_origin['nums_problem_success']/ df_synthesis_origin['nums_submissions']
df_synthesis_origin['problem_non_success_rate'] = 1 - df_synthesis_origin['problem_success_rate']
df_synthesis_origin['total_score_success'] = 10000 * df_synthesis_origin['nums_problem_success']
df_synthesis_origin['submission_frequency'] = df_synthesis_origin['nums_submissions']/df_synthesis_origin['month_day']
df_synthesis_origin['submission_rate'] = df_synthesis_origin['nums_submissions']/df_synthesis_origin['nums_assignment']

df_synthesis_origin

Unnamed: 0_level_0,nums_assignment,nums_problem,nums_submissions,pre_score_mean,pre_score_sum,nums_problem_success,score_count,compilation_error_count,coefficient_mean,pending_count,syntax_error_count,is_final,is_not_final,month_day,problem_success_rate,problem_non_success_rate,total_score_success,submission_frequency,submission_rate
username,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
00b6dd4fc7eb817e03708c532016ef30ce564a61,7,46,147,5504.149660,809110,54,119,28,100.000000,0,0,46,101,14,0.367347,0.632653,540000,10.500000,21.000000
00bef8afee8f3c595d535c9c03c490cac1a4f021,9,78,259,5488.552124,1421535,85,209,50,100.000000,0,0,78,181,20,0.328185,0.671815,850000,12.950000,28.777778
01122b3ef7e59b84189e65985305f575d6bdf83c,7,66,195,5973.753846,1164882,59,175,20,100.000000,0,0,67,128,25,0.302564,0.697436,590000,7.800000,27.857143
0134f9f410c65ad0e8c2254a7e9288670e02a183,4,47,100,5952.760000,595276,52,76,24,100.000000,0,0,47,53,13,0.520000,0.480000,520000,7.692308,25.000000
013de369c439ab0ead8aa7da64423aa395a8be39,8,52,107,6474.448598,692766,59,94,13,97.196262,0,0,66,41,8,0.551402,0.448598,590000,13.375000,13.375000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
feb8a2859a011c59efd22ed419cb69288fe03627,9,34,74,5581.081081,413000,40,71,3,100.000000,0,0,34,40,7,0.540541,0.459459,400000,10.571429,8.222222
fef4a3263ed9a8ab14d457694bb8fd86ccd98312,6,77,260,6204.557692,1613185,80,216,44,100.000000,0,0,78,182,16,0.307692,0.692308,800000,16.250000,43.333333
ff12d6e2ab80696ed8e22fbe5497e96c68d29076,6,100,437,4998.466819,2184330,105,360,77,100.000000,0,0,103,334,48,0.240275,0.759725,1050000,9.104167,72.833333
ff3fa2ec64294f37ae968159f810ebeda7966c51,7,34,94,4343.329787,408273,30,74,20,100.000000,0,0,34,60,7,0.319149,0.680851,300000,13.428571,13.428571


In [18]:
df_synthesis_origin.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1489 entries, 00b6dd4fc7eb817e03708c532016ef30ce564a61 to ffe872165621d735a48bb5db0c71dd5195cba359
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   nums_assignment           1489 non-null   int64  
 1   nums_problem              1489 non-null   int64  
 2   nums_submissions          1489 non-null   int64  
 3   pre_score_mean            1489 non-null   float64
 4   pre_score_sum             1489 non-null   int64  
 5   nums_problem_success      1489 non-null   int64  
 6   score_count               1489 non-null   int64  
 7   compilation_error_count   1489 non-null   int64  
 8   coefficient_mean          1489 non-null   float64
 9   pending_count             1489 non-null   int64  
 10  syntax_error_count        1489 non-null   int64  
 11  is_final                  1489 non-null   int64  
 12  is_not_final              1489 non-null   int64 

In [19]:
df_synthesis_origin.columns

Index(['nums_assignment', 'nums_problem', 'nums_submissions', 'pre_score_mean',
       'pre_score_sum', 'nums_problem_success', 'score_count',
       'compilation_error_count', 'coefficient_mean', 'pending_count',
       'syntax_error_count', 'is_final', 'is_not_final', 'month_day',
       'problem_success_rate', 'problem_non_success_rate',
       'total_score_success', 'submission_frequency', 'submission_rate'],
      dtype='object')

# Dự đoán điểm

In [20]:
# Cài đặt CatBoost
!pip install catboost

# Cài đặt XGBoost với hỗ trợ GPU
!pip install xgboost==2.0.3

Collecting catboost
  Downloading catboost-1.2.5-cp310-cp310-manylinux2014_x86_64.whl (98.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m98.2/98.2 MB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: catboost
Successfully installed catboost-1.2.5


In [29]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score
import joblib
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from catboost import CatBoostRegressor
import numpy as np

def find_best_params(df, features, target, title, test_size=0.3, random_state=43):
    """
    Điều chỉnh tham số cho LGBM, XGB và CatBoost, và trả về mô hình tốt nhất cùng với các tham số tốt nhất.

    Args:
    df (pd.DataFrame): DataFrame chứa dữ liệu.
    features (list): Danh sách các đặc trưng.
    target (str): Tên cột nhãn.
    test_size (float): Tỉ lệ tập kiểm tra. Mặc định là 0.3.
    random_state (int): Seed cho việc chia dữ liệu. Mặc định là 43.

    Returns:
    dict: Mô hình tốt nhất, scaler đã sử dụng, và các tham số tốt nhất cho từng mô hình.
    """
    # Chia dữ liệu thành tập huấn luyện và tập kiểm tra
    X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=test_size, random_state=random_state)

    # Chuẩn hóa dữ liệu
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    # Khởi tạo các mô hình và tham số cụ thể cho GridSearchCV
    model_params = {
        'LGBMRegressor': {
            'model': LGBMRegressor(random_state=random_state),
            'params': {
                'n_estimators': [100, 200, 300],
                'learning_rate': [0.01, 0.05, 0.1],
                'max_depth': [-1, 3, 5, 7],
                'num_leaves': [31, 50, 64, 100]
            }
        },
        'XGBRegressor': {
            'model': XGBRegressor(random_state=random_state),
            'params': {
                'n_estimators': [100, 200, 300],
                'learning_rate': [0.01, 0.05, 0.1],
                'max_depth': [3, 5, 7],
                'subsample': [0.8, 0.9, 1.0],
                'colsample_bytree': [0.8, 0.9, 1.0]
            }
        },
        'CatBoostRegressor': {
            'model': CatBoostRegressor(random_state=random_state, verbose=0),
            'params': {
              'iterations': [150, 250, 350, 300],
              'learning_rate': [0.02, 0.12, 0.01],
              'depth': [4, 5, 6, 8, 10],
            }
        }
    }

    # Sử dụng K-fold cross-validation để đánh giá mô hình
    cv = KFold(n_splits=3, shuffle=True, random_state=random_state)
    best_models = {}
    best_model_name = None
    best_score = float('-inf')
    best_r2 = float('-inf')

    for model_name, mp in model_params.items():
        print(f'Training {model_name}...')
        grid_search = GridSearchCV(estimator=mp['model'], param_grid=mp['params'], scoring='r2', cv=cv, n_jobs=-1)

        grid_search.fit(X_train_scaled, y_train)

        best_model = grid_search.best_estimator_
        best_params = grid_search.best_params_

        y_pred = best_model.predict(X_test_scaled)
        r2 = r2_score(y_test, y_pred)

        print(f'R^2 for {model_name}: {r2}')

        if r2 > best_r2:
            best_r2 = r2
            best_model_name = model_name

        best_models[model_name] = {
            'model': best_model,
            'params': best_params,
            'r2': r2
        }

        best_model.fit(X_train_scaled, y_train)
        joblib.dump(best_model, f'best_{model_name}_{title}.joblib')

        print(f'Best {model_name} model: {best_model}')
        print(f'Best parameters: {best_params}')

    joblib.dump(scaler, f'scaler_all_models_{title}.joblib')

    print(f'Overall Best Model: {best_model_name} with R^2: {best_r2}')
    return best_models, scaler

# Sử dụng hàm với dữ liệu của bạn
# df = ... (Dữ liệu của bạn)
# features = ... (Danh sách các đặc trưng của bạn)
# target = ... (Tên cột mục tiêu của bạn)
# title = 'your_title'

# best_models, scaler = find_best_params(df, features, target, title)


In [22]:
def filter_unique_rows(df1, df2, key='username'):
    """
    Lấy các hàng trong df1 mà không có trong df2 dựa trên cột key.

    Args:
    df1 (pd.DataFrame): DataFrame đầu vào 1.
    df2 (pd.DataFrame): DataFrame đầu vào 2.
    key (str): Cột dùng để so sánh. Mặc định là 'username'.

    Returns:
    pd.DataFrame: DataFrame chứa các hàng chỉ có trong df1.
    """
    # Hợp nhất hai DataFrame và thêm cột indicator
    merged_df = df1.merge(df2[[key]], on=key, how='left', indicator=True)

    # Lọc các hàng chỉ có trong df1
    result_df = merged_df[merged_df['_merge'] == 'left_only']

    # Xóa cột indicator
    result_df = result_df.drop(columns=['_merge'])

    return result_df

In [23]:
# Hàm để dự đoán và lưu kết quả vào file CSV
def predict_and_save(model_filename, scaler_filename, X_pred, username_col='username', output_filename='predictions.csv'):
    """
    Dự đoán và lưu kết quả vào file CSV.

    Args:
    model_filename (str): Đường dẫn đến file model đã lưu.
    scaler_filename (str): Đường dẫn đến file scaler đã lưu.
    X_pred (pd.DataFrame): DataFrame chứa dữ liệu để dự đoán.
    username_col (str): Tên cột chứa username.
    output_filename (str): Tên file CSV đầu ra.
    """
    # Load model và scaler từ file
    loaded_model = joblib.load(model_filename)
    loaded_scaler = joblib.load(scaler_filename)

    # Chuẩn hóa dữ liệu dự đoán
    X_pred_scaled = loaded_scaler.transform(X_pred.drop(columns=[username_col]))

    # Thực hiện dự đoán
    y_pred = loaded_model.predict(X_pred_scaled)

    # Tạo DataFrame kết quả
    result_df = X_pred[[username_col]].copy()
    result_df['y_pred'] = y_pred

    # Lưu kết quả vào file CSV
    result_df.to_csv(output_filename, index=False)

## Dự đoán điểm Quá trình

In [24]:
df_qt = pd.merge(df_synthesis_origin,df_qt, on='username', how='inner')
df_qt


Unnamed: 0,username,nums_assignment,nums_problem,nums_submissions,pre_score_mean,pre_score_sum,nums_problem_success,score_count,compilation_error_count,coefficient_mean,...,syntax_error_count,is_final,is_not_final,month_day,problem_success_rate,problem_non_success_rate,total_score_success,submission_frequency,submission_rate,diemqt
0,00b6dd4fc7eb817e03708c532016ef30ce564a61,7,46,147,5504.149660,809110,54,119,28,100.000000,...,0,46,101,14,0.367347,0.632653,540000,10.500000,21.000000,7.5
1,00bef8afee8f3c595d535c9c03c490cac1a4f021,9,78,259,5488.552124,1421535,85,209,50,100.000000,...,0,78,181,20,0.328185,0.671815,850000,12.950000,28.777778,7.0
2,01122b3ef7e59b84189e65985305f575d6bdf83c,7,66,195,5973.753846,1164882,59,175,20,100.000000,...,0,67,128,25,0.302564,0.697436,590000,7.800000,27.857143,9.0
3,013de369c439ab0ead8aa7da64423aa395a8be39,8,52,107,6474.448598,692766,59,94,13,97.196262,...,0,66,41,8,0.551402,0.448598,590000,13.375000,13.375000,10.0
4,014c59c6433fd764a0b08de6ffeb757eaf60aa73,9,90,199,5240.025126,1042765,79,154,45,100.000000,...,0,90,109,22,0.396985,0.603015,790000,9.045455,22.111111,9.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
756,840d07858c03f80f4695056e2cc7d0c474b83a25,6,43,111,5171.639640,574052,41,81,30,100.000000,...,0,44,67,15,0.369369,0.630631,410000,7.400000,18.500000,9.0
757,844f5db2e7e31ae51eba025480679ed7e4708ac6,17,104,357,4785.224090,1708325,108,254,103,100.000000,...,0,104,253,29,0.302521,0.697479,1080000,12.310345,21.000000,8.0
758,845acd04a77b3d1b623f255d9f9f8eae90892dab,8,52,155,4247.296774,658331,47,117,38,100.000000,...,0,53,102,10,0.303226,0.696774,470000,15.500000,19.375000,6.5
759,8460eaaf887a6289fb156f7562fb739ba8e9629e,12,114,557,4278.605027,2383183,113,416,141,100.000000,...,0,115,442,33,0.202873,0.797127,1130000,16.878788,46.416667,10.0


In [25]:
df_qt = df_qt.dropna()
df_qt.isna().value_counts()

username  nums_assignment  nums_problem  nums_submissions  pre_score_mean  pre_score_sum  nums_problem_success  score_count  compilation_error_count  coefficient_mean  pending_count  syntax_error_count  is_final  is_not_final  month_day  problem_success_rate  problem_non_success_rate  total_score_success  submission_frequency  submission_rate  diemqt
False     False            False         False             False           False          False                 False        False                    False             False          False               False     False         False      False                 False                     False                False                 False            False     754
Name: count, dtype: int64

In [26]:
df_qt.info()

<class 'pandas.core.frame.DataFrame'>
Index: 754 entries, 0 to 760
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   username                  754 non-null    object 
 1   nums_assignment           754 non-null    int64  
 2   nums_problem              754 non-null    int64  
 3   nums_submissions          754 non-null    int64  
 4   pre_score_mean            754 non-null    float64
 5   pre_score_sum             754 non-null    int64  
 6   nums_problem_success      754 non-null    int64  
 7   score_count               754 non-null    int64  
 8   compilation_error_count   754 non-null    int64  
 9   coefficient_mean          754 non-null    float64
 10  pending_count             754 non-null    int64  
 11  syntax_error_count        754 non-null    int64  
 12  is_final                  754 non-null    int64  
 13  is_not_final              754 non-null    int64  
 14  month_day      

In [27]:
df_qt.columns

Index(['username', 'nums_assignment', 'nums_problem', 'nums_submissions',
       'pre_score_mean', 'pre_score_sum', 'nums_problem_success',
       'score_count', 'compilation_error_count', 'coefficient_mean',
       'pending_count', 'syntax_error_count', 'is_final', 'is_not_final',
       'month_day', 'problem_success_rate', 'problem_non_success_rate',
       'total_score_success', 'submission_frequency', 'submission_rate',
       'diemqt'],
      dtype='object')

In [30]:
# Sử dụng hàm
find_best_params(df_qt, df_synthesis_origin.columns,'diemqt',"qt")

Training LGBMRegressor...
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000138 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2067
[LightGBM] [Info] Number of data points in the train set: 527, number of used features: 17
[LightGBM] [Info] Start training from score 8.346300
R^2 for LGBMRegressor: 0.09096850244731947
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000160 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2067
[LightGBM] [Info] Number of data points in the train set: 527, number of used features: 17
[LightGBM] [Info] Start training from score 8.346300
Best LGBMRegressor model: LGBMRegressor(learning_rate=0.01, max_depth=3, n_estimators=200,
              random_state=43)
Best parameters: {'learning_rate': 0.01, 'max_depth': 3, 'n_estimators': 200, 'num_leaves': 31}
Training XGBRegressor...
R^2 for 

({'LGBMRegressor': {'model': LGBMRegressor(learning_rate=0.01, max_depth=3, n_estimators=200,
                 random_state=43),
   'params': {'learning_rate': 0.01,
    'max_depth': 3,
    'n_estimators': 200,
    'num_leaves': 31},
   'r2': 0.09096850244731947},
  'XGBRegressor': {'model': XGBRegressor(base_score=None, booster=None, callbacks=None,
                colsample_bylevel=None, colsample_bynode=None,
                colsample_bytree=0.9, device=None, early_stopping_rounds=None,
                enable_categorical=False, eval_metric=None, feature_types=None,
                gamma=None, grow_policy=None, importance_type=None,
                interaction_constraints=None, learning_rate=0.01, max_bin=None,
                max_cat_threshold=None, max_cat_to_onehot=None,
                max_delta_step=None, max_depth=5, max_leaves=None,
                min_child_weight=None, missing=nan, monotone_constraints=None,
                multi_strategy=None, n_estimators=100, n_jobs=None,

In [31]:
# Ví dụ sử dụng hàm
X_pred_qt = filter_unique_rows(df_synthesis_origin, df_qt)
predict_and_save('best_CatBoostRegressor_qt.joblib', 'scaler_all_models_qt.joblib', X_pred_qt, username_col='username', output_filename='predictions_qt.csv')

## Dự đoán điểm thực hành

In [32]:
df_th = pd.merge(df_synthesis_origin,df_th, on='username', how='inner')
df_th = df_th.dropna()
# Sử dụng hàm
find_best_params(df_th, df_synthesis_origin.columns,'TH',"th")
# Ví dụ sử dụng hàm
X_pred_th = filter_unique_rows(df_synthesis_origin, df_th)

Training LGBMRegressor...
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000174 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2071
[LightGBM] [Info] Number of data points in the train set: 527, number of used features: 17
[LightGBM] [Info] Start training from score 7.303605
R^2 for LGBMRegressor: 0.3255430219904403
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000175 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2071
[LightGBM] [Info] Number of data points in the train set: 527, number of used features: 17
[LightGBM] [Info] Start training from score 7.303605
Best LGBMRegressor model: LGBMRegressor(learning_rate=0.01, max_depth=5, n_estimators=300,
              random_state=43)
Best parameters: {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 300, 'num_leaves': 31}
Training XGBRegressor...
R^2 for X

In [43]:
predict_and_save('best_XGBRegressor_th.joblib', 'scaler_all_models_th.joblib', X_pred_th, username_col='username', output_filename='predictions_th.csv')


## Dự đoán điểm cuối kì

In [34]:
df_ck = pd.merge(df_synthesis_origin,df_ck, on='username', how='inner')
df_ck = df_ck.dropna()
# Sử dụng hàm
find_best_params(df_ck, df_synthesis_origin.columns,'CK',"ck")
# Ví dụ sử dụng hàm
X_pred_ck = filter_unique_rows(df_synthesis_origin, df_ck)

Training LGBMRegressor...
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000162 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2070
[LightGBM] [Info] Number of data points in the train set: 528, number of used features: 17
[LightGBM] [Info] Start training from score 5.466856
R^2 for LGBMRegressor: 0.11737470200844735
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000157 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2070
[LightGBM] [Info] Number of data points in the train set: 528, number of used features: 17
[LightGBM] [Info] Start training from score 5.466856
Best LGBMRegressor model: LGBMRegressor(learning_rate=0.01, max_depth=5, n_estimators=200,
              random_state=43)
Best parameters: {'learning_rate': 0.01, 'max_depth': 5, 'n_estimators': 200, 'num_leaves': 31}
Training XGBRegressor...
R^2 for 

In [40]:
predict_and_save('best_CatBoostRegressor_ck.joblib', 'scaler_all_models_ck.joblib', X_pred_ck, username_col='username', output_filename='predictions_ck.csv')


## Dự đoán điểm TBTL

In [36]:
df_tbtl = pd.merge(df_synthesis_origin,df_tbtl, on='username', how='inner')
df_tbtl = df_tbtl.dropna()
# Sử dụng hàm
find_best_params(df_tbtl, df_synthesis_origin.columns,'TBTL',"tbtl")
# Ví dụ sử dụng hàm
X_pred_tbtl = filter_unique_rows(df_synthesis_origin, df_tbtl)

Training LGBMRegressor...
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000193 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2185
[LightGBM] [Info] Number of data points in the train set: 559, number of used features: 17
[LightGBM] [Info] Start training from score 7.833202
R^2 for LGBMRegressor: 0.13375528427807615
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000201 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 2185
[LightGBM] [Info] Number of data points in the train set: 559, number of used features: 17
[LightGBM] [Info] Start training from score 7.833202
Best LGBMRegressor model: LGBMRegressor(learning_rate=0.01, max_depth=7, random_state=43)
Best parameters: {'learning_rate': 0.01, 'max_depth': 7, 'n_estimators': 100, 'num_leaves': 31}
Training XGBRegressor...
R^2 for XGBRegressor: 0.1199395884556814

In [37]:
predict_and_save('best_CatBoostRegressor_tbtl.joblib', 'scaler_all_models_tbtl.joblib', X_pred_tbtl, username_col='username', output_filename='predictions_tbtl.csv')


# Báo cáo

## Các đặc trưng

| Đặc trưng                  | Mô tả                                                                        |
|----------------------------|------------------------------------------------------------------------------|
| username                   | ID của sinh viên đã được hash.                                               |
| nums_assignment            | Số lượng assignment đã làm.                                                  |
| nums_problem               | Số lượng problem đã làm.                                                     |
| nums_submission            | Số lần nộp bài của 1 sinh viên.                                              |
| pre_scores_sum             | Tổng số điểm mà sinh viên nộp bài có điểm.                                   |
| pre_scores_mean            | Trung bình số điểm mà sinh viên nhận được khi nộp bài                        |
| nums_problem_success       | Số lần nộp bài đạt điểm tuyệt đối.                                           |
| compilation_error_count    | Số lần nộp bài có lỗi.                                                       |
| month_day                  | Số lượng ngày đã tham gia làm bài tập.                                       |
| problem_success_rate       | Tỉ lệ nộp bài đạt điểm tuyệt đối trên tổng số lần nộp bài                    |
| total_score_success        | Tổng số điểm khi nộp bài đạt được điểm tuyệt đối.                            |
| submission_frequency       | Tần suất nộp bài của sinh viên                                               |



## Code dùng để thực hiện trích xuất đặc trưng

In [38]:
"""
#Tách các giá trị trong cột status thành từng cột riêng
df_annonimized['SCORE'] = df_annonimized['status'].apply(lambda x: 1 if x == 'SCORE' else 0)
df_annonimized['Compilation Error'] = df_annonimized['status'].apply(lambda x: 1 if x == 'Compilation Error' else 0)
df_annonimized['Syntax Error'] = df_annonimized['status'].apply(lambda x: 1 if x == 'Syntax Error' else 0)
df_annonimized['pending'] = df_annonimized['status'].apply(lambda x: 1 if x == 'pending' else 0)

#Tạo cột success
df_annonimized['success'] = df_annonimized['pre_score'].apply(lambda x: 1 if x == 10000 else 0)
"""

"\n#Tách các giá trị trong cột status thành từng cột riêng\ndf_annonimized['SCORE'] = df_annonimized['status'].apply(lambda x: 1 if x == 'SCORE' else 0)\ndf_annonimized['Compilation Error'] = df_annonimized['status'].apply(lambda x: 1 if x == 'Compilation Error' else 0)\ndf_annonimized['Syntax Error'] = df_annonimized['status'].apply(lambda x: 1 if x == 'Syntax Error' else 0)\ndf_annonimized['pending'] = df_annonimized['status'].apply(lambda x: 1 if x == 'pending' else 0)\n\n#Tạo cột success\ndf_annonimized['success'] = df_annonimized['pre_score'].apply(lambda x: 1 if x == 10000 else 0)\n"

In [39]:
"""
df_synthesis_origin = df_annonimized.groupby(['username']).agg(
    nums_assignment = ('assignment_id', "nunique"),
    nums_problem = ('problem_id', 'nunique'),
    nums_submissions = ('problem_id', 'count'),
    pre_score_mean = ('pre_score', 'mean'),
    pre_score_sum = ('pre_score', 'sum'),
    nums_problem_success = ('success', 'sum'),
    score_count=('SCORE', 'sum'),
    compilation_error_count=('Compilation Error', 'sum'),
    month_day = ('month_day', 'nunique')
)

df_synthesis_origin['problem_success_rate'] = df_synthesis_origin['nums_problem_success']/ df_synthesis_origin['nums_submissions']
df_synthesis_origin['total_score_success'] = 10000 * df_synthesis_origin['nums_problem_success']
df_synthesis_origin['submission_frequency'] = df_synthesis_origin['nums_submissions']/df_synthesis_origin['month_day']

df_synthesis_origin.to_csv('synthesis_origin.csv')
df_synthesis_origin
"""

'\ndf_synthesis_origin = df_annonimized.groupby([\'username\']).agg(\n    nums_assignment = (\'assignment_id\', "nunique"),\n    nums_problem = (\'problem_id\', \'nunique\'),\n    nums_submissions = (\'problem_id\', \'count\'),\n    pre_score_mean = (\'pre_score\', \'mean\'),\n    pre_score_sum = (\'pre_score\', \'sum\'),\n    nums_problem_success = (\'success\', \'sum\'),\n    score_count=(\'SCORE\', \'sum\'),\n    compilation_error_count=(\'Compilation Error\', \'sum\'),\n    month_day = (\'month_day\', \'nunique\')\n)\n\ndf_synthesis_origin[\'problem_success_rate\'] = df_synthesis_origin[\'nums_problem_success\']/ df_synthesis_origin[\'nums_submissions\']\ndf_synthesis_origin[\'total_score_success\'] = 10000 * df_synthesis_origin[\'nums_problem_success\']\ndf_synthesis_origin[\'submission_frequency\'] = df_synthesis_origin[\'nums_submissions\']/df_synthesis_origin[\'month_day\']\n\ndf_synthesis_origin.to_csv(\'synthesis_origin.csv\')\ndf_synthesis_origin\n'

## Kết quả của việc trích xuất đặc trưng
Kết quả sẽ được lưu vào 1 file csv có trên là **synthesis_origin.csv**



## Thuật toán học:
1. **XGBoost (Extreme Gradient Boosting)**
* **Mô tả:** XGBoost là một thuật toán học máy mạnh mẽ và tối ưu hóa cho việc sử dụng trong các bài toán hồi quy và phân loại. Nó dựa trên phương pháp tăng cường độ dốc (Gradient Boosting), sử dụng một tập hợp các mô hình yếu (weak learners) để xây dựng một mô hình mạnh hơn.<br/>
* **Đặc điểm nổi bật:**
  * Khả năng xử lý missing values tốt.
  * Hỗ trợ regularization để tránh overfitting.
  * Khả năng parallel processing, giúp tăng tốc độ tính toán.
  * Dễ dàng điều chỉnh các siêu tham số (hyperparameters).
2. **CatBoost (Categorical Boosting)**
* **Mô tả**: CatBoost là một thuật toán học máy dựa trên phương pháp tăng cường độ dốc, được thiết kế đặc biệt để xử lý dữ liệu có biến phân loại (categorical features) một cách hiệu quả.<br/>
* **Đặc điểm nổi bật**:
  * Xử lý tự động các biến phân loại mà không cần chuyển đổi chúng thành số.
  * Giảm nguy cơ overfitting nhờ vào việc sử dụng điều chỉnh và regularization.
  * Hỗ trợ cả dữ liệu phân loại và hồi quy.
  * Dễ dàng sử dụng và cài đặt, với ít yêu cầu về tiền xử lý dữ liệu.
3. **LightGBM (Light Gradient Boosting Machine)**
* **Mô tả**: LightGBM là một framework học máy mạnh mẽ và nhanh chóng dựa trên phương pháp tăng cường độ dốc. Nó được thiết kế để xử lý các tập dữ liệu lớn và phức tạp một cách hiệu quả.<br/>
* **Đặc điểm nổi bật:**
  * Tốc độ học nhanh chóng và hiệu quả bộ nhớ.
  * Sử dụng phương pháp Leaf-wise tree growth (phát triển cây theo lá) thay vì Level-wise tree growth (phát triển cây theo mức), giúp cải thiện hiệu suất.
  * Hỗ trợ tính toán phân tán và parallel learning.
  * Tối ưu hóa cho việc xử lý các dữ liệu lớn và phức tạp.

## Quá trình huấn luyện:
1. **Chia dữ liệu:** Dữ liệu được chia thành tập huấn luyện và tập kiểm tra sử dụng **train_test_split.**
2. **Chuẩn hóa dữ liệu:** Dữ liệu được chuẩn hóa bằng **StandardScaler** để đảm bảo các đặc trưng có cùng đơn vị đo lường.
3. **Grid Search CV:** Sử dụng GridSearchCV để tìm các tham số tối ưu cho mỗi mô hình. Các tham số khác nhau được thử nghiệm để tìm ra cấu hình tốt nhất dựa trên tiêu chí **R^2**.
4. **Huấn luyện mô hình:** Mô hình được huấn luyện với tập dữ liệu đã chuẩn hóa.

## Thực nghiệm:
1. **Dự đoán và đánh giá:** Sử dụng tập kiểm tra để dự đoán và tính toán sai số R^2 để đánh giá mô hình.
2. **Lựa chọn mô hình tốt nhất:** So sánh R^2 của các mô hình khác nhau và chọn mô hình có R^2 cao nhất.
3. **Lưu mô hình và scaler:** Mô hình tốt nhất và scaler được lưu lại sử dụng joblib để sử dụng sau này.