Đây là script chạy tiền xử lý dữ liệu Phổ điểm thi THPTQG giai đoạn 2020-2024 bao gồm các bước:
- Load dữ liệu từ file csv
- Xử lý dữ liệu, thống nhất cấu trúc cho tất cả các file
- Chạy xử lý và in ra thống kê điểm các tổ hợp trong từng năm

Script này mang chỉ mang mục đích **minh họa** do kết quả chạy sau đó đã được tổng hợp lại một cách thủ công và lưu ở biến **EXAM_STATS_DETAILED** trong file *config/config_data.py* để tiện cho việc sử dụng sau này thay vì mỗi lần chạy là một lần xử lý dữ liệu. Script này có thể và nên **chạy ngay lập tức** trên máy local của bạn.

Toàn bộ thời gian chạy của script tốn khoảng 1 phút

In [14]:
import os
import sys
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), "..")))

In [15]:
import gc
import pandas as pd
from config import *
from preprocess import *

In [16]:
DATA_ROOT = "../data/vnhsge"
VNHSGE_2020 = f"{DATA_ROOT}/vnhsge_2020.csv"
VNHSGE_2021 = f"{DATA_ROOT}/vnhsge_2021.csv"
VNHSGE_2022 = f"{DATA_ROOT}/vnhsge_2022.csv"
VNHSGE_2023 = f"{DATA_ROOT}/vnhsge_2023.csv"
VNHSGE_2024 = f"{DATA_ROOT}/vnhsge_2024.csv"

In [17]:
# Load dữ liệu từng năm
df_2020 = pd.read_csv(VNHSGE_2020)
df_2021 = pd.read_csv(VNHSGE_2021)
df_2022 = pd.read_csv(VNHSGE_2022)
df_2023 = pd.read_csv(VNHSGE_2023)
df_2024 = pd.read_csv(VNHSGE_2024)

In [18]:
# Tiến hành xử lý riêng cho từng năm do các file tổng hợp từ các nguồn khác nhau nên có cấu trúc không đồng nhất
# Chi tiết hàm get_information có thể đọc ở file preprocess/process_vnhsge.py
df_2020_clean = process_data(df_2020, CONFIG_DATA.map_2020)
df_2021_clean = process_data(df_2021, CONFIG_DATA.map_2021)
df_2022_clean = process_data(df_2022, CONFIG_DATA.map_2022_2023_2024)
df_2023_clean = process_data(df_2023, CONFIG_DATA.map_2022_2023_2024)
df_2024_clean = process_data(df_2024, CONFIG_DATA.map_2022_2023_2024)

In [19]:
# Dọn dẹp bộ nhớ
del df_2020, df_2021, df_2022, df_2023, df_2024
gc.collect()

0

In [20]:
# Ví dụ một danh sách tổ hợp các môn
combo_list = [
    "A00", "A01", "B00", 
    "D01", "D07", "D24", "D29", 
    "H01", "K00", "K01", "K02", 
    "TT", "V00", "V01", "V02", "V06", "V10", 
    "X01", "X03", "X05", "X06"
]

In [21]:
# Lấy thông tin của từng tổ hợp (hàm get_information được định nghĩa trong file preprocess/process_vnhsge.py)
stats_2020 = get_information(df_2020_clean, combo_list)
print(stats_2020)

{'A00': {'mean': 21.44705787428069, 'std': 3.342537943175971, 'median': 21.9}, 'A01': {'mean': 20.041741665901363, 'std': 3.3084382119442206, 'median': 20.2}, 'B00': {'mean': 20.338766055504077, 'std': 3.0812310870080695, 'median': 20.55}, 'D01': {'mean': 18.141668544068406, 'std': 3.781139586483617, 'median': 18.25}, 'D07': {'mean': 20.011697403340232, 'std': 3.133317913309952, 'median': 20.25}, 'D24': {'mean': 22.850274725274726, 'std': 2.889055826826107, 'median': 23.2}, 'D29': {'mean': 22.36813186813187, 'std': 2.8402884500966254, 'median': 22.475}, 'OTHER': {'mean': 19.53644845875812, 'std': 3.666075356386421, 'median': 19.8}}


In [22]:
stats_2021 = get_information(df_2021_clean, combo_list)
print(stats_2021)

{'A00': {'mean': 21.026157150605226, 'std': 3.186271105031548, 'median': 21.45}, 'A01': {'mean': 21.102931041640716, 'std': 3.4454746106071648, 'median': 21.4}, 'B00': {'mean': 19.989216595435852, 'std': 3.088990472494801, 'median': 20.2}, 'D01': {'mean': 19.26662121294013, 'std': 4.116584437821037, 'median': 19.4}, 'D07': {'mean': 21.133817455991274, 'std': 3.2840908226052, 'median': 21.5}, 'D24': {'mean': 21.98962264150943, 'std': 3.00105208235404, 'median': 22.45}, 'D29': {'mean': 21.41768867924528, 'std': 3.037019747264426, 'median': 21.799999999999997}, 'OTHER': {'mean': 20.207131601486335, 'std': 3.710426262385813, 'median': 20.55}}


In [23]:
stats_2022 = get_information(df_2022_clean, combo_list)
print(stats_2022)

{'A00': {'mean': 21.095522023770904, 'std': 3.237838997873442, 'median': 21.45}, 'A01': {'mean': 20.290872906549115, 'std': 3.3395894219603197, 'median': 20.4}, 'B00': {'mean': 19.403933112714352, 'std': 3.155483022278096, 'median': 19.55}, 'D01': {'mean': 18.43807900961083, 'std': 3.8846068616592544, 'median': 18.55}, 'D07': {'mean': 20.23967531840988, 'std': 3.2064167394557352, 'median': 20.5}, 'OTHER': {'mean': 19.519640781958874, 'std': 3.6548108151506935, 'median': 19.799999999999997}}


In [24]:
stats_2023 = get_information(df_2023_clean, combo_list)
print(stats_2023)

{'A00': {'mean': 20.774499389386996, 'std': 3.094093115637134, 'median': 21.15}, 'A01': {'mean': 20.274251618894954, 'std': 3.3398603503564113, 'median': 20.45}, 'B00': {'mean': 20.604732802553656, 'std': 2.776287402905596, 'median': 20.85}, 'D01': {'mean': 18.88911180058777, 'std': 3.8137027523352707, 'median': 19.049999999999997}, 'D07': {'mean': 20.421613967047055, 'std': 3.0618621610145778, 'median': 20.65}, 'D24': {'mean': 20.836410256410254, 'std': 3.3689313420613263, 'median': 21.1}, 'D29': {'mean': 20.228497409326426, 'std': 3.574419580103694, 'median': 20.65}, 'OTHER': {'mean': 19.859363349938654, 'std': 3.489324667306368, 'median': 20.2}}


In [25]:
stats_2024 = get_information(df_2024_clean, combo_list)
print(stats_2024)

{'A00': {'mean': 20.90463336242001, 'std': 3.3803535841126573, 'median': 21.3}, 'A01': {'mean': 20.47235000760226, 'std': 3.3508627761626184, 'median': 20.75}, 'B00': {'mean': 20.531107449509335, 'std': 2.9818355862513357, 'median': 20.75}, 'D01': {'mean': 19.493928037725873, 'std': 3.623232112565054, 'median': 19.6}, 'D07': {'mean': 20.45103808869552, 'std': 3.112048686171703, 'median': 20.7}, 'D24': {'mean': 21.81618357487923, 'std': 3.292978175923361, 'median': 21.95}, 'D29': {'mean': 20.993446601941745, 'std': 3.55978462825685, 'median': 21.424999999999997}, 'OTHER': {'mean': 20.15123009331129, 'std': 3.428137691018646, 'median': 20.4}}


In [26]:
# Dọn dẹp bộ nhớ
del df_2020_clean, df_2021_clean, df_2022_clean, df_2023_clean, df_2024_clean
del stats_2020, stats_2021, stats_2022, stats_2023, stats_2024
gc.collect()

0