### Import data and library

In [107]:
import pandas as pd
import re
file_path = "../ingest_data/raw/Danh mục các học phần giảng dạy_HKI_25-26.xlsx"

In [108]:
df = pd.read_excel(file_path, sheet_name="Sheet1")
df

Unnamed: 0,DANH MỤC HỌC PHẦN GIẢNG DẠY HỌC KỲ 1 NĂM HỌC 2025-2026,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,,,,,,,
1,A. KHOA KHOA HỌC MÁY TÍNH,,,,,,
2,1. Ngành Công nghệ thông tin (Kỹ sư),,,,,,
3,1.1. Ngành Công nghệ thông tin - Khóa 2019 (kỳ...,,,,,,
4,STT,Tên học phần,Số tín chỉ,,,Ghi chú,
...,...,...,...,...,...,...,...
1108,5,Giáo dục thể chất 1,0,1,1,,25EF
1109,6,Kinh tế vi mô,3,0,3,,25EF
1110,7,Marketing căn bản,3,0,3,,25EF
1111,8,Lập trình Python (BA),2.5,0.5,3,,25EF


### Preprocessing data

In [109]:
title = df.columns[0]
print(f"Tiêu đề gốc: {title}")

# --- Bước 2: Dùng Regex để trích xuất thông tin ---
# Tìm "học kỳ X"
match_hk = re.search(r'HỌC KỲ (\d+)', title, re.IGNORECASE)
hoc_ky = match_hk.group(0) if match_hk else "Không tìm thấy học kỳ"

# Tìm "năm học YYYY-YYYY" và chỉ lấy phần năm
match_nh = re.search(r'NĂM HỌC (\d{4}-\d{4})', title, re.IGNORECASE)
nam_hoc = match_nh.group(1) if match_nh else "Không tìm thấy năm học" # .group(1) để lấy phần trong ngoặc

print(f"Học kỳ đã trích xuất: {hoc_ky}")
print(f"Năm học đã trích xuất: {nam_hoc}")

# --- Bước 3: Làm sạch DataFrame ---
# 3.1. Lấy hàng thứ 5 (index=4) làm header mới cho DataFrame
df.columns = df.iloc[4]

# 3.2. Xóa 5 hàng đầu tiên (từ index 0 đến 4)
df = df.iloc[5:].reset_index(drop=True)

# Hiển thị DataFrame sau khi đã làm sạch
print("\nDataFrame sau khi làm sạch:")
df

Tiêu đề gốc: DANH MỤC HỌC PHẦN GIẢNG DẠY HỌC KỲ 1 NĂM HỌC 2025-2026
Học kỳ đã trích xuất: HỌC KỲ 1
Năm học đã trích xuất: 2025-2026

DataFrame sau khi làm sạch:


4,STT,Tên học phần,Số tín chỉ,NaN,NaN.1,Ghi chú,NaN.2
0,,,LT,TH,Tổng,,
1,1,Thực tập tốt nghiệp (IT),0,3,3,,"19GIT,19SE1->SE5,19JIT,19KIT,19AD,19DA,19MC"
2,2,Đồ án tốt nghiệp (IT),0,10,10,,"19GIT,19SE1->SE5,19JIT,19KIT,19AD,19DA,19MC"
3,,TỔNG,0,13,13,,
4,1.2. Ngành Công nghệ thông tin - Khóa 2021 (kỳ...,,,,,,
...,...,...,...,...,...,...,...
1103,5,Giáo dục thể chất 1,0,1,1,,25EF
1104,6,Kinh tế vi mô,3,0,3,,25EF
1105,7,Marketing căn bản,3,0,3,,25EF
1106,8,Lập trình Python (BA),2.5,0.5,3,,25EF


In [110]:
df = df.drop("STT", axis=1)
column_list = df.columns.tolist()
column_list[0] = 'ten_hp'  
column_list[1] = 'lt' 
column_list[2] = 'th' 
column_list[3] = 'tong'
column_list[4] = 'ghi_chu'
column_list[5] = 'lop'
df.columns = column_list
df

Unnamed: 0,ten_hp,lt,th,tong,ghi_chu,lop
0,,LT,TH,Tổng,,
1,Thực tập tốt nghiệp (IT),0,3,3,,"19GIT,19SE1->SE5,19JIT,19KIT,19AD,19DA,19MC"
2,Đồ án tốt nghiệp (IT),0,10,10,,"19GIT,19SE1->SE5,19JIT,19KIT,19AD,19DA,19MC"
3,TỔNG,0,13,13,,
4,,,,,,
...,...,...,...,...,...,...
1103,Giáo dục thể chất 1,0,1,1,,25EF
1104,Kinh tế vi mô,3,0,3,,25EF
1105,Marketing căn bản,3,0,3,,25EF
1106,Lập trình Python (BA),2.5,0.5,3,,25EF


In [None]:
import re
import pandas as pd

def expand_lop(token):
    """
    Mở rộng một token lớp, ví dụ:
    "19SE1->SE5" -> ["19SE1", "19SE2", "19SE3", "19SE4", "19SE5"]
    "22SE1->2" -> ["22SE1", "22SE2"]
    """
    token = token.strip()
    if "->" not in token:
        return [token]

    left, right = token.split("->")
    left = left.strip()
    right = right.strip()

    # Lấy tiền tố và số bắt đầu từ bên trái
    match_left = re.match(r"([a-zA-Z0-9_]*?)(\d+)$", left)
    if not match_left:
        return [token]
    
    prefix_to_use, start_num_str = match_left.groups()
    start_num = int(start_num_str)
    
    end_num = 0

    # Xử lý bên phải
    if right.isdigit():
        # Trường hợp bên phải chỉ là số: "22SE1->2"
        end_num = int(right)
    else:
        # Trường hợp bên phải có cả tiền tố: "19SE1->SE5"
        match_right = re.match(r"([a-zA-Z0-9_]*?)(\d+)$", right)
        if not match_right:
            return [token]
        
        prefix_right, end_num_str = match_right.groups()
        end_num = int(end_num_str)
        
        # Chỉ kiểm tra hậu tố thay vì toàn bộ tiền tố
        if not prefix_to_use.endswith(prefix_right):
            return [token]

    if end_num < start_num:
        return [token]

    return [f"{prefix_to_use}{i}" for i in range(start_num, end_num + 1)]

def get_cohort_and_classes(token):
    """
    Mở rộng token lớp và trả về cả khóa và danh sách các lớp.
    Ví dụ: "19SE1->SE5" -> (19, ["19SE1", "19SE2", ...])
    """
    # 1. Lấy danh sách lớp từ hàm gốc
    expanded_classes = expand_lop(token)
    
    cohort = None
    # 2. Nếu có kết quả, dùng regex để lấy số đầu tiên làm khóa
    if expanded_classes and expanded_classes[0]:
        first_class = expanded_classes[0]
        cohort_match = re.match(r"(\d+)", first_class)
        if cohort_match:
            cohort = int(cohort_match.group(1))
            
    # 3. Trả về kết quả
    return (cohort, expanded_classes)

result = {"academic_year": nam_hoc, "semester": {}}

for idx, row in df.iterrows():
    # --- DÒNG THÊM VÀO ĐỂ SỬA LỖI ---
    # Kiểm tra xem key hoc_ky (ví dụ: "semester_1") đã có trong "semester" chưa
    # Nếu chưa có, tạo nó là một dictionary rỗng.
    if hoc_ky not in result["semester"]:
        result["semester"][hoc_ky] = {}
    # ------------------------------------

    lop_raw = str(row["lop"]).split(",") if pd.notna(row["lop"]) else []
    for token in lop_raw:
        token = token.strip()
        if not token or token == "nan":
            continue
        cohort, classes = get_cohort_and_classes(token)
        for class_name in classes:
            if cohort not in result["semester"][hoc_ky]:
                result["semester"][hoc_ky][cohort] = {}
            if class_name not in result["semester"][hoc_ky][cohort]:
                result["semester"][hoc_ky][cohort][class_name] = []
            
            result["semester"][hoc_ky][cohort][class_name].append({
                "course_name": row["ten_hp"],
                "lt": float(row["lt"]) if pd.notna(row["lt"]) else 0,
                "th": float(row["th"]) if pd.notna(row["th"]) else 0,
                "tong": float(row["tong"]) if pd.notna(row["tong"]) else 0,
                "subnote": row["ghi_chu"] if pd.notna(row["ghi_chu"]) else None
            })




In [112]:
result

{'academic_year': '2025-2026',
 'semester': {'HỌC KỲ 1': {19: {'19GIT': [{'course_name': 'Thực tập tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 3.0,
      'tong': 3.0,
      'subnote': None},
     {'course_name': 'Đồ án tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 10.0,
      'tong': 10.0,
      'subnote': None}],
    '19SE1': [{'course_name': 'Thực tập tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 3.0,
      'tong': 3.0,
      'subnote': None},
     {'course_name': 'Đồ án tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 10.0,
      'tong': 10.0,
      'subnote': None}],
    '19SE2': [{'course_name': 'Thực tập tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 3.0,
      'tong': 3.0,
      'subnote': None},
     {'course_name': 'Đồ án tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 10.0,
      'tong': 10.0,
      'subnote': None}],
    '19SE3': [{'course_name': 'Thực tập tốt nghiệp (IT)',
      'lt': 0.0,
      'th': 3.0,
      'tong': 3.0,
      'subnote': None},
     {'course_name': 'Đ

### Save results

In [113]:
import json
df.to_csv('../ingest_data/cleaned/cleaned_data_hoc_phan.csv', index=False, encoding='utf-8-sig') 
with open('../ingest_data/cleaned/data_hoc_phan.json', 'w', encoding='utf-8') as f:
    # Dùng json.dump để ghi dictionary vào file
    json.dump(result, f, indent=4, ensure_ascii=False)

print("Đã lưu file data_hoc_phan.json thành công!")


Đã lưu file data_hoc_phan.json thành công!
