# Phân tích điểm thi THPT 2023–2025, điểm gãy 2025 và dự báo 2026

*Nhóm: ...*  
*Học phần: Python cho Khoa Học Dữ Liệu*  


In [None]:
# ==== Cell 1: Import & cấu hình đường dẫn ====
import os
import sys
from pathlib import Path

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use("ggplot")
pd.set_option("display.float_format", lambda x: f"{x:,.3f}")

# Notebook đang ở: <PROJECT_ROOT>/Report
NOTEBOOK_DIR = Path.cwd()
PROJECT_ROOT = NOTEBOOK_DIR.parent

# Thêm PROJECT_ROOT vào sys.path để import được package "Module"
if str(PROJECT_ROOT) not in sys.path:
    sys.path.append(str(PROJECT_ROOT))

# ----- Import các module pipeline / thống kê -----
from Module.Load_Data import DataLoader, CleanDataLoader
from Module.Processor_Data import DataProcessor
from Module.Analysis import Analysis
from Module.Export import Export
from Module.ANOVA_ttest import ANOVA_ttest

# ---- Import class Model cho ChangePoint và Forecast -----
from Model.ChangePointPreparer import ChangePointPreparer
from Model.ChangePointDetector import ChangePointDetector
from Model.ChangePointAnalyzer import ChangePointAnalyzer
from Model.ForecastSubjectModel import ForecastPreparer
from Model.ForecastBlockModel import ForecastModel

## 1. Giới thiệu

### 1.1 Bối cảnh và mục tiêu

- Phân tích dữ liệu điểm thi THPT Quốc gia các năm 2023–2025.
- Tập trung vào các môn: Toán, Ngữ văn, Ngoại ngữ và các khối chính: A00, B00, D01.
- Làm rõ hiện tượng **"điểm gãy 2025"** do thay đổi chương trình CT2018.
- Xây dựng mô hình **dự báo điểm 2026** theo môn và **tỉ lệ tổ hợp khối**.

### 1.2 Dữ liệu và nguồn

- Dữ liệu gốc:
  - 2023–2024: chương trình CT2006 (file CSV).
  - 2025: CT2006 và CT2018 (file Excel, nhiều sheet).
- Dữ liệu sạch được sinh ra ở thư mục `Clean_Data_2023-2025/` từ pipeline Python.

### 1.3 Pipeline xử lý

1. DataLoader: đọc 4 nguồn dữ liệu thô.
2. DataProcessor: chuẩn hoá, merge CT2006 & CT2018, sinh các trường điểm khối.
3. Analysis: thống kê theo năm/môn/khối/tỉnh.
4. Export: export dữ liệu sạch cho EDA, Change Point, Forecast.
5. CleanDataLoader: load lại dữ liệu sạch vào các notebook phân tích.


## 2. EDA & Thống kê mô tả
Trong phần này, chúng tôi trình bày bức tranh tổng quan về phân phối điểm:
- Theo **môn** (Toán, Ngữ văn, Ngoại ngữ).
- Theo **khối** (A00, B00, D01).
- Theo **một số tỉnh/thành** tiêu biểu (Hà Nội, TP. HCM, ...).

Các bảng và biểu đồ dưới đây là bộ kết quả "chính thức" dùng cho báo cáo và slide.


## 3. Kiểm định ANOVA và t-test

Mục tiêu:
- Kiểm tra sự khác biệt điểm thi giữa các năm cho từng môn/khối.
- So sánh riêng năm 2024 và 2025 để xem mức độ thay đổi do CT2018.


## 4. Phân tích điểm gãy 2025 (Change Point)

Nhóm xây dựng chuỗi thời gian trung bình điểm theo năm cho:
- Môn: Toán, Ngữ văn, Ngoại ngữ.
- Khối: A00, B00, D01.
- Một số tỉnh trọng điểm.

Sau đó áp dụng bộ thuật toán PELT, CUSUM, Bayesian để phát hiện điểm gãy quanh năm 2025.


## 5. Mô hình dự báo 2026 (điểm môn + tỉ lệ khối)

Mục tiêu:
- Dự báo điểm trung bình 2026 cho các môn trọng tâm.
- Dự báo tỉ lệ thí sinh theo khối (A00, B00, D01, ...) năm 2026.


## 6. Kết luận, hạn chế và hướng phát triển

### 6.1 Kết luận chính

- EDA cho thấy ...
- ANOVA/t-test xác nhận ...
- Phân tích Change Point chỉ ra năm 2025 là điểm gãy rõ nhất với ...
- Mô hình dự báo gợi ý rằng điểm 2026 sẽ ..., tỉ lệ khối ... 

### 6.2 Hạn chế

- Số năm dữ liệu còn ít (2023–2025), chuỗi thời gian ngắn.
- Một số biến quan trọng (điểm thành phần, nhân khẩu học) chưa được khai thác.
- Mô hình dự báo chưa tính đến ... 

### 6.3 Hướng phát triển

- Mở rộng Dashboard (Streamlit/Plotly Dash) với 3 tab: EDA, Điểm gãy 2025, Dự báo 2026.
- Bổ sung thêm mô hình time series (Prophet, LSTM, ...).
- Tích hợp dữ liệu các năm tiếp theo khi có (2027, 2028, ...).
