In [19]:
import sys
import os
import pandas as pd
from pathlib import Path
import numpy as np
import time
import requests
from IPython.display import display
from dotenv import load_dotenv

# Cấu hình đường dẫn để import từ 'src' 
notebook_dir = Path.cwd()
project_root = notebook_dir.parent
src_dir = project_root / 'src'

if str(src_dir) not in sys.path:
    sys.path.append(str(src_dir))

# IMPORT CÁC HÀM TÙY CHỈNH
try:
    from cleaning_diem_thi import run_full_preprocessing, display_stats_report
    print(" Import các hàm từ 'src' thành công!")
except ImportError as e:
    print(f" LỖI KHÔNG TÌM THẤY MODULE: {e}")
try: 
    from preprocessing_diem_thi import process_files_vectorized, crawl_province, geocode_province
    print(" Import thành công")
except ImportError as e: 
    print(f" LỖI KHÔNG TÌM THẤY MODULE: {e}")

# Cấu hình đường dẫn Data và Config 
DATA_DIR = project_root / 'data'
CONFIG_PATH = DATA_DIR / 'to_hop.json' 
load_dotenv()
MAPBOX_TOKEN = os.getenv('MAPBOX_TOKEN')
# Định nghĩa các tham số
years_to_process = {
    2019: CONFIG_PATH,
    2020: CONFIG_PATH,
    2021: CONFIG_PATH,
    2022: CONFIG_PATH,
    2023: CONFIG_PATH,
    2024: CONFIG_PATH,
}

print(f"Thiết lập thành công. Sẵn sàng xử lý {len(years_to_process)} năm.")

 Import các hàm từ 'src' thành công!
 Import thành công
Thiết lập thành công. Sẵn sàng xử lý 6 năm.


In [20]:
NGUONG_DIEM_LIET = 1.0
NGUONG_DIEM_SAN_TO_HOP = 15.0
all_stats_data = run_full_preprocessing(
    years_to_process, 
    DATA_DIR, 
    nguong_diem_liet=NGUONG_DIEM_LIET, 
    nguong_diem_to_hop=NGUONG_DIEM_SAN_TO_HOP
)

Bắt đầu xử lý 6 năm...
Ngưỡng lọc hiện tại: Liệt <= 1.0, Tổ hợp >= 15.0
----------------------------------------
ĐANG XỬ LÝ NĂM: 2019
Đang đọc: diem_thi_toan_quoc_2019.csv
 ĐÃ LƯU: diem_thi_2019_new.csv (Số lượng: 770477)
----------------------------------------
ĐANG XỬ LÝ NĂM: 2020
Đang đọc: diem_thi_toan_quoc_2020.csv
 ĐÃ LƯU: diem_thi_2020_new.csv (Số lượng: 828705)
----------------------------------------
ĐANG XỬ LÝ NĂM: 2021
Đang đọc: diem_thi_toan_quoc_2021.csv
 ĐÃ LƯU: diem_thi_2021_new.csv (Số lượng: 943199)
----------------------------------------
ĐANG XỬ LÝ NĂM: 2022
Đang đọc: diem_thi_toan_quoc_2022.csv
 ĐÃ LƯU: diem_thi_2022_new.csv (Số lượng: 956811)
----------------------------------------
ĐANG XỬ LÝ NĂM: 2023
Đang đọc: diem_thi_toan_quoc_2023.csv
 ĐÃ LƯU: diem_thi_2023_new.csv (Số lượng: 977727)
----------------------------------------
ĐANG XỬ LÝ NĂM: 2024
Đang đọc: diem_thi_toan_quoc_2024.csv
 ĐÃ LƯU: diem_thi_2024_new.csv (Số lượng: 1038631)
---------------------------

In [21]:
# Báo cáo thông số
display_stats_report(all_stats_data)


BẢNG TỔNG HỢP KẾT QUẢ LỌC DỮ LIỆU


Unnamed: 0_level_0,Số lượng trước khi lọc,Số lượng dữ liệu lỗi (SBD rỗng/trùng lặp),Số lượng thí sinh bị điểm liệt,Số lượng thí sinh tổ hợp không đạt yêu cầu,Số lượng sau khi lọc,Phần % loại bỏ
Năm,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019,882594,0,3671,108446,770477,12.70%
2020,870517,0,1276,40536,828705,4.80%
2021,992295,4591,1246,43259,943199,4.95%
2022,995441,0,1045,37585,956811,3.88%
2023,1022060,0,621,43712,977727,4.34%
2024,1061605,0,462,22512,1038631,2.16%


In [26]:
import sys
import os

sys.path.append(os.path.abspath('..'))
from src.preprocessing_diem_thi import process_files_vectorized

NGUONG_DIEM_SAN_TO_HOP = 15.0
STEP = 0.05
process_files_vectorized(NGUONG_DIEM_SAN_TO_HOP, STEP)

Đang load dữ liệu tỉnh...

Đang xử lý file: ../data/diem_thi_2019_new.csv
Số dòng ban đầu: 770,477

Năm 2019: 770,477 thí sinh
  Khối A00: 309,381 thí sinh hợp lệ
  Khối A01: 302,570 thí sinh hợp lệ
  Khối A02: 306,061 thí sinh hợp lệ
  Khối A03: 25,707 thí sinh hợp lệ
  Khối A04: 25,698 thí sinh hợp lệ
  Khối A05: 25,711 thí sinh hợp lệ
  Khối A06: 25,698 thí sinh hợp lệ
  Khối A07: 473,696 thí sinh hợp lệ
  Khối A08: 453,440 thí sinh hợp lệ
  Khối A09: 453,445 thí sinh hợp lệ
  Khối A10: 24,284 thí sinh hợp lệ
  Khối A11: 24,279 thí sinh hợp lệ
  Khối B00: 309,864 thí sinh hợp lệ
  Khối B01: 25,684 thí sinh hợp lệ
  Khối B02: 25,676 thí sinh hợp lệ
  Khối B03: 304,444 thí sinh hợp lệ
  Khối B04: 24,275 thí sinh hợp lệ
  Khối B08: 301,582 thí sinh hợp lệ
  Khối C00: 476,488 thí sinh hợp lệ
  Khối C01: 304,579 thí sinh hợp lệ
  Khối C02: 304,552 thí sinh hợp lệ
  Khối C03: 476,718 thí sinh hợp lệ
  Khối C04: 473,690 thí sinh hợp lệ
  Khối C05: 304,453 thí sinh hợp lệ
  Khối C06: 304,36

  df = pd.read_csv(file_path)


Số dòng ban đầu: 943,199

Năm 2021: 943,199 thí sinh
  Khối A00: 339,802 thí sinh hợp lệ
  Khối A01: 329,968 thí sinh hợp lệ
  Khối A02: 335,424 thí sinh hợp lệ
  Khối A07: 583,618 thí sinh hợp lệ
  Khối A08: 523,153 thí sinh hợp lệ
  Khối A09: 523,161 thí sinh hợp lệ
  Khối B00: 338,423 thí sinh hợp lệ
  Khối B03: 332,971 thí sinh hợp lệ
  Khối B08: 328,286 thí sinh hợp lệ
  Khối C00: 591,573 thí sinh hợp lệ
  Khối C01: 333,134 thí sinh hợp lệ
  Khối C02: 333,062 thí sinh hợp lệ
  Khối C03: 587,086 thí sinh hợp lệ
  Khối C04: 583,676 thí sinh hợp lệ
  Khối C05: 333,014 thí sinh hợp lệ
  Khối C06: 332,939 thí sinh hợp lệ
  Khối C08: 332,963 thí sinh hợp lệ
  Khối C14: 523,188 thí sinh hợp lệ
  Khối C19: 523,493 thí sinh hợp lệ
  Khối C20: 523,541 thí sinh hợp lệ
  Khối D01: 853,730 thí sinh hợp lệ
  Khối D07: 328,828 thí sinh hợp lệ
  Khối D08: 328,286 thí sinh hợp lệ
  Khối D09: 522,377 thí sinh hợp lệ
  Khối D10: 522,338 thí sinh hợp lệ
  Khối D11: 327,805 thí sinh hợp lệ
  Khối D14:

In [25]:
import sys
import os

sys.path.append(os.path.abspath('..'))
from src.preprocessing_diem_thi import process_files_vectorized

NGUONG_DIEM_SAN_TO_HOP = 15.0
STEP = 0.05
process_files_vectorized(NGUONG_DIEM_SAN_TO_HOP, STEP)

Đang load dữ liệu tỉnh...

Đang xử lý file: ../data/diem_thi_2019_new.csv
Số dòng ban đầu: 770,477

Năm 2019: 770,477 thí sinh
  Khối A00: 309,381 thí sinh hợp lệ
  Khối A01: 302,570 thí sinh hợp lệ
  Khối A02: 306,061 thí sinh hợp lệ
  Khối A03: 25,707 thí sinh hợp lệ
  Khối A04: 25,698 thí sinh hợp lệ
  Khối A05: 25,711 thí sinh hợp lệ
  Khối A06: 25,698 thí sinh hợp lệ
  Khối A07: 473,696 thí sinh hợp lệ
  Khối A08: 453,440 thí sinh hợp lệ
  Khối A09: 453,445 thí sinh hợp lệ
  Khối A10: 24,284 thí sinh hợp lệ
  Khối A11: 24,279 thí sinh hợp lệ
  Khối B00: 309,864 thí sinh hợp lệ
  Khối B01: 25,684 thí sinh hợp lệ
  Khối B02: 25,676 thí sinh hợp lệ
  Khối B03: 304,444 thí sinh hợp lệ
  Khối B04: 24,275 thí sinh hợp lệ
  Khối B08: 301,582 thí sinh hợp lệ
  Khối C00: 476,488 thí sinh hợp lệ
  Khối C01: 304,579 thí sinh hợp lệ
  Khối C02: 304,552 thí sinh hợp lệ
  Khối C03: 476,718 thí sinh hợp lệ
  Khối C04: 473,690 thí sinh hợp lệ
  Khối C05: 304,453 thí sinh hợp lệ
  Khối C06: 304,36

  df = pd.read_csv(file_path)


Số dòng ban đầu: 943,199

Năm 2021: 943,199 thí sinh
  Khối A00: 339,802 thí sinh hợp lệ
  Khối A01: 329,968 thí sinh hợp lệ
  Khối A02: 335,424 thí sinh hợp lệ
  Khối A07: 583,618 thí sinh hợp lệ
  Khối A08: 523,153 thí sinh hợp lệ
  Khối A09: 523,161 thí sinh hợp lệ
  Khối B00: 338,423 thí sinh hợp lệ
  Khối B03: 332,971 thí sinh hợp lệ
  Khối B08: 328,286 thí sinh hợp lệ
  Khối C00: 591,573 thí sinh hợp lệ
  Khối C01: 333,134 thí sinh hợp lệ
  Khối C02: 333,062 thí sinh hợp lệ
  Khối C03: 587,086 thí sinh hợp lệ
  Khối C04: 583,676 thí sinh hợp lệ
  Khối C05: 333,014 thí sinh hợp lệ
  Khối C06: 332,939 thí sinh hợp lệ
  Khối C08: 332,963 thí sinh hợp lệ
  Khối C14: 523,188 thí sinh hợp lệ
  Khối C19: 523,493 thí sinh hợp lệ
  Khối C20: 523,541 thí sinh hợp lệ
  Khối D01: 853,730 thí sinh hợp lệ
  Khối D07: 328,828 thí sinh hợp lệ
  Khối D08: 328,286 thí sinh hợp lệ
  Khối D09: 522,377 thí sinh hợp lệ
  Khối D10: 522,338 thí sinh hợp lệ
  Khối D11: 327,805 thí sinh hợp lệ
  Khối D14:

In [None]:
# Lấy kinh độ, vĩ độ cho từng tỉnh thành
provinces = [
    {'code': '01', 'name': 'Hà Nội'},
    {'code': '02', 'name': 'Thành phố Hồ Chí Minh'},
    {'code': '03', 'name': 'Hải Phòng'},
    {'code': '04', 'name': 'Đà Nẵng'},
    {'code': '05', 'name': 'Hà Giang'},
    {'code': '06', 'name': 'Cao Bằng'},
    {'code': '07', 'name': 'Lai Châu'},
    {'code': '08', 'name': 'Lào Cai'},
    {'code': '09', 'name': 'Tuyên Quang'},
    {'code': '10', 'name': 'Lạng Sơn'},
    {'code': '11', 'name': 'Bắc Kạn'},
    {'code': '12', 'name': 'Thái Nguyên'},
    {'code': '13', 'name': 'Yên Bái'},
    {'code': '14', 'name': 'Sơn La'},
    {'code': '15', 'name': 'Phú Thọ'},
    {'code': '16', 'name': 'Vĩnh Phúc'},
    {'code': '17', 'name': 'Quảng Ninh'},
    {'code': '18', 'name': 'Bắc Giang'},
    {'code': '19', 'name': 'Bắc Ninh'},
    {'code': '21', 'name': 'Hải Dương'},
    {'code': '22', 'name': 'Hưng Yên'},
    {'code': '23', 'name': 'Hòa Bình'},
    {'code': '24', 'name': 'Hà Nam'},
    {'code': '25', 'name': 'Nam Định'},
    {'code': '26', 'name': 'Thái Bình'},
    {'code': '27', 'name': 'Ninh Bình'},
    {'code': '28', 'name': 'Thanh Hóa'},
    {'code': '29', 'name': 'Nghệ An'},
    {'code': '30', 'name': 'Hà Tĩnh'},
    {'code': '31', 'name': 'Quảng Bình'},
    {'code': '32', 'name': 'Quảng Trị'},
    {'code': '33', 'name': 'Thừa Thiên Huế'},
    {'code': '34', 'name': 'Quảng Nam'},
    {'code': '35', 'name': 'Quảng Ngãi'},
    {'code': '36', 'name': 'Kon Tum'},
    {'code': '37', 'name': 'Bình Định'},
    {'code': '38', 'name': 'Gia Lai'},
    {'code': '39', 'name': 'Phú Yên'},
    {'code': '40', 'name': 'Đắk Lắk'},
    {'code': '41', 'name': 'Khánh Hòa'},
    {'code': '42', 'name': 'Lâm Đồng'},
    {'code': '43', 'name': 'Bình Phước'},
    {'code': '44', 'name': 'Bình Dương'},
    {'code': '45', 'name': 'Ninh Thuận'},
    {'code': '46', 'name': 'Tây Ninh'},
    {'code': '47', 'name': 'Bình Thuận'},
    {'code': '48', 'name': 'Đồng Nai'},
    {'code': '49', 'name': 'Long An'},
    {'code': '50', 'name': 'Đồng Tháp'},
    {'code': '51', 'name': 'An Giang'},
    {'code': '52', 'name': 'Bà Rịa-Vũng Tàu'},
    {'code': '53', 'name': 'Tiền Giang'},
    {'code': '54', 'name': 'Kiên Giang'},
    {'code': '55', 'name': 'Cần Thơ'},
    {'code': '56', 'name': 'Bến Tre'},
    {'code': '57', 'name': 'Vĩnh Long'},
    {'code': '58', 'name': 'Trà Vinh'},
    {'code': '59', 'name': 'Sóc Trăng'},
    {'code': '60', 'name': 'Bạc Liêu'},
    {'code': '61', 'name': 'Cà Mau'},
    {'code': '62', 'name': 'Điện Biên'},
    {'code': '63', 'name': 'Đắk Nông'},
    {'code': '64', 'name': 'Hậu Giang'}
]
print(MAPBOX_TOKEN)
geocode_province(provinces, MAPBOX_TOKEN)
crawl_province()

In [None]:
from pathlib import Path
import sys

current_dir = Path.cwd()
PROJECT_ROOT = current_dir.parent 

if str(PROJECT_ROOT) not in sys.path:
    sys.path.append(str(PROJECT_ROOT))

# 3. Thiết lập đường dẫn tới file Data (đi từ gốc vào folder 'data')
data_dir = PROJECT_ROOT / "data"

path_input = data_dir / "diem_chuan_all.csv"
path_output = data_dir / "diem_chuan_chuan_hoa.csv"
path_removed = data_dir / "diem_chuan_bi_loai.csv"

# 4. Kiểm tra và Chạy
if path_input.exists():
    try:
        from src.chuan_hoa_diem_chuan import process_diem_chuan
        print("Bắt đầu xử lý...")
        df_final = process_diem_chuan(path_input, path_output, path_removed)
        print("Xử lý thành công!")
        
    except ImportError as e:
        print(f"Không tìm thấy module. Chi tiết: {e}")
else:
    print(f"Lỗi: Không tìm thấy file csv tại {path_input}")