Tra cứu điểm THPT bằng SBD/họ tên của các thí sinh TP.HCM trong file excel có sẵn, hoặc chỉnh sửa chương trình để tự tải dữ liệu xuống từ sở.
Although this scraping task was much easier than the last one because the webpage doesn't have any security measure, the amount of information from 85k students makes my old machine break constantly so I had to implement a way to reduce the risk of losing all entries and the load on my machine each run.
newuntitled.mp4
- Python và chạy được
python -V
từ mọi nơi trong cmd/powershell. Nếu không có, dùng https://www.microsoft.com/store/productId/9PJPW5LDXLZ5 - Pip. Nếu không có, chạy
python get-pip.py
Tải xuống file diem12.py
và vào thư mục có chứa file đó, hoặc dùng lệnh (nếu được):
git clone https://github.com/PhKhang/Diem_THPTQG2022_TPHCM
cd .\Diem_THPTQG2022_TPHCM\
Tải các module cần thiết:
pip install pandas requests bs4 lxml rich
Chỉnh sửa range SBD (optional: cho máy chậm, chỉ dò được 2000 thí sinh như i5 gen 2 đời Tống) và tên output file (optional) trong diem12.py
.
Chạy:
python .\diem12.py
File CSV sẽ hiện trong thư mục của chương trình. Cách chuyển từ file .csv sang .xlsx