# **Điểm chuẩn - Crawler w Hocmai**

Crawler dùng để lấy thông tin điểm chuẩn của các trường Đại học qua từng năm.

### **Mục tiêu:**
- Crawl được điểm chuẩn của ~300 trường Đại học tại Việt Nam.
- Crawl được dữ liệu điểm chuẩn của các năm từ 2017-2023 (tối thiểu là 2020-2023).
- Xử lý dữ liệu thô (json) sang dữ liệu dạng bảng (csv, pandas df).
---

### **1. Nhập các thư viện**

In [3]:
# Các thư viện hệ thống, file, hdh
import sys
import os
import time
from time import sleep

# Xử lý đa luồng
from __future__ import print_function
import concurrent.futures

# Các thư viện crawl
import requests
import re
from bs4 import BeautifulSoup
import logging
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

# Các thư viện xử lý dữ liệu
import pandas as pd
import json

# Các thư viện Selenium cho điều khiển trình duyệt
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select

#### **2. Lấy danh sách các trường Đại học**

In [2]:
# # Hàm gửi yêu cầu GET đến URL và trả về nội dung HTML của trang web
# def get_content_request(url='https://huongnghiep.hocmai.vn/diem-chuan/'):
#     return requests.get(url).content

# # Hàm trích xuất dữ liệu trường đại học từ nội dung HTML
# def extract_content(html):
#     soup = BeautifulSoup(html, 'html.parser')
#     universities_data = []
    
#     # Lặp qua từng phần tử (li) chứa thông tin của từng trường đại học trong danh sách
#     for e_li in soup.select('#benchmarking > li'):
#         e_a = e_li.find('a')
#         url = 'https://huongnghiep.hocmai.vn' + e_a.get('href') if e_a.get('href') != '' else None
#         university_code = e_a.find('strong').get_text()
#         university_name = e_a.get_text().split('-', 1)[-1].strip()
        
#         # Tạo đối tượng JSON chứa thông tin của từng trường đại học
#         university_obj = {
#             'url': url,
#             'university_code': university_code,
#             'university_name': university_name
#         }
#         universities_data.append(university_obj)
    
#     return universities_data

In [3]:
# # Khởi tạo logger
# logger = logging.getLogger(__name__)
# logging.basicConfig(level=logging.INFO)

# # Hàm chính, thực hiện lấy và xử lý dữ liệu trường đại học từ trang web
# if __name__ == '__main__':
#     # URL của trang web cần lấy dữ liệu
#     url = 'https://huongnghiep.hocmai.vn/diem-chuan/'
    
#     # Gửi yêu cầu GET đến URL và lấy nội dung HTML
#     content_html = get_content_request(url=url)
    
#     # Trích xuất dữ liệu trường đại học từ nội dung HTML
#     universities_data = extract_content(html=content_html)
#     logger.info(universities_data)

In [4]:
# university_df = pd.DataFrame(universities_data)
# university_df 

In [5]:
# # Drop các dòng mà có chứa 'cao-dang' trong cột url
# university_df = university_df[~university_df['url'].str.contains('cao-dang', case=False, na=False)]
# university_df.reset_index(drop=True, inplace=True)
# university_df

In [6]:
# university_df.to_csv(f"./university.csv",  encoding='utf-8-sig', index=False)

In [7]:
university_df = pd.read_csv(f"./university.csv")
universities = university_df.to_dict('records')
university_df

Unnamed: 0,url,university_code,university_name
0,https://huongnghiep.hocmai.vn/diem-truong/dh-t...,TTU,ĐH Tân Tạo
1,https://huongnghiep.hocmai.vn/diem-truong/dai-...,FPT,Đại Học FPT
2,https://huongnghiep.hocmai.vn/diem-truong/dai-...,VU,Đại Học Vinh
3,https://huongnghiep.hocmai.vn/diem-truong/nhac...,HCMCONS,Nhạc Viện TPHCM
4,https://huongnghiep.hocmai.vn/diem-truong/dai-...,HLUV,Đại Học Hoa Lư
...,...,...,...
304,https://huongnghiep.hocmai.vn/diem-truong/phan...,VNUHCM,Phân hiệu Đại học Quốc gia TP.HCM tại Bến Tre
305,https://huongnghiep.hocmai.vn/diem-truong/khoa...,SPAS,Khoa Chính trị - Hành chính (Đại học Quốc gia ...
306,https://huongnghiep.hocmai.vn/diem-truong/dai-...,UMT,Đại học Quản lý và Công nghệ TPHCM
307,https://huongnghiep.hocmai.vn/diem-truong/dai-...,CMC,Đại học CMC


====


In [8]:
# Khởi tạo logger
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

# Hàm show_error_info để hiển thị thông tin lỗi
def show_error_info(e):
    logger.error(f"Error: {e}")

# Hàm trích xuất dữ liệu điểm chuẩn sử dụng Selenium
def extract_data_diemchuan_selenium(base_url, university_meta, years):
    # Khởi tạo trình duyệt
    driver = webdriver.Chrome()
    driver.get(base_url)
    time.sleep(5)  # Chờ trang tải

    all_diemchuan_datas = []

    for year in years:
        try:
            # Tìm thẻ <select> với name="year" và chọn năm cụ thể
            year_dropdown = Select(driver.find_element(By.NAME, "year"))
            year_dropdown.select_by_visible_text(str(year))
            time.sleep(5)  # Chờ trang tải lại sau khi chọn năm

            # Phân tích cú pháp HTML của trang web
            soup = BeautifulSoup(driver.page_source, 'html.parser')

            # Tìm và trích xuất dữ liệu từ bảng
            e_table = soup.select_one('table.hm-table')

            if e_table:
                diemchuan_datas = []
                for e_tr in e_table.select('tbody tr'):
                    e_tds = e_tr.select('td')
                    if len(e_tds) >= 7:
                        major_code = e_tds[3].get_text(strip=True)
                        major_name = e_tds[2].get_text(strip=True)

                        a_tags = e_tds[4].find_all('a')
                        subject_groups = ''.join([a.get_text(strip=True) for a in a_tags])

                        point = e_tds[5].get_text(strip=True)
                        note = e_tds[6].get_text(strip=True)

                        diemchuan_obj = {
                            'university_code': university_meta.get('university_code'),
                            'university_name': university_meta.get('university_name'),
                            'major_code': major_code,
                            'major_name': major_name,
                            'subject_group': subject_groups,
                            'point': point,
                            'note': note,
                            'year': str(year)
                        }
                        logger.info(diemchuan_obj)
                        diemchuan_datas.append(diemchuan_obj)
                
                all_diemchuan_datas.extend(diemchuan_datas)
            else:
                logger.warning(f"Không tìm thấy bảng điểm chuẩn cho năm {year}.")
        
        except Exception as e:
            show_error_info(e)
            continue  # Bỏ qua năm này và tiếp tục với năm tiếp theo
    
    driver.close()
    driver.quit()
    return {'diemchuan_datas': all_diemchuan_datas, 'university_meta': university_meta}

# Hàm thực thi lấy dữ liệu điểm chuẩn cho mỗi đối tượng trường đại học
def method_univerisy_data(university_obj, years):
    university_diemchuan_data = extract_data_diemchuan_selenium(
        base_url=university_obj.get('url'),
        university_meta=university_obj,
        years=years
    )
    return university_diemchuan_data

# Hàm hỗ trợ đa luồng
def multithread_helper(items, method, max_workers=5, timeout_concurrent_by_second=360, debug=False, years=None):
    output = []
    start = time.time()
    print('start:', start)
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        future_to_item = {executor.submit(method, item, years): item for item in items}
        #print('loading multithread ' + str(method))

        # Wait for the futures to complete or timeout
        done, not_done = concurrent.futures.wait(future_to_item, timeout=timeout_concurrent_by_second, 
                                                return_when=concurrent.futures.ALL_COMPLETED)

        for future in done:
            item = future_to_item[future]
            try:
                data = future.result()
                if data is not None and data != '':
                    output.append(data)
            except Exception as e:
                print(future)
                print(e)
                print('Error on line {}'.format(sys.exc_info()[-1].tb_lineno), type(e).__name__, e)
            else:
                if debug:
                    print('"%s" fetched in %ss' % (item, (time.time() - start)))

    if debug:
        print("Elapsed Time: %ss" % (time.time() - start))
    return output

In [9]:
# Khởi tạo logger
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

years = [2021]

# universities = [{'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-quy-nhon/', 'university_code': 'QNU', 'university_name': 'Đại Học Quy Nhơn'},
# {'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-noi-vu/', 'university_code': 'HUHA', 'university_name': 'Đại Học Nội Vụ'},
# {'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-dong-a/', 'university_code': 'DAU', 'university_name': 'Đại Học Đông Á'}]

universities_diemchuan = multithread_helper(items=universities, method=method_univerisy_data,max_workers=10, years=years)

start: 1718823821.093081


INFO:__main__:{'university_code': 'TTU', 'university_name': 'ĐH Tân Tạo', 'major_code': '7720601', 'major_name': 'Kỹ thuật xét nghiệm y học', 'subject_group': 'A00, B00, B03, B08', 'point': '19', 'note': 'TN THPT', 'year': '2021'}
INFO:__main__:{'university_code': 'TTU', 'university_name': 'ĐH Tân Tạo', 'major_code': '7340101', 'major_name': 'Quản trị kinh doanh', 'subject_group': 'A00, B00, B08, D01, XDHB', 'point': '15', 'note': 'TN THPT', 'year': '2021'}
INFO:__main__:{'university_code': 'TTU', 'university_name': 'ĐH Tân Tạo', 'major_code': '7420201', 'major_name': 'Công nghệ sinh học', 'subject_group': 'A00, B00, B08, D01, XDHB', 'point': '15', 'note': 'TN THPT', 'year': '2021'}
INFO:__main__:{'university_code': 'TTU', 'university_name': 'ĐH Tân Tạo', 'major_code': '7340120', 'major_name': 'Kinh doanh quốc tế', 'subject_group': 'A00, B00, B08, D01, XDHB', 'point': '15', 'note': 'TN THPT', 'year': '2021'}
INFO:__main__:{'university_code': 'TTU', 'university_name': 'ĐH Tân Tạo', 'maj

<Future at 0x16fa87ddd90 state=finished raised TimeoutException>
Message: timeout: Timed out receiving message from renderer: 300.000
  (Session info: chrome=126.0.6478.62)
Stacktrace:
	GetHandleVerifier [0x00007FF668103E42+31618]
	(No symbol) [0x00007FF66807B0A9]
	(No symbol) [0x00007FF667F3888A]
	(No symbol) [0x00007FF667F2112D]
	(No symbol) [0x00007FF667F20E30]
	(No symbol) [0x00007FF667F1EDBD]
	(No symbol) [0x00007FF667F1F5CF]
	(No symbol) [0x00007FF667F2E3BE]
	(No symbol) [0x00007FF667F468AF]
	(No symbol) [0x00007FF667F4C2DA]
	(No symbol) [0x00007FF667F1FD5A]
	(No symbol) [0x00007FF667F466CD]
	(No symbol) [0x00007FF667FCC95B]
	(No symbol) [0x00007FF667FACEB3]
	(No symbol) [0x00007FF667F7A46B]
	(No symbol) [0x00007FF667F7B001]
	GetHandleVerifier [0x00007FF66840A01D+3202397]
	GetHandleVerifier [0x00007FF668456A3D+3516285]
	GetHandleVerifier [0x00007FF66844C4B0+3473904]
	GetHandleVerifier [0x00007FF6681B5D46+760454]
	(No symbol) [0x00007FF668086B4F]
	(No symbol) [0x00007FF668081CE4]


INFO:__main__:{'university_code': 'VMU', 'university_name': 'Đại Học Y Khoa Vinh', 'major_code': '7720601', 'major_name': 'Kỹ thuật xét nghiệm y học', 'subject_group': 'B00', 'point': '25.45', 'note': '', 'year': '2021'}
INFO:__main__:{'university_code': 'VMU', 'university_name': 'Đại Học Y Khoa Vinh', 'major_code': '7720110', 'major_name': 'Y học dự phòng', 'subject_group': 'B00', 'point': '22.55', 'note': '', 'year': '2021'}
INFO:__main__:{'university_code': 'VMU', 'university_name': 'Đại Học Y Khoa Vinh', 'major_code': '7720301', 'major_name': 'Điều dưỡng', 'subject_group': 'B00', 'point': '20.5', 'note': '', 'year': '2021'}
INFO:__main__:{'university_code': 'LHU', 'university_name': 'Đại Học Lạc Hồng', 'major_code': '7510303', 'major_name': 'Công nghệ kỹ thuật điều khiển và tự động hóa', 'subject_group': 'A00, A01, D01, C01', 'point': '15', 'note': '', 'year': '2021'}
INFO:__main__:{'university_code': 'LHU', 'university_name': 'Đại Học Lạc Hồng', 'major_code': '7510102', 'major_nam

In [10]:
# Tạo list để chứa các dataframe từ từng đơn vị dữ liệu
dfs = []

# Duyệt qua từng đơn vị dữ liệu
for unit in universities_diemchuan:
    # Tạo dataframe từ diemchuan_datas
    df = pd.DataFrame(unit['diemchuan_datas'])
    # Thêm dataframe vào list
    dfs.append(df)

# Ghép các dataframe trong list thành một dataframe lớn
result_df = pd.concat(dfs, ignore_index=True)

In [11]:
#result_df = pd.DataFrame(universities_diemchuan)
result_df.shape

(1060, 8)

In [12]:
result_df.to_csv("diemchuan2021_full.csv",  encoding='utf-8-sig', index=False)

2020


In [13]:
# Khởi tạo logger
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

years2 = [2020]
universities_diemchuan2 = multithread_helper(items=universities, method=method_univerisy_data,max_workers=10, years=years2)

start: 1718826378.1044598


INFO:__main__:{'university_code': 'HLUV', 'university_name': 'Đại Học Hoa Lư', 'major_code': '7140202', 'major_name': 'Giáo dục Tiểu học', 'subject_group': 'A00, A01, D01, C00', 'point': '18.5', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'HLUV', 'university_name': 'Đại Học Hoa Lư', 'major_code': '7340101', 'major_name': 'Quản trị kinh doanh', 'subject_group': 'A00, A01, D01, D07', 'point': '14', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'HLUV', 'university_name': 'Đại Học Hoa Lư', 'major_code': '7310630', 'major_name': 'Việt Nam học', 'subject_group': 'C00, D14, D15, D66', 'point': '14', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'HLUV', 'university_name': 'Đại Học Hoa Lư', 'major_code': '5140201', 'major_name': 'Giáo dục Mầm non', 'subject_group': 'M00', 'point': '16.5', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'HLUV', 'university_name': 'Đại Học Hoa Lư', 'major_code': '51340301', 'major_name': 'Kế toán', '

<Future at 0x16faab71e50 state=finished raised TimeoutException>
Message: timeout: Timed out receiving message from renderer: 300.000
  (Session info: chrome=126.0.6478.62)
Stacktrace:
	GetHandleVerifier [0x00007FF668103E42+31618]
	(No symbol) [0x00007FF66807B0A9]
	(No symbol) [0x00007FF667F3888A]
	(No symbol) [0x00007FF667F2112D]
	(No symbol) [0x00007FF667F20E30]
	(No symbol) [0x00007FF667F1EDBD]
	(No symbol) [0x00007FF667F1F5CF]
	(No symbol) [0x00007FF667F2E3BE]
	(No symbol) [0x00007FF667F468AF]
	(No symbol) [0x00007FF667F4C2DA]
	(No symbol) [0x00007FF667F1FD5A]
	(No symbol) [0x00007FF667F466CD]
	(No symbol) [0x00007FF667FCC95B]
	(No symbol) [0x00007FF667FACEB3]
	(No symbol) [0x00007FF667F7A46B]
	(No symbol) [0x00007FF667F7B001]
	GetHandleVerifier [0x00007FF66840A01D+3202397]
	GetHandleVerifier [0x00007FF668456A3D+3516285]
	GetHandleVerifier [0x00007FF66844C4B0+3473904]
	GetHandleVerifier [0x00007FF6681B5D46+760454]
	(No symbol) [0x00007FF668086B4F]
	(No symbol) [0x00007FF668081CE4]


INFO:__main__:{'university_code': 'CTU', 'university_name': 'Đại Học Cần Thơ', 'major_code': '7520216', 'major_name': 'Kỹ thuật điều khiển và tự động hoá', 'subject_group': 'A00, A01', 'point': '21.5', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'CTU', 'university_name': 'Đại Học Cần Thơ', 'major_code': '7480102', 'major_name': 'Mạng máy tính và Truyền thông dữ liệu', 'subject_group': 'A00, A01', 'point': '16.5', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'CTU', 'university_name': 'Đại Học Cần Thơ', 'major_code': '7580205', 'major_name': 'Kỹ thuật xây dựng', 'subject_group': 'A00, A01', 'point': '15', 'note': 'Công trình giao thông', 'year': '2020'}
INFO:__main__:{'university_code': 'CTU', 'university_name': 'Đại Học Cần Thơ', 'major_code': '7810103', 'major_name': 'Quản trị dịch vụ du lịch và lữ hành', 'subject_group': 'A00, A01, D01, C02', 'point': '24.25', 'note': '', 'year': '2020'}
INFO:__main__:{'university_code': 'CTU', 'university_name': 'Đạ

In [14]:
# Tạo list để chứa các dataframe từ từng đơn vị dữ liệu
dfs2 = []

# Duyệt qua từng đơn vị dữ liệu
for unit in universities_diemchuan2:
    # Tạo dataframe từ diemchuan_datas
    df = pd.DataFrame(unit['diemchuan_datas'])
    # Thêm dataframe vào list
    dfs2.append(df)

# Ghép các dataframe trong list thành một dataframe lớn
result2_df = pd.concat(dfs2, ignore_index=True)
result2_df.to_csv("diemchuan2020_full.csv",  encoding='utf-8-sig', index=False)
result2_df.shape

(247, 8)

2019

In [15]:
# Khởi tạo logger
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

years3 = [2019]
universities_diemchuan3 = multithread_helper(items=universities, method=method_univerisy_data,max_workers=10, years=years3)

start: 1718829087.381372


INFO:__main__:{'university_code': 'TTUH', 'university_name': 'Đại Học Phenikaa', 'major_code': '7480201-VJ', 'major_name': 'Công nghệ thông tin', 'subject_group': 'A00, A01, D07, D28', 'point': '18', 'note': 'chương trình đào tạo CNTT Việt Nhật', 'year': '2019'}
INFO:__main__:{'university_code': 'TTUH', 'university_name': 'Đại Học Phenikaa', 'major_code': '7520216', 'major_name': 'Kỹ thuật điều khiển và tự động hoá', 'subject_group': 'A00, A01, C01, D07', 'point': '17', 'note': '', 'year': '2019'}
INFO:__main__:{'university_code': 'TTUH', 'university_name': 'Đại Học Phenikaa', 'major_code': '7520114', 'major_name': 'Kỹ thuật cơ điện tử', 'subject_group': 'A00, A01, C01, D07', 'point': '16.5', 'note': '', 'year': '2019'}
INFO:__main__:{'university_code': 'TTUH', 'university_name': 'Đại Học Phenikaa', 'major_code': '7510402', 'major_name': 'Công nghệ vật liệu', 'subject_group': 'A00, A01, C01, D07', 'point': '16.5', 'note': '', 'year': '2019'}
INFO:__main__:{'university_code': 'TTUH', 'u

<Future at 0x16fa9610310 state=finished raised TimeoutException>
Message: timeout: Timed out receiving message from renderer: 300.000
  (Session info: chrome=126.0.6478.62)
Stacktrace:
	GetHandleVerifier [0x00007FF668103E42+31618]
	(No symbol) [0x00007FF66807B0A9]
	(No symbol) [0x00007FF667F3888A]
	(No symbol) [0x00007FF667F2112D]
	(No symbol) [0x00007FF667F20E30]
	(No symbol) [0x00007FF667F1EDBD]
	(No symbol) [0x00007FF667F1F5CF]
	(No symbol) [0x00007FF667F2E3BE]
	(No symbol) [0x00007FF667F468AF]
	(No symbol) [0x00007FF667F4C2DA]
	(No symbol) [0x00007FF667F1FD5A]
	(No symbol) [0x00007FF667F466CD]
	(No symbol) [0x00007FF667FCC95B]
	(No symbol) [0x00007FF667FACEB3]
	(No symbol) [0x00007FF667F7A46B]
	(No symbol) [0x00007FF667F7B001]
	GetHandleVerifier [0x00007FF66840A01D+3202397]
	GetHandleVerifier [0x00007FF668456A3D+3516285]
	GetHandleVerifier [0x00007FF66844C4B0+3473904]
	GetHandleVerifier [0x00007FF6681B5D46+760454]
	(No symbol) [0x00007FF668086B4F]
	(No symbol) [0x00007FF668081CE4]


INFO:__main__:{'university_code': 'HVHQ', 'university_name': 'Học Viện Hải Quân', 'major_code': '7860202', 'major_name': 'Chỉ huy tham mưu Hải quân', 'subject_group': 'A00, A01', 'point': '21.7', 'note': 'Thí sinh Nam miền BắcThí sinh mức 21,70 điểm: Điểm môn Toán\xa0 ≥ 8,20.', 'year': '2019'}
INFO:__main__:{'university_code': 'HVHQ', 'university_name': 'Học Viện Hải Quân', 'major_code': '7860202', 'major_name': 'Chỉ huy tham mưu Hải quân', 'subject_group': 'A00, A01', 'point': '21', 'note': 'Thí sinh Nam miền NamThí sinh mức 21,00 điểm: Điểm môn Toán\xa0 ≥ 7,00.', 'year': '2019'}
INFO:__main__:{'university_code': 'VMU', 'university_name': 'Đại Học Hàng Hải', 'major_code': '7480201D119', 'major_name': 'Mạng máy tính và Truyền thông dữ liệu', 'subject_group': 'A00, A01, D01, C01', 'point': '17', 'note': 'Kỹ thuật truyền thông và mạng máy tính', 'year': '2019'}
INFO:__main__:{'university_code': 'VMU', 'university_name': 'Đại Học Hàng Hải', 'major_code': '7480201D119', 'major_name': 'Mạng

In [16]:
# Tạo list để chứa các dataframe từ từng đơn vị dữ liệu
dfs3 = []

# Duyệt qua từng đơn vị dữ liệu
for unit in universities_diemchuan3:
    # Tạo dataframe từ diemchuan_datas
    df = pd.DataFrame(unit['diemchuan_datas'])
    # Thêm dataframe vào list
    dfs3.append(df)

# Ghép các dataframe trong list thành một dataframe lớn
result3_df = pd.concat(dfs3, ignore_index=True)
result3_df.to_csv("diemchuan2019_full.csv",  encoding='utf-8-sig', index=False)
result3_df.shape

(790, 8)

2018

In [17]:
# Khởi tạo logger
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

years4 = [2018]
universities_diemchuan4 = multithread_helper(items=universities, method=method_univerisy_data,max_workers=10, years=years4)

start: 1718831488.2422621


INFO:__main__:{'university_code': 'PYU', 'university_name': 'Đại Học Phú Yên', 'major_code': '7140210', 'major_name': 'Sư phạm Tin học', 'subject_group': 'A00, A01, D01', 'point': '17', 'note': 'Chuyên ngành Tin học - Công nghệ Tiểu học', 'year': '2018'}
INFO:__main__:{'university_code': 'PYU', 'university_name': 'Đại Học Phú Yên', 'major_code': '7140231', 'major_name': 'Sư phạm Tiếng Anh', 'subject_group': 'A01, D01, D14', 'point': '17', 'note': 'Chuyên ngành Tiếng Anh Tiểu học- Mầm non', 'year': '2018'}
INFO:__main__:{'university_code': 'PYU', 'university_name': 'Đại Học Phú Yên', 'major_code': '7140213', 'major_name': 'Sư phạm Sinh học', 'subject_group': 'B00, D08, A02', 'point': '17', 'note': 'Chuyên ngành Sinh học - Công nghệ THPT', 'year': '2018'}
INFO:__main__:{'university_code': 'PYU', 'university_name': 'Đại Học Phú Yên', 'major_code': '7140218', 'major_name': 'Sư phạm Lịch sử', 'subject_group': 'C00, D14, D15', 'point': '17', 'note': 'Sư phạm Lịch sử (Chuyên ngành Sử - Địa)',

<Future at 0x16faaf14e50 state=finished raised TimeoutException>
Message: timeout: Timed out receiving message from renderer: 300.000
  (Session info: chrome=126.0.6478.62)
Stacktrace:
	GetHandleVerifier [0x00007FF668103E42+31618]
	(No symbol) [0x00007FF66807B0A9]
	(No symbol) [0x00007FF667F3888A]
	(No symbol) [0x00007FF667F2112D]
	(No symbol) [0x00007FF667F20E30]
	(No symbol) [0x00007FF667F1EDBD]
	(No symbol) [0x00007FF667F1F5CF]
	(No symbol) [0x00007FF667F2E3BE]
	(No symbol) [0x00007FF667F468AF]
	(No symbol) [0x00007FF667F4C2DA]
	(No symbol) [0x00007FF667F1FD5A]
	(No symbol) [0x00007FF667F466CD]
	(No symbol) [0x00007FF667FCC95B]
	(No symbol) [0x00007FF667FACEB3]
	(No symbol) [0x00007FF667F7A46B]
	(No symbol) [0x00007FF667F7B001]
	GetHandleVerifier [0x00007FF66840A01D+3202397]
	GetHandleVerifier [0x00007FF668456A3D+3516285]
	GetHandleVerifier [0x00007FF66844C4B0+3473904]
	GetHandleVerifier [0x00007FF6681B5D46+760454]
	(No symbol) [0x00007FF668086B4F]
	(No symbol) [0x00007FF668081CE4]


INFO:__main__:{'university_code': 'HUHA', 'university_name': 'Đại Học Nội Vụ', 'major_code': '7310205-03', 'major_name': 'Quản lý nhà nước', 'subject_group': 'D01', 'point': '23', 'note': 'Chuyên ngành Quản lý nhà nước về nông nghiệp và phát triển nông thônCơ sở tại Hà Nội', 'year': '2018'}
INFO:__main__:{'university_code': 'HUHA', 'university_name': 'Đại Học Nội Vụ', 'major_code': '7310205-03', 'major_name': 'Quản lý nhà nước', 'subject_group': 'C20', 'point': '26', 'note': 'Chuyên ngành Quản lý nhà nước về nông nghiệp và phát triển nông thônCơ sở tại Hà Nội', 'year': '2018'}
INFO:__main__:{'university_code': 'HUHA', 'university_name': 'Đại Học Nội Vụ', 'major_code': '7310205-03', 'major_name': 'Quản lý nhà nước', 'subject_group': 'C00', 'point': '25', 'note': 'Chuyên ngành Quản lý nhà nước về nông nghiệp và phát triển nông thônCơ sở tại Hà Nội', 'year': '2018'}
INFO:__main__:{'university_code': 'HUHA', 'university_name': 'Đại Học Nội Vụ', 'major_code': '7310202', 'major_name': 'Xây d

In [19]:
# Tạo list để chứa các dataframe từ từng đơn vị dữ liệu
dfs4 = []

# Duyệt qua từng đơn vị dữ liệu
for unit in universities_diemchuan4:
    # Tạo dataframe từ diemchuan_datas
    df = pd.DataFrame(unit['diemchuan_datas'])
    # Thêm dataframe vào list
    dfs4.append(df)

# Ghép các dataframe trong list thành một dataframe lớn
result4_df = pd.concat(dfs4, ignore_index=True)
result4_df.to_csv("diemchuan2018_full.csv",  encoding='utf-8-sig', index=False)
result4_df.shape

(122, 8)

---


In [5]:
import logging
import time
import concurrent.futures
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import Select
from bs4 import BeautifulSoup

# Khởi tạo logger
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

# Hàm show_error_info để hiển thị thông tin lỗi
def show_error_info(e):
    logger.error(f"Error: {e}")

# Hàm trích xuất dữ liệu điểm chuẩn sử dụng Selenium
def extract_data_diemchuan_selenium(base_url, university_meta, year):
    # Khởi tạo trình duyệt
    driver = webdriver.Chrome()
    driver.get(base_url)
    time.sleep(5)  # Chờ trang tải

    try:
        # Tìm thẻ <select> với name="year" và chọn năm cụ thể
        year_dropdown = Select(driver.find_element(By.NAME, "year"))
        year_dropdown.select_by_visible_text(str(year))
        time.sleep(5)  # Chờ trang tải lại sau khi chọn năm

        # Phân tích cú pháp HTML của trang web
        soup = BeautifulSoup(driver.page_source, 'html.parser')

        driver.close()
        driver.quit()

        # Tìm và trích xuất dữ liệu từ bảng
        e_table = soup.select_one('table.hm-table')

        if e_table:
            diemchuan_datas = []
            for e_tr in e_table.select('tbody tr'):
                e_tds = e_tr.select('td')
                if len(e_tds) >= 7:
                    major_code = e_tds[3].get_text(strip=True)
                    major_name = e_tds[2].get_text(strip=True)

                    a_tags = e_tds[4].find_all('a')
                    subject_groups = ''.join([a.get_text(strip=True) for a in a_tags])

                    point = e_tds[5].get_text(strip=True)
                    note = e_tds[6].get_text(strip=True)

                    diemchuan_obj = {
                        'university_code': university_meta.get('university_code'),
                        'university_name': university_meta.get('university_name'),
                        'major_code': major_code,
                        'major_name': major_name,
                        'subject_group': subject_groups,
                        'point': point,
                        'note': note,
                        'year': str(year)
                    }
                    logger.info(diemchuan_obj)
                    diemchuan_datas.append(diemchuan_obj)
            return {'diemchuan_datas': diemchuan_datas, 'university_meta': university_meta}
        else:
            logger.warning("Không tìm thấy bảng điểm chuẩn.")
            return {'diemchuan_datas': [], 'university_meta': university_meta}
    except Exception as e:
        show_error_info(e)
        return {'diemchuan_datas': [], 'university_meta': university_meta}

# Hàm thực thi lấy dữ liệu điểm chuẩn cho mỗi đối tượng trường đại học
def method_univerisy_data(university_obj, year):
    university_diemchuan_data = extract_data_diemchuan_selenium(
        base_url=university_obj.get('url'),
        university_meta=university_obj,
        year=year
    )
    return university_diemchuan_data

# Hàm hỗ trợ đa luồng
def multithread_helper(items, method, max_workers=5, timeout_concurrent_by_second=360, debug=False, year=None):
    output = []
    start = time.time()
    print('start:', start)
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        future_to_item = {executor.submit(method, item, year): item for item in items}
        #print('loading multithread ' + str(method))

        # Wait for the futures to complete or timeout
        done, not_done = concurrent.futures.wait(future_to_item, timeout=timeout_concurrent_by_second, 
                                                return_when=concurrent.futures.ALL_COMPLETED)

        for future in done:
            item = future_to_item[future]
            try:
                data = future.result()
                if data is not None and data != '':
                    output.append(data)
            except Exception as e:
                print(future)
                print(e)
                print('Error on line {}'.format(sys.exc_info()[-1].tb_lineno), type(e).__name__, e)
            else:
                if debug:
                    print('"%s" fetched in %ss' % (item, (time.time() - start)))

    if debug:
        print("Elapsed Time: %ss" % (time.time() - start))
    return output

# Tạo list để chứa các dataframe từ từng đơn vị dữ liệu
def merge_dataframes(universities_diemchuan):
    dfs = [pd.DataFrame(unit['diemchuan_datas']) for unit in universities_diemchuan]
    final_df = pd.concat(dfs, ignore_index=True)
    return final_df


In [6]:
# Ví dụ sử dụng
universities = [
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-canh-sat-nhan-dan/',
        'university_code': 'PPU',
        'university_name': 'Đại Học Cảnh Sát Nhân Dân'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/truong-si-quan-chinh-tri-dai-hoc-chinh-tri/',
        'university_code': 'POC',
        'university_name': 'Đại Học Chính Trị'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-chu-van-an/',
        'university_code': 'CVAUNI',
        'university_name': 'Đại Học Chu Văn An'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-cmc/',
        'university_code': 'CMC',
        'university_name': 'Đại học CMC'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-cong-doan/',
        'university_code': 'TUU',
        'university_name': 'Đại Học Công Đoàn'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-cong-nghe-dai-hoc-quoc-gia-ha-noi/',
        'university_code': 'UET',
        'university_name': 'Đại Học Công Nghệ – Đại Học Quốc Gia Hà Nội'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-cong-nghe-dong-a/',
        'university_code': 'EAUT',
        'university_name': 'Đại Học Công Nghệ Đông Á'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-cong-nghe-dong-nai/',
        'university_code': 'DNTU',
        'university_name': 'Đại Học Công Nghệ Đồng Nai'
    },
    {
        'url': 'https://huongnghiep.hocmai.vn/diem-truong/dai-hoc-cong-nghe-giao-thong-van-tai/',
        'university_code': 'UTT',
        'university_name': 'Đại học Công nghệ Giao thông vận tải'
    }
]

year = 2021
universities_diemchuan = multithread_helper(universities, method_univerisy_data, max_workers=5, year=year)
final_df = merge_dataframes(universities_diemchuan)

# Lưu dataframe kết quả vào file CSV
final_df.to_csv('diemchuan_data.csv', index=False)


start: 1718861936.1754227


INFO:__main__:{'university_code': 'UET', 'university_name': 'Đại Học Công Nghệ – Đại Học Quốc Gia Hà Nội', 'major_code': 'CN9', 'major_name': 'Công nghệ kỹ thuật điện tử - viễn thông', 'subject_group': 'A00, A01', 'point': '26.55', 'note': 'chất lượng cao', 'year': '2021'}
INFO:__main__:{'university_code': 'UET', 'university_name': 'Đại Học Công Nghệ – Đại Học Quốc Gia Hà Nội', 'major_code': 'CN6', 'major_name': 'Công nghệ kỹ thuật cơ điện tử', 'subject_group': 'A00, A01', 'point': '25.9', 'note': 'chất lượng cao', 'year': '2021'}
INFO:__main__:{'university_code': 'UET', 'university_name': 'Đại Học Công Nghệ – Đại Học Quốc Gia Hà Nội', 'major_code': 'CN11', 'major_name': 'Kỹ thuật điều khiển và tự động hoá', 'subject_group': 'A00, A01', 'point': '27.75', 'note': '', 'year': '2021'}
INFO:__main__:{'university_code': 'UET', 'university_name': 'Đại Học Công Nghệ – Đại Học Quốc Gia Hà Nội', 'major_code': 'CN1', 'major_name': 'Công nghệ thông tin', 'subject_group': 'A00, A01', 'point': '28.

<Future at 0x2b7d3906a10 state=finished raised TimeoutException>
Message: timeout: Timed out receiving message from renderer: 300.000
  (Session info: chrome=126.0.6478.62)
Stacktrace:
	GetHandleVerifier [0x00007FF668103E42+31618]
	(No symbol) [0x00007FF66807B0A9]
	(No symbol) [0x00007FF667F3888A]
	(No symbol) [0x00007FF667F2112D]
	(No symbol) [0x00007FF667F20E30]
	(No symbol) [0x00007FF667F1EDBD]
	(No symbol) [0x00007FF667F1F5CF]
	(No symbol) [0x00007FF667F2E3BE]
	(No symbol) [0x00007FF667F468AF]
	(No symbol) [0x00007FF667F4C2DA]
	(No symbol) [0x00007FF667F1FD5A]
	(No symbol) [0x00007FF667F466CD]
	(No symbol) [0x00007FF667FCC95B]
	(No symbol) [0x00007FF667FACEB3]
	(No symbol) [0x00007FF667F7A46B]
	(No symbol) [0x00007FF667F7B001]
	GetHandleVerifier [0x00007FF66840A01D+3202397]
	GetHandleVerifier [0x00007FF668456A3D+3516285]
	GetHandleVerifier [0x00007FF66844C4B0+3473904]
	GetHandleVerifier [0x00007FF6681B5D46+760454]
	(No symbol) [0x00007FF668086B4F]
	(No symbol) [0x00007FF668081CE4]
