In [1]:
from langchain.pydantic_v1 import BaseModel, Field

class Graph(BaseModel):
    region: str
    subject: str
    year: int
    content: dict

In [6]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

from selenium.webdriver.common.by import By
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver import ActionChains
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import json
import pandas as pd
import os
import logging
from selenium.common.exceptions import NoSuchWindowException

class VnaNetScoreCrawler:
    def __init__(self, data_path=int):
        self.options = webdriver.ChromeOptions()
        self.options.add_argument("--window-size=1280,720")
        self.url = "https://diemthi.vnanet.vn/"
        self.driver = webdriver.Chrome(options=self.options)
        self.data_path = data_path

    def crawl_graph(self):

        self.driver.get(self.url)

        graphs = self.driver.find_elements(By.TAG_NAME, 'svg')
        graph_data = []

        # Extract data from each graph found
        for graph in graphs:
            score_dict = {}
            graph_element = graph.get_attribute('outerHTML')
            soup = BeautifulSoup(graph_element, 'html.parser')
            g = soup.find_all('g', transform=True)
            #graph_label = soup.find(lambda tag: tag.name == "text" and "phổ điểm" in tag.text.lower()).text
            labels = []
            values = []
            for i in g:
                # Get x axis labels
                if len(i.findChildren()) == 1:
                    labels.append(i.text)
                
                if len(i.findChildren()) == 2:
                    values.append(i.text)

            for i, j in zip(labels, values):
                score_dict[i] = j

            graph_data.append(score_dict)
        
        return graph_data
    
    def crawl_score_distribution(self):
        self.driver.get(self.url)

        region_select = self.driver.find_element(By.ID, 'listCity')

        for option in region_select.find_elements(By.TAG_NAME, 'option'):
            current_region = option.text
            option.click()
            print(current_region)

In [7]:
crawler = VnaNetScoreCrawler()
crawler.crawl_score_distribution()

Toàn quốc
01 Sở GDĐT Hà Nội
02 Sở GDĐT TP. Hồ Chí Minh
03 Sở GDĐT Hải Phòng
04 Sở GDĐT Đà Nẵng
05 Sở GDĐT Hà Giang
06 Sở GDĐT Cao Bằng
07 Sở GDĐT Lai Châu
08 Sở GDĐT Lào Cai
09 Sở GDĐT Tuyên Quang
10 Sở GDĐT Lạng Sơn
11 Sở GDĐT Bắc Kạn
12 Sở GDĐT Thái Nguyên
13 Sở GDĐT Yên Bái
14 Sở GDĐT Sơn La
15 Sở GDĐT Phú Thọ
16 Sở GDĐT Vĩnh Phúc
17 Sở GDĐT Quảng Ninh
18 Sở GDĐT Bắc Giang
19 Sở GDĐT Bắc Ninh
21 Sở GDĐT Hải Dương
22 Sở GDĐT Hưng Yên
23 Sở GDĐT Hoà Bình
24 Sở GDĐT Hà Nam
25 Sở GDĐT Nam Định
26 Sở GDĐT Thái Bình
27 Sở GDĐT Ninh Bình
28 Sở GDĐT Thanh Hoá
29 Sở GDĐT Nghệ An
30 Sở GDĐT Hà Tĩnh
31 Sở GDĐT Quảng Bình
32 Sở GDĐT Quảng Trị
33 Sở GDĐT Thừa Thiên -Huế
34 Sở GDĐT Quảng Nam
35 Sở GDĐT Quảng Ngãi
36 Sở GDĐT Kon Tum
37 Sở GDĐT Bình Định
38 Sở GDĐT Gia Lai
39 Sở GDĐT Phú Yên
40 Sở GDĐT Đắk Lắk
41 Sở GDĐT Khánh Hoà
42 Sở GDĐT Lâm Đồng
43 Sở GDĐT Bình Phước
44 Sở GDĐT Bình Dương
45 Sở GDĐT Ninh Thuận
46 Sở GDĐT Tây Ninh
47 Sở GDĐT Bình Thuận
48 Sở GDĐT Đồng Nai
49 Sở GDĐT Long An
50 