In [3]:
import os
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import time

In [4]:
def download_pdfs_from_vietstock(url):
    # Thiết lập trình duyệt
    driver = webdriver.Chrome()
    driver.get(url)
    
    # Đợi trang tải xong
    try:
        WebDriverWait(driver, 20).until(
            EC.presence_of_element_located((By.TAG_NAME, 'table'))
        )
    except Exception as e:
        print("Không thể tải trang hoặc tìm thấy bảng dữ liệu.")
        driver.quit()
        return

    # Tạo thư mục để lưu các file PDF
    if not os.path.exists('pdf_files'):
        os.makedirs('pdf_files')

    # Lấy toàn bộ HTML của trang
    soup = BeautifulSoup(driver.page_source, 'html.parser')
    
    # Tìm tất cả các thẻ <a> chứa liên kết tới file PDF
    pdf_links = soup.find_all('a', href=True)
    
    # Lọc ra các liên kết PDF
    pdf_urls = [link['href'] for link in pdf_links if link['href'].endswith('.pdf')]
    
    # Tải các file PDF về máy
    for pdf_url in pdf_urls:
        # Tạo URL đầy đủ
        full_pdf_url = pdf_url if pdf_url.startswith('http') else f"https://finance.vietstock.vn{pdf_url}"
        
        # Lấy tên file từ URL
        file_name = os.path.join('pdf_files', full_pdf_url.split('/')[-1])
        
        # Kiểm tra nếu file đã tồn tại
        if os.path.exists(file_name):
            print(f"File đã tồn tại: {file_name}, bỏ qua.")
            continue

        # Tải file PDF
        try:
            pdf_response = requests.get(full_pdf_url)
            if pdf_response.status_code == 200:
                with open(file_name, 'wb') as file:
                    file.write(pdf_response.content)
                print(f"Đã tải: {file_name}")
            else:
                print(f"Không thể tải: {full_pdf_url}, Mã trạng thái: {pdf_response.status_code}")
        except Exception as e:
            print(f"Lỗi khi tải file: {full_pdf_url}, Lỗi: {e}")

    # Đóng trình duyệt
    driver.quit()





# URL của trang cần cào
url = 'https://finance.vietstock.vn/SSB/tai-tai-lieu.htm?doctype=1'
download_pdfs_from_vietstock(url)

File đã tồn tại: pdf_files\VSTF-Huong-dan-su-dung-2024.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_2023_Kiemtoan_Congtyme.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q4_2023_Congtyme.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q4_2023_Hopnhat.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q3_2023_Hopnhat.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q3_2023_Congtyme.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_6T_2023_Soatxet_Congtyme.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_6T_2023_Soatxet_Hopnhat.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q2_2023_Congtyme.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q2_2023_Hopnhat.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q1_2023_Hopnhat.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_Q1_2023_Congtyme.pdf, bỏ qua.
File đã tồn tại: pdf_files\SSB_Baocaotaichinh_2022_Kiemtoan_Hopnhat.pdf, bỏ qua

#### TEST

In [5]:

# Khởi tạo trình duyệt Chrome với webdriver_manager
def initialize_driver():
    service = Service(ChromeDriverManager().install())
    return webdriver.Chrome(service=service)


# Hàm để tải file pdf từ một loại filter
def download_pdf_file(driver, filter_text, company_name):
    
    # Nhảy tới mục cần tải 
    try:
        filter_element = driver.find_element(By.XPATH, f"//span[contains(text(), '{filter_text}')]")
        filter_element.click()
        time.sleep(2)  # Chờ trang tải
        print(f"Đã chuyển sang filter '{filter_text}'")
    except Exception as e:
        print(f"Không thể chuyển sang filter '{filter_text}': {e}")
        driver.quit()  # Thoát khỏi trình duyệt nếu không thể chuyển sang filter
        
        
        
    # Tạo thư mục để lưu các file PDF
    if not os.path.exists(f'{company_name}_pdf_files'):
        os.makedirs(f'{company_name}_pdf_files')
   
    
    while True:
           
        soup = BeautifulSoup(driver.page_source, 'html.parser')
            
        # Tìm tất cả các thẻ <a> chứa liên kết tới file PDF
        pdf_links = soup.find_all('a', href=True)
    
        # Lọc ra các liên kết PDF
        pdf_urls = [link['href'] for link in pdf_links if link['href'].endswith('.pdf')]   
            
            
        # Tải các file PDF về máy
        for pdf_url in pdf_urls:
            # Tạo URL đầy đủ
            full_pdf_url = pdf_url if pdf_url.startswith('http') else f"https://finance.vietstock.vn{pdf_url}"
        
            # Lấy tên file từ URL
            file_name = os.path.join(f'{company_name}_pdf_files', full_pdf_url.split('/')[-1])
        
            # Kiểm tra nếu file đã tồn tại
            if os.path.exists(file_name):
                print(f"File đã tồn tại: {file_name}, bỏ qua.")
                continue

            # Tải file PDF
            try:
                pdf_response = requests.get(full_pdf_url)
                print(full_pdf_url)
                # if pdf_response.status_code == 200:
                #     with open(file_name, 'wb') as file:
                #         file.write(pdf_response.content)
                #     print(f"Đã tải: {file_name}")
                # else:
                #     print(f"Không thể tải: {full_pdf_url}, Mã trạng thái: {pdf_response.status_code}")
            except Exception as e:
                print(f"Lỗi khi tải file: {full_pdf_url}, Lỗi: {e}")


        try:
            xpath2 = f"//div[@class='headline bb3 red']//a[contains(@class, 'btn btn-default m-l')]"
            button_next_page = driver.find_element(By.XPATH, xpath2 )
            button_next_page.click()
            time.sleep(2)  # Chờ trang tải
            print("Chuyển sang trang tiếp theo")
        except Exception as e:
            print(f"Không tìm thấy nút 'Trang sau': {e}")
            break

    # Đóng trình duyệt khi đã hoàn thành
    driver.quit()




############################################################################################################################

# Khởi tạo trình duyệt và URL
driver = initialize_driver()


companies_name = ['AAA', 'APP', 'BFC', 'BRC', 'BRR', 'BT1', 'CPC', 'CSV', 'DAG', 'DCM', 'DDV', 'DGC', 'DHB', 'DOC', 'DPM', 
                'DPR', 'DRG', 'DRI', 'DTT', 'GER', 'GVR', 'HAI', 'HCD', 'HII', 'HNP', 'HPH', 'HRC', 'HSI', 'HVT', 'IRC', 
                'LAS', 'LNC', 'LTG', 'NFC', 'NHH', 'NSG', 'PAT', 'PCE', 'PCH', 'PCN', 'PGN', 'PHR', 'PLC', 'PLP', 'PMB', 
                'PSE', 'PSW', 'PVO', 'QBS', 'RBC', 'RDP', 'RTB', 'SBR', 'SEP', 'SFG', 'SIV', 'SJF', 'SPC', 'TNC', 'TPC',
                'TRC', 'TSC', 'VAF', 'VET', 'VFG', 'VKP', 'VNP', 'VNY', 'VPS', 'VTQ', 'VTZ', 'VXP']

filter_ = ['Báo cáo tài chính', 'Báo cáo quản trị', 'Bản cáo bạch']


for name in companies_name:
    url = f'https://finance.vietstock.vn/{name}/tai-tai-lieu.htm?doctype=0'
    driver.get(url)
    time.sleep(5)  # Chờ trang tải


    for filter_text in filter_:
        download_pdf_file(driver, filter_text, name)




Không thể chuyển sang filter 'Báo cáo tài chính': Message: element click intercepted: Element <span>...</span> is not clickable at point (119, 13). Other element would receive the click: <a class="title" href="javascript:void(0)">...</a>
  (Session info: chrome=125.0.6422.142)
Stacktrace:
	GetHandleVerifier [0x0107B8E3+45827]
	(No symbol) [0x0100DCC4]
	(No symbol) [0x00F0150F]
	(No symbol) [0x00F48052]
	(No symbol) [0x00F463D8]
	(No symbol) [0x00F4425B]
	(No symbol) [0x00F43823]
	(No symbol) [0x00F385EF]
	(No symbol) [0x00F62DFC]
	(No symbol) [0x00F38075]
	(No symbol) [0x00F63094]
	(No symbol) [0x00F7C034]
	(No symbol) [0x00F62B96]
	(No symbol) [0x00F36998]
	(No symbol) [0x00F3751D]
	GetHandleVerifier [0x01334513+2899763]
	GetHandleVerifier [0x0138793D+3240797]
	GetHandleVerifier [0x011013B4+593364]
	GetHandleVerifier [0x011082DC+621820]
	(No symbol) [0x010170A4]
	(No symbol) [0x010137A8]
	(No symbol) [0x01013947]
	(No symbol) [0x010059FE]
	BaseThreadInitThunk [0x75EB7BA9+25]
	RtlIniti

MaxRetryError: HTTPConnectionPool(host='localhost', port=65000): Max retries exceeded with url: /session/976eb8d07ac77627669ebe6b0f8d8e61/source (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x00000200644E5130>: Failed to establish a new connection: [WinError 10061] No connection could be made because the target machine actively refused it'))