In [1]:
import requests
import csv
import time
from bs4 import BeautifulSoup

# Danh sách công ty và mã tương ứng
companies = {
    #Thực phẩm
    "Vinamilk": "VNM",
    "CTCP Sữa TH True Milk": "THM",
    "CTCP Bánh kẹo Bibica": "BBC",
    "CTCP Bao bì Dược": "BMP",
    "CTCP Tập đoàn Masan": "MSN",
    "CTCP Masan Consumer": "MCH",
    "CTCP Thực phẩm Cholimex": "CMF",
    "CTCP Chăn nuôi Mitraco": "MLS",
    "CTCP Chăn nuôi Phú Sơn": "PSL",
    "CTCP Chăn nuôi Tiến Nông": "TNC"
}

years = list(range(2019, 2025))

# Hàm tải nội dung với retry
def get_with_retry(url, max_retries=5, wait=3):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0 Safari/537.36"
    }

    for attempt in range(1, max_retries + 1):
        try:
            response = requests.get(url, headers=headers)
            response.raise_for_status()
            print(f"    ✅ Tải thành công sau {attempt} lần thử")
            return response
        except requests.exceptions.HTTPError as e:
            print(f"    ⚠️ Lỗi HTTP {response.status_code} - thử lại sau {wait} giây (lần {attempt})")
        except requests.exceptions.RequestException as e:
            print(f"    ❌ Lỗi kết nối: {e} - thử lại sau {wait} giây (lần {attempt})")

        time.sleep(wait)

    print("    ❌ Không thể tải trang sau nhiều lần thử.")
    return None

# Bắt đầu xử lý từng công ty
for company_name, ticker in companies.items():
    print(f"🔍 Đang xử lý công ty: {company_name} ({ticker})")

    final_table = []

    # Bắt đầu xử lý các năm
    for year_index, year in enumerate(years):
        url = f'https://cafef.vn/du-lieu/bao-cao-tai-chinh/{ticker}/incsta/{year}/4/0/0/bao-cao-tai-chinh-.chn'
        print(f"  -> Năm {year}")

        response = get_with_retry(url)
        if response is None:
            continue  # bỏ qua năm này nếu không tải được

        soup = BeautifulSoup(response.text, 'html.parser')
        table = soup.find('table', id='tableContent')

        if not table:
            print(f"    ❌ Không tìm thấy bảng dữ liệu")
            continue

        rows = table.find_all('tr')
        current_year_data = []

        for i, row in enumerate(rows):
            cols = row.find_all('td')
      
            if not cols:
                continue

            # Bỏ cột cuối và cột đầu tiên như trong code cũ
            if len(cols) > 8:
                cols = cols[:-8]
            else:
                continue

            # Xử lý row_data cho năm 2019 và các năm tiếp theo
            if year == 2019:
                row_data = [col.text.strip() for col in cols]
            else:
                row_data = [col.text.strip() for col in cols[1:]]
                
            if len(row_data) < 2:
                continue

            
            current_year_data.append(row_data)

        # Chỉ thêm dữ liệu năm sau vào final_table, giữ nguyên dữ liệu của năm đầu
        if year_index == 0:
            final_table.extend(current_year_data)
        else:
            for i in range(0, len(final_table)):
                final_table[i].extend(current_year_data[i])

    # Tạo new_row chứa thông tin từ Quý 1 năm 2019 đến Quý 4 năm 2024
    new_row = ['']  # Để cột đầu tiên trống
    for year in years:
        for q in range(1, 5):
            new_row.append(f"Quý {q} năm {year}")

    # Thêm new_row vào đầu bảng (chỉ thêm một lần, không bị lệch)
    final_table.insert(0, new_row)

    # Ghi ra file CSV
    output_file = f"Tổng hợp báo cáo {company_name} 2.csv"
    with open(output_file, mode='w', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerows(final_table)

    print(f"✅ Đã lưu vào file: {output_file}\n")


🔍 Đang xử lý công ty: Vinamilk (VNM)
  -> Năm 2019
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2020
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2021
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2022
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2023
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2024
    ✅ Tải thành công sau 1 lần thử
✅ Đã lưu vào file: Tổng hợp báo cáo Vinamilk 2.csv

🔍 Đang xử lý công ty: CTCP Sữa TH True Milk (THM)
  -> Năm 2019
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2020
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2021
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2022
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2023
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2024
    ✅ Tải thành công sau 1 lần thử
✅ Đã lưu vào file: Tổng hợp báo cáo CTCP Sữa TH True Milk 2.csv

🔍 Đang xử lý công ty: CTCP Bánh kẹo Bibica (BBC)
  -> Năm 2019
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2020
    ✅ Tải thành công sau 1 lần thử
  -> Năm 2021
    ✅ Tải thành công sau 1 lần thử
  -> Năm 202