In [1]:
import yfinance as yf
import pandas as pd
import json
import time

# Danh sách các mã cổ phiếu của các công ty
companies = {
    #Thép
    "Hòa Phát": "HPG",
    "Tập đoàn Hoa Sen": "HSG",
    "CTCP Thép Nam Kim": "NKG",
    "CTCP Tập đoàn Thép Tiến Lên": "TLH",
    "CTCP Tập đoàn Đại Thiên Lộc": "DTL",
    "CTCP Thép VICASA - VNSTEEL": "VCA",
    "CTCP Xi măng Bỉm Sơn": "BCC",
    "CTCP Xi măng Vicem Hoàng Mai": "HOM",
    "CTCP Gạch men Vicenza": "VGC",
    "CTCP VLXD Viglacera Thăng Long": "TLT",
    "CTCP VLXD Viglacera Đông Triều": "DTC",
    "CTCP Tập đoàn Phú Tài": "PTB",
    "CTCP Hóa chất Cơ bản miền Nam": "CSV",
    "CTCP Hóa chất Đức Giang – Lào Cai": "DGL"
}

max_retries = 5
    
for company_name, ticker_symbol in companies.items():
    print(f"Đang xử lý: {company_name} ({ticker_symbol})")
    
    success = False
    retries = 0
    while not success and retries < max_retries:
        try:
            # Lấy dữ liệu từ 2019 đến 2024 từ mã cổ phiếu ban đầu
            ticker = yf.Ticker(ticker_symbol)
            data = ticker.history(start="2019-01-01", end="2024-12-31", interval="1d").iloc[:, :5]
            # Kiểm tra nếu dữ liệu có ít hơn 1000 dòng
            if len(data) < 1000:
                print(f"⚠️ Dữ liệu của {company_name} ({ticker_symbol}) ít hơn 1000 dòng. Thử mã với đuôi .VN.")
                ticker_symbol_vn = ticker_symbol + ".VN"
                ticker = yf.Ticker(ticker_symbol_vn)
                try:
                    data_vn = ticker.history(start="2019-01-01", end="2024-12-31", interval="1d")
                except Exception as e:
                    print(f"❌ Lỗi khi lấy dữ liệu cho {company_name} : {e}")

                # Gộp dữ liệu từ mã gốc và mã .VN nếu có dữ liệu
                if data_vn is not None and not data_vn.empty:
                    print(f"✅ Đã tìm thấy dữ liệu cho {company_name} với mã {ticker_symbol}.VN.")
                    data = pd.concat([data, data_vn.iloc[:, :5]])
                    data = data.loc[~data.index.duplicated(keep='last')]  # Loại bỏ các dòng trùng lặp
                    data_vn = None
    
            # Dữ liệu không trống, tiếp tục dù số dòng ít
            if data.empty:
                print(f"⚠️ Không có dữ liệu cho {company_name} ({ticker_symbol}). Bỏ qua.")
                break

            # Làm sạch dữ liệu, chuyển định dạng cột Date (bỏ giờ và timezone)
            data = data.reset_index()
            data['Date'] = pd.to_datetime(data['Date'], utc=True).dt.date
            data = data.set_index('Date')

            # Lưu vào file CSV
            filename = f"stock data/{company_name}_stock_data.csv"
            data.to_csv(filename)

            print(f"✅ Đã lưu dữ liệu cho {company_name} ({len(data)} dòng).")
            data = None
            success = True  # Gắn cờ thành công
    
        except Exception as e:
            retries += 1
            print(f"❌ Lỗi khi lấy dữ liệu cho {company_name} (thử lại {retries}/{max_retries}): {e}")
            if retries >= max_retries:
                print(f"⚠️ Đã thử {max_retries} lần mà không thành công. Bỏ qua {company_name}.")
            time.sleep(2)  # Delay ngắn giữa các lần thử lại
    
    time.sleep(3)  # Delay giữa các công ty
    
# Lưu danh sách công ty hợp lệ và không hợp lệ
print("\n✅ Hoàn thành.")

Đang xử lý: Hòa Phát (HPG)
⚠️ Dữ liệu của Hòa Phát (HPG) ít hơn 1000 dòng. Thử mã với đuôi .VN.
✅ Đã tìm thấy dữ liệu cho Hòa Phát với mã HPG.VN.
✅ Đã lưu dữ liệu cho Hòa Phát (2282 dòng).
Đang xử lý: Tập đoàn Hoa Sen (HSG)
⚠️ Dữ liệu của Tập đoàn Hoa Sen (HSG) ít hơn 1000 dòng. Thử mã với đuôi .VN.
❌ Lỗi khi lấy dữ liệu cho Tập đoàn Hoa Sen : Length mismatch: Expected axis has 2 elements, new values have 1 elements
✅ Đã lưu dữ liệu cho Tập đoàn Hoa Sen (789 dòng).
Đang xử lý: CTCP Thép Nam Kim (NKG)
❌ Lỗi khi lấy dữ liệu cho CTCP Thép Nam Kim (thử lại 1/5): HTTP Error 401: 
❌ Lỗi khi lấy dữ liệu cho CTCP Thép Nam Kim (thử lại 2/5): HTTP Error 401: 


$NKG: possibly delisted; no timezone found


⚠️ Dữ liệu của CTCP Thép Nam Kim (NKG) ít hơn 1000 dòng. Thử mã với đuôi .VN.
✅ Đã tìm thấy dữ liệu cho CTCP Thép Nam Kim với mã NKG.VN.
✅ Đã lưu dữ liệu cho CTCP Thép Nam Kim (1499 dòng).


  data = pd.concat([data, data_vn.iloc[:, :5]])


Đang xử lý: CTCP Tập đoàn Thép Tiến Lên (TLH)
✅ Đã lưu dữ liệu cho CTCP Tập đoàn Thép Tiến Lên (1509 dòng).
Đang xử lý: CTCP Tập đoàn Đại Thiên Lộc (DTL)
⚠️ Dữ liệu của CTCP Tập đoàn Đại Thiên Lộc (DTL) ít hơn 1000 dòng. Thử mã với đuôi .VN.
✅ Đã tìm thấy dữ liệu cho CTCP Tập đoàn Đại Thiên Lộc với mã DTL.VN.
✅ Đã lưu dữ liệu cho CTCP Tập đoàn Đại Thiên Lộc (1107 dòng).


$VCA: possibly delisted; no price data found  (1d 2019-01-01 -> 2024-12-31)


Đang xử lý: CTCP Thép VICASA - VNSTEEL (VCA)
⚠️ Dữ liệu của CTCP Thép VICASA - VNSTEEL (VCA) ít hơn 1000 dòng. Thử mã với đuôi .VN.


  data = pd.concat([data, data_vn.iloc[:, :5]])


✅ Đã tìm thấy dữ liệu cho CTCP Thép VICASA - VNSTEEL với mã VCA.VN.
✅ Đã lưu dữ liệu cho CTCP Thép VICASA - VNSTEEL (311 dòng).
Đang xử lý: CTCP Xi măng Bỉm Sơn (BCC)
✅ Đã lưu dữ liệu cho CTCP Xi măng Bỉm Sơn (1509 dòng).
Đang xử lý: CTCP Xi măng Vicem Hoàng Mai (HOM)
⚠️ Dữ liệu của CTCP Xi măng Vicem Hoàng Mai (HOM) ít hơn 1000 dòng. Thử mã với đuôi .VN.


$HOM.VN: possibly delisted; no timezone found


✅ Đã lưu dữ liệu cho CTCP Xi măng Vicem Hoàng Mai (448 dòng).
Đang xử lý: CTCP Gạch men Vicenza (VGC)
⚠️ Dữ liệu của CTCP Gạch men Vicenza (VGC) ít hơn 1000 dòng. Thử mã với đuôi .VN.
❌ Lỗi khi lấy dữ liệu cho CTCP Gạch men Vicenza : Length mismatch: Expected axis has 2 elements, new values have 1 elements
✅ Đã lưu dữ liệu cho CTCP Gạch men Vicenza (685 dòng).
Đang xử lý: CTCP VLXD Viglacera Thăng Long (TLT)
✅ Đã lưu dữ liệu cho CTCP VLXD Viglacera Thăng Long (1509 dòng).
Đang xử lý: CTCP VLXD Viglacera Đông Triều (DTC)
⚠️ Dữ liệu của CTCP VLXD Viglacera Đông Triều (DTC) ít hơn 1000 dòng. Thử mã với đuôi .VN.


$DTC.VN: possibly delisted; no timezone found


✅ Đã lưu dữ liệu cho CTCP VLXD Viglacera Đông Triều (797 dòng).
Đang xử lý: CTCP Tập đoàn Phú Tài (PTB)
⚠️ Dữ liệu của CTCP Tập đoàn Phú Tài (PTB) ít hơn 1000 dòng. Thử mã với đuôi .VN.
❌ Lỗi khi lấy dữ liệu cho CTCP Tập đoàn Phú Tài : Length mismatch: Expected axis has 2 elements, new values have 1 elements
✅ Đã lưu dữ liệu cho CTCP Tập đoàn Phú Tài (786 dòng).
Đang xử lý: CTCP Hóa chất Cơ bản miền Nam (CSV)
✅ Đã lưu dữ liệu cho CTCP Hóa chất Cơ bản miền Nam (1509 dòng).
Đang xử lý: CTCP Hóa chất Đức Giang – Lào Cai (DGL)
✅ Đã lưu dữ liệu cho CTCP Hóa chất Đức Giang – Lào Cai (1059 dòng).

✅ Hoàn thành.
