In [2]:
import yfinance as yf
import pandas as pd
import json
import time

# Danh sách các mã cổ phiếu của các công ty
companies = {
    #Thực phẩm
    "Vinamilk": "VNM",
    "CTCP Sữa TH True Milk": "THM",
    "CTCP Bánh kẹo Bibica": "BBC",
    "CTCP Bao bì Dược": "BMP",
    "CTCP Tập đoàn Masan": "MSN",
    "CTCP Masan Consumer": "MCH",
    "CTCP Thực phẩm Cholimex": "CMF",
    "CTCP Chăn nuôi Mitraco": "MLS",
    "CTCP Chăn nuôi Phú Sơn": "PSL",
    "CTCP Chăn nuôi Tiến Nông": "TNC"
}

max_retries = 5
    
for company_name, ticker_symbol in companies.items():
    print(f"Đang xử lý: {company_name} ({ticker_symbol})")
    
    success = False
    retries = 0
    while not success and retries < max_retries:
        try:
            # Lấy dữ liệu từ 2019 đến 2024 từ mã cổ phiếu ban đầu
            ticker = yf.Ticker(ticker_symbol)
            data = ticker.history(start="2019-01-01", end="2024-12-31", interval="1d").iloc[:, :5]
            # Kiểm tra nếu dữ liệu có ít hơn 1000 dòng
            if len(data) < 1000:
                print(f"⚠️ Dữ liệu của {company_name} ({ticker_symbol}) ít hơn 1000 dòng. Thử mã với đuôi .VN.")
                ticker_symbol_vn = ticker_symbol + ".VN"
                ticker = yf.Ticker(ticker_symbol_vn)
                try:
                    data_vn = ticker.history(start="2019-01-01", end="2024-12-31", interval="1d")
                except Exception as e:
                    print(f"❌ Lỗi khi lấy dữ liệu cho {company_name} : {e}")

                # Gộp dữ liệu từ mã gốc và mã .VN nếu có dữ liệu
                if data_vn is not None and not data_vn.empty:
                    print(f"✅ Đã tìm thấy dữ liệu cho {company_name} với mã {ticker_symbol}.VN.")
                    data = pd.concat([data, data_vn.iloc[:, :5]])
                    data = data.loc[~data.index.duplicated(keep='last')]  # Loại bỏ các dòng trùng lặp
                    data_vn = None
    
            # Dữ liệu không trống, tiếp tục dù số dòng ít
            if data.empty:
                print(f"⚠️ Không có dữ liệu cho {company_name} ({ticker_symbol}). Bỏ qua.")
                break

            # Làm sạch dữ liệu, chuyển định dạng cột Date (bỏ giờ và timezone)
            data = data.reset_index()
            data['Date'] = pd.to_datetime(data['Date'], utc=True).dt.date
            data = data.set_index('Date')

            # Lưu vào file CSV
            filename = f"{company_name}_stock_data.csv"
            data.to_csv(filename)

            print(f"✅ Đã lưu dữ liệu cho {company_name} ({len(data)} dòng).")
            data = None
            success = True  # Gắn cờ thành công
    
        except Exception as e:
            retries += 1
            print(f"❌ Lỗi khi lấy dữ liệu cho {company_name} (thử lại {retries}/{max_retries}): {e}")
            if retries >= max_retries:
                print(f"⚠️ Đã thử {max_retries} lần mà không thành công. Bỏ qua {company_name}.")
            time.sleep(2)  # Delay ngắn giữa các lần thử lại
    
    time.sleep(3)  # Delay giữa các công ty
    
# Lưu danh sách công ty hợp lệ và không hợp lệ
print("\n✅ Hoàn thành.")

Đang xử lý: Vinamilk (VNM)
✅ Đã lưu dữ liệu cho Vinamilk (1509 dòng).
Đang xử lý: CTCP Sữa TH True Milk (THM)
✅ Đã lưu dữ liệu cho CTCP Sữa TH True Milk (1509 dòng).
Đang xử lý: CTCP Bánh kẹo Bibica (BBC)
✅ Đã lưu dữ liệu cho CTCP Bánh kẹo Bibica (1509 dòng).
Đang xử lý: CTCP Bao bì Dược (BMP)
⚠️ Dữ liệu của CTCP Bao bì Dược (BMP) ít hơn 1000 dòng. Thử mã với đuôi .VN.
❌ Lỗi khi lấy dữ liệu cho CTCP Bao bì Dược : Length mismatch: Expected axis has 2 elements, new values have 1 elements
✅ Đã lưu dữ liệu cho CTCP Bao bì Dược (786 dòng).
Đang xử lý: CTCP Tập đoàn Masan (MSN)
✅ Đã lưu dữ liệu cho CTCP Tập đoàn Masan (1509 dòng).


$MCH.VN: possibly delisted; no timezone found


Đang xử lý: CTCP Masan Consumer (MCH)
⚠️ Dữ liệu của CTCP Masan Consumer (MCH) ít hơn 1000 dòng. Thử mã với đuôi .VN.
✅ Đã lưu dữ liệu cho CTCP Masan Consumer (620 dòng).
Đang xử lý: CTCP Thực phẩm Cholimex (CMF)
✅ Đã lưu dữ liệu cho CTCP Thực phẩm Cholimex (1509 dòng).
Đang xử lý: CTCP Chăn nuôi Mitraco (MLS)
⚠️ Dữ liệu của CTCP Chăn nuôi Mitraco (MLS) ít hơn 1000 dòng. Thử mã với đuôi .VN.


$MLS.VN: possibly delisted; no timezone found


✅ Đã lưu dữ liệu cho CTCP Chăn nuôi Mitraco (109 dòng).
Đang xử lý: CTCP Chăn nuôi Phú Sơn (PSL)
✅ Đã lưu dữ liệu cho CTCP Chăn nuôi Phú Sơn (1509 dòng).
Đang xử lý: CTCP Chăn nuôi Tiến Nông (TNC)
✅ Đã lưu dữ liệu cho CTCP Chăn nuôi Tiến Nông (1509 dòng).

✅ Hoàn thành.
