In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
from datetime import datetime, timedelta
import logging
import talib
import json
from typing import Dict, List, Tuple, Optional
import joblib
from pathlib import Path
import requests
import os

In [2]:
# 讀取industry_index.csv
industry_index_path = r"D:\Min\Python\Project\FA_Data\meta_data\industry_index.csv"
industry_df = pd.read_csv(industry_index_path)

# 顯示所有唯一的產業指數名稱
print("Industry Index中的產業類別:")
unique_industries = industry_df['指數名稱'].unique()
print("\n".join(sorted(unique_industries)))

# 計算產業指數數量
print(f"\n總共有 {len(unique_industries)} 個產業指數")

Industry Index中的產業類別:
光電類報酬指數
光電類指數
其他電子類報酬指數
其他電子類指數
其他類報酬指數
其他類指數
化學生技醫療類報酬指數
化學生技醫療類指數
化學類報酬指數
化學類指數
半導體類報酬指數
半導體類指數
塑膠化工類指數
塑膠類報酬指數
塑膠類指數
居家生活類報酬指數
居家生活類指數
建材營造類報酬指數
建材營造類指數
數位雲端類報酬指數
數位雲端類指數
橡膠類報酬指數
橡膠類指數
水泥窯製類指數
水泥類報酬指數
水泥類指數
汽車類報酬指數
汽車類指數
油電燃氣類報酬指數
油電燃氣類指數
玻璃陶瓷類報酬指數
玻璃陶瓷類指數
生技醫療類報酬指數
生技醫療類指數
紡織纖維類報酬指數
紡織纖維類指數
綠能環保類報酬指數
綠能環保類指數
航運類報酬指數
航運類指數
觀光類報酬指數
觀光類指數
觀光餐旅類報酬指數
觀光餐旅類指數
貿易百貨類報酬指數
貿易百貨類指數
資訊服務類報酬指數
資訊服務類指數
通信網路類報酬指數
通信網路類指數
造紙類報酬指數
造紙類指數
運動休閒類報酬指數
運動休閒類指數
金融保險類指數
鋼鐵類報酬指數
鋼鐵類指數
電器電纜類報酬指數
電器電纜類指數
電子工業類報酬指數
電子工業類指數
電子通路類報酬指數
電子通路類指數
電子零組件類報酬指數
電子零組件類指數
電子類報酬指數
電子類指數
電機機械類報酬指數
電機機械類指數
電腦及週邊設備類報酬指數
電腦及週邊設備類指數

總共有 71 個產業指數


In [9]:
def validate_industry_requirements():
    """驗證產業特徵生成所需的檔案與資料結構"""
    
    # 設定基礎路徑
    base_path = Path("D:/Min/Python/Project/FA_Data")
    results = {
        "directory_check": {},
        "file_check": {},
        "data_check": {},
        "sample_data": {}
    }
    
    print("=== 產業特徵需求驗證開始 ===\n")
    
    # 1. 檢查必要目錄
    required_dirs = {
        "meta_data": base_path / "meta_data",
        "industry_analysis": base_path / "industry_analysis",
        "industry_analysis/return_index": base_path / "industry_analysis/return_index",
        "industry_analysis/price_index": base_path / "industry_analysis/price_index",
        "industry_correlation": base_path / "industry_correlation"
    }
    
    print("1. 目錄結構檢查:")
    for dir_name, dir_path in required_dirs.items():
        exists = dir_path.exists()
        results["directory_check"][dir_name] = exists
        print(f"- {dir_name}: {'存在' if exists else '不存在'}")
    print()
    
    # 2. 檢查必要檔案
    required_files = {
        "companies.csv": base_path / "meta_data/companies.csv",
        "industry_index.csv": base_path / "meta_data/industry_index.csv",
        "stock_data_whole.csv": base_path / "meta_data/stock_data_whole.csv"
    }
    
    print("2. 必要檔案檢查:")
    for file_name, file_path in required_files.items():
        exists = file_path.exists()
        results["file_check"][file_name] = exists
        print(f"- {file_name}: {'存在' if exists else '不存在'}")
    print()
    
    # 3. 資料內容檢查
    print("3. 資料內容檢查:")
    
    # 3.1 檢查產業分類檔案
    try:
        companies_df = pd.read_csv(required_files["companies.csv"])
        results["data_check"]["companies_file"] = {
            "records": len(companies_df),
            "columns": list(companies_df.columns)
        }
        print("\na. 產業分類檔案 (companies.csv):")
        print(f"- 記錄數: {len(companies_df):,}")
        print(f"- 欄位: {', '.join(companies_df.columns)}")
        
        # 顯示前5個產業分類範例
        print("- 產業分類範例:")
        print(companies_df[['stock_id', 'industry_category']].head().to_string())
        results["sample_data"]["industry_categories"] = companies_df[['stock_id', 'industry_category']].head().to_dict()
        
    except Exception as e:
        print(f"讀取產業分類檔案失敗: {str(e)}")
        results["data_check"]["companies_file"] = {"error": str(e)}
    
    # 3.2 檢查產業指數檔案
    try:
        industry_df = pd.read_csv(required_files["industry_index.csv"])
        results["data_check"]["industry_index"] = {
            "records": len(industry_df),
            "columns": list(industry_df.columns),
            "date_range": [industry_df['日期'].min(), industry_df['日期'].max()]
        }
        print("\nb. 產業指數檔案 (industry_index.csv):")
        print(f"- 記錄數: {len(industry_df):,}")
        print(f"- 欄位: {', '.join(industry_df.columns)}")
        print(f"- 日期範圍: {industry_df['日期'].min()} 到 {industry_df['日期'].max()}")
        
        # 顯示所有獨特的產業指數名稱
        unique_industries = industry_df['指數名稱'].unique()
        print(f"- 產業指數種類 ({len(unique_industries)}個):")
        print('\n'.join(f"  * {ind}" for ind in sorted(unique_industries)[:5]) + "\n  ...")
        results["sample_data"]["industry_indices"] = sorted(unique_industries.tolist())
        
    except Exception as e:
        print(f"讀取產業指數檔案失敗: {str(e)}")
        results["data_check"]["industry_index"] = {"error": str(e)}
    
    # 3.3 檢查產業分析檔案
    print("\nc. 產業分析檔案檢查:")
    analysis_path = required_dirs["industry_analysis/return_index"]
    if analysis_path.exists():
        json_files = list(analysis_path.glob("*.json"))
        if json_files:
            # 讀取第一個JSON檔案查看結構
            try:
                with open(json_files[0], 'r', encoding='utf-8') as f:
                    sample_analysis = json.load(f)
                    print(f"- 找到 {len(json_files)} 個JSON檔案")
                    print("- JSON檔案範例:")
                    for file in sorted(json_files)[:]:  # 顯示前5個檔案名稱
                        print(f"  * {file.name}")
                    print("- JSON檔案結構:")
                    for key in sample_analysis.keys():
                        print(f"  * {key}")
                results["sample_data"]["analysis_structure"] = list(sample_analysis.keys())
            except Exception as e:
                print(f"讀取JSON檔案失敗: {str(e)}")
        else:
            print("- 未找到任何JSON檔案")
    else:
        print("- 產業分析目錄不存在")
    
    return results

if __name__ == "__main__":
    results = validate_industry_requirements()
    print("\n=== 驗證完成 ===")

=== 產業特徵需求驗證開始 ===

1. 目錄結構檢查:
- meta_data: 存在
- industry_analysis: 存在
- industry_analysis/return_index: 存在
- industry_analysis/price_index: 存在
- industry_correlation: 存在

2. 必要檔案檢查:
- companies.csv: 存在
- industry_index.csv: 存在
- stock_data_whole.csv: 存在

3. 資料內容檢查:

a. 產業分類檔案 (companies.csv):
- 記錄數: 3,691
- 欄位: industry_category, stock_id, stock_name, type, date, download_time
- 產業分類範例:
  stock_id industry_category
0     0050               ETF
1     0051               ETF
2     0052               ETF
3     0053               ETF
4     0054               ETF

b. 產業指數檔案 (industry_index.csv):
- 記錄數: 50,567
- 欄位: 指數名稱, 收盤指數, 漲跌, 漲跌點數, 漲跌百分比, 日期
- 日期範圍: 2022-03-02 到 2025-01-22
- 產業指數種類 (77個):
  * 光電類報酬指數
  * 光電類指數
  * 其他電子類報酬指數
  * 其他電子類指數
  * 其他類報酬指數
  ...

c. 產業分析檔案檢查:
- 找到 126 個JSON檔案
- JSON檔案範例:
  * 光電_20230101_20241213_20241220.json
  * 光電_20230101_20241230_20241231.json
  * 光電_20230101_20250122_20250122.json
  * 其他_20230101_20241213_20241220.json
  * 其他_20230101_20241230_20241231.jso

In [6]:
# --function--

In [2]:
import pandas as pd
from pathlib import Path

# 設定檔案路徑
file_path = Path("D:/Min/Python/Project/FA_Data/meta_data/stock_data_whole.csv")

# 讀取原始資料
df = pd.read_csv(file_path, dtype={'證券代號': str})

# 在清理前的資料筆數
print(f"清理前的資料筆數: {len(df):,}")
print(f"清理前的股票數量: {len(df['證券代號'].unique()):,}")

# 只保留4位數的股票代號
df_cleaned = df[df['證券代號'].str.len() == 4]

# 顯示清理結果
print(f"\n清理後的資料筆數: {len(df_cleaned):,}")
print(f"清理後的股票數量: {len(df_cleaned['證券代號'].unique()):,}")

# 儲存清理後的資料
df_cleaned.to_csv(file_path, index=False, encoding='utf-8-sig')
print("\n已將清理後的資料儲存回原檔案")

  df = pd.read_csv(file_path, dtype={'證券代號': str})


清理前的資料筆數: 2,424,019
清理前的股票數量: 1,107

清理後的資料筆數: 2,424,019
清理後的股票數量: 1,107

已將清理後的資料儲存回原檔案


In [25]:
# Function to obtain API token
def get_token(user_id, password):
    url = "https://api.finmindtrade.com/api/v4/login"
    payload = {"user_id": user_id.strip(), "password": password}
    response = requests.post(url, data=payload)
    return response.json()["token"] if response.status_code == 200 else None

# User credentials
user_id = "leuarchie@gmail.com"
password = "jajamove123"

# 獲取 token
token = get_token(user_id, password)
print("Token:", token)

# 確認 API 使用限制
url = "https://api.web.finmindtrade.com/v2/user_info"
payload = {
    "token": token,
}
resp = requests.get(url, params=payload)
print("使用次數:", resp.json()["user_count"])
print("API 使用上限:", resp.json()["api_request_limit"])

# 取得台灣股票資訊
def get_stock_info(token):
    url = "https://api.finmindtrade.com/api/v4/data"
    parameter = {
        "dataset": "TaiwanStockInfo",
        "token": token,
    }
    
    try:
        resp = requests.get(url, params=parameter)
        if resp.status_code == 200:
            data = resp.json()
            if "data" in data:
                df = pd.DataFrame(data["data"])
                return df
            else:
                print("No data found in response")
                return None
        else:
            print(f"Error: Status code {resp.status_code}")
            return None
    except Exception as e:
        print(f"Error occurred: {str(e)}")
        return None

# 建立目標資料夾（如果不存在）
save_path = r"D:\Min\Python\Project\FA_Data\meta_data\backup"
os.makedirs(save_path, exist_ok=True)

# 取得資料並儲存
df = get_stock_info(token)

if df is not None:
    # 增加時間戳記欄位
    df['download_time'] = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    
    # 儲存為 CSV
    file_path = os.path.join(save_path, "companies.csv")
    df.to_csv(file_path, index=False, encoding='utf-8-sig')
    print(f"檔案已儲存至: {file_path}")
    print(f"總共獲取 {len(df)} 筆股票資料")
    
    # 顯示前五筆資料
    print("\n前五筆資料預覽:")
    print(df.head())
else:
    print("無法取得股票資料")

Token: eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJkYXRlIjoiMjAyNC0xMS0yMSAwNzoxMDo0NSIsInVzZXJfaWQiOiJsZXVhcmNoaWVAZ21haWwuY29tIiwiaXAiOiI5OC40Mi42MC4yMjcifQ.7-Jk5XB8j4yEVxtQr3u99cbsAob7GHziJg3l2mM7eac
使用次數: 0
API 使用上限: 600
檔案已儲存至: D:\Min\Python\Project\FA_Data\meta_data\backup\companies.csv
總共獲取 3691 筆股票資料

前五筆資料預覽:
  industry_category stock_id stock_name  type        date        download_time
0               ETF     0050     元大台灣50  twse  2024-11-20  2024-11-20 15:10:44
1               ETF     0051    元大中型100  twse  2024-11-20  2024-11-20 15:10:44
2               ETF     0052       富邦科技  twse  2024-11-20  2024-11-20 15:10:44
3               ETF     0053       元大電子  twse  2024-11-20  2024-11-20 15:10:44
4               ETF     0054     元大台商50  twse  2024-11-20  2024-11-20 15:10:44


In [28]:
# clean companiy data
def clean_companies_data_step1():
    """
    第一步清理：companies.csv -> companies_cleaned.csv
    """
    # 讀取原始資料
    input_path = r"D:\Min\Python\Project\FA_Data\meta_data\companies.csv"
    df = pd.read_csv(input_path)
    
    print("第一階段清理開始")
    print("清理前:")
    print(f"總筆數: {len(df)}")
    print(f"產業類別數: {df['industry_category'].nunique()}")
    
    # 1. 只保留需要的欄位
    df = df[['industry_category', 'stock_id', 'stock_name', 'type']]
    
    # 2. 基本資料清理
    # 處理股票代碼
    df['stock_id'] = df['stock_id'].astype(str).str.strip()
    df['stock_id'] = df['stock_id'].str.zfill(4)
    
    # 處理股票名稱
    df['stock_name'] = df['stock_name'].str.strip()
    
    # 處理產業類別
    df['industry_category'] = df['industry_category'].str.strip()
    
    # 處理市場別
    df['type'] = df['type'].str.strip()
    
    # 3. 移除完全重複的資料
    df = df.drop_duplicates()
    
    # 保存清理後的資料
    output_path = r"D:\Min\Python\Project\FA_Data\meta_data\companies_cleaned.csv"
    df.to_csv(output_path, index=False, encoding='utf-8-sig')
    
    print("\n第一階段清理後:")
    print(f"總筆數: {len(df)}")
    print(f"產業類別數: {df['industry_category'].nunique()}")
    print(f"\n清理後資料已儲存至: {output_path}")
    
    return df

def clean_companies_data_step2():
    """
    第二步清理：companies_cleaned.csv -> companies_final.csv
    """
    # 讀取檔案
    input_path = r"D:\Min\Python\Project\FA_Data\meta_data\companies_cleaned.csv"
    df = pd.read_csv(input_path)
    
    print("\n第二階段清理開始")
    print("清理前:")
    print(f"總筆數: {len(df)}")
    print(f"產業類別數: {df['industry_category'].nunique()}")
    
    # 1. 移除非股票商品
    exclude_keywords = [
        'ETF', 'ETN', '指數股票型基金', '受益證券', 
        '指數投資證券', '存託憑證', '特選', '大盤',
        'Index', '所有證券', '創新版股票', '創新板股票',
        '文化創意業', '電子商務業', '農業科技業'
    ]
    mask = ~df['industry_category'].apply(lambda x: any(keyword in str(x) for keyword in exclude_keywords))
    df = df[mask]
    
    # 2. 處理股票代碼格式
    df['stock_id'] = df['stock_id'].astype(str).str.zfill(4)
    
    # 3. 統一產業分類名稱
    df['industry_category'] = df['industry_category'].str.strip()
    
    # 產業分類標準化與合併（配合industry_index.csv的分類）
    industry_mapping = {
        # 電子產業群
        '半導體業': '半導體類',
        '半導體': '半導體類',
        '電子零組件業': '電子零組件類',
        '電子零組件': '電子零組件類',
        '其他電子': '其他電子類',
        '其他電子業': '其他電子類',
        '電器電纜': '電器電纜類',
        '電器電纜業': '電器電纜類',
        '光電業': '光電類',
        '光電': '光電類',
        '通信網路業': '通信網路類',
        '通信網路': '通信網路類',
        '資訊服務業': '資訊服務類',
        '資訊服務': '資訊服務類',
        '電腦及週邊設備業': '電腦及週邊設備類',
        '電腦及週邊': '電腦及週邊設備類',
        '數位雲端': '數位雲端類',
        '電子工業': '電子工業類',
        '電子通路業': '電子通路類',
        
        # 傳統產業群
        '玻璃陶瓷': '玻璃陶瓷類',
        '水泥工業': '水泥類',
        '造紙工業': '造紙類',
        '建材營造': '建材營造類',
        '建材營造業': '建材營造類',
        
        # 其他產業群
        '運動休閒': '運動休閒類',
        '觀光事業': '觀光類',
        '觀光餐旅': '觀光餐旅類',
        '觀光餐旅業': '觀光餐旅類',
        '生技醫療業': '生技醫療類',
        '化學生技醫療': '化學生技醫療類',
        '化學工業': '化學類',
        '塑膠工業': '塑膠類',
        '橡膠工業': '橡膠類',
        '航運業': '航運類',
        '汽車工業': '汽車類',
        '鋼鐵工業': '鋼鐵類',
        '紡織纖維': '紡織纖維類',
        '金融保險': '金融保險類',
        '金融業': '金融保險類',
        '電機機械': '電機機械類',
        '居家生活': '居家生活類',
        '油電燃氣業': '油電燃氣類',
        '綠能環保': '綠能環保類',
        '貿易百貨': '貿易百貨類',
        '食品工業': '食品類',
        
        # 處理 '其他' 類別
        '其他': '其他類'
    }
    
    df['industry_category'] = df['industry_category'].replace(industry_mapping)
    
    # 4. 新增上市/上櫃標記
    df['market_type'] = df['type'].map({'twse': '上市', 'tpex': '上櫃'})
    
    # 重排欄位順序
    df = df[['stock_id', 'stock_name', 'industry_category', 'market_type']]
    
    # 顯示處理後的統計
    print("\n清理後:")
    print(f"總筆數: {len(df)}")
    print(f"產業類別數: {df['industry_category'].nunique()}")
    print("\n產業類別分布:")
    industry_dist = df['industry_category'].value_counts()
    print(industry_dist)
    
    # 儲存處理後的檔案
    output_path = r"D:\Min\Python\Project\FA_Data\meta_data\companies_final.csv"
    df.to_csv(output_path, index=False, encoding='utf-8-sig')
    print(f"\n處理後資料已儲存至: {output_path}")
    
    # 顯示各產業的上市/上櫃分布
    print("\n各產業的上市/上櫃分布:")
    industry_market_dist = pd.crosstab(df['industry_category'], df['market_type'])
    print(industry_market_dist.sort_values('上市', ascending=False))
    
    return df

def process_company_data():
    """
    執行完整的公司資料處理流程
    """
    print("開始處理公司資料...")
    
    # 第一階段：companies.csv -> companies_cleaned.csv
    df_cleaned = clean_companies_data_step1()
    
    # 第二階段：companies_cleaned.csv -> companies_final.csv
    df_final = clean_companies_data_step2()
    
    print("\n資料處理完成!")
    return df_final

if __name__ == "__main__":
    df = process_company_data()
    print("\n最終資料範例:")
    print(df.head(10))

開始處理公司資料...
第一階段清理開始
清理前:
總筆數: 3691
產業類別數: 56

第一階段清理後:
總筆數: 3691
產業類別數: 56

清理後資料已儲存至: D:\Min\Python\Project\FA_Data\meta_data\companies_cleaned.csv

第二階段清理開始
清理前:
總筆數: 3691
產業類別數: 56

清理後:
總筆數: 3128
產業類別數: 36

產業類別分布:
industry_category
電子工業類       517
生技醫療類       248
電子零組件類      245
半導體類        228
其他類         178
光電類         172
電腦及週邊設備類    135
電機機械類       124
其他電子類       122
通信網路類       106
建材營造類        88
化學生技醫療類      86
金融保險類        82
觀光餐旅類        65
紡織纖維類        60
化學類          58
資訊服務類        58
綠能環保類        57
鋼鐵類          54
電子通路類        48
觀光類          45
食品類          40
貿易百貨類        39
汽車類          38
數位雲端類        37
航運類          36
居家生活類        35
塑膠類          29
運動休閒類        28
電器電纜類        22
油電燃氣類        13
橡膠類          12
水泥類           8
造紙類           8
玻璃陶瓷類         5
農業科技          2
Name: count, dtype: int64

處理後資料已儲存至: D:\Min\Python\Project\FA_Data\meta_data\companies_final.csv

各產業的上市/上櫃分布:
market_type         上市   上櫃
industry_category          
電子工業類             

In [None]:
# 驗證companies_final/industry_index/market_index

In [7]:
df_company_list = pd.read_csv("D:\Min\Python\Project\FA_Data\meta_data\companies_final.csv")
df_industry_index = pd.read_csv("D:\Min\Python\Project\FA_Data\meta_data\industry_index.csv")
df_market_index = pd.read_csv("D:\Min\Python\Project\FA_Data\meta_data\market_index.csv")

In [8]:
print(df_company_list.head())
print(df_industry_index.head())
print(df_market_index.head())

  industry_category stock_id stock_name  type        date
0               ETF     0050     元大台灣50  twse  2024-04-15
1               ETF     0051    元大中型100  twse  2024-04-15
2               ETF     0052       富邦科技  twse  2024-04-15
3               ETF     0053       元大電子  twse  2024-04-15
4               ETF     0054     元大台商50  twse  2024-04-15
      指數名稱   收盤指數 漲跌  漲跌點數  漲跌百分比          日期
0  光電類報酬指數  43.22  +  0.24   0.56  2014-04-07
1  光電類報酬指數  43.50  +  0.28   0.65  2014-04-08
2  光電類報酬指數  44.27  +  0.77   1.77  2014-04-09
3  光電類報酬指數  44.01  -  0.26  -0.59  2014-04-10
4  光電類報酬指數  43.77  -  0.24  -0.55  2014-04-11
         Date         Open         High          Low        Close  \
0  2014-01-02  8618.599609  8632.809570  8587.540039  8612.540039   
1  2014-01-03  8584.740234  8584.740234  8537.860352  8546.540039   
2  2014-01-06  8553.000000  8568.240234  8488.639648  8500.009766   
3  2014-01-07  8515.360352  8547.190430  8512.299805  8512.299805   
4  2014-01-08  8548.610352  858

In [9]:
df = pd.read_csv("D:\Min\Python\Project\FA_Data\industry_correlation\monthly\industry_correlation_20230131.csv")
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 31 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  30 non-null     object 
 1   光電          30 non-null     float64
 2   其他電子        30 non-null     float64
 3   其他          30 non-null     float64
 4   化學生技醫療      30 non-null     float64
 5   化學          30 non-null     float64
 6   半導體         30 non-null     float64
 7   塑膠化工        30 non-null     float64
 8   塑膠          30 non-null     float64
 9   建材營造        30 non-null     float64
 10  橡膠          30 non-null     float64
 11  水泥窯製        30 non-null     float64
 12  水泥          30 non-null     float64
 13  汽車          30 non-null     float64
 14  油電燃氣        30 non-null     float64
 15  玻璃陶瓷        30 non-null     float64
 16  生技醫療        30 non-null     float64
 17  紡織纖維        30 non-null     float64
 18  航運          30 non-null     float64
 19  觀光          30 non-null     flo

Unnamed: 0.1,Unnamed: 0,光電,其他電子,其他,化學生技醫療,化學,半導體,塑膠化工,塑膠,建材營造,...,資訊服務,通信網路,造紙,鋼鐵,電器電纜,電子工,電子通路,電子零組件,電機機械,電腦及週邊設備
0,光電,1.0,0.461938,0.50055,0.474555,0.570704,0.448884,0.513879,0.373622,0.644905,...,0.604598,0.454385,0.540363,0.556736,0.695034,0.51118,0.468529,0.619704,0.726265,0.512659
1,其他電子,0.461938,1.0,-0.025623,0.580799,0.671331,0.276865,0.478312,0.316991,0.426055,...,0.509334,0.199148,0.495039,0.484521,0.513095,0.338571,0.646893,0.704067,0.599755,0.282675
2,其他,0.50055,-0.025623,1.0,0.131588,0.091615,0.746719,0.734744,0.787324,0.213328,...,0.505399,0.897736,-0.255318,0.453091,-0.014725,0.764732,0.537683,0.498803,0.448919,0.909045
3,化學生技醫療,0.474555,0.580799,0.131588,1.0,0.769994,0.185549,0.512846,0.210315,0.473623,...,0.300115,0.12693,0.07332,0.37699,0.528969,0.245654,0.404336,0.624376,0.572331,0.310235
4,化學,0.570704,0.671331,0.091615,0.769994,1.0,0.231319,0.407628,0.164687,0.525416,...,0.383186,0.098844,0.496289,0.568245,0.646778,0.289713,0.40524,0.638445,0.729293,0.291594


In [10]:
# --01 validation--

In [11]:
class DataValidation:
    """股票數據驗證類"""
    
    def __init__(self, base_path="D:/Min/Python/Project/FA_Data"):
        self.base_path = Path(base_path)
        self.meta_data_path = self.base_path / 'meta_data'
        self.setup_logging()
        
        # 定義台灣主要假期（簡化版）
        self.major_holidays = [
            # 農曆新年前後（擴大範圍）
            ('-01-20', '-02-28'),  # 1月底到2月底
            ('-04-03', '-04-09'),  # 清明節
            ('-06-18', '-06-24'),  # 端午節
            ('-09-25', '-10-01'),  # 中秋節
            ('-10-09', '-10-11')   # 國慶日
        ]
    
    def is_holiday_period(self, date):
        """檢查日期是否在主要假期期間"""
        date_str = date.strftime('-%m-%d')
        for start, end in self.major_holidays:
            if start <= date_str <= end:
                return True
        return False
    
    def setup_logging(self):
        """設置日誌"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s',
            handlers=[
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger(__name__)
    
    def read_csv_safely(self, file_path):
        """安全地讀取CSV文件"""
        try:
            return pd.read_csv(file_path, low_memory=False)
        except Exception as e:
            self.logger.error(f"讀取文件 {file_path} 時發生錯誤: {str(e)}")
            return None

    def validate_industry_index(self):
        """驗證產業指數數據"""
        try:
            file_path = self.meta_data_path / 'industry_index.csv'
            if not file_path.exists():
                return False, "產業指數文件不存在"
            
            df = self.read_csv_safely(file_path)
            if df is None:
                return False, "無法讀取產業指數文件"
            
            # 檢查必要欄位
            required_cols = ['日期', '指數名稱', '收盤指數', '漲跌', '漲跌點數', '漲跌百分比']
            if not all(col in df.columns for col in required_cols):
                missing_cols = [col for col in required_cols if col not in df.columns]
                return False, f"產業指數缺少必要欄位: {missing_cols}"
            
            # 檢查日期格式
            df['日期'] = pd.to_datetime(df['日期'], errors='coerce')
            if df['日期'].isna().any():
                invalid_dates = df[df['日期'].isna()]['日期'].unique()
                return False, f"存在無效日期格式: {invalid_dates[:5]}..."
            
            # 檢查產業類別完整性（按年度檢查）
            df['年度'] = df['日期'].dt.year
            industry_by_year = df.groupby('年度')['指數名稱'].nunique()
            
            # 檢查每年產業數量的變化是否合理（不超過30%）
            prev_count = None
            for year, count in industry_by_year.items():
                if prev_count is not None:
                    change_rate = abs(count - prev_count) / prev_count
                    if change_rate > 0.3:  # 允許30%的年度變化
                        return False, f"{year}年產業數量變化過大: 從{prev_count}變為{count}"
                prev_count = count
            
            # 檢查數值合理性
            df['收盤指數'] = pd.to_numeric(df['收盤指數'].astype(str).str.replace(',', ''), errors='coerce')
            if df['收盤指數'].min() < 0 or df['收盤指數'].max() > 5000:
                return False, f"產業指數數值異常: 最小值={df['收盤指數'].min()}, 最大值={df['收盤指數'].max()}"
            
            return True, "產業指數數據驗證通過"
            
        except Exception as e:
            return False, f"驗證產業指數時發生錯誤: {str(e)}"
    
    def validate_market_index(self):
        """驗證大盤指數數據"""
        try:
            file_path = self.meta_data_path / 'market_index.csv'
            if not file_path.exists():
                return False, "市場指數文件不存在"
            
            df = self.read_csv_safely(file_path)
            if df is None:
                return False, "無法讀取市場指數文件"
            
            # 檢查必要欄位
            required_cols = ['Date', 'Open', 'High', 'Low', 'Close', 'Volume']
            if not all(col in df.columns for col in required_cols):
                return False, "市場指數缺少必要欄位"
            
            # 檢查數據類型並轉換日期
            df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
            if df['Date'].isna().any():
                return False, "日期格式有誤"
            
            # 檢查價格合理性
            price_cols = ['Open', 'High', 'Low', 'Close']
            for col in price_cols:
                df[col] = pd.to_numeric(df[col], errors='coerce')
                if df[col].isna().any():
                    return False, f"{col}列包含非數值數據"
                if df[col].min() < 0 or df[col].max() > 30000:
                    return False, f"{col}列包含異常值"
            
            # 檢查數據連續性（排除假期）
            df = df.sort_values('Date')
            date_gaps = []
            prev_date = None
            for date in df['Date']:
                if prev_date is not None:
                    gap = (date - prev_date).days
                    if gap > 5 and not self.is_holiday_period(date):
                        date_gaps.append(date)
                prev_date = date
            
            if date_gaps:
                return False, f"非假期期間存在數據缺失: {date_gaps[:5]}..."
            
            return True, "市場指數數據驗證通過"
            
        except Exception as e:
            return False, f"驗證市場指數時發生錯誤: {str(e)}"
    
    def validate_stock_data(self):
        """驗證個股交易數據"""
        try:
            file_path = self.meta_data_path / 'stock_data_whole.csv'
            if not file_path.exists():
                return False, "個股交易數據文件不存在"
            
            df = self.read_csv_safely(file_path)
            if df is None:
                return False, "無法讀取個股交易數據文件"
            
            # 檢查必要欄位
            required_cols = ['證券代號', '證券名稱', '日期', '開盤價', '最高價', '最低價', 
                           '收盤價', '成交股數', '成交筆數', '成交金額']
            if not all(col in df.columns for col in required_cols):
                return False, "個股數據缺少必要欄位"
            
            # 檢查股票代碼格式（包含特別股）
            df['證券代號'] = df['證券代號'].astype(str)
            valid_stock = (
                df['證券代號'].str.match(r'^\d{4,6}$') |  # 一般股票
                df['證券代號'].str.match(r'^\d{4}[A-Z]$') |  # 特別股
                df['證券代號'].str.match(r'^\d{2,3}[0-9A-Z]\d{2}$') |  # ETF
                df['證券代號'].str.match(r'^\d{4}[A-Z]\d$')  # 牛熊證
            )
            
            invalid_stocks = df[~valid_stock]['證券代號'].unique()
            if len(invalid_stocks) > 0:
                return False, f"存在不符合格式的股票代碼: {invalid_stocks[:5]}..."
            
            # 檢查價格合理性
            price_cols = ['開盤價', '最高價', '最低價', '收盤價']
            for col in price_cols:
                df[col] = pd.to_numeric(df[col].astype(str).str.replace(',', ''), errors='coerce')
                if df[col].min() < 0 or df[col].max() > 10000:
                    return False, f"{col}列包含異常值"
            
            # 檢查成交量合理性
            df['成交股數'] = pd.to_numeric(df['成交股數'].astype(str).str.replace(',', ''), errors='coerce')
            df['成交筆數'] = pd.to_numeric(df['成交筆數'].astype(str).str.replace(',', ''), errors='coerce')
            
            if df['成交股數'].min() < 0 or df['成交筆數'].min() < 0:
                return False, "交易數據包含負值"
            
            return True, "個股交易數據驗證通過"
            
        except Exception as e:
            return False, f"驗證個股交易數據時發生錯誤: {str(e)}"
    
    def validate_all(self):
        """執行所有驗證"""
        results = {
            '市場指數驗證:meta_data/market_index': self.validate_market_index(),
            '產業指數驗證:meta_data/industry_index': self.validate_industry_index(),
            '個股交易驗證:meta_data/stock_data_whole': self.validate_stock_data()
        }
        
        # 輸出驗證報告
        self.logger.info("\n=== 數據驗證報告 ===")
        for name, (status, message) in results.items():
            status_str = "通過" if status else "失敗"
            self.logger.info(f"{name}: {status_str}")
            self.logger.info(f"詳細信息: {message}\n")
        
        return results

# 使用示例
if __name__ == "__main__":
    validator = DataValidation()
    results = validator.validate_all()

2024-11-20 13:52:11,685 - INFO - 
=== 數據驗證報告 ===
2024-11-20 13:52:11,688 - INFO - 市場指數驗證:meta_data/market_index: 通過
2024-11-20 13:52:11,689 - INFO - 詳細信息: 市場指數數據驗證通過

2024-11-20 13:52:11,692 - INFO - 產業指數驗證:meta_data/industry_index: 通過
2024-11-20 13:52:11,692 - INFO - 詳細信息: 產業指數數據驗證通過

2024-11-20 13:52:11,693 - INFO - 個股交易驗證:meta_data/stock_data_whole: 通過
2024-11-20 13:52:11,694 - INFO - 詳細信息: 個股交易數據驗證通過



In [12]:
# --02 validation--

In [13]:
class TechnicalValidation:
    """技術指標驗證類"""
    
    def __init__(self, base_path="D:/Min/Python/Project/FA_Data"):
        self.base_path = Path(base_path)
        self.tech_path = self.base_path / 'technical_analysis'
        self.meta_path = self.base_path / 'meta_data'
        self.setup_logging()
    
    def setup_logging(self):
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s',
            handlers=[
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger(__name__)
    
    def read_csv_safely(self, file_path):
        try:
            return pd.read_csv(file_path, low_memory=False)
        except Exception as e:
            self.logger.error(f"讀取文件 {file_path} 時發生錯誤: {str(e)}")
            return None
    
    def validate_technical_columns(self, df):
        """驗證技術指標欄位"""
        required_indicators = [
            'SMA30', 'DEMA30', 'EMA30',  # 移動平均線系列
            'RSI',  # RSI指標
            'MACD', 'MACD_signal', 'MACD_hist',  # MACD系列
            'slowk', 'slowd',  # KD指標
            'TSF',  # 時間序列預測
            'SAR',  # 拋物線指標
            'middleband'  # 布林通道
        ]
        
        missing_cols = [col for col in required_indicators if col not in df.columns]
        if missing_cols:
            return False, f"缺少以下技術指標: {missing_cols}"
        return True, "所有必要的技術指標欄位都存在"
    
    def validate_indicator_values(self, df):
        """驗證指標數值的合理性"""
        try:
            # 檢查RSI範圍並打印異常值
            if 'RSI' in df.columns:
                invalid_rsi = df[~df['RSI'].between(0, 100, inclusive='both')]
                if not invalid_rsi.empty:
                    logging.warning(f"Found invalid RSI values:\n{invalid_rsi[['日期', 'RSI']].head()}")
                    return False, "RSI值超出合理範圍(0-100)"
            
            # 檢查KD範圍
            for kd_col in ['slowk', 'slowd']:
                if kd_col in df.columns:
                    invalid_kd = df[~df[kd_col].between(0, 100, inclusive='both')]
                    if not invalid_kd.empty:
                        logging.warning(f"Found invalid {kd_col} values:\n{invalid_kd[['日期', kd_col]].head()}")
                        return False, f"{kd_col}值超出合理範圍(0-100)"
            
            # 驗證移動平均線
            price_mean = df['收盤價'].mean()
            ma_cols = ['SMA30', 'DEMA30', 'EMA30']
            for col in ma_cols:
                if col in df.columns:
                    if df[col].mean() > price_mean * 2 or df[col].mean() < price_mean * 0.5:
                        return False, f"{col}的均值異常偏離價格均值"
            
            return True, "所有指標數值都在合理範圍內"
                
        except Exception as e:
            return False, f"驗證指標數值時發生錯誤: {str(e)}"
    
    def validate_calculation_consistency(self, stock_id):
        """驗證技術指標計算的一致性"""
        try:
            # 讀取原始數據和技術指標數據
            raw_file = self.tech_path / f"{stock_id}_indicators.csv"
            df = self.read_csv_safely(raw_file)
            
            if df is None:
                return False, f"無法讀取股票{stock_id}的技術指標檔案"
            
            # 使用收盤價重新計算一些指標進行驗證
            close_prices = df['收盤價'].values
            
            # 計算SMA進行比對
            sma_check = talib.SMA(close_prices, timeperiod=30)
            sma_diff = np.abs(sma_check - df['SMA30'].values)
            if np.nanmean(sma_diff) > 0.1:  # 允許0.1的平均誤差
                return False, "SMA30計算結果不一致"
            
            # 計算RSI進行比對
            rsi_check = talib.RSI(close_prices, timeperiod=14)
            rsi_diff = np.abs(rsi_check - df['RSI'].values)
            if np.nanmean(rsi_diff) > 1:  # 允許1的平均誤差
                return False, "RSI計算結果不一致"
            
            return True, "技術指標計算結果驗證通過"
            
        except Exception as e:
            return False, f"驗證計算一致性時發生錯誤: {str(e)}"
    
    def validate_data_continuity(self, df):
        """驗證數據的連續性"""
        try:
            # 檢查技術指標的缺失值
            indicator_cols = ['SMA30', 'DEMA30', 'EMA30', 'RSI', 'MACD', 'slowk', 'slowd']
            for col in indicator_cols:
                na_ratio = df[col].isna().mean()
                if na_ratio > 0.1:  # 允許10%的缺失
                    return False, f"{col}的缺失值比例過高({na_ratio:.2%})"
            
            # 檢查指標之間的連續性
            ma_cols = ['SMA30', 'DEMA30', 'EMA30']
            for col in ma_cols:
                jumps = np.abs(df[col].diff() / df[col].shift())
                if (jumps > 0.1).any():  # 檢查是否有超過10%的跳變
                    return False, f"{col}存在異常跳變"
            
            return True, "數據連續性驗證通過"
            
        except Exception as e:
            return False, f"驗證數據連續性時發生錯誤: {str(e)}"
    
    def validate_stock(self, stock_id):
        """驗證單一股票的技術指標"""
        try:
            file_path = self.tech_path / f"{stock_id}_indicators.csv"
            df = self.read_csv_safely(file_path)
            
            if df is None:
                return False, f"無法讀取股票{stock_id}的技術指標檔案"
            
            # 執行各項驗證
            cols_status, cols_msg = self.validate_technical_columns(df)
            if not cols_status:
                return cols_status, cols_msg
                
            values_status, values_msg = self.validate_indicator_values(df)
            if not values_status:
                return values_status, values_msg
                
            calc_status, calc_msg = self.validate_calculation_consistency(stock_id)
            if not calc_status:
                return calc_status, calc_msg
                
            cont_status, cont_msg = self.validate_data_continuity(df)
            if not cont_status:
                return cont_status, cont_msg
            
            return True, "所有技術指標驗證通過"
            
        except Exception as e:
            return False, f"驗證過程中發生錯誤: {str(e)}"
    
    def validate_all(self, sample_size=5):
        """驗證抽樣股票的技術指標"""
        try:
            # 獲取所有技術指標文件
            tech_files = list(self.tech_path.glob('*_indicators.csv'))
            if not tech_files:
                return False, "找不到任何技術指標文件"
            
            # 隨機抽樣
            sample_files = np.random.choice(tech_files, min(sample_size, len(tech_files)), replace=False)
            
            results = {}
            for file_path in sample_files:
                stock_id = file_path.stem.split('_')[0]
                status, message = self.validate_stock(stock_id)
                results[stock_id] = (status, message)
            
            # 輸出驗證報告
            self.logger.info("\n=== 技術指標驗證報告 ===")
            failed_stocks = []
            for stock_id, (status, message) in results.items():
                status_str = "通過" if status else "失敗"
                self.logger.info(f"股票 {stock_id}: {status_str}")
                self.logger.info(f"詳細信息: {message}\n")
                if not status:
                    failed_stocks.append(stock_id)
            
            if failed_stocks:
                return False, f"以下股票驗證失敗: {failed_stocks}"
            return True, f"所有抽樣股票({len(sample_files)}支)的技術指標驗證通過"
            
        except Exception as e:
            return False, f"驗證過程中發生錯誤: {str(e)}"

# 使用示例
if __name__ == "__main__":
    validator = TechnicalValidation()
    # 驗證所有股票的技術指標（抽樣5支）
    status, message = validator.validate_all(sample_size=5)
    
    # 或驗證特定股票
    # status, message = validator.validate_stock('2330')

2024-11-20 13:52:11,936 - INFO - 
=== 技術指標驗證報告 ===
2024-11-20 13:52:11,937 - INFO - 股票 6952: 失敗
2024-11-20 13:52:11,937 - INFO - 詳細信息: SMA30的缺失值比例過高(28.43%)

2024-11-20 13:52:11,938 - INFO - 股票 1609: 通過
2024-11-20 13:52:11,938 - INFO - 詳細信息: 所有技術指標驗證通過

2024-11-20 13:52:11,939 - INFO - 股票 1909: 通過
2024-11-20 13:52:11,940 - INFO - 詳細信息: 所有技術指標驗證通過

2024-11-20 13:52:11,940 - INFO - 股票 6558: 通過
2024-11-20 13:52:11,941 - INFO - 詳細信息: 所有技術指標驗證通過

2024-11-20 13:52:11,942 - INFO - 股票 6937: 失敗
2024-11-20 13:52:11,943 - INFO - 詳細信息: SMA30的缺失值比例過高(13.12%)



In [14]:
# --03 validation--

In [15]:
class FeatureValidation:
    """特徵生成驗證類"""
    
    def __init__(self, base_path="D:/Min/Python/Project/FA_Data"):
        self.base_path = Path(base_path)
        self.meta_path = self.base_path / 'meta_data'
        self.enhanced_features_path = self.meta_path / 'enhanced_features.csv'
        self.setup_logging()
    
    def setup_logging(self):
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s',
            handlers=[
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger(__name__)
    
    def read_csv_safely(self, file_path):
        try:
            return pd.read_csv(file_path, low_memory=False)
        except Exception as e:
            self.logger.error(f"讀取文件 {file_path} 時發生錯誤: {str(e)}")
            return None
    
    def validate_volume_features(self, df):
        """驗證量能特徵"""
        try:
            required_features = ['量比', '量增率', '量能趨勢']
            missing_features = [f for f in required_features if f not in df.columns]
            if missing_features:
                return False, f"缺少以下量能特徵: {missing_features}"
            
            # 驗證量比 (允許更大的範圍)
            if (df['量比'] < 0).any():
                invalid_vol_ratio = df[df['量比'] < 0][['日期', '量比']].head()
                return False, f"量比出現負值:\n{invalid_vol_ratio}"
            
            # 放寬量增率的限制 (允許更大的變化)
            extreme_volume_change = df[df['量增率'].abs() > 50]  # 調整為50倍
            if not extreme_volume_change.empty:
                return False, f"量增率過於極端:\n{extreme_volume_change[['日期', '量增率']].head()}"
            
            return True, "量能特徵驗證通過"
            
        except Exception as e:
            return False, f"驗證量能特徵時發生錯誤: {str(e)}"
    
    def validate_volatility_features(self, df):
        """驗證波動特徵"""
        try:
            required_features = ['日內波動率', '振幅', '漲跌幅', '波動率趨勢']
            missing_features = [f for f in required_features if f not in df.columns]
            if missing_features:
                return False, f"缺少以下波動特徵: {missing_features}"
            
            # 驗證日內波動率
            if (df['日內波動率'] < 0).any():
                invalid_vol = df[df['日內波動率'] < 0][['日期', '日內波動率']].head()
                return False, f"日內波動率出現負值:\n{invalid_vol}"
            
            # 驗證振幅
            if (df['振幅'] < 0).any():
                invalid_amp = df[df['振幅'] < 0][['日期', '振幅']].head()
                return False, f"振幅出現負值:\n{invalid_amp}"
            
            return True, "波動特徵驗證通過"
            
        except Exception as e:
            return False, f"驗證波動特徵時發生錯誤: {str(e)}"
    
    def validate_trend_features(self, df):
        """驗證趨勢特徵"""
        try:
            required_features = ['趨勢強度', '通道寬度變化', '趨勢動能', '趨勢持續性']
            missing_features = [f for f in required_features if f not in df.columns]
            if missing_features:
                return False, f"缺少以下趨勢特徵: {missing_features}"
            
            # 驗證趨勢強度範圍
            if (df['趨勢強度'].abs() > 1).any():  # 允許±100%的偏離
                invalid_trend = df[df['趨勢強度'].abs() > 1][['日期', '趨勢強度']].head()
                return False, f"趨勢強度異常:\n{invalid_trend}"
            
            # 驗證趨勢動能連續性
            momentum_gaps = df['趨勢動能'].diff().abs()
            if (momentum_gaps > 0.5).any():  # 檢查是否有突變
                invalid_momentum = df[momentum_gaps > 0.5][['日期', '趨勢動能']].head()
                return False, f"趨勢動能出現突變:\n{invalid_momentum}"
            
            return True, "趨勢特徵驗證通過"
            
        except Exception as e:
            return False, f"驗證趨勢特徵時發生錯誤: {str(e)}"
    
    def validate_technical_features(self, df):
        """驗證技術特徵"""
        try:
            required_features = ['KD_差值', '均線糾結度', 'RSI_動能', 'MACD_動能', 
                               '波動率', '本益比_相對值', '技術綜合評分']
            missing_features = [f for f in required_features if f not in df.columns]
            if missing_features:
                return False, f"缺少以下技術特徵: {missing_features}"
            
            # 驗證KD差值範圍
            if (df['KD_差值'].abs() > 100).any():
                invalid_kd = df[df['KD_差值'].abs() > 100][['日期', 'KD_差值']].head()
                return False, f"KD差值異常:\n{invalid_kd}"
            
            # 驗證均線糾結度
            if not (0 <= df['均線糾結度']).all() or not (df['均線糾結度'] <= 1).all():
                invalid_ma = df[~df['均線糾結度'].between(0, 1)][['日期', '均線糾結度']].head()
                return False, f"均線糾結度超出範圍[0,1]:\n{invalid_ma}"
            
            # 驗證技術綜合評分
            if not (0 <= df['技術綜合評分']).all() or not (df['技術綜合評分'] <= 100).all():
                invalid_score = df[~df['技術綜合評分'].between(0, 100)][['日期', '技術綜合評分']].head()
                return False, f"技術綜合評分超出範圍[0,100]:\n{invalid_score}"
            
            return True, "技術特徵驗證通過"
            
        except Exception as e:
            return False, f"驗證技術特徵時發生錯誤: {str(e)}"
    
    def validate_stock_features(self, stock_id):
        """驗證單一股票的特徵"""
        try:
            file_path = self.features_path / f"{stock_id}_features.csv"
            df = self.read_csv_safely(file_path)
            
            if df is None:
                return False, f"無法讀取股票{stock_id}的特徵檔案"
            
            # 驗證各類特徵
            volume_status, volume_msg = self.validate_volume_features(df)
            if not volume_status:
                return volume_status, volume_msg
                
            volatility_status, volatility_msg = self.validate_volatility_features(df)
            if not volatility_status:
                return volatility_status, volatility_msg
                
            trend_status, trend_msg = self.validate_trend_features(df)
            if not trend_status:
                return trend_status, trend_msg
                
            tech_status, tech_msg = self.validate_technical_features(df)
            if not tech_status:
                return tech_status, tech_msg
            
            return True, "所有特徵驗證通過"
            
        except Exception as e:
            return False, f"驗證過程中發生錯誤: {str(e)}"
    
    def validate_all(self, sample_size=5):
        """驗證抽樣股票的特徵"""
        try:
            # 讀取增強特徵檔案
            if not self.enhanced_features_path.exists():
                return False, f"找不到特徵檔案: {self.enhanced_features_path}"
            
            df = pd.read_csv(self.enhanced_features_path, dtype={'證券代號': str})
            
            # 隨機抽樣股票
            sample_stocks = np.random.choice(df['證券代號'].unique(), min(sample_size, len(df['證券代號'].unique())), replace=False)
            
            results = {}
            for stock_id in sample_stocks:
                stock_df = df[df['證券代號'] == stock_id].copy()
                
                # 驗證各類特徵
                volume_status, volume_msg = self.validate_volume_features(stock_df)
                volatility_status, volatility_msg = self.validate_volatility_features(stock_df)
                trend_status, trend_msg = self.validate_trend_features(stock_df)
                tech_status, tech_msg = self.validate_technical_features(stock_df)
                
                # 彙整驗證結果
                status = all([volume_status, volatility_status, trend_status, tech_status])
                message = "\n".join(filter(None, [volume_msg, volatility_msg, trend_msg, tech_msg]))
                results[stock_id] = (status, message)
            
            # 輸出驗證報告
            self.logger.info("\n=== 特徵生成驗證報告 ===")
            failed_stocks = []
            for stock_id, (status, message) in results.items():
                status_str = "通過" if status else "失敗"
                self.logger.info(f"股票 {stock_id}: {status_str}")
                self.logger.info(f"詳細信息: {message}\n")
                if not status:
                    failed_stocks.append(stock_id)
            
            if failed_stocks:
                return False, f"以下股票驗證失敗: {failed_stocks}"
            return True, f"所有抽樣股票({len(sample_stocks)}支)的特徵驗證通過"
            
        except Exception as e:
            return False, f"驗證過程中發生錯誤: {str(e)}"

# 使用示例
if __name__ == "__main__":
    validator = FeatureValidation()
    status, message = validator.validate_all(sample_size=5)
    print(f"驗證結果: {'通過' if status else '失敗'}")
    print(f"詳細信息: {message}")

2024-11-20 13:52:12,032 - INFO - 
=== 特徵生成驗證報告 ===
2024-11-20 13:52:12,033 - INFO - 股票 911201: 失敗
2024-11-20 13:52:12,034 - INFO - 詳細信息: 缺少以下量能特徵: ['量比', '量增率', '量能趨勢']
缺少以下波動特徵: ['日內波動率', '振幅', '漲跌幅', '波動率趨勢']
缺少以下趨勢特徵: ['趨勢強度', '通道寬度變化', '趨勢動能', '趨勢持續性']
缺少以下技術特徵: ['KD_差值', '均線糾結度', 'RSI_動能', 'MACD_動能', '波動率', '本益比_相對值', '技術綜合評分']



驗證結果: 失敗
詳細信息: 以下股票驗證失敗: ['911201']


In [16]:
# --03 testing--

In [3]:
def validate_problem_stocks():
    """驗證有問題的股票資料"""
    
    # 問題股票分類
    problem_stocks = {
        'no_industry': [
            '1201', '1203', '1210', '1213', '1215', '1216', '1217', '1218', '1219', '1220',
            '1225', '1227', '1229', '1231', '1232', '1233', '1234', '1235', '1236', '1256',
            '1563', '1702', '1737', '2254', '2258', '2646', '2801', '2809', '2812', '2816',
            '2820', '2823', '2832', '2833', '2834', '2836', '2837', '2838', '2845', '2847',
            '2849', '2850', '2851', '2852', '2855', '2856', '2867', '2880', '2881', '3054',
            '3150', '3716', '4949', '6005', '6024', '6423', '6534', '6771', '6794', '6838',
            '6854', '6869', '6873', '6890', '6902', '6914', '6919', '6923', '6928', '8162',
            '8487'
        ],
        'empty_per_ratio': [
            '1101B', '2888A', '2888B', '2891A', '2891B', '2891C', '2897A', '2897B', '3036A',
            '3061', '3519', '3579', '3584', '3702A', '4108', '5259', '5871A', '6541', '6550',
            '6592A', '6592B', '6598', '6645', '6657', '6901', '6949', '6969'
        ],
        'empty_price': [
            '910069', '910708'
        ],
        'empty_kd': [
            '1312A', '1470', '1516', '2491', '2496', '2540', '6172', '6225', '911622', '9188',
            '9931'
        ]
    }
    
    # 檔案路徑
    base_path = Path("D:/Min/Python/Project/FA_Data")
    files_to_check = {
        'stock_data': base_path / 'meta_data' / 'stock_data_whole.csv',
        'industry_data': base_path / 'meta_data' / 'companies_final.csv',
        'technical_data': base_path / 'technical_analysis'
    }
    
    try:
        # 讀取原始資料
        stock_data = pd.read_csv(files_to_check['stock_data'], dtype={'證券代號': str})
        industry_data = pd.read_csv(files_to_check['industry_data'], dtype={'stock_id': str})
        
        print("====== 問題股票驗證報告 ======\n")
        
        # 1. 驗證無產業分類股票
        print("1. 無產業分類股票驗證:")
        for stock_id in problem_stocks['no_industry']:
            industry_info = industry_data[industry_data['stock_id'] == stock_id]
            if industry_info.empty:
                print(f"股票 {stock_id} 在 companies_final.csv 中確實缺少")
            else:
                print(f"股票 {stock_id} 實際上有產業分類: {industry_info['industry_category'].iloc[0]}")
        
        # 2. 驗證本益比空值股票
        print("\n2. 本益比空值股票驗證:")
        for stock_id in problem_stocks['empty_per_ratio']:
            stock_info = stock_data[stock_data['證券代號'] == stock_id]
            if not stock_info.empty:
                per_null_ratio = stock_info['本益比'].isna().mean()
                print(f"股票 {stock_id} 本益比空值比例: {per_null_ratio:.2%}")
        
        # 3. 驗證開盤價問題股票
        print("\n3. 開盤價問題股票驗證:")
        for stock_id in problem_stocks['empty_price']:
            stock_info = stock_data[stock_data['證券代號'] == stock_id]
            if not stock_info.empty:
                price_null_ratio = stock_info['開盤價'].isna().mean()
                print(f"股票 {stock_id} 開盤價空值比例: {price_null_ratio:.2%}")
                
                # 顯示有數據的日期範圍
                valid_data = stock_info[stock_info['開盤價'].notna()]
                if not valid_data.empty:
                    print(f"   有效數據期間: {valid_data['日期'].min()} 到 {valid_data['日期'].max()}")
        
        # 4. 驗證KD指標問題股票
        print("\n4. KD指標問題股票驗證:")
        for stock_id in problem_stocks['empty_kd']:
            tech_file = files_to_check['technical_data'] / f"{stock_id}_indicators.csv"
            if tech_file.exists():
                tech_data = pd.read_csv(tech_file)
                kd_null_ratio = tech_data[['slowk', 'slowd']].isna().mean()
                print(f"股票 {stock_id} KD指標空值比例: K:{kd_null_ratio['slowk']:.2%}, D:{kd_null_ratio['slowd']:.2%}")
            else:
                print(f"股票 {stock_id} 缺少技術指標文件")
        
        print("\n====== 驗證報告完成 ======")
        
    except Exception as e:
        print(f"驗證過程發生錯誤: {str(e)}")

# 執行驗證
validate_problem_stocks()

  stock_data = pd.read_csv(files_to_check['stock_data'], dtype={'證券代號': str})



1. 無產業分類股票驗證:
股票 1201 實際上有產業分類: 食品類
股票 1203 實際上有產業分類: 食品類
股票 1210 實際上有產業分類: 食品類
股票 1213 實際上有產業分類: 食品類
股票 1215 實際上有產業分類: 食品類
股票 1216 實際上有產業分類: 食品類
股票 1217 實際上有產業分類: 食品類
股票 1218 實際上有產業分類: 食品類
股票 1219 實際上有產業分類: 食品類
股票 1220 實際上有產業分類: 食品類
股票 1225 實際上有產業分類: 食品類
股票 1227 實際上有產業分類: 食品類
股票 1229 實際上有產業分類: 食品類
股票 1231 實際上有產業分類: 食品類
股票 1232 實際上有產業分類: 食品類
股票 1233 實際上有產業分類: 食品類
股票 1234 實際上有產業分類: 食品類
股票 1235 實際上有產業分類: 食品類
股票 1236 實際上有產業分類: 食品類
股票 1256 實際上有產業分類: 食品類
股票 1563 實際上有產業分類: 汽車類
股票 1702 實際上有產業分類: 食品類
股票 1737 實際上有產業分類: 食品類
股票 2254 實際上有產業分類: 電子工業類
股票 2258 實際上有產業分類: 電子工業類
股票 2646 實際上有產業分類: 航運類
股票 2801 實際上有產業分類: 金融保險類
股票 2809 實際上有產業分類: 金融保險類
股票 2812 實際上有產業分類: 金融保險類
股票 2816 實際上有產業分類: 金融保險類
股票 2820 實際上有產業分類: 金融保險類
股票 2823 實際上有產業分類: 金融保險類
股票 2832 實際上有產業分類: 金融保險類
股票 2833 實際上有產業分類: 金融保險類
股票 2834 實際上有產業分類: 金融保險類
股票 2836 實際上有產業分類: 金融保險類
股票 2837 實際上有產業分類: 金融保險類
股票 2838 實際上有產業分類: 金融保險類
股票 2845 實際上有產業分類: 金融保險類
股票 2847 實際上有產業分類: 金融保險類
股票 2849 實際上有產業分類: 金融保險類
股票 2850 實際上有產業分類: 金融保險類
股票 2851 實際上有產業分類: 金融保險類
股

In [30]:
def validate_problem_stocks_detailed():
    """更詳細的問題股票驗證"""
    
    # 檔案路徑設定
    base_path = Path("D:/Min/Python/Project/FA_Data")
    files_to_check = {
        'stock_data': base_path / 'meta_data' / 'stock_data_whole.csv',
        'industry_data': base_path / 'meta_data' / 'companies_final.csv',
        'technical_data': base_path / 'technical_analysis'
    }
    
    try:
        # 讀取資料
        stock_data = pd.read_csv(
            files_to_check['stock_data'], 
            dtype={'證券代號': str},
            low_memory=False
        )
        industry_data = pd.read_csv(
            files_to_check['industry_data'], 
            dtype={'stock_id': str}
        )
        
        print("====== 詳細問題股票驗證報告 ======\n")
        
        # 1. 檢查產業分類問題
        print("1. 產業分類問題檢查:")
        industry_mapping = industry_data.set_index('stock_id')['industry_category'].to_dict()
        for stock_id in sorted(industry_mapping.keys())[:5]:  # 顯示前5筆正常案例
            print(f"正常案例 - 股票 {stock_id}: {industry_mapping.get(stock_id)}")
            
        print("\n真正缺少產業分類的股票:")
        missing_industry = [
            '1563', '2254', '2258', '2646', '3150', '3716', '4949', 
            '6423', '6534', '6771', '6794', '6838', '6854', '6869', 
            '6873', '6890', '6902', '6914', '6919', '6923', '6928', 
            '8162', '8487'
        ]
        for stock_id in missing_industry:
            stock_info = stock_data[stock_data['證券代號'] == stock_id]
            if not stock_info.empty:
                print(f"股票 {stock_id} - 交易期間: {stock_info['日期'].min()} 到 {stock_info['日期'].max()}")
        
        # 2. 本益比問題詳細檢查
        print("\n2. 本益比資料詳細檢查:")
        per_problem_stocks = [
            '1101B', '2888A', '2891A', '2891B', '2891C', '3036A', 
            '5871A', '6592A', '6592B'
        ]
        for stock_id in per_problem_stocks[:5]:  # 檢查前5支股票
            stock_info = stock_data[stock_data['證券代號'] == stock_id]
            if not stock_info.empty:
                per_data = stock_info['本益比']
                print(f"\n股票 {stock_id} 本益比資料:")
                print(f"- 資料筆數: {len(per_data)}")
                print(f"- 非空值筆數: {per_data.notna().sum()}")
                print(f"- 數值範圍: {per_data.min():.2f} 到 {per_data.max():.2f}")
                print(f"- 前5筆資料:\n{per_data.head().to_string()}")
        
        # 3. 檢查特定股票的所有技術指標
        print("\n3. 技術指標詳細檢查:")
        kd_problem_stocks = ['1470', '1516', '2491', '6172', '9931']
        for stock_id in kd_problem_stocks[:2]:  # 檢查前2支股票
            tech_file = files_to_check['technical_data'] / f"{stock_id}_indicators.csv"
            if tech_file.exists():
                tech_data = pd.read_csv(tech_file)
                print(f"\n股票 {stock_id} 技術指標:")
                print("- 可用指標:", ', '.join(tech_data.columns))
                for indicator in ['slowk', 'slowd', 'RSI', 'MACD']:
                    if indicator in tech_data.columns:
                        valid_data = tech_data[indicator].notna()
                        print(f"- {indicator}: 有效資料比例 {valid_data.mean():.2%}")
        
        print("\n====== 詳細驗證報告完成 ======")
        
    except Exception as e:
        print(f"驗證過程發生錯誤: {str(e)}")

# 執行詳細驗證
validate_problem_stocks_detailed()


1. 產業分類問題檢查:
正常案例 - 股票 1101: 水泥類
正常案例 - 股票 1101B: 水泥類
正常案例 - 股票 1102: 水泥類
正常案例 - 股票 1103: 水泥類
正常案例 - 股票 1104: 水泥類

真正缺少產業分類的股票:
股票 1563 - 交易期間: 2024-05-13 到 2024-11-12
股票 2254 - 交易期間: 2023-10-20 到 2024-11-12
股票 2258 - 交易期間: 2023-11-20 到 2024-11-12
股票 2646 - 交易期間: 2024-10-25 到 2024-11-12
股票 3150 - 交易期間: 2024-06-27 到 2024-11-12
股票 3716 - 交易期間: 2024-09-02 到 2024-11-12
股票 4949 - 交易期間: 2024-05-09 到 2024-11-12
股票 6423 - 交易期間: 2024-05-15 到 2024-11-12
股票 6534 - 交易期間: 2023-12-21 到 2024-11-12
股票 6771 - 交易期間: 2024-05-17 到 2024-11-12
股票 6794 - 交易期間: 2024-05-21 到 2024-11-12
股票 6838 - 交易期間: 2024-08-13 到 2024-11-12
股票 6854 - 交易期間: 2022-08-18 到 2024-11-12
股票 6869 - 交易期間: 2023-03-14 到 2024-11-12
股票 6873 - 交易期間: 2023-03-06 到 2024-11-12
股票 6890 - 交易期間: 2024-06-12 到 2024-11-12
股票 6902 - 交易期間: 2023-07-13 到 2024-11-12
股票 6914 - 交易期間: 2024-05-03 到 2024-11-12
股票 6919 - 交易期間: 2024-10-04 到 2024-11-12
股票 6923 - 交易期間: 2024-09-25 到 2024-11-12
股票 6928 - 交易期間: 2024-05-16 到 2024-11-12
股票 8162 - 交易期間: 2024-03-07 到 20

In [32]:
missing_stocks = {
    '2254': '電子工業類',  # 力特光電
    '2258': '電子工業類',  # 海德威
    '6534': '半導體類',    # 正瀚生技
    '6854': '生技醫療類',  # 可成生技
    '6902': '其他類',      # 最新股票
    '8162': '電子商務類',  # 金宇教育
    '8487': '運動休閒類'   # 金玉旺
}

def update_remaining_stocks():
    """更新剩餘缺少產業分類的股票"""
    try:
        # 讀取現有產業分類
        industry_path = Path("D:/Min/Python/Project/FA_Data/meta_data/companies_final.csv")
        industry_df = pd.read_csv(industry_path, dtype={'stock_id': str})
        
        # 新增缺少的股票
        new_data = pd.DataFrame({
            'stock_id': list(missing_stocks.keys()),
            'industry_category': list(missing_stocks.values())
        })
        
        # 合併並保存
        updated_df = pd.concat([industry_df, new_data], ignore_index=True)
        updated_df = updated_df.drop_duplicates(subset=['stock_id'])
        updated_df.to_csv(industry_path, index=False)
        
        print(f"已新增 {len(missing_stocks)} 支股票的產業分類")
        
    except Exception as e:
        print(f"更新失敗: {str(e)}")

def read_stock_data(file_path: Path) -> pd.DataFrame:
    """讀取股票資料並正確處理資料類型"""
    try:
        # 先用字串類型讀取所有數值欄位
        df = pd.read_csv(
            file_path,
            dtype={
                '證券代號': str,
                '證券名稱': str,
                '日期': str
            },
            low_memory=False,
            na_values=['--']
        )
        
        # 處理數值欄位
        numeric_columns = {
            '成交股數': float,
            '成交筆數': float,
            '成交金額': float,
            '開盤價': float,
            '最高價': float,
            '最低價': float,
            '收盤價': float,
            '漲跌價差': float,
            '最後揭示買價': float,
            '最後揭示買量': float,
            '最後揭示賣價': float,
            '最後揭示賣量': float,
            '本益比': float
        }
        
        # 處理每個數值欄位
        for col, dtype in numeric_columns.items():
            if col in df.columns:
                # 移除千分位符號並轉換為數值
                df[col] = df[col].apply(lambda x: 
                    pd.NA if pd.isna(x) else
                    dtype(str(x).replace(',', '')) if str(x).strip() != '--' else
                    pd.NA
                )
        
        return df
        
    except Exception as e:
        print(f"讀取資料錯誤: {str(e)}")
        return None

def verify_data_quality():
    """完整的資料品質驗證"""
    try:
        base_path = Path("D:/Min/Python/Project/FA_Data")
        
        # 1. 檢查產業分類完整性
        industry_df = pd.read_csv(
            base_path / "meta_data" / "companies_final.csv",
            dtype={'stock_id': str}
        )
        print(f"產業分類表中共有 {len(industry_df)} 家公司")
        
        # 2. 讀取並檢查股票資料
        stock_data = read_stock_data(base_path / "meta_data" / "stock_data_whole.csv")
        if stock_data is None:
            raise ValueError("無法讀取股票資料")
            
        # 找出特別股
        special_stocks = stock_data[
            stock_data['證券代號'].str.contains('[A-Z]$', na=False, regex=True)
        ]['證券代號'].unique()
        
        print(f"\n找到 {len(special_stocks)} 支特別股")
        
        # 3. 特別股資料檢查
        for stock_id in special_stocks[:5]:  # 只顯示前5支
            stock_df = stock_data[stock_data['證券代號'] == stock_id]
            if not stock_df.empty:
                print(f"\n股票 {stock_id} 資料檢查:")
                print(f"- 資料筆數: {len(stock_df):,}")
                print(f"- 本益比空值比例: {stock_df['本益比'].isna().mean():.2%}")
                print(f"- 開盤價空值比例: {stock_df['開盤價'].isna().mean():.2%}")
                # 顯示有效的數值範圍
                if not stock_df['開盤價'].isna().all():
                    price_range = stock_df['開盤價'].dropna()
                    print(f"- 開盤價範圍: {price_range.min():.2f} 到 {price_range.max():.2f}")
        
        # 4. 檢查技術指標檔案
        tech_path = base_path / "technical_analysis"
        if tech_path.exists():
            tech_files = list(tech_path.glob("*_indicators.csv"))
            print(f"\n技術指標檔案總數: {len(tech_files):,}")
            
            # 檢查幾個範例檔案
            for tech_file in tech_files[:3]:
                try:
                    tech_df = pd.read_csv(tech_file)
                    stock_id = tech_file.stem.split('_')[0]
                    print(f"\n股票 {stock_id} 技術指標:")
                    print(f"- 資料筆數: {len(tech_df):,}")
                    print(f"- 可用指標: {', '.join(tech_df.columns)}")
                except Exception as e:
                    print(f"讀取 {tech_file.name} 時發生錯誤: {str(e)}")
        
        print("\n資料驗證完成")
        
    except Exception as e:
        print(f"驗證過程發生錯誤: {str(e)}\n{traceback.format_exc()}")

# 執行驗證
update_remaining_stocks()
verify_data_quality()

已新增 7 支股票的產業分類
產業分類表中共有 2335 家公司

找到 30 支特別股

股票 1101B 資料檢查:
- 資料筆數: 1,404
- 本益比空值比例: 0.00%
- 開盤價空值比例: 8.69%
- 開盤價範圍: 46.40 到 55.00

股票 1312A 資料檢查:
- 資料筆數: 2,593
- 本益比空值比例: 0.00%
- 開盤價空值比例: 20.67%
- 開盤價範圍: 19.90 到 38.80

股票 1522A 資料檢查:
- 資料筆數: 792
- 本益比空值比例: 0.00%
- 開盤價空值比例: 16.67%
- 開盤價範圍: 42.50 到 47.50

股票 2002A 資料檢查:
- 資料筆數: 2,593
- 本益比空值比例: 0.00%
- 開盤價空值比例: 3.12%
- 開盤價範圍: 36.70 到 55.50

股票 2348A 資料檢查:
- 資料筆數: 760
- 本益比空值比例: 0.00%
- 開盤價空值比例: 16.18%
- 開盤價範圍: 32.55 到 40.00

技術指標檔案總數: 1,147

股票 1101B 技術指標:
- 資料筆數: 1,404
- 可用指標: 證券代號, 證券名稱, 成交股數, 成交筆數, 成交金額, 開盤價, 最高價, 最低價, 收盤價, 漲跌(+/-), 漲跌價差, 最後揭示買價, 最後揭示買量, 最後揭示賣價, 最後揭示賣量, 本益比, 日期, SMA30, DEMA30, EMA30, RSI, MACD, MACD_signal, MACD_hist, slowk, slowd, TSF, middleband, SAR

股票 1101 技術指標:
- 資料筆數: 2,593
- 可用指標: 證券代號, 證券名稱, 成交股數, 成交筆數, 成交金額, 開盤價, 最高價, 最低價, 收盤價, 漲跌(+/-), 漲跌價差, 最後揭示買價, 最後揭示買量, 最後揭示賣價, 最後揭示賣量, 本益比, 日期, SMA30, DEMA30, EMA30, RSI, MACD, MACD_signal, MACD_hist, slowk, slowd, TSF, middleband, SAR

股票 1102 技術指標:
- 資料筆數: 2,593
- 可用

In [16]:
# --04 validation--

In [17]:
class ModelValidation:
    """模型訓練驗證類"""
    
    def __init__(self, base_path="D:/Min/Python/Project/FA_Data"):
        self.base_path = Path(base_path)
        self.models_path = self.base_path / 'models'
        self.meta_path = self.base_path / 'meta_data'
        self.features_path = self.base_path / 'features'
        self.setup_logging()

    def setup_logging(self):
        """設置日誌"""
        logging.basicConfig(
            level=logging.INFO,
            format='%(asctime)s - %(levelname)s - %(message)s',
            handlers=[
                logging.StreamHandler()
            ]
        )
        self.logger = logging.getLogger(__name__)
    
    def validate_model_files(self, stock_id: str) -> Tuple[bool, str]:
        """驗證模型文件的存在性和完整性"""
        try:
            # 檢查必要的模型文件
            required_files = [
                f"{stock_id}_rf_model.joblib",  # Random Forest模型
                f"{stock_id}_xgb_model.joblib", # XGBoost模型
                f"{stock_id}_model_metrics.json", # 模型評估指標
                f"{stock_id}_feature_importance.csv" # 特徵重要性
            ]
            
            missing_files = []
            for file in required_files:
                if not (self.models_path / file).exists():
                    missing_files.append(file)
            
            if missing_files:
                return False, f"缺少以下模型文件: {missing_files}"
            
            return True, "所有必要的模型文件都存在"
            
        except Exception as e:
            return False, f"驗證模型文件時發生錯誤: {str(e)}"
    
    def validate_model_performance(self, stock_id: str) -> Tuple[bool, str]:
        """驗證模型性能指標"""
        try:
            metrics_file = self.models_path / f"{stock_id}_model_metrics.json"
            metrics = pd.read_json(metrics_file)
            
            # 設定性能閾值
            performance_thresholds = {
                'accuracy': 0.55,      # 準確率最低要求
                'precision': 0.5,      # 精確率最低要求
                'recall': 0.5,         # 召回率最低要求
                'f1_score': 0.5,       # F1分數最低要求
                'auc': 0.55           # AUC最低要求
            }
            
            # 檢查每個模型的性能
            failed_metrics = []
            for model_type in ['random_forest', 'xgboost']:
                if model_type in metrics:
                    model_metrics = metrics[model_type]
                    for metric, threshold in performance_thresholds.items():
                        if metric in model_metrics and model_metrics[metric] < threshold:
                            failed_metrics.append(f"{model_type}的{metric}({model_metrics[metric]:.3f})低於閾值{threshold}")
            
            if failed_metrics:
                return False, f"以下性能指標未達標準:\n" + "\n".join(failed_metrics)
            
            return True, "所有性能指標都達到要求"
            
        except Exception as e:
            return False, f"驗證模型性能時發生錯誤: {str(e)}"
    
    def validate_feature_importance(self, stock_id: str) -> Tuple[bool, str]:
        """驗證特徵重要性"""
        try:
            importance_file = self.models_path / f"{stock_id}_feature_importance.csv"
            importance_df = pd.read_csv(importance_file)
            
            # 檢查特徵重要性的分布
            if 'importance' not in importance_df.columns:
                return False, "特徵重要性文件格式錯誤"
            
            # 計算重要性總和
            total_importance = importance_df['importance'].sum()
            if not np.isclose(total_importance, 1.0, atol=0.01):
                return False, f"特徵重要性總和({total_importance:.3f})不等於1"
            
            # 檢查是否有特徵的重要性過於集中
            max_importance = importance_df['importance'].max()
            if max_importance > 0.5:  # 單一特徵的重要性不應超過50%
                dominant_feature = importance_df.loc[importance_df['importance'].idxmax(), 'feature']
                return False, f"特徵'{dominant_feature}'的重要性({max_importance:.3f})過高"
            
            # 檢查是否有太多無關特徵
            low_importance_features = importance_df[importance_df['importance'] < 0.01]
            if len(low_importance_features) > len(importance_df) * 0.3:  # 超過30%的特徵重要性過低
                return False, f"有{len(low_importance_features)}個特徵的重要性過低"
            
            return True, "特徵重要性分布合理"
            
        except Exception as e:
            return False, f"驗證特徵重要性時發生錯誤: {str(e)}"
    
    def validate_model_stability(self, stock_id: str) -> Tuple[bool, str]:
        """驗證模型穩定性"""
        try:
            metrics_file = self.models_path / f"{stock_id}_model_metrics.json"
            metrics = pd.read_json(metrics_file)
            
            # 設定穩定性閾值
            stability_thresholds = {
                'cv_std': 0.1,         # 交叉驗證標準差閾值
                'prediction_var': 0.2   # 預測方差閾值
            }
            
            # 檢查每個模型的穩定性指標
            failed_stability = []
            for model_type in ['random_forest', 'xgboost']:
                if model_type in metrics:
                    model_metrics = metrics[model_type]
                    
                    # 檢查交叉驗證的穩定性
                    if 'cv_scores_std' in model_metrics and model_metrics['cv_scores_std'] > stability_thresholds['cv_std']:
                        failed_stability.append(
                            f"{model_type}的交叉驗證標準差({model_metrics['cv_scores_std']:.3f})超過閾值{stability_thresholds['cv_std']}"
                        )
                    
                    # 檢查預測的穩定性
                    if 'prediction_variance' in model_metrics and model_metrics['prediction_variance'] > stability_thresholds['prediction_var']:
                        failed_stability.append(
                            f"{model_type}的預測方差({model_metrics['prediction_variance']:.3f})超過閾值{stability_thresholds['prediction_var']}"
                        )
            
            if failed_stability:
                return False, f"以下穩定性指標未達標準:\n" + "\n".join(failed_stability)
            
            return True, "模型穩定性指標都達到要求"
            
        except Exception as e:
            return False, f"驗證模型穩定性時發生錯誤: {str(e)}"
    
    def validate_stock(self, stock_id: str) -> Tuple[bool, str]:
        """驗證單一股票的模型訓練結果"""
        try:
            # 驗證模型文件
            files_status, files_msg = self.validate_model_files(stock_id)
            if not files_status:
                return files_status, files_msg
            
            # 驗證模型性能
            performance_status, performance_msg = self.validate_model_performance(stock_id)
            if not performance_status:
                return performance_status, performance_msg
            
            # 驗證特徵重要性
            importance_status, importance_msg = self.validate_feature_importance(stock_id)
            if not importance_status:
                return importance_status, importance_msg
            
            # 驗證模型穩定性
            stability_status, stability_msg = self.validate_model_stability(stock_id)
            if not stability_status:
                return stability_status, stability_msg
            
            return True, "所有模型訓練驗證通過"
            
        except Exception as e:
            return False, f"驗證過程中發生錯誤: {str(e)}"
    
    def validate_all(self, sample_size: int = 5) -> Tuple[bool, str]:
        """驗證抽樣股票的模型訓練結果"""
        try:
            # 獲取所有模型文件
            model_files = list(self.models_path.glob('*_rf_model.joblib'))
            if not model_files:
                return False, "找不到任何模型文件"
            
            # 提取股票代碼
            stock_ids = [f.stem.split('_')[0] for f in model_files]
            
            # 隨機抽樣
            sample_stocks = np.random.choice(stock_ids, min(sample_size, len(stock_ids)), replace=False)
            
            # 驗證結果
            results = {}
            for stock_id in sample_stocks:
                status, message = self.validate_stock(stock_id)
                results[stock_id] = (status, message)
            
            # 輸出驗證報告
            self.logger.info("\n=== 模型訓練驗證報告 ===")
            failed_stocks = []
            for stock_id, (status, message) in results.items():
                status_str = "通過" if status else "失敗"
                self.logger.info(f"股票 {stock_id}: {status_str}")
                self.logger.info(f"詳細信息: {message}\n")
                if not status:
                    failed_stocks.append(stock_id)
            
            if failed_stocks:
                return False, f"以下股票驗證失敗: {failed_stocks}"
            return True, f"所有抽樣股票({len(sample_stocks)}支)的模型訓練驗證通過"
            
        except Exception as e:
            return False, f"驗證過程中發生錯誤: {str(e)}"

In [18]:
validator = ModelValidation()

# 驗證單一股票的模型
status, message = validator.validate_stock('2330')
print(f"驗證結果: {'通過' if status else '失敗'}")
print(f"詳細信息: {message}")

# 或驗證多支股票（默認隨機抽樣5支）
status, message = validator.validate_all(sample_size=5)
print(f"驗證結果: {'通過' if status else '失敗'}")
print(f"詳細信息: {message}")

驗證結果: 失敗
詳細信息: 缺少以下模型文件: ['2330_rf_model.joblib', '2330_xgb_model.joblib', '2330_model_metrics.json', '2330_feature_importance.csv']
驗證結果: 失敗
詳細信息: 找不到任何模型文件


In [19]:
# --05 validation--

In [20]:
# --05 validation--