In [73]:
#!pip install TA-Lib-Precompiled
#!pip install finance-datareader
#!pip install yfinance OpenDartReader pandas tensorflow gymnasium "stable-baselines3[extra]" backtrader matplotlib requests
#!pip install numpy==1.26.4
# (참고) 만약 PyTorch 기반으로 RL Agent 등을 구현하려면 tensorflow 대신 아래 설치
#!pip install torch torchvision torchaudio
# 하고 나서 세션 다시 시작 (런타임 재시작)

In [74]:
# config.py (수정)
import os
from datetime import datetime

class Config:
    def __init__(self):
        # --- 기본 설정 ---
        self.PROJECT_NAME = "AI_Trading_System_Free"
        self.BASE_DIR = "/content/" # Colab 기본 경로
        self.DATA_DIR = os.path.join(self.BASE_DIR, "trading_data")
        self.MODEL_DIR = os.path.join(self.BASE_DIR, "saved_models")
        self.LOG_DIR = os.path.join(self.BASE_DIR, "logs")
        self.DB_PATH = os.path.join(self.DATA_DIR, f"{self.PROJECT_NAME}.db")
        self.LOG_FILE = os.path.join(self.LOG_DIR, f"{self.PROJECT_NAME}.log")
        self.LOG_LEVEL = "INFO" # DEBUG, INFO, WARNING, ERROR, CRITICAL

        # --- API Keys (무료 API 위주) ---
        # OpenDART API 키 (https://opendart.fss.or.kr/)
        self.DART_API_KEY = "6ff7b17753c904539da88d0c5f56f1a48221aaac" # 실제 키 사용

        # --- 데이터 설정 ---
        self.US_TICKERS = ['AAPL', 'MSFT', 'NVDA', 'GOOGL', 'AMZN']
        self.KR_TICKERS = ['005930', '000660', '035720', '051910', '005380']
        self.TARGET_TICKERS = self.US_TICKERS + self.KR_TICKERS

        self.DATA_START_DATE = "2018-01-01"
        self.DATA_END_DATE = datetime.now().strftime('%Y-%m-%d')

        self.TRAIN_START_DATE = "2018-01-01"
        self.TRAIN_END_DATE = "2021-12-31"
        self.VALIDATION_START_DATE = "2022-01-01"
        self.VALIDATION_END_DATE = "2022-12-31"
        self.TEST_START_DATE = "2023-01-01"
        self.TEST_END_DATE = self.DATA_END_DATE

        self.FEATURE_LOOKBACK_WINDOW = 60
        self.USE_TECHNICAL_INDICATORS = True
        self.USE_FUNDAMENTAL_DATA = False # OpenDART 사용 시 True로 변경 가능
        self.USE_SENTIMENT_DATA = False
        self.TECHNICAL_INDICATORS = ['MA5', 'MA20', 'MA60', 'RSI14', 'MACD', 'BB_upper', 'BB_lower', 'ATR']

        # --- 강화학습 (RL) 환경 설정 ---
        self.ENV_WINDOW_SIZE = 30
        self.ENV_INITIAL_BALANCE = 10000000
        self.ENV_POSITION_MAX_RATIO = 0.9
        self.ENV_TRANSACTION_COST_PCT = 0.0015
        self.ENV_SLIPPAGE_PCT = 0.001

        # --- 강화학습 (RL) 에이전트 설정 ---
        self.AGENT_TYPE = "PPO"
        self.AGENT_POLICY = "MlpPolicy"

        self.PPO_N_STEPS = 2048
        self.PPO_BATCH_SIZE = 64
        self.PPO_N_EPOCHS = 10
        self.PPO_GAMMA = 0.99
        self.PPO_GAE_LAMBDA = 0.95
        self.PPO_CLIP_RANGE = 0.2
        self.PPO_ENT_COEF = 0.01
        self.PPO_VF_COEF = 0.5
        self.PPO_LEARNING_RATE = 3e-4
        self.PPO_MAX_GRAD_NORM = 0.5

        # DQN 생략...# DQN 하이퍼파라미터 (참고용, Stable-Baselines3 기준)
        self.DQN_BUFFER_SIZE = 10000
        self.DQN_LEARNING_RATE = 1e-4
        self.DQN_BATCH_SIZE = 32
        self.DQN_GAMMA = 0.99
        self.DQN_TAU = 1.0               # Target network update rate (hard update)
        self.DQN_TRAIN_FREQ = 4          # Train frequency
        self.DQN_GRADIENT_STEPS = 1      # Gradient steps per update
        self.DQN_LEARNING_STARTS = 1000  # 학습 시작 전 최소 버퍼 크기
        self.DQN_EXPLORATION_FRACTION = 0.1 # Epsilon 감소 기간 비율
        self.DQN_EXPLORATION_FINAL_EPS = 0.05 # 최종 Epsilon 값
        self.DQN_TARGET_UPDATE_INTERVAL = 1000 # Target network 업데이트 간격

        self.TOTAL_TRAINING_TIMESTEPS = 100000
        self.SAVE_MODEL_FREQ = 50000

        # --- 백테스팅 설정 ---
        self.BACKTEST_INITIAL_CASH = self.ENV_INITIAL_BALANCE
        self.BACKTEST_COMMISSION_PCT = self.ENV_TRANSACTION_COST_PCT
        self.BACKTEST_SLIPPAGE_PCT = self.ENV_SLIPPAGE_PCT

        # --- 위험 관리 설정 ---
        self.RISK_MAX_POSITION_RATIO = 0.1
        self.RISK_STOP_LOSS_PCT = 0.05
        self.RISK_USE_TRAILING_STOP = True
        self.RISK_TRAILING_STOP_PCT = 0.07
        self.RISK_MAX_SYSTEM_DRAWDOWN = 0.20
        self.RISK_USE_KELLY_CRITERION = False
        self.RISK_KELLY_FRACTION = 0.2
        self.RISK_KELLY_WIN_RATE = 0.55
        self.RISK_KELLY_PAYOFF_RATIO = 1.5

        # --- 기타 ---
        self.RANDOM_SEED = 42

        # --- 디렉토리 생성 ---
        # Google Drive 마운트 확인 후 생성 (이전 답변 참고)
        if os.path.exists('/content/drive/MyDrive'):
            self.BASE_DIR = "/content/drive/MyDrive/Colab_Trading_System/" # Google Drive 경로로 변경
            print(f"Using Google Drive paths: {self.BASE_DIR}")
        else:
            self.BASE_DIR = "/content/" # 임시 폴더 사용
            print("Google Drive not mounted. Using /content/ (temporary storage).")

        self.DATA_DIR = os.path.join(self.BASE_DIR, "trading_data")
        self.MODEL_DIR = os.path.join(self.BASE_DIR, "saved_models")
        self.LOG_DIR = os.path.join(self.BASE_DIR, "logs")
        self.DB_PATH = os.path.join(self.DATA_DIR, f"{self.PROJECT_NAME}.db")
        self.LOG_FILE = os.path.join(self.LOG_DIR, f"{self.PROJECT_NAME}.log")

        os.makedirs(self.DATA_DIR, exist_ok=True)
        os.makedirs(self.MODEL_DIR, exist_ok=True)
        os.makedirs(self.LOG_DIR, exist_ok=True)

cfg = Config()
print("Config object 'cfg' created successfully.") # <--- 확인용 print 추가
print(f"cfg.LOG_LEVEL check in config cell: {hasattr(cfg, 'LOG_LEVEL')}") # <--- 속성 존재 확인

Using Google Drive paths: /content/drive/MyDrive/Colab_Trading_System/
Config object 'cfg' created successfully.
cfg.LOG_LEVEL check in config cell: True


In [75]:
# utils.py
import logging
import time
import os
import random
import numpy as np
import tensorflow as tf # TensorFlow 시드 설정 위해 임포트 (Pytorch 사용 시 torch 임포트)


def setup_logger():
    """로거 설정 함수"""
    # 루트 로거 설정 방지 및 중복 핸들러 방지
    logger = logging.getLogger(cfg.PROJECT_NAME) # 프로젝트 이름으로 로거 가져오기
    if logger.hasHandlers(): # 이미 핸들러가 설정되었다면 추가하지 않음
        logger.handlers.clear()

    logger.setLevel(cfg.LOG_LEVEL)
    log_formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

    # 파일 핸들러
    file_handler = logging.FileHandler(cfg.LOG_FILE)
    file_handler.setFormatter(log_formatter)
    logger.addHandler(file_handler)

    # 콘솔 핸들러
    stream_handler = logging.StreamHandler()
    stream_handler.setFormatter(log_formatter) # 콘솔에도 동일 포맷 적용
    logger.addHandler(stream_handler)

    return logger

logger = setup_logger()
logger.info("Logger setup complete.")
logger.info(f"Log level set to: {cfg.LOG_LEVEL}")
logger.info(f"Log file location: {cfg.LOG_FILE}")


def timeit(func):
    """함수 실행 시간 측정 데코레이터"""
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        logger.debug(f"Function {func.__name__} executed in {end_time - start_time:.4f} seconds")
        return result
    return wrapper

def set_random_seed(seed=cfg.RANDOM_SEED):
    """재현성을 위한 랜덤 시드 설정"""
    random.seed(seed)
    np.random.seed(seed)
    # TensorFlow 시드 설정 (TensorFlow 사용 시)
    tf.random.set_seed(seed)
    # PyTorch 시드 설정 (PyTorch 사용 시)
    # import torch
    # torch.manual_seed(seed)
    # if torch.cuda.is_available():
    #     torch.cuda.manual_seed_all(seed)
    #     torch.backends.cudnn.deterministic = True
    #     torch.backends.cudnn.benchmark = False
    os.environ['PYTHONHASHSEED'] = str(seed)
    logger.info(f"Random seed set to: {seed}")

# 프로그램 시작 시 시드 설정
set_random_seed()

# 데이터프레임 메모리 사용량 줄이는 함수 (옵션)
def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose:
        logger.info(f'Memory usage decreased from {start_mem:.2f} MB to {end_mem:.2f} MB ({100 * (start_mem - end_mem) / start_mem:.1f}% reduction)')
    return df


print("Utils loaded.")

2025-04-28 13:28:15,150 - AI_Trading_System_Free - INFO - Logger setup complete.
INFO:AI_Trading_System_Free:Logger setup complete.
2025-04-28 13:28:15,153 - AI_Trading_System_Free - INFO - Log level set to: INFO
INFO:AI_Trading_System_Free:Log level set to: INFO
2025-04-28 13:28:15,154 - AI_Trading_System_Free - INFO - Log file location: /content/drive/MyDrive/Colab_Trading_System/logs/AI_Trading_System_Free.log
INFO:AI_Trading_System_Free:Log file location: /content/drive/MyDrive/Colab_Trading_System/logs/AI_Trading_System_Free.log
2025-04-28 13:28:15,156 - AI_Trading_System_Free - INFO - Random seed set to: 42
INFO:AI_Trading_System_Free:Random seed set to: 42


Utils loaded.


In [76]:
# data_manager.py (수정 완료)
import sqlite3
import pandas as pd
import yfinance as yf
import FinanceDataReader as fdr
import OpenDartReader
import time
import requests
import random # 지연 시간 랜덤화 위해 추가
from datetime import datetime, timedelta


# --- API 요청 재시도 데코레이터 ---
def retry_api_request(max_retries=3, delay=5, allowed_exceptions=(requests.exceptions.RequestException, TimeoutError)):
    """API 요청 실패 시 재시도하는 데코레이터"""
    def decorator(func):
        def wrapper(*args, **kwargs):
            last_exception = None
            for attempt in range(max_retries):
                try:
                    result = func(*args, **kwargs)
                    if isinstance(result, pd.DataFrame) and result.empty:
                        logger.warning(f"Attempt {attempt + 1}/{max_retries}: Fetch function {func.__name__} returned empty DataFrame.")
                        if attempt < max_retries - 1:
                            wait_time = delay * (2 ** attempt)
                            logger.info(f"Retrying {func.__name__} in {wait_time} seconds...")
                            time.sleep(wait_time)
                            continue
                        else:
                            logger.error(f"Function {func.__name__} returned empty DataFrame after {max_retries} attempts.")
                            return pd.DataFrame()

                    return result
                except allowed_exceptions as e:
                    last_exception = e
                    logger.warning(f"Attempt {attempt + 1}/{max_retries}: Error during {func.__name__}: {e}")
                    if attempt < max_retries - 1:
                        wait_time = delay * (2 ** attempt)
                        logger.info(f"Retrying {func.__name__} in {wait_time} seconds...")
                        time.sleep(wait_time)
                    else:
                        logger.error(f"Failed to execute {func.__name__} after {max_retries} attempts.")
                        return None
                except Exception as e:
                    logger.error(f"Attempt {attempt + 1}/{max_retries}: Unexpected error during {func.__name__}: {e}", exc_info=True)
                    last_exception = e
                    if attempt < max_retries - 1:
                        wait_time = delay * (2 ** attempt)
                        logger.info(f"Retrying {func.__name__} in {wait_time} seconds...")
                        time.sleep(wait_time)
                    else:
                        logger.error(f"Failed unexpectedly after {max_retries} attempts.")
                        return None
            return None
        return wrapper
    return decorator


class DataManager:
    def __init__(self, db_path=cfg.DB_PATH):
        self.db_path = db_path
        self.conn = None
        self._connect_db()
        self.dart = None
        if cfg.DART_API_KEY:
            try:
                self.dart = OpenDartReader(cfg.DART_API_KEY)
                logger.info("OpenDARTReader initialized successfully.")
            except Exception as e:
                logger.error(f"Failed to initialize OpenDARTReader: {e}. Financial data fetching disabled.")
        else:
            logger.warning("DART API Key not provided. Financial data fetching disabled.")

    def _connect_db(self):
        """데이터베이스 연결"""
        try:
            # check_same_thread=False 는 여러 스레드에서 DB 접근 시 필요할 수 있으나,
            # Colab 환경에서는 일반적으로 단일 스레드이므로 True(기본값)로 두어도 무방할 수 있음.
            # 다만, 향후 확장성 고려하여 False 유지 가능.
            self.conn = sqlite3.connect(self.db_path, check_same_thread=False)
            logger.info(f"Database connected: {self.db_path}")
            self._create_tables()
        except sqlite3.Error as e:
            logger.critical(f"Database connection failed: {e}")
            self.conn = None

    def _create_tables(self):
        """데이터베이스 테이블 생성 (존재하지 않을 경우)"""
        if not self.conn: return
        try:
            with self.conn:
                self.conn.execute("""
                CREATE TABLE IF NOT EXISTS stock_prices (
                    date TEXT NOT NULL, ticker TEXT NOT NULL, open REAL, high REAL,
                    low REAL, close REAL, adj_close REAL, volume INTEGER, source TEXT,
                    PRIMARY KEY (date, ticker)
                )""")
                self.conn.execute("""
                CREATE TABLE IF NOT EXISTS financial_statements (
                    ticker TEXT NOT NULL, year INTEGER NOT NULL, quarter INTEGER NOT NULL,
                    account_id TEXT, account_name TEXT NOT NULL, account_value REAL,
                    currency TEXT, fs_div TEXT, report_code TEXT,
                    PRIMARY KEY (ticker, year, quarter, account_name, fs_div)
                )""")
            logger.info("Database tables checked/created successfully.")
        except sqlite3.Error as e:
            logger.error(f"Failed to create database tables: {e}")

    def _get_last_date_from_db(self, ticker):
        """특정 종목의 DB 내 마지막 데이터 날짜 조회"""
        if not self.conn: return None
        query = "SELECT MAX(date) FROM stock_prices WHERE ticker = ?"
        try:
            cursor = self.conn.cursor()
            cursor.execute(query, (ticker,))
            result = cursor.fetchone()
            return result[0] if result and result[0] else None
        except sqlite3.Error as e:
            logger.error(f"Error fetching last date for {ticker}: {e}")
            return None

    @retry_api_request()
    def _fetch_yf_data(self, ticker, start_date, end_date):
        """yfinance 데이터 로드 함수"""
        end_date_yf = (datetime.strptime(end_date, '%Y-%m-%d') + timedelta(days=1)).strftime('%Y-%m-%d')
        # auto_adjust=False 로 해야 Adj Close 외 다른 컬럼 유지될 가능성 높음
        # actions=False 는 배당/분할 정보 제외
        df = yf.download(ticker, start=start_date, end=end_date_yf, progress=False, auto_adjust=False, actions=False)
        # yfinance 가 가끔 MultiIndex 컬럼 반환하는 경우 처리 (예: ('Adj Close', '') )
        if isinstance(df.columns, pd.MultiIndex):
            df.columns = df.columns.get_level_values(0)
        return df

    @retry_api_request()
    def _fetch_fdr_data(self, ticker, start_date, end_date):
        """FinanceDataReader 데이터 로드 함수"""
        df = fdr.DataReader(ticker, start=start_date, end=end_date)
        return df

    @timeit
    def update_stock_prices(self, tickers=cfg.TARGET_TICKERS, start_date=cfg.DATA_START_DATE, end_date=cfg.DATA_END_DATE):
        """모든 대상 종목의 주가 데이터를 최신 상태로 업데이트"""
        if not self.conn:
            logger.error("Database connection is not available.")
            return

        logger.info(f"Updating stock prices for {len(tickers)} tickers up to {end_date}...")
        total_rows_added = 0
        for ticker in tickers:
            last_db_date_str = self._get_last_date_from_db(ticker)
            fetch_start_date = start_date
            if last_db_date_str:
                last_db_date = datetime.strptime(last_db_date_str, '%Y-%m-%d')
                fetch_start_date = (last_db_date + timedelta(days=1)).strftime('%Y-%m-%d')

            if fetch_start_date > end_date:
                logger.info(f"Data for {ticker} is already up to date (Last: {last_db_date_str}). Skipping.")
                continue

            logger.debug(f"Fetching data for {ticker} from {fetch_start_date} to {end_date}")
            df = None
            source = None
            try:
                if ticker in cfg.US_TICKERS:
                    df = self._fetch_yf_data(ticker, fetch_start_date, end_date)
                    source = 'yfinance'
                elif ticker in cfg.KR_TICKERS:
                    df = self._fetch_fdr_data(ticker, fetch_start_date, end_date)
                    source = 'fdr'
                else:
                    df = self._fetch_yf_data(ticker, fetch_start_date, end_date)
                    source = 'yfinance_fallback'

                if df is not None and not df.empty:
                    df = df.reset_index()
                    df['ticker'] = ticker
                    df['source'] = source

                    rename_map = {
                        'Date': 'date', 'Datetime': 'date',
                        'Open': 'open',
                        'High': 'high',
                        'Low': 'low',
                        'Close': 'close',
                        'Adj Close': 'adj_close', # yfinance 는 이 컬럼명 선호
                        'Volume': 'volume'
                    }
                    df.rename(columns={k: v for k, v in rename_map.items() if k in df.columns}, inplace=True)

                    if 'date' not in df.columns:
                         if 'index' in df.columns: df.rename(columns={'index': 'date'}, inplace=True)
                         elif 'datetime' in df.columns: df.rename(columns={'datetime': 'date'}, inplace=True)

                    if 'date' not in df.columns:
                         logger.error(f"Date column not found for {ticker}. Columns: {df.columns}")
                         continue

                    df['date'] = pd.to_datetime(df['date']).dt.strftime('%Y-%m-%d')

                    if 'adj_close' not in df.columns:
                        if 'close' in df.columns:
                            logger.warning(f"'adj_close' column not found for {ticker}. Using 'close' value instead.")
                            df['adj_close'] = df['close']
                        else:
                            logger.error(f"Neither 'adj_close' nor 'close' column found for {ticker}. Skipping.")
                            continue

                    final_cols = ['date', 'ticker', 'open', 'high', 'low', 'close', 'adj_close', 'volume', 'source']
                    missing_cols = [col for col in final_cols if col not in df.columns]
                    if missing_cols:
                         logger.error(f"Missing required columns for {ticker} after processing: {missing_cols}. Skipping.")
                         continue

                    df = df[final_cols]

                    # 숫자형 컬럼 오류 처리 (수정)
                    numeric_cols = ['open', 'high', 'low', 'close', 'adj_close', 'volume']
                    for col in numeric_cols:
                        if col in df.columns:
                            # 컬럼이 Series 타입인지 먼저 확인
                            if isinstance(df[col], pd.Series):
                                df[col] = pd.to_numeric(df[col], errors='coerce')
                            else:
                                logger.warning(f"Column '{col}' in ticker {ticker} is not a Series (Type: {type(df[col])}). Attempting conversion.")
                                # 강제 변환 시도
                                try:
                                    df[col] = pd.to_numeric(df[col], errors='coerce')
                                except TypeError:
                                     logger.error(f"Failed to convert column '{col}' to numeric. Skipping numeric conversion for this column.")
                                     # 여기서 컬럼을 제거하거나 0으로 채울 수도 있음
                                     # df[col] = 0

                    df.dropna(subset=[col for col in numeric_cols if col in df.columns], inplace=True) # 존재하는 숫자 컬럼 기준 NaN 제거
                    df = df.fillna(0)

                    df = reduce_mem_usage(df, verbose=False)

                    if not df.empty:
                        try:
                            with self.conn: # DB 작업 시 컨텍스트 매니저 사용
                                df.to_sql('stock_prices', self.conn, if_exists='append', index=False, method=self._pandas_upsert)
                            rows_added = len(df)
                            total_rows_added += rows_added
                            logger.debug(f"Saved {rows_added} new rows for {ticker}.")
                        except sqlite3.Error as e:
                            logger.error(f"Failed to save stock price data for {ticker} to DB: {e}")
                    else:
                        logger.debug(f"No valid data fetched for {ticker} after cleaning.")

                else:
                    logger.warning(f"No data fetched for {ticker} from {fetch_start_date} to {end_date}.")

                time.sleep(random.uniform(0.5, 1.5))

            except Exception as e:
                logger.error(f"Failed to update data for {ticker}: {e}", exc_info=True)
                continue

        logger.info(f"Stock price update completed. Total new rows added: {total_rows_added}")


    # _pandas_upsert 수정 (AttributeError 해결)
    def _pandas_upsert(self, table, conn, keys, data_iter):
        """pandas to_sql에서 ON CONFLICT REPLACE 지원 (conn은 cursor)"""
        cursor = conn # conn 인자는 이미 cursor 객체임
        cols = ', '.join(f'"{k}"' for k in keys)
        placeholders = ', '.join('?' for _ in keys)
        sql = f'INSERT OR REPLACE INTO "{table.name}" ({cols}) VALUES ({placeholders})'
        try:
            cursor.executemany(sql, data_iter)
            logger.debug(f"Upserted data into {table.name}")
        except sqlite3.Error as e:
            logger.error(f"Error during executemany in _pandas_upsert for table {table.name}: {e}")
            raise


    @retry_api_request(allowed_exceptions=(requests.exceptions.RequestException, TimeoutError, Exception))
    def _fetch_dart_finstate(self, ticker, year, report_code, fs_div_val): # fs_div_val 인자 받도록 유지
        """DART 재무제표 조회 함수 (fs_div 지정)"""
        if not self.dart: return None
        logger.debug(f"Calling dart.finstate_all(ticker={ticker}, year={year}, reprt_code={report_code}, fs_div='{fs_div_val}')")
        df = self.dart.finstate_all(str(ticker), str(year), reprt_code=str(report_code), fs_div=str(fs_div_val)) # 문자열로 변환
        return df

    @timeit
    def update_financials(self, tickers=cfg.KR_TICKERS, start_year=int(cfg.DATA_START_DATE[:4]), end_year=datetime.now().year):
        """한국 기업 재무 데이터를 최신 상태로 업데이트"""
        if not self.conn or not self.dart:
            logger.warning("DB connection or DART API not available. Skipping financial update.")
            return

        logger.info(f"Updating financial statements for {len(tickers)} KR tickers from {start_year} to {end_year}...")
        total_rows_added = 0
        report_map = {'11013': 1, '11012': 2, '11014': 3, '11011': 4} # 1Q, 반기, 3Q, 사업

        for ticker in tickers:
            for year in range(start_year, end_year + 1):
                for report_code, quarter in report_map.items():
                    logger.debug(f"Fetching financials for {ticker}, Year: {year}, Report: {report_code} (Q{quarter})")
                    try:
                        fs_div_to_try = ['CFS', 'OFS']
                        fs_df = None
                        actual_fs_div = None

                        for fs_div_val in fs_div_to_try:
                            temp_df = self._fetch_dart_finstate(ticker, year, report_code, fs_div_val)
                            if temp_df is not None and not temp_df.empty:
                                fs_df = temp_df
                                actual_fs_div = fs_div_val
                                logger.debug(f"Fetched data using fs_div='{actual_fs_div}'")
                                break
                            time.sleep(random.uniform(0.5, 1.0))

                        if fs_df is not None and not fs_df.empty and actual_fs_div is not None:
                            # fs_df 에 실제로 fs_div 컬럼이 있는지 확인 후 처리
                            if 'fs_div' not in fs_df.columns:
                                 # 라이브러리가 fs_div 컬럼을 안 돌려주면 우리가 직접 추가
                                 fs_df['fs_div'] = actual_fs_div
                            else:
                                 # 라이브러리가 돌려준 값을 사용할 수도 있으나, 우리가 요청한 값(actual_fs_div) 사용 권장
                                 fs_df['fs_div'] = actual_fs_div # 일관성을 위해 덮어쓰기

                            fs_df['ticker'] = ticker
                            fs_df['year'] = year
                            fs_df['quarter'] = quarter
                            fs_df['report_code'] = report_code

                            fs_df.rename(columns={'account_id': 'account_id', 'account_nm': 'account_name', 'thstrm_amount': 'account_value'}, inplace=True, errors='ignore')
                            fs_df['currency'] = 'KRW'

                            # 값 정리 (문자열, 콤마 제거)
                            if 'account_value' in fs_df.columns:
                                 fs_df['account_value'] = fs_df['account_value'].astype(str).str.replace(',', '', regex=False).replace('', '0', regex=False)
                                 fs_df['account_value'] = pd.to_numeric(fs_df['account_value'], errors='coerce')
                            else:
                                 logger.warning("Column 'account_value' (thstrm_amount) not found in DART response.")
                                 fs_df['account_value'] = None # 또는 0

                            # 필수 컬럼 존재 확인 및 추가
                            final_fin_cols = ['ticker', 'year', 'quarter', 'account_id', 'account_name', 'account_value', 'currency', 'fs_div', 'report_code']
                            if 'account_id' not in fs_df.columns: fs_df['account_id'] = None
                            if 'account_name' not in fs_df.columns: fs_df['account_name'] = 'Unknown' # 또는 오류 처리

                            missing_fin_cols = [c for c in final_fin_cols if c not in fs_df.columns]
                            if missing_fin_cols:
                                logger.error(f"Missing required financial columns for {ticker} Y{year} Q{quarter}: {missing_fin_cols}. Skipping save.")
                                continue

                            fs_df = fs_df[final_fin_cols]
                            # account_value 가 NaN 인 행은 제외 (변환 실패 등)
                            fs_df.dropna(subset=['account_value'], inplace=True)

                            if not fs_df.empty:
                                try:
                                    with self.conn:
                                        fs_df.to_sql('financial_statements', self.conn, if_exists='append', index=False, method=self._pandas_upsert)
                                    rows_added = len(fs_df)
                                    total_rows_added += rows_added
                                    logger.debug(f"Saved {rows_added} financial statement rows for {ticker} Y{year} Q{quarter}.")
                                except sqlite3.Error as e:
                                    logger.error(f"Failed to save financial data for {ticker} Y{year} Q{quarter} to DB: {e}")
                            else:
                                 logger.debug(f"No valid financial rows after cleaning for {ticker} Y{year} Q{quarter}.")

                        else:
                            logger.debug(f"No financial data found for {ticker} Y{year} Q{quarter}.")

                        time.sleep(random.uniform(1.0, 2.0))

                    except Exception as e:
                        logger.error(f"Failed to update financials for {ticker} Y{year} Q{quarter}: {e}", exc_info=True)
                        time.sleep(random.uniform(1.0, 2.0))
                        continue

        logger.info(f"Financial statement update completed. Total new rows added: {total_rows_added}")

    def get_data(self, table_name, tickers=None, start_date=None, end_date=None, other_conditions=None):
        """DB에서 데이터를 조회하여 DataFrame으로 반환"""
        if not self.conn:
            logger.error("Database connection is not available.")
            return pd.DataFrame()

        query = f"SELECT * FROM {table_name}"
        conditions = []
        params = []

        if tickers:
            if isinstance(tickers, str): tickers = [tickers]
            placeholders = ', '.join('?' for _ in tickers)
            conditions.append(f"ticker IN ({placeholders})")
            params.extend(tickers)

        if table_name == 'stock_prices':
            if start_date: conditions.append("date >= ?"); params.append(start_date)
            if end_date: conditions.append("date <= ?"); params.append(end_date)
        elif table_name == 'financial_statements':
            if start_date: conditions.append("year >= ?"); params.append(int(start_date[:4]))
            if end_date: conditions.append("year <= ?"); params.append(int(end_date[:4]))
            if other_conditions: conditions.append(other_conditions)

        if conditions: query += " WHERE " + " AND ".join(conditions)

        if table_name == 'stock_prices': query += " ORDER BY ticker ASC, date ASC"
        elif table_name == 'financial_statements': query += " ORDER BY ticker ASC, year ASC, quarter ASC"

        try:
            df = pd.read_sql_query(query, self.conn, params=params)
            logger.info(f"Loaded {len(df)} rows from table '{table_name}' for tickers: {tickers}")

            if not df.empty:
                if 'date' in df.columns and table_name == 'stock_prices':
                    df['date'] = pd.to_datetime(df['date'])
                    df = df.set_index('date')
                df = reduce_mem_usage(df)
            return df
        except Exception as e:
            logger.error(f"Failed to load data from table '{table_name}': {e}", exc_info=True)
            return pd.DataFrame()

    def close_connection(self):
        """DB 연결 종료"""
        if self.conn:
            try:
                self.conn.close()
                logger.info("Database connection closed.")
            except sqlite3.Error as e:
                logger.error(f"Error closing database connection: {e}")
            finally:
                self.conn = None

# --- 데이터 초기 로드 및 업데이트 실행 예시 ---
if __name__ == "__main__":
    # Colab 환경 등에서 직접 실행 시 (utils.py 등 다른 셀 먼저 실행 필요)
    logger.info("--- Running DataManager Independently ---")
    dm = DataManager()

    # DB 경로가 Google Drive인지 확인
    logger.info(f"Database will be saved at: {cfg.DB_PATH}")
    if "/content/drive/" in cfg.DB_PATH:
        logger.info("Looks like Google Drive path is configured.")
    else:
        logger.warning("Looks like temporary /content/ path is configured. Data will be lost on runtime restart.")

    # 1. 주가 데이터 업데이트
    dm.update_stock_prices(tickers=cfg.TARGET_TICKERS, start_date=cfg.DATA_START_DATE, end_date=cfg.DATA_END_DATE)

    # 2. 재무 데이터 업데이트 (임시 비활성화)
    logger.warning("Temporarily skipping financial data update due to OpenDartReader internal TypeError.")
    # if cfg.DART_API_KEY:
    #     kr_tickers_to_update = [t for t in cfg.TARGET_TICKERS if t in cfg.KR_TICKERS]
    #     if kr_tickers_to_update:
    #          dm.update_financials(tickers=kr_tickers_to_update)
    #     else:
    #          logger.info("No KR tickers found in TARGET_TICKERS for financial update.")
    # else:
    #     logger.warning("Skipping financial data update because DART API key is not set.")


    # 3. 데이터 조회 예시
    logger.info("--- Loading Sample Data from DB ---")
    aapl_data = dm.get_data('stock_prices', tickers='AAPL', start_date='2023-01-01')
    if not aapl_data.empty:
        print("\nLoaded AAPL data sample:")
        print(aapl_data.tail())
    else:
        print("\nNo AAPL data loaded.")

    samsung_financials = dm.get_data('financial_statements', tickers='005930', start_date='2022')
    if not samsung_financials.empty:
        print("\nLoaded Samsung Electronics financial data sample:")
        print(samsung_financials.tail())
    else:
        print("\nNo Samsung Electronics financial data loaded.")

    dm.close_connection()
    logger.info("--- DataManager Independent Run Finished ---")

2025-04-28 13:28:15,211 - AI_Trading_System_Free - INFO - --- Running DataManager Independently ---
INFO:AI_Trading_System_Free:--- Running DataManager Independently ---
2025-04-28 13:28:15,216 - AI_Trading_System_Free - INFO - Database connected: /content/drive/MyDrive/Colab_Trading_System/trading_data/AI_Trading_System_Free.db
INFO:AI_Trading_System_Free:Database connected: /content/drive/MyDrive/Colab_Trading_System/trading_data/AI_Trading_System_Free.db
2025-04-28 13:28:15,221 - AI_Trading_System_Free - INFO - Database tables checked/created successfully.
INFO:AI_Trading_System_Free:Database tables checked/created successfully.
2025-04-28 13:28:15,273 - AI_Trading_System_Free - INFO - OpenDARTReader initialized successfully.
INFO:AI_Trading_System_Free:OpenDARTReader initialized successfully.
2025-04-28 13:28:15,275 - AI_Trading_System_Free - INFO - Database will be saved at: /content/drive/MyDrive/Colab_Trading_System/trading_data/AI_Trading_System_Free.db
INFO:AI_Trading_System_F


Loaded AAPL data sample:
           ticker     open     high     low    close  adj_close    volume  \
date                                                                        
2025-04-21   AAPL  193.250  193.750  189.75  193.125    193.125  46742500   
2025-04-22   AAPL  196.125  201.625  196.00  199.750    199.750  52976400   
2025-04-23   AAPL  206.000  208.000  202.75  204.625    204.625  52929200   
2025-04-24   AAPL  204.875  208.875  203.00  208.375    208.375  47311000   
2025-04-25   AAPL  206.375  209.375  206.25  209.250    209.250  38222258   

              source  
date                  
2025-04-21  yfinance  
2025-04-22  yfinance  
2025-04-23  yfinance  
2025-04-24  yfinance  
2025-04-25  yfinance  

Loaded Samsung Electronics financial data sample:
      ticker  year  quarter  \
1440  005930  2024        4   
1441  005930  2024        4   
1442  005930  2024        4   
1443  005930  2024        4   
1444  005930  2024        4   

                                   

In [77]:
# feature_engineer.py
import pandas as pd
import numpy as np


# TA-Lib 설치 확인 및 임포트 시도
try:
    import talib
    logger.info("TA-Lib library imported successfully.")
except ImportError:
    logger.critical("TA-Lib not found. Please install it to use technical indicators. Feature engineering capabilities will be limited.")
    logger.critical("You might need to install TA-Lib dependencies first. See TA-Lib documentation.")
    # TA-Lib 없이 실행될 수 있도록 talib 변수를 None으로 설정 (선택적)
    talib = None

class FeatureEngineer:
    """
    주가 데이터로부터 다양한 특징(Feature)을 추출하는 클래스.
    """
    def __init__(self,
                 use_technical_indicators=cfg.USE_TECHNICAL_INDICATORS,
                 technical_indicator_list=cfg.TECHNICAL_INDICATORS,
                 use_fundamental_data=cfg.USE_FUNDAMENTAL_DATA,
                 use_sentiment_data=cfg.USE_SENTIMENT_DATA):
        """
        FeatureEngineer 초기화

        Args:
            use_technical_indicators (bool): 기술적 지표 사용 여부.
            technical_indicator_list (list): 사용할 기술적 지표 이름 목록.
            use_fundamental_data (bool): 재무 데이터 사용 여부 (추후 구현).
            use_sentiment_data (bool): 감성 데이터 사용 여부 (추후 구현).
        """
        if use_technical_indicators and talib is None:
            logger.warning("TA-Lib is not available, disabling technical indicators.")
            self.use_technical_indicators = False
        else:
            self.use_technical_indicators = use_technical_indicators
        self.technical_indicator_list = technical_indicator_list
        self.use_fundamental_data = use_fundamental_data
        self.use_sentiment_data = use_sentiment_data
        logger.info(f"FeatureEngineer initialized with settings: "
                    f"Tech={self.use_technical_indicators}, Funda={self.use_fundamental_data}, "
                    f"Sent={self.use_sentiment_data}")
        if self.use_technical_indicators:
             logger.info(f"Using technical indicators: {self.technical_indicator_list}")

    @timeit
    def add_technical_indicators(self, df):
        """
        주어진 DataFrame에 기술적 지표를 계산하여 추가합니다.

        Args:
            df (pd.DataFrame): 'date'를 인덱스로 하고 'open', 'high', 'low', 'close', 'volume' 컬럼을 포함하는 DataFrame.

        Returns:
            pd.DataFrame: 기술적 지표가 추가된 DataFrame. 초기 NaN 값은 제거될 수 있습니다.
        """
        if not self.use_technical_indicators or talib is None:
            logger.debug("Skipping technical indicator calculation.")
            return df

        logger.debug(f"Adding technical indicators to DataFrame with shape {df.shape}...")
        df_out = df.copy()

        # TA-Lib 입력 형식 확인 (필요시 타입 변환)
        required_cols = ['open', 'high', 'low', 'close', 'volume']
        for col in required_cols:
            if col not in df_out.columns:
                logger.error(f"Required column '{col}' not found in DataFrame. Cannot calculate indicators.")
                return df # 원본 반환
            # 실수형(float)으로 변환 (talib는 float 타입 입력 선호)
            # Explicitly cast to float64
            df_out[col] = pd.to_numeric(df_out[col], errors='coerce').astype('float64')

            # Impute missing values using the mean for numerical columns
            if df_out[col].isnull().any():
                df_out[col] = df_out[col].fillna(df_out[col].mean())


        # 필수 컬럼 NaNs 드롭 (talib 계산 불가 방지)
        # Dropping rows with NaNs AFTER type conversion and imputation
        df_out.dropna(subset=required_cols, inplace=True)
        if df_out.empty:
             logger.warning("DataFrame became empty after dropping NaNs in required columns.")
             return df_out

        # 지표 계산 (config에 정의된 리스트 기반)
        # --- 이동 평균 (MA) ---
        if 'MA5' in self.technical_indicator_list:
            try: df_out['MA5'] = talib.MA(df_out['close'], timeperiod=5)
            except Exception as e: logger.warning(f"Could not calculate MA5: {e}")
        if 'MA10' in self.technical_indicator_list: # 예시 추가
            try: df_out['MA10'] = talib.MA(df_out['close'], timeperiod=10)
            except Exception as e: logger.warning(f"Could not calculate MA10: {e}")
        if 'MA20' in self.technical_indicator_list:
            try: df_out['MA20'] = talib.MA(df_out['close'], timeperiod=20)
            except Exception as e: logger.warning(f"Could not calculate MA20: {e}")
        if 'MA60' in self.technical_indicator_list:
            try: df_out['MA60'] = talib.MA(df_out['close'], timeperiod=60)
            except Exception as e: logger.warning(f"Could not calculate MA60: {e}")

        # --- RSI ---
        if 'RSI14' in self.technical_indicator_list:
            try: df_out['RSI14'] = talib.RSI(df_out['close'], timeperiod=14)
            except Exception as e: logger.warning(f"Could not calculate RSI14: {e}")

        # --- MACD ---
        if 'MACD' in self.technical_indicator_list:
            try:
                macd, macdsignal, macdhist = talib.MACD(df_out['close'], fastperiod=12, slowperiod=26, signalperiod=9)
                df_out['MACD'] = macd
                df_out['MACD_signal'] = macdsignal # 시그널 선 추가
                df_out['MACD_hist'] = macdhist     # 히스토그램 추가
            except Exception as e: logger.warning(f"Could not calculate MACD: {e}")

        # --- 볼린저 밴드 (Bollinger Bands) ---
        if any(bb in self.technical_indicator_list for bb in ['BB_upper', 'BB_middle', 'BB_lower']):
            try:
                upper, middle, lower = talib.BBANDS(df_out['close'], timeperiod=20, nbdevup=2, nbdevdn=2, matype=0)
                if 'BB_upper' in self.technical_indicator_list: df_out['BB_upper'] = upper
                if 'BB_middle' in self.technical_indicator_list: df_out['BB_middle'] = middle # 중간선은 MA20과 동일
                if 'BB_lower' in self.technical_indicator_list: df_out['BB_lower'] = lower
            except Exception as e: logger.warning(f"Could not calculate Bollinger Bands: {e}")

        # --- ATR (Average True Range) - 변동성 지표 ---
        if 'ATR' in self.technical_indicator_list:
            try: df_out['ATR'] = talib.ATR(df_out['high'], df_out['low'], df_out['close'], timeperiod=14)
            except Exception as e: logger.warning(f"Could not calculate ATR: {e}")

        # --- Stochastic Oscillator (%K, %D) ---
        if any(stoch in self.technical_indicator_list for stoch in ['STOCH_K', 'STOCH_D']):
             try:
                 slowk, slowd = talib.STOCH(df_out['high'], df_out['low'], df_out['close'],
                                           fastk_period=14, slowk_period=3, slowk_matype=0,
                                           slowd_period=3, slowd_matype=0)
                 if 'STOCH_K' in self.technical_indicator_list: df_out['STOCH_K'] = slowk
                 if 'STOCH_D' in self.technical_indicator_list: df_out['STOCH_D'] = slowd
             except Exception as e: logger.warning(f"Could not calculate Stochastic Oscillator: {e}")

        # --- CCI (Commodity Channel Index) ---
        if 'CCI' in self.technical_indicator_list:
            try: df_out['CCI'] = talib.CCI(df_out['high'], df_out['low'], df_out['close'], timeperiod=14)
            except Exception as e: logger.warning(f"Could not calculate CCI: {e}")

        # --- ADX (Average Directional Movement Index) ---
        if 'ADX' in self.technical_indicator_list:
             try: df_out['ADX'] = talib.ADX(df_out['high'], df_out['low'], df_out['close'], timeperiod=14)
             except Exception as e: logger.warning(f"Could not calculate ADX: {e}")

        # --- OBV (On Balance Volume) ---
        if 'OBV' in self.technical_indicator_list:
             try: df_out['OBV'] = talib.OBV(df_out['close'], df_out['volume'])
             except Exception as e: logger.warning(f"Could not calculate OBV: {e}")


        # 기술적 지표 계산 후 생성된 NaN 값 처리
        # 처음 N개 행은 이동평균 등 계산 불가로 NaN 발생
        # dropna()는 데이터를 너무 많이 제거할 수 있으므로, ffill/bfill 권장
        initial_rows = len(df_out)
        logger.debug(f"Shape before NaN drop: {df_out.shape}. Dropping rows with NaNs generated by indicators...")

        # 기술적 지표 계산으로 인해 NaN이 포함된 모든 행 제거
        df_out.dropna(inplace=True)

        rows_after_drop = len(df_out)

        if initial_rows > rows_after_drop:
             logger.info(f"Dropped {initial_rows - rows_after_drop} rows containing NaNs after indicator calculation.")
        else:
             logger.debug("No rows dropped after indicator calculation (or DataFrame was already empty).")

        if df_out.empty:
             logger.warning(f"DataFrame became empty after dropping indicator NaNs for ticker.")
             # 비어 있으면 더 이상 처리 의미 없음
             return df_out

        # 남은 값들에 대해 최종 타입 확인 및 0 채우기 (필요시)
        if df_out.isnull().values.any():
            logger.warning("Unexpected NaN values remain even after dropna. Filling with 0.")
            numeric_cols_final = df_out.select_dtypes(include=np.number).columns
            df_out[numeric_cols_final] = df_out[numeric_cols_final].fillna(0)
            if df_out.isnull().values.any():
                 df_out.fillna(0, inplace=True)

        logger.info(f"Technical indicators added and NaNs dropped. Resulting shape: {df_out.shape}")
        return df_out

    @timeit
    def add_fundamental_indicators(self, price_df, fin_df):
        """
        재무 데이터를 주가 데이터에 병합하고 기본 재무 지표를 계산합니다.
        (주의: 연간/분기 재무 데이터를 일별 주가와 병합 시 시점 불일치 고려 필요)

        Args:
            price_df (pd.DataFrame): 주가 데이터 (날짜 인덱스).
            fin_df (pd.DataFrame): 재무 데이터 (DataManager에서 로드).

        Returns:
            pd.DataFrame: 재무 지표가 병합/계산된 DataFrame.
        """
        if not self.use_fundamental_data or fin_df is None or fin_df.empty:
            logger.debug("Skipping fundamental indicator calculation.")
            return price_df

        logger.debug(f"Adding fundamental indicators to DataFrame with shape {price_df.shape}...")
        df_out = price_df.copy()
        ticker = df_out['ticker'].iloc[0] if 'ticker' in df_out.columns else None # 티커 확인 (로깅용)

        try:
            # 필요한 재무 데이터만 필터링 (예: 특정 계정)
            # DART 계정명은 보고서마다 조금씩 다를 수 있어 유연한 매칭 필요
            accounts_needed = ['유동자산', '부채총계', '자본총계', '매출액', '영업이익', '당기순이익'] # 예시
            fin_filtered = fin_df[fin_df['account_name'].isin(accounts_needed)].copy()

            if fin_filtered.empty:
                logger.warning(f"No required financial accounts found for {ticker} in provided data.")
                return df_out

            # Pivot 테이블 생성: 날짜(연도/분기)별 계정 값
            fin_pivot = fin_filtered.pivot_table(index=['year', 'quarter'], columns='account_name', values='account_value')

            # 연도, 분기 정보 생성 (날짜 인덱스 활용)
            df_out['year'] = df_out.index.year
            df_out['quarter'] = ((df_out.index.month - 1) // 3) + 1 # 월 -> 분기 변환

            # 주가 데이터와 재무 데이터 병합
            # 다음 분기 재무 데이터가 발표되기 전까지 이전 분기 데이터 사용 (ffill)
            df_out = pd.merge(df_out.reset_index(), fin_pivot.reset_index(), on=['year', 'quarter'], how='left').set_index('date')
            # 재무 데이터 컬럼 Forward Fill
            fin_cols = fin_pivot.columns
            df_out[fin_cols] = df_out[fin_cols].ffill()
            # 처음에 NaN이 있을 수 있으므로 bfill도 적용
            df_out[fin_cols] = df_out[fin_cols].bfill()

            # --- 재무 지표 계산 (예시) ---
            # 발행 주식 수 정보 필요 (OpenDART 'stock_totqy' 등 별도 조회 필요)
            # number_of_shares = get_number_of_shares(ticker, df_out.index.max()) # 가정
            number_of_shares = 1e9 # 임시 값 (매우 부정확!)

            if '당기순이익' in df_out.columns and number_of_shares > 0:
                 # 분기 실적을 연환산 (Trailing Twelve Months, TTM) 하는 것이 더 정확할 수 있음
                 # 여기서는 가장 최근 분기 * 4 로 단순화 (매우 부정확한 가정!)
                 df_out['EPS_calculated'] = (df_out['당기순이익'] * 4) / number_of_shares
                 df_out['PER_calculated'] = df_out['close'] / df_out['EPS_calculated']

            if '자본총계' in df_out.columns and number_of_shares > 0:
                 df_out['BPS_calculated'] = df_out['자본총계'] / number_of_shares
                 df_out['PBR_calculated'] = df_out['close'] / df_out['BPS_calculated']

            if '매출액' in df_out.columns:
                 df_out['PSR_calculated'] = (df_out['close'] * number_of_shares) / (df_out['매출액'] * 4) # 시가총액 / 연환산 매출액

            # 계산된 지표의 무한대 값 처리
            df_out.replace([np.inf, -np.inf], np.nan, inplace=True)
            # 계산된 지표도 ffill/bfill
            calc_fin_cols = [col for col in df_out.columns if '_calculated' in col]
            df_out[calc_fin_cols] = df_out[calc_fin_cols].ffill().bfill()

            logger.info(f"Fundamental indicators added/merged for {ticker}. Resulting shape: {df_out.shape}")
            # 병합에 사용된 'year', 'quarter' 및 원본 재무 컬럼은 제거 가능
            df_out.drop(columns=['year', 'quarter'] + list(fin_cols), errors='ignore', inplace=True)

        except Exception as e:
            logger.error(f"Error adding fundamental indicators for {ticker}: {e}", exc_info=True)
            # 오류 발생 시에도 원본 데이터프레임 구조는 유지하려고 시도
            # 원래 컬럼 복구 (필요 시)
            df_out = price_df.copy()

        return df_out


    @timeit
    def add_sentiment_indicators(self, price_df, sentiment_df):
        """
        일별 집계된 감성 점수를 주가 데이터에 병합합니다.

        Args:
            price_df (pd.DataFrame): 주가 데이터 (날짜 인덱스).
            sentiment_df (pd.DataFrame): 날짜를 인덱스로 하고 'sentiment_score' 컬럼을 가진 DataFrame.

        Returns:
            pd.DataFrame: 감성 점수가 병합된 DataFrame.
        """
        if not self.use_sentiment_data or sentiment_df is None or sentiment_df.empty:
            logger.debug("Skipping sentiment indicator calculation.")
            return price_df

        logger.debug(f"Adding sentiment indicators to DataFrame with shape {price_df.shape}...")
        df_out = price_df.copy()
        ticker = df_out['ticker'].iloc[0] if 'ticker' in df_out.columns else None

        try:
            # 날짜 인덱스 기준으로 병합
            df_out = pd.merge(df_out, sentiment_df[['sentiment_score']], left_index=True, right_index=True, how='left')

            # 감성 점수 결측치 처리 (주말 등 뉴스가 없는 날)
            # 1. 0으로 채우기 (중립으로 간주)
            # df_out['sentiment_score'].fillna(0, inplace=True)
            # 2. Forward fill (이전 감성 유지) - 더 일반적일 수 있음
            df_out['sentiment_score'].ffill(inplace=True)
            df_out['sentiment_score'].bfill(inplace=True) # 시작 부분 NaN 채우기

            logger.info(f"Sentiment indicators merged for {ticker}. Resulting shape: {df_out.shape}")
        except Exception as e:
            logger.error(f"Error adding sentiment indicators for {ticker}: {e}", exc_info=True)
            if 'sentiment_score' in df_out.columns: # 오류 시 추가된 컬럼 제거
                 df_out.drop(columns=['sentiment_score'], inplace=True, errors='ignore')


        return df_out


    @timeit
    def process_features(self, price_df, fin_df=None, sentiment_df=None):
        """
        주어진 데이터에 대해 모든 특징 공학 단계를 순차적으로 실행합니다.

        Args:
            price_df (pd.DataFrame): 원본 주가 데이터.
            fin_df (pd.DataFrame, optional): 재무 데이터. Defaults to None.
            sentiment_df (pd.DataFrame, optional): 감성 데이터. Defaults to None.

        Returns:
            pd.DataFrame: 모든 특징이 추가되고 처리된 DataFrame.
                         RL 환경 등에 입력으로 사용할 수 있는 형태.
        """
        if price_df is None or price_df.empty:
            logger.warning("Input price_df is empty. Cannot process features.")
            return pd.DataFrame()

        ticker = price_df['ticker'].iloc[0] if 'ticker' in price_df.columns else 'Unknown Ticker'
        logger.info(f"Starting feature engineering process for ticker: {ticker}...")

        # 0. 원본 데이터 복사 및 기본 컬럼 유지 확인
        df_processed = price_df.copy()
        required_cols = ['open', 'high', 'low', 'close', 'volume']
        if not all(col in df_processed.columns for col in required_cols):
             logger.error(f"Input DataFrame for {ticker} must contain {required_cols}.")
             return pd.DataFrame()

        # 1. 기술적 지표 추가
        if self.use_technical_indicators:
            df_processed = self.add_technical_indicators(df_processed)
            if df_processed.empty:
                logger.warning(f"DataFrame for {ticker} became empty after technical indicators. Aborting further processing.")
                return df_processed

        # 2. 재무 지표 추가 (구현 시)
        if self.use_fundamental_data:
            df_processed = self.add_fundamental_indicators(df_processed, fin_df)
            if df_processed.empty:
                 logger.warning(f"DataFrame for {ticker} became empty after fundamental indicators. Aborting further processing.")
                 return df_processed

        # 3. 감성 지표 추가 (구현 시)
        if self.use_sentiment_data:
            df_processed = self.add_sentiment_indicators(df_processed, sentiment_df)
            if df_processed.empty:
                 logger.warning(f"DataFrame for {ticker} became empty after sentiment indicators. Aborting further processing.")
                 return df_processed

        # 4. 최종 정리
        #    - 무한대 값 처리 (지표 계산 중 발생 가능성)
        df_processed.replace([np.inf, -np.inf], np.nan, inplace=True)
        #    - 남은 NaN 처리 (모든 단계 후 최종 확인)
        initial_rows = len(df_processed)

        # Explicitly select numeric columns for fillna
        numeric_cols = df_processed.select_dtypes(include=np.number).columns
        # Convert all numeric columns to float64
        df_processed[numeric_cols] = df_processed[numeric_cols].astype('float64')
        df_processed[numeric_cols] = df_processed[numeric_cols].fillna(method='ffill')
        df_processed[numeric_cols] = df_processed[numeric_cols].fillna(method='bfill')  # 시작점 NaN 처리

        # If NaNs persist in other columns, consider filling with 0 or other appropriate value
        if df_processed.isnull().values.any():
            logger.warning(f"NaN values still exist after ffill/bfill for {ticker}. Filling with 0.")
            df_processed.fillna(0, inplace=True)

        #    - RL 환경 등에 필요한 컬럼만 선택 (선택적)
        #      예: ['close', 'MA5', 'RSI14', 'MACD', 'ATR', 'volume', 'sentiment_score', ...]
        #      이 단계에서 선택하거나, 환경(Environment)에서 입력 받을 때 선택
        # final_features = cfg.FINAL_FEATURE_COLUMNS # config에 정의된 최종 컬럼 리스트
        # df_processed = df_processed[final_features]

        #    - 메모리 사용량 최적화
        df_processed = reduce_mem_usage(df_processed)

        logger.info(f"Feature engineering completed for {ticker}. Final shape: {df_processed.shape}")
        return df_processed

# --- 특징 공학 실행 예시 ---
if __name__ == "__main__":
    # Colab 등에서 직접 실행 시
    logger.info("--- Running FeatureEngineer Independently ---")

    dm = DataManager()
    # 기술적 지표만 사용하는 FeatureEngineer 인스턴스 생성
    fe = FeatureEngineer(use_technical_indicators=True, use_fundamental_data=False, use_sentiment_data=False)

    ticker_to_process = 'AAPL' # 예시 티커

    # 데이터 로드 (최근 1년 데이터 예시)
    end_dt = datetime.now()
    start_dt = end_dt - timedelta(days=365)
    price_data_raw = dm.get_data('stock_prices',
                                 tickers=ticker_to_process,
                                 start_date=start_dt.strftime('%Y-%m-%d'),
                                 end_date=end_dt.strftime('%Y-%m-%d'))

    if not price_data_raw.empty:
        logger.info(f"Loaded raw price data for {ticker_to_process}, shape: {price_data_raw.shape}")
        print("Raw data sample:")
        print(price_data_raw.tail())

        # 특징 공학 적용
        processed_data = fe.process_features(price_data_raw)

        if not processed_data.empty:
            print(f"\nProcessed features for {ticker_to_process}:")
            print(processed_data.tail())
            print(f"\nProcessed data columns: {processed_data.columns.tolist()}")
            print(f"Processed data shape: {processed_data.shape}")
            print(f"Memory usage: {processed_data.memory_usage().sum() / 1024**2:.2f} MB")

            # 결과를 DB 새 테이블에 저장하거나 파일로 저장 가능
            # try:
            #     with dm.conn:
            #         processed_data.reset_index().to_sql(f"{ticker_to_process}_features", dm.conn, if_exists='replace', index=False)
            #     logger.info(f"Saved processed features for {ticker_to_process} to DB table '{ticker_to_process}_features'.")
            # except Exception as e:
            #     logger.error(f"Failed to save processed features to DB: {e}")

        else:
            logger.warning(f"Feature processing resulted in an empty DataFrame for {ticker_to_process}.")
    else:
        logger.warning(f"No raw price data found for {ticker_to_process} in the specified date range.")

    dm.close_connection()
    logger.info("--- FeatureEngineer Independent Run Finished ---")

2025-04-28 13:28:20,794 - AI_Trading_System_Free - INFO - TA-Lib library imported successfully.
INFO:AI_Trading_System_Free:TA-Lib library imported successfully.
2025-04-28 13:28:20,798 - AI_Trading_System_Free - INFO - --- Running FeatureEngineer Independently ---
INFO:AI_Trading_System_Free:--- Running FeatureEngineer Independently ---
2025-04-28 13:28:20,804 - AI_Trading_System_Free - INFO - Database connected: /content/drive/MyDrive/Colab_Trading_System/trading_data/AI_Trading_System_Free.db
INFO:AI_Trading_System_Free:Database connected: /content/drive/MyDrive/Colab_Trading_System/trading_data/AI_Trading_System_Free.db
2025-04-28 13:28:20,808 - AI_Trading_System_Free - INFO - Database tables checked/created successfully.
INFO:AI_Trading_System_Free:Database tables checked/created successfully.
2025-04-28 13:28:20,856 - AI_Trading_System_Free - INFO - OpenDARTReader initialized successfully.
INFO:AI_Trading_System_Free:OpenDARTReader initialized successfully.
2025-04-28 13:28:20,85

Raw data sample:
           ticker     open     high     low    close  adj_close    volume  \
date                                                                        
2025-04-21   AAPL  193.250  193.750  189.75  193.125    193.125  46742500   
2025-04-22   AAPL  196.125  201.625  196.00  199.750    199.750  52976400   
2025-04-23   AAPL  206.000  208.000  202.75  204.625    204.625  52929200   
2025-04-24   AAPL  204.875  208.875  203.00  208.375    208.375  47311000   
2025-04-25   AAPL  206.375  209.375  206.25  209.250    209.250  38222258   

              source  
date                  
2025-04-21  yfinance  
2025-04-22  yfinance  
2025-04-23  yfinance  
2025-04-24  yfinance  
2025-04-25  yfinance  

Processed features for AAPL:
           ticker     open     high     low    close  adj_close      volume  \
date                                                                          
2025-04-21   AAPL  193.250  193.750  189.75  193.125    193.125  46742500.0   
2025-04-22   AA

In [78]:
# environment.py
import gymnasium as gym
from gymnasium import spaces
import numpy as np
import pandas as pd
from collections import deque
import logging # 로거 임포트 (cfg, logger 등은 main 스크립트에서 설정 가정)

# 예시: 로거 설정 (main 스크립트 등에서 실제 설정 필요)
# logging.basicConfig(level=logging.INFO)
# logger = logging.getLogger(__name__)

# 예시: 설정값 (main 스크립트 등에서 실제 설정 필요)
class ConfigMock:
    TARGET_TICKERS = ['AAPL', 'MSFT']
    TRAIN_START_DATE = "2020-01-01"
    TRAIN_END_DATE = "2022-12-31"
    ENV_WINDOW_SIZE = 20
    ENV_INITIAL_BALANCE = 1000000.0
    ENV_TRANSACTION_COST_PCT = 0.001
    ENV_SLIPPAGE_PCT = 0.001
    ENV_POSITION_MAX_RATIO = 0.1 # 예시 값
    VALIDATION_START_DATE = "2023-01-01"
    VALIDATION_END_DATE = "2023-12-31"
    DATA_START_DATE = "2018-01-01"
    DATA_END_DATE = "2023-12-31"

cfg = ConfigMock() # 임시 설정 객체

# --- 실제 환경 클래스 ---
class StockTradingEnv(gym.Env):
    """
    여러 주식을 거래하는 강화학습 환경 (Gymnasium 인터페이스 따름)
    """
    metadata = {'render_modes': ['human', 'ansi', 'rgb_array'], 'render_fps': 30}

    def __init__(self, data_manager, feature_engineer, tickers=cfg.TARGET_TICKERS,
                 start_date=cfg.TRAIN_START_DATE, end_date=cfg.TRAIN_END_DATE,
                 is_training=True):
        """
        환경 초기화

        Args:
            data_manager (DataManager): 데이터 관리자 인스턴스.
            feature_engineer (FeatureEngineer): 특징 공학자 인스턴스.
            tickers (list): 거래할 종목 티커 리스트.
            start_date (str): 환경에서 사용할 데이터 시작 날짜 (YYYY-MM-DD).
            end_date (str): 환경에서 사용할 데이터 종료 날짜 (YYYY-MM-DD).
            is_training (bool): 학습 모드 여부 (True면 학습 데이터, False면 테스트/백테스트 데이터 사용).
        """
        super(StockTradingEnv, self).__init__()
        # logger를 클래스 속성으로 사용하거나 전역으로 사용
        self.logger = logging.getLogger(self.__class__.__name__) # 클래스 이름으로 로거 가져오기

        self.data_manager = data_manager
        self.feature_engineer = feature_engineer
        self.tickers = tickers
        self.start_date = start_date
        self.end_date = end_date
        self.is_training = is_training # 학습/테스트 모드 구분 (데이터 로딩에 사용 가능)

        self.window_size = cfg.ENV_WINDOW_SIZE      # 에이전트가 볼 과거 데이터 기간
        self.initial_balance = cfg.ENV_INITIAL_BALANCE
        self.transaction_cost_pct = cfg.ENV_TRANSACTION_COST_PCT
        self.slippage_pct = cfg.ENV_SLIPPAGE_PCT
        self.position_max_ratio = cfg.ENV_POSITION_MAX_RATIO

        # 데이터 로드 및 특징 추출 (초기화 시 한 번 수행)
        self._load_and_process_data()

        # 상태(Observation) 공간 정의
        # 특징 개수 확인 (첫 번째 티커의 데이터 기준)
        if not self.processed_data or not self.tickers or self.tickers[0] not in self.processed_data or self.processed_data[self.tickers[0]].empty:
             raise ValueError("No processed data available to determine observation space.")
        self.num_features = self.processed_data[self.tickers[0]].shape[1]
        # 상태: window_size 만큼의 과거 특징 데이터 (모든 티커 Flatten) + 각 티커 보유량 + 현금 비율
        # state_dim = (len(self.tickers) * self.window_size * self.num_features) + len(self.tickers) + 1
        # 수정: 상태 공간을 Dict로 정의하여 각 티커의 특징과 포트폴리오 정보를 분리
        feature_shape = (self.window_size, self.num_features)
        self.observation_space = spaces.Dict({
            # 각 티커별 과거 특징 데이터 (Window x Features)
            'features': spaces.Dict({
                ticker: spaces.Box(low=-np.inf, high=np.inf, shape=feature_shape, dtype=np.float32)
                for ticker in self.tickers
            }),
            # 포트폴리오 상태 (각 티커 보유 비율 + 현금 비율)
            'portfolio': spaces.Box(low=0.0, high=1.0, shape=(len(self.tickers) + 1,), dtype=np.float32)
        })


        # 행동(Action) 공간 정의
        # 각 티커에 대해 Discrete(3): 0: 매수, 1: 매도, 2: 유지
        # 또는 Box: [-1, 1] (매도 강도 ~ 매수 강도) 또는 [0, 1] (투자 비율)
        # 여기서는 Discrete(3) 사용 (기존 코드 참고)
        self.action_space = spaces.Dict({
            ticker: spaces.Discrete(3) for ticker in self.tickers
        })

        # 에피소드 상태 변수
        self.balance = 0.0
        self.portfolio_value = 0.0
        self.portfolio_holdings = {} # {ticker: quantity}
        self.current_step = 0       # 전체 데이터에서의 현재 위치 (인덱스)
        self.start_step = self.window_size # 학습 시작 위치 (window 채우기 위해)
        self.total_steps = len(self.global_dates) # 전체 타임스텝 길이
        self.done = False
        self.info = {} # 추가 정보 저장

        self.logger.info(f"StockTradingEnv initialized for {len(self.tickers)} tickers.")
        self.logger.info(f"Observation space shape (per ticker feature): {feature_shape}")
        self.logger.info(f"Action space type (per ticker): {self.action_space[self.tickers[0]]}")


    def _load_and_process_data(self):
        """
        DataManager를 통해 데이터를 로드하고 FeatureEngineer로 처리하여 저장합니다.
        """
        self.logger.info(f"Loading and processing data from {self.start_date} to {self.end_date}...")
        self.raw_data = {}
        self.processed_data = {}
        common_dates = None # 모든 티커에 공통으로 존재하는 날짜 인덱스

        valid_tickers = [] # 유효한 데이터가 있는 티커만 저장
        for ticker in self.tickers:
            # DataManager에서 해당 기간의 원본 주가 데이터 로드
            df_raw = self.data_manager.get_data('stock_prices', tickers=[ticker], # ticker 인자 수정: 리스트로 전달
                                                 start_date=self.start_date, end_date=self.end_date)
            if df_raw is None or df_raw.empty:
                self.logger.error(f"Failed to load raw data for ticker: {ticker}. Skipping this ticker.")
                continue # 이 티커는 건너<0xEB><0x9C><0x84>

            # 날짜 인덱스 확인 및 설정 (이미 설정되어 있다면 그대로 사용)
            if not isinstance(df_raw.index, pd.DatetimeIndex):
                 if 'date' in df_raw.columns:
                      df_raw['date'] = pd.to_datetime(df_raw['date'])
                      df_raw = df_raw.set_index('date')
                 else:
                      self.logger.error(f"Date index not found or not DatetimeIndex for {ticker}. Skipping.")
                      continue

            self.raw_data[ticker] = df_raw

            # FeatureEngineer를 사용하여 특징 추출
            # 재무/감성 데이터 로딩 로직 추가 필요 (현재는 price_df만 전달)
            df_processed = self.feature_engineer.process_features(df_raw.copy()) # 원본 변경 방지 위해 copy()
            if df_processed is None or df_processed.empty:
                self.logger.error(f"Failed to process features for ticker: {ticker}. Skipping this ticker.")
                # 실패 시 raw_data에서도 제거
                if ticker in self.raw_data: del self.raw_data[ticker]
                continue

            # 날짜 인덱스 재확인 (Feature Engineer가 변경했을 수 있음)
            if not isinstance(df_processed.index, pd.DatetimeIndex):
                 self.logger.error(f"Processed data for {ticker} does not have DatetimeIndex. Skipping.")
                 if ticker in self.raw_data: del self.raw_data[ticker]
                 continue

            self.processed_data[ticker] = df_processed
            valid_tickers.append(ticker) # 유효 티커 리스트에 추가

            # 공통 날짜 인덱스 찾기 (데이터 정렬 위함)
            if common_dates is None:
                common_dates = df_processed.index
            else:
                common_dates = common_dates.intersection(df_processed.index)

        self.tickers = valid_tickers # 유효한 티커 리스트로 업데이트
        if not self.tickers:
             raise ValueError("No valid data found for any specified tickers.")

        if common_dates is None or common_dates.empty:
             raise ValueError("No common dates found across all valid tickers. Cannot initialize environment.")

        # 모든 데이터를 공통 날짜 기준으로 정렬 및 재인덱싱
        self.global_dates = common_dates.sort_values() # 최종 사용할 날짜 인덱스
        for ticker in self.tickers:
             # =====> 오류 수정 부분 시작 <=====
             self.logger.debug(f"Reindexing and filling data for {ticker}...")

             # 1. processed_data 처리
             reindexed_processed = self.processed_data[ticker].reindex(self.global_dates)
             self.logger.debug(f"dtypes for {ticker} (processed) after reindex:\n{reindexed_processed.dtypes}")
             # ffill()과 bfill() 분리
             filled_processed = reindexed_processed.ffill()
             filled_processed = filled_processed.bfill()
             self.processed_data[ticker] = filled_processed

             # 2. raw_data 처리 (동일하게)
             reindexed_raw = self.raw_data[ticker].reindex(self.global_dates)
             self.logger.debug(f"dtypes for {ticker} (raw) after reindex:\n{reindexed_raw.dtypes}")
             # ffill()과 bfill() 분리
             filled_raw = reindexed_raw.ffill()
             filled_raw = filled_raw.bfill()
             self.raw_data[ticker] = filled_raw
             # =====> 오류 수정 부분 끝 <=====

             # 확인: 처리 후 NaN이 없는지 검사
             if self.processed_data[ticker].isnull().values.any():
                  self.logger.warning(f"NaN values found in processed data for {ticker} after reindexing/filling. Filling with 0.")
                  self.processed_data[ticker].fillna(0, inplace=True)
             if self.raw_data[ticker].isnull().values.any():
                  self.logger.warning(f"NaN values found in raw data for {ticker} after reindexing/filling. Filling with 0.")
                  self.raw_data[ticker].fillna(0, inplace=True)

        self.logger.info(f"Data loaded and processed successfully for {len(self.tickers)} tickers. Total common steps: {len(self.global_dates)}")


    def _get_observation(self):
        """현재 스텝(current_step) 기준 관찰(state) 구성"""
        obs = {'features': {}, 'portfolio': np.zeros(len(self.tickers) + 1, dtype=np.float32)} # portfolio 초기화

        # 1. 각 티커의 특징 데이터 (과거 window_size 만큼)
        start_idx = max(0, self.current_step - self.window_size + 1)
        end_idx = self.current_step + 1 # 현재 스텝 포함

        for ticker in self.tickers:
             # iloc 접근 전에 인덱스 유효성 확인
             if start_idx >= len(self.processed_data[ticker]) or end_idx > len(self.processed_data[ticker]):
                  self.logger.error(f"Index out of bounds for ticker {ticker} at step {self.current_step}. Start: {start_idx}, End: {end_idx}, Length: {len(self.processed_data[ticker])}")
                  # 오류 처리: 비어 있거나 기본값으로 채워진 배열 반환
                  ticker_features = np.zeros((self.window_size, self.num_features), dtype=np.float32)
             else:
                  ticker_features = self.processed_data[ticker].iloc[start_idx:end_idx].values
                  # Padding (데이터 시작 부분 처리)
                  if ticker_features.shape[0] < self.window_size:
                      padding_size = self.window_size - ticker_features.shape[0]
                      padding = np.zeros((padding_size, self.num_features), dtype=np.float32)
                      ticker_features = np.vstack((padding, ticker_features))

             obs['features'][ticker] = ticker_features.astype(np.float32)


        # 2. 포트폴리오 상태 (각 티커 보유 비율 + 현금 비율)
        portfolio_state = np.zeros(len(self.tickers) + 1, dtype=np.float32)
        current_total_value = self._calculate_portfolio_value() # 현재 시점 가치 계산
        if current_total_value > 0: # 0으로 나누기 방지
            cash_ratio = self.balance / current_total_value
            portfolio_state[-1] = cash_ratio # 마지막 요소는 현금 비율
            for i, ticker in enumerate(self.tickers):
                current_price = self._get_current_price(ticker)
                holding_value = self.portfolio_holdings.get(ticker, 0) * current_price
                portfolio_state[i] = holding_value / current_total_value # 각 티커 보유 비율

            # 비율 합계가 1에 매우 가깝도록 조정 (부동 소수점 오류 등 고려)
            # sum_ratios = portfolio_state.sum()
            # if sum_ratios > 0 and not np.isclose(sum_ratios, 1.0):
            #     portfolio_state /= sum_ratios # 합계로 나누어 정규화
            # 합계가 1보다 약간 크거나 작을 수 있음, clip으로 0~1 범위 보장
            portfolio_state = np.clip(portfolio_state, 0.0, 1.0)
            # 정규화 추가 (합이 1이 되도록)
            if portfolio_state.sum() > 0:
                 portfolio_state /= portfolio_state.sum()

        obs['portfolio'] = portfolio_state

        return obs

    def _get_current_price(self, ticker):
        """현재 스텝의 종가 반환"""
        try:
            # raw_data에서 현재 스텝의 종가 사용 (미래 정보 누수 방지)
            # current_step이 global_dates의 길이를 넘지 않도록 확인
            if self.current_step < len(self.global_dates):
                return self.raw_data[ticker]['close'].iloc[self.current_step]
            else:
                # 에피소드 종료 후 호출될 경우 마지막 가격 반환 또는 오류 처리
                self.logger.warning(f"Attempting to get price after last step for {ticker}. Returning last known price.")
                return self.raw_data[ticker]['close'].iloc[-1]
        except (KeyError, IndexError) as e:
            self.logger.error(f"Could not get current price for {ticker} at step {self.current_step}. Error: {e}. Returning 0.")
            return 0.0 # 오류 발생 시 0 반환

    def _calculate_portfolio_value(self):
        """현재 시점의 포트폴리오 총 가치 계산"""
        value = self.balance
        for ticker, quantity in self.portfolio_holdings.items():
            current_price = self._get_current_price(ticker)
            value += quantity * current_price
        # 0보다 작은 값 방지 (가격 오류 등)
        return max(value, 0.0)

    def reset(self, seed=None, options=None):
        """환경 초기화"""
        super().reset(seed=seed) # Gymnasium 표준 시드 설정

        self.balance = self.initial_balance
        self.portfolio_holdings = {ticker: 0 for ticker in self.tickers}
        self.portfolio_value = self.initial_balance
        self.current_step = self.start_step # 학습 시작 스텝 설정
        self.done = False
        self.info = {'step_rewards': []} # 정보 초기화

        self.logger.debug(f"Environment reset. Start step: {self.current_step}, Initial Balance: {self.balance:.2f}")
        # reset 호출 시 포트폴리오 가치 계산
        self.portfolio_value = self._calculate_portfolio_value()
        observation = self._get_observation()
        # 정보 딕셔너리 반환 (Gymnasium 표준)
        info = self._get_info()

        return observation, info

    def step(self, action_dict):
        """
        환경을 한 스텝 진행 (에이전트의 행동 적용)

        Args:
            action_dict (dict): {ticker: action} 형태. action은 0(매수), 1(매도), 2(유지).

        Returns:
            tuple: (observation, reward, terminated, truncated, info)
        """
        if self.done:
            self.logger.warning("Environment is already done. Call reset() before stepping.")
            obs = self._get_observation() # 마지막 상태 반환
            info = self._get_info()
            # info['is_success'] = False # Gymnasium 1.0 스타일 is_success 추가 고려
            return obs, 0.0, False, True, info # truncated=True 로 종료 알림

        prev_portfolio_value = self._calculate_portfolio_value()

        # 거래 실행
        trades_executed = {'buy': [], 'sell': [], 'hold': []}
        for ticker, action in action_dict.items():
             # 유효하지 않은 티커는 건너<0xEB><0x9C><0x84>
             if ticker not in self.tickers:
                  self.logger.warning(f"Action received for invalid ticker {ticker}. Skipping.")
                  continue

             current_price = self._get_current_price(ticker)
             if current_price <= 0: # 가격 정보 없으면 거래 불가
                  self.logger.warning(f"Skipping action for {ticker} due to invalid price ({current_price}) at step {self.current_step}")
                  trades_executed['hold'].append(ticker)
                  continue

             # 1. 매수 (Action == 0)
             if action == 0:
                 # 구매 가능 예산 확인 (RiskManager 사용 고려)
                 # 여기서는 단순화: 자산의 10% 또는 1주 중 작은 금액으로 매수 시도
                 investment_amount = min(self.balance * 0.1, current_price * 1.0) # 최대 1주 가격 또는 잔고의 10%
                 effective_buy_price = current_price * (1 + self.transaction_cost_pct + self.slippage_pct)
                 if effective_buy_price <= 0: continue # 유효하지 않은 가격

                 quantity_to_buy = int(investment_amount / effective_buy_price)
                 cost = quantity_to_buy * effective_buy_price

                 if quantity_to_buy > 0 and self.balance >= cost:
                     self.balance -= cost
                     self.portfolio_holdings[ticker] = self.portfolio_holdings.get(ticker, 0) + quantity_to_buy
                     trades_executed['buy'].append(f"{ticker}({quantity_to_buy} @ {current_price:.2f})")
                 else:
                     trades_executed['hold'].append(ticker) # 구매 불가시 홀드

             # 2. 매도 (Action == 1)
             elif action == 1:
                 current_quantity = self.portfolio_holdings.get(ticker, 0)
                 if current_quantity > 0:
                     # 매도할 수량 결정 (여기서는 보유량 전체 매도)
                     quantity_to_sell = current_quantity
                     effective_sell_price = current_price * (1 - self.transaction_cost_pct - self.slippage_pct)
                     if effective_sell_price < 0: effective_sell_price = 0 # 음수 방지

                     proceeds = quantity_to_sell * effective_sell_price
                     self.balance += proceeds
                     self.portfolio_holdings[ticker] = 0
                     trades_executed['sell'].append(f"{ticker}({quantity_to_sell} @ {current_price:.2f})")
                 else:
                     trades_executed['hold'].append(ticker) # 매도 불가시 홀드

             # 3. 유지 (Action == 2)
             else:
                 trades_executed['hold'].append(ticker)

        # 다음 스텝으로 이동
        self.current_step += 1

        # 포트폴리오 가치 업데이트
        self.portfolio_value = self._calculate_portfolio_value()

        # 보상 계산 (포트폴리오 가치 변화율 또는 절대 변화량)
        # reward = self.portfolio_value - prev_portfolio_value # 절대 변화량
        # 변화율 사용 시 prev_portfolio_value가 0인 경우 처리 필요
        if prev_portfolio_value > 0:
             reward = (self.portfolio_value - prev_portfolio_value) / prev_portfolio_value
        else:
             reward = 0.0 # 이전 가치가 0이면 보상 0
        # 보상 스케일링 또는 shaping 추가 가능 (예: Sharpe ratio 등)
        self.info.setdefault('step_rewards', []).append(reward) # setdefault 사용

        # 종료 조건 확인
        terminated = False # 여기서는 조기 종료 조건 없음 (예: 자산 고갈 시 종료 가능)
        if self.portfolio_value <= self.initial_balance * 0.5: # 예: 자산 50% 손실 시 종료
             # terminated = True
             # self.done = True
             # self.logger.info(f"Episode terminated early due to significant loss at step {self.current_step}.")
             pass # 조기 종료 비활성화

        truncated = False
        if self.current_step >= self.total_steps - 1:
            self.done = True
            truncated = True # 시간 제한으로 종료
            self.logger.info(f"Episode finished at step {self.current_step}. Final portfolio value: {self.portfolio_value:.2f}")


        observation = self._get_observation()
        info = self._get_info(trades_executed)
        # info['is_success'] = self.portfolio_value > self.initial_balance # 예시 성공 조건

        # Gymnasium 표준 반환 (obs, reward, terminated, truncated, info)
        return observation, reward, terminated, truncated, info


    def _get_info(self, trades=None):
       """보조 정보 반환"""
       # current_step이 범위를 벗어나지 않도록 확인
       safe_step = min(self.current_step, len(self.global_dates) - 1)
       info = {
           "current_step": self.current_step,
           "global_date": self.global_dates[safe_step].strftime('%Y-%m-%d') if safe_step >= 0 else 'N/A',
           "balance": self.balance,
           "portfolio_value": self.portfolio_value,
           "portfolio_holdings": self.portfolio_holdings.copy(),
           "step_reward": self.info.get('step_rewards', [])[-1] if self.info.get('step_rewards') else 0.0,
       }
       if trades:
           info["trades_executed"] = trades
       return info

    def render(self, mode='human'):
        """환경 상태 시각화 (간단 텍스트 출력)"""
        if mode == 'human' or mode == 'ansi':
            info = self._get_info() # 현재 스텝 정보 가져오기 (trades는 step에서 전달받아야 함)
            # step 메소드 내에서 trades 정보를 info에 추가하도록 수정하는 것이 좋음
            # 여기서는 info에 trades_executed가 있다고 가정하고 출력 시도
            output = f"--- Step: {info['current_step']} | Date: {info['global_date']} ---\n"
            output += f"Balance: {info['balance']:,.2f}\n"
            output += f"Portfolio Value: {info['portfolio_value']:,.2f}\n"
            output += "Holdings:\n"
            holdings_str = []
            for ticker, quantity in info['portfolio_holdings'].items():
                 if quantity > 0:
                     current_price = self._get_current_price(ticker)
                     holdings_str.append(f"  - {ticker}: {quantity} shares @ {current_price:.2f} (Value: {quantity * current_price:,.2f})")
            if not holdings_str:
                 output += "  (None)\n"
            else:
                 output += "\n".join(holdings_str) + "\n"

            output += f"Last Step Reward: {info.get('step_reward', 0.0):.4f}\n" # 소수점 자리수 늘림
            if 'trades_executed' in self.info: # self.info 에서 trades 가져오기 (step에서 저장 필요)
                 trades = self.info['trades_executed']
                 output += f"Trades: Buy: {trades['buy']}, Sell: {trades['sell']}, Hold: {len(trades['hold'])}\n"
            print(output)
            return output if mode == 'ansi' else None
        elif mode == 'rgb_array':
            # Matplotlib 등을 이용한 차트 렌더링 (구현 필요)
            self.logger.warning("render(mode='rgb_array') is not implemented yet.")
            return None # 또는 빈 이미지 배열
        else:
            super(StockTradingEnv, self).render(mode=mode) # 기본 Gym 렌더링 호출

    def close(self):
        """환경 자원 해제"""
        self.logger.info("Closing StockTradingEnv.")
        # 특별히 해제할 자원이 없으면 비워둠

# --- 환경 테스트 예시 ---
# (아래 테스트 코드는 외부 라이브러리/클래스 의존성으로 인해 여기서 직접 실행 불가)
# if __name__ == "__main__":
#     # 필요한 클래스 임포트 (실제 실행 시 주석 해제)
#     # from data_manager import DataManager
#     # from feature_engineer import FeatureEngineer
#     # import logging
#     # logging.basicConfig(level=logging.INFO) # 로거 기본 설정
#     # logger = logging.getLogger() # 루트 로거 사용
#     # 위에서 정의한 임시 logger 객체 사용
#     logger = logging.getLogger(__name__)
#     logger.setLevel(logging.INFO)
#     handler = logging.StreamHandler()
#     formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
#     handler.setFormatter(formatter)
#     if not logger.handlers: # 핸들러 중복 추가 방지
#          logger.addHandler(handler)


#     logger.info("--- Running Environment Independently ---")

#     # 의존성 객체 생성 (Mock 또는 실제 객체)
#     # dm = DataManager() # 실제 객체 사용 시
#     # fe = FeatureEngineer() # 실제 객체 사용 시
#     # Mock 객체 예시 (테스트용)
#     class MockDataManager:
#         def get_data(self, source, tickers=None, start_date=None, end_date=None):
#             logger.info(f"MockDataManager: Getting data for {tickers} from {start_date} to {end_date}")
#             dates = pd.date_range(start=start_date, end=end_date, freq='B') # 영업일 기준 날짜 생성
#             data = {}
#             for ticker in tickers:
#                  # 현실적인 가격 데이터 생성 (예: Random Walk)
#                  price = 100 + np.random.randn(len(dates)).cumsum() * 0.5
#                  price = np.maximum(price, 1) # 가격이 0 이하로 떨어지지 않도록
#                  df = pd.DataFrame({
#                      'open': price - np.random.rand(len(dates)) * 2,
#                      'high': price + np.random.rand(len(dates)) * 2,
#                      'low': price - np.random.rand(len(dates)) * 2,
#                      'close': price,
#                      'volume': np.random.randint(10000, 1000000, size=len(dates))
#                  }, index=dates)
#                  # low <= open/close <= high 조건 보장
#                  df['low'] = df[['low', 'open', 'close']].min(axis=1)
#                  df['high'] = df[['high', 'open', 'close']].max(axis=1)
#                  data[ticker] = df
#             # 요청된 티커가 하나일 경우 DataFrame 바로 반환, 여러 개일 경우 첫 번째 티커 데이터 반환 (get_data 인터페이스 따라 조정 필요)
#             return data[tickers[0]] if tickers else None
#         def close_connection(self): pass

#     class MockFeatureEngineer:
#         def process_features(self, price_df, fund_df=None, sent_df=None):
#             logger.info("MockFeatureEngineer: Processing features...")
#             # 간단한 특징 추가 예시 (MA)
#             df = price_df.copy()
#             df['MA5'] = df['close'].rolling(window=5).mean()
#             df['MA20'] = df['close'].rolling(window=20).mean()
#             # NaN 제거 또는 채우기 (환경 초기 부분에서 처리하므로 여기선 생략 가능)
#             # df = df.dropna() # 또는 ffill/bfill
#             return df.fillna(0) # NaN은 0으로 채워서 반환
#     dm = MockDataManager()
#     fe = MockFeatureEngineer()


#     test_start = "2023-01-01"
#     test_end = "2023-03-31"
#     try:
#         env = StockTradingEnv(dm, fe, tickers=['AAPL', 'MSFT'], start_date=test_start, end_date=test_end, is_training=False)
#         obs, info = env.reset()

#         print("\n--- Initial State ---")
#         # print(obs) # Dict 전체 출력은 너무 김
#         print("Feature shape (AAPL):", obs['features']['AAPL'].shape)
#         print("Portfolio state shape:", obs['portfolio'].shape)
#         print("Initial Info:", info)

#         # 몇 스텝 실행 테스트
#         print("\n--- Running Sample Steps ---")
#         for i in range(5):
#             # 랜덤 액션 생성 (Dict 형태)
#             action = env.action_space.sample()
#             print(f"\nStep {i+1}, Action: {action}")

#             obs, reward, terminated, truncated, info = env.step(action)
#             # step 반환값 info를 render에 전달하는 대신, render가 내부 info 사용하도록 함
#             env.render() # 현재 상태 출력
#             # step 내부에서 self.info에 trades 정보 저장 필요
#             env.info['trades_executed'] = info.get('trades_executed') # render에서 사용하기 위해 저장

#             if terminated or truncated:
#                 print("Episode finished.")
#                 break

#         env.close()

#     except ValueError as e:
#          logger.error(f"Failed to initialize environment: {e}")
#     except Exception as e:
#          logger.error(f"An error occurred during environment test: {e}", exc_info=True)
#     finally:
#          dm.close_connection()

#     logger.info("--- Environment Independent Run Finished ---")

In [79]:
# risk_manager.py
import numpy as np
import logging # 로거 임포트

# 로거 설정 (외부에서 logger 및 cfg 객체가 설정되어 있다고 가정)
# logger = logging.getLogger(__name__)
# cfg 객체도 외부에서 주입된다고 가정

class RiskManager:
    """
    트레이딩 위험 관리 로직을 담당하는 클래스.
    포지션 크기 결정, 손절매 조건 확인 등의 기능을 제공합니다.
    """
    def __init__(self):
        """RiskManager 초기화. 설정 파일(cfg)에서 파라미터를 로드합니다."""
        # logger 및 cfg 객체가 외부 스코프에 정의되어 있다고 가정
        global logger, cfg # 전역 logger, cfg 사용 명시
        self.logger = logger
        self.cfg = cfg

        self.max_pos_ratio = self.cfg.RISK_MAX_POSITION_RATIO
        self.stop_loss_pct = self.cfg.RISK_STOP_LOSS_PCT
        self.use_trailing_stop = self.cfg.RISK_USE_TRAILING_STOP
        self.trailing_stop_pct = self.cfg.RISK_TRAILING_STOP_PCT
        self.max_system_drawdown = getattr(self.cfg, 'RISK_MAX_SYSTEM_DRAWDOWN', 0.20) # 기본값 추가

        # 켈리 기준 관련 설정
        self.use_kelly_criterion = self.cfg.RISK_USE_KELLY_CRITERION
        self.kelly_fraction = self.cfg.RISK_KELLY_FRACTION
        self.kelly_win_rate = self.cfg.RISK_KELLY_WIN_RATE
        self.kelly_payoff_ratio = self.cfg.RISK_KELLY_PAYOFF_RATIO

        # ML 예측기 사용 여부 (추후 확장용)
        # self.use_ml_risk_predictor = False
        # self.risk_predictor_model = None # load_ml_risk_predictor() 등으로 로드

        self.logger.info("RiskManager initialized with settings:")
        self.logger.info(f"  - Max Position Ratio per Stock: {self.max_pos_ratio:.2%}")
        self.logger.info(f"  - Static Stop Loss: {self.stop_loss_pct:.2%}")
        self.logger.info(f"  - Trailing Stop Loss: {'Enabled' if self.use_trailing_stop else 'Disabled'} ({self.trailing_stop_pct:.2%})")
        self.logger.info(f"  - Kelly Criterion for Sizing: {'Enabled' if self.use_kelly_criterion else 'Disabled'}")
        if self.use_kelly_criterion:
            self.logger.info(f"    - Kelly Fraction: {self.kelly_fraction:.2%}")
            self.logger.info(f"    - Kelly Est. Win Rate: {self.kelly_win_rate:.2%}")
            self.logger.info(f"    - Kelly Est. Payoff Ratio: {self.kelly_payoff_ratio:.2f}")


    def calculate_position_size(self, ticker, portfolio_value, current_price, available_cash, current_holdings=0, signal_strength=1.0):
        """
        현재 포트폴리오 가치, 가격, 가용 현금 등을 고려하여 매수할 포지션 크기(주식 수)를 결정합니다.
        """
        if current_price <= 0 or portfolio_value <= 0:
            self.logger.warning(f"{ticker}: Cannot calculate position size with zero/negative price or portfolio value.")
            return 0

        # 1. 최대 투자 가능 금액 결정
        max_investment_value_per_stock = portfolio_value * self.max_pos_ratio
        current_holding_value = current_holdings * current_price
        max_additional_investment = max(0, max_investment_value_per_stock - current_holding_value)

        if max_additional_investment <= 0:
            self.logger.debug(f"{ticker}: Already at or above max position ratio ({self.max_pos_ratio:.1%}). No additional buy.")
            return 0

        # 2. 포지션 크기 결정 전략 선택
        target_fraction = self.max_pos_ratio # 기본값

        if self.use_kelly_criterion:
            try:
                b = self.kelly_payoff_ratio
                p = self.kelly_win_rate * signal_strength
                q = 1.0 - p

                if b <= 0:
                    self.logger.warning(f"{ticker}: Kelly Criterion - Payoff ratio ({b:.2f}) is not positive. Sizing set to 0.")
                    kelly_f = 0.0
                elif not (0 <= p <= 1): # p 범위 검사 수정
                    self.logger.warning(f"{ticker}: Kelly Criterion - Win rate ({p:.2f}) is invalid. Sizing set to 0.")
                    kelly_f = 0.0
                else:
                    kelly_f = (p * b - q) / b if b != 0 else 0 # ZeroDivisionError 방지
                    if not (0 < kelly_f):
                        self.logger.debug(f"{ticker}: Kelly Criterion calculated non-positive fraction ({kelly_f:.4f}). Setting to 0.")
                        kelly_f = 0.0
                    else:
                        kelly_f = round(kelly_f, 4)

                adjusted_kelly_fraction = kelly_f * self.kelly_fraction
                target_fraction = min(adjusted_kelly_fraction, self.max_pos_ratio)
                self.logger.debug(f"{ticker}: Kelly sizing: f={kelly_f:.4f}, adjusted_f={target_fraction:.4f} (KellyFrac:{self.kelly_fraction:.2%}, Signal:{signal_strength:.2f}, MaxRatio:{self.max_pos_ratio:.2f})")

            except Exception as e:
                self.logger.error(f"{ticker}: Error calculating Kelly Criterion: {e}. Falling back.", exc_info=True) # exc_info 추가
                target_fraction = self.max_pos_ratio

        # 3. 최종 추가 투자 금액 및 주식 수 계산
        target_holding_value = portfolio_value * target_fraction
        additional_investment_target = max(0, target_holding_value - current_holding_value)

        # affordable_investment 계산 시 min() 인자 순서 중요할 수 있음 (디버깅 편의상)
        affordable_investment = min(additional_investment_target, max_additional_investment, available_cash) # target -> max_ratio -> cash 순서로 제한 확인 용이

        if affordable_investment <= 0:
            limit_info = f"Max Add: {max_additional_investment:.0f}, Cash: {available_cash:.0f}, Target Add: {additional_investment_target:.0f}"
            if additional_investment_target <= 0 and self.use_kelly_criterion:
                 limit_info += f" (Kelly target <= 0 or holding sufficient)"
            elif max_additional_investment <= 0:
                 limit_info += f" (Max ratio reached)"
            elif available_cash <= 0:
                 limit_info += f" (No available cash)"

            self.logger.debug(f"{ticker}: No affordable investment amount ({limit_info})")
            return 0

        # 수수료/슬리피지 cfg에서 가져오기
        trans_cost = getattr(self.cfg, 'ENV_TRANSACTION_COST_PCT', 0.0)
        slippage = getattr(self.cfg, 'ENV_SLIPPAGE_PCT', 0.0)
        effective_buy_price = current_price * (1 + trans_cost + slippage)

        if effective_buy_price <= 0:
            self.logger.warning(f"{ticker}: Effective buy price ({effective_buy_price:.2f}) is zero or negative.")
            return 0

        position_size = int(affordable_investment / effective_buy_price)

        # 어떤 제한에 걸렸는지 명확히 로깅
        limit_reason = "Unknown"
        if affordable_investment == additional_investment_target:
             limit_reason = "Kelly/Target Fraction" if self.use_kelly_criterion else "Target Fraction (Max Ratio)"
        elif affordable_investment == max_additional_investment:
             limit_reason = "Max Position Ratio"
        elif affordable_investment == available_cash:
             limit_reason = "Available Cash"

        self.logger.info(f"{ticker}: Calculated position size to buy: {position_size} shares. "
                         f"(Affordable Investment: {affordable_investment:,.0f} limited by {limit_reason}, "
                         f"Target Fraction: {target_fraction:.2%}, Price: {current_price:.2f}, EffPrice: {effective_buy_price:.2f})")

        return max(0, position_size)


    def check_stop_loss(self, ticker, current_price, entry_price, high_water_mark, position_size):
        """
        현재 가격을 기준으로 손절매 조건을 확인합니다. (이전과 동일)
        """
        if position_size <= 0 or entry_price <= 0 or current_price <= 0:
            return False

        stop_loss_triggered = False
        trigger_reason = ""

        # 1. 고정 손절매 확인
        static_stop_price = entry_price * (1.0 - self.stop_loss_pct)
        if current_price <= static_stop_price:
            stop_loss_triggered = True
            trigger_reason = f"Static Stop Loss ({self.stop_loss_pct:.2%})"
            self.logger.info(f"{ticker}: {trigger_reason} triggered at {current_price:.2f} (Entry: {entry_price:.2f}, Stop Price: {static_stop_price:.2f})")

        # 2. 추적 손절매 확인 (활성화 시 및 고정 손절 발동 안했을 때)
        if not stop_loss_triggered and self.use_trailing_stop:
            effective_high_water_mark = max(high_water_mark, entry_price)
            trailing_stop_price = effective_high_water_mark * (1.0 - self.trailing_stop_pct)

            if current_price <= trailing_stop_price:
                stop_loss_triggered = True
                trigger_reason = f"Trailing Stop Loss ({self.trailing_stop_pct:.2%})"
                self.logger.info(f"{ticker}: {trigger_reason} triggered at {current_price:.2f} (High: {effective_high_water_mark:.2f}, Stop Price: {trailing_stop_price:.2f})")

        return stop_loss_triggered


# --- 위험 관리자 테스트 예시 ---
if __name__ == "__main__":
    # =====> 수정: 테스트 실행을 위한 logger 및 cfg 정의 <=====
    # 로거 설정
    logger = logging.getLogger("RiskManager_Test")
    logger.setLevel(logging.INFO) # INFO 레벨 이상만 출력 (DEBUG 필요 시 변경)
    handler = logging.StreamHandler()
    formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
    handler.setFormatter(formatter)
    if not logger.handlers: logger.addHandler(handler)

    # 테스트용 설정 클래스 정의
    class ConfigMock:
        # RiskManager.__init__ 및 테스트 코드에서 필요한 모든 속성 정의
        RISK_MAX_POSITION_RATIO = 0.1
        RISK_STOP_LOSS_PCT = 0.05
        RISK_USE_TRAILING_STOP = True
        RISK_TRAILING_STOP_PCT = 0.07
        RISK_MAX_SYSTEM_DRAWDOWN = 0.20 # RiskManager 초기화 시 필요
        RISK_USE_KELLY_CRITERION = False # 기본값 False
        RISK_KELLY_FRACTION = 0.2
        RISK_KELLY_WIN_RATE = 0.55
        RISK_KELLY_PAYOFF_RATIO = 1.5
        # calculate_position_size 테스트에서 사용
        ENV_TRANSACTION_COST_PCT = 0.0015
        ENV_SLIPPAGE_PCT = 0.001

    cfg = ConfigMock() # 테스트용 설정 객체 생성
    # =====> 수정 끝 <=====


    logger.info("--- Running RiskManager Independently ---")
    rm = RiskManager() # 이제 테스트용 cfg 객체를 사용하여 초기화 가능

    # --- 포지션 크기 계산 테스트 ---
    portfolio_val = 10000000.0
    cash = 5000000.0
    price = 50000.0
    holdings = 50

    logger.info("\nTesting Position Sizing (Default: Max Ratio)")
    # 계산 로직은 이전과 동일, cfg 값은 ConfigMock에서 가져옴
    size1 = rm.calculate_position_size('TEST01', portfolio_val, price, cash, holdings)
    assert size1 == 0, f"Expected size 0, but got {size1}" # 실패 시 메시지 추가

    holdings_low = 5
    # effective_price 계산 시 ConfigMock의 값 사용됨
    effective_price = price * (1 + cfg.ENV_TRANSACTION_COST_PCT + cfg.ENV_SLIPPAGE_PCT)
    # size = int(750000 / 50125) = 14 (이전 계산과 동일한지 확인)
    expected_size1_low = int(750000 / effective_price)
    size1_low = rm.calculate_position_size('TEST01_low', portfolio_val, price, cash, holdings_low)
    assert size1_low == expected_size1_low, f"Expected size {expected_size1_low}, but got {size1_low}"

    cash_low = 500000.0
    # size = int(500000 / 50125) = 9 (이전 계산과 동일한지 확인)
    expected_size1_low_cash = int(cash_low / effective_price) # affordability가 현금에 걸림
    size1_low_cash = rm.calculate_position_size('TEST01_low_cash', portfolio_val, price, cash_low, holdings_low)
    assert size1_low_cash == expected_size1_low_cash, f"Expected size {expected_size1_low_cash}, but got {size1_low_cash}"


    logger.info("\nTesting Position Sizing (Kelly Criterion Enabled)")
    # ConfigMock의 Kelly 관련 기본값 사용됨 (use_kelly_criterion=False 이므로 아래 코드는 영향 없음)
    # 만약 Kelly 테스트를 원하면 cfg.RISK_USE_KELLY_CRITERION = True 로 설정 필요
    cfg.RISK_USE_KELLY_CRITERION = True # 테스트를 위해 임시로 활성화
    cfg.RISK_KELLY_WIN_RATE = 0.60
    cfg.RISK_KELLY_PAYOFF_RATIO = 2.0
    cfg.RISK_KELLY_FRACTION = 0.2 # ConfigMock에 정의된 값 사용
    # rm 객체를 다시 생성해야 변경된 cfg 값이 반영됨 (또는 직접 속성 변경)
    rm = RiskManager() # 변경된 cfg로 다시 초기화

    # Kelly 계산 (f = (0.6*2 - 0.4)/2 = 0.4), adjusted_f = 0.4 * 0.2 = 0.08
    # target_fraction = min(0.08, 0.1) = 0.08
    # target_holding = 10M * 0.08 = 800k
    # current_holding = 5 * 50k = 250k
    # additional_target = 800k - 250k = 550k
    # max_additional = 750k
    # cash = 5M
    # affordable = min(550k, 750k, 5M) = 550k
    # size = int(550k / 50125) = 10
    expected_size2 = int(550000 / effective_price)
    size2 = rm.calculate_position_size('TEST02_kelly', portfolio_val, price, cash, holdings_low, signal_strength=1.0)
    assert size2 == expected_size2, f"Expected size {expected_size2} for Kelly, but got {size2}"
    # 테스트 후 원래 설정으로 복원 (선택 사항)
    cfg.RISK_USE_KELLY_CRITERION = False
    rm = RiskManager() # 원래 설정으로 복원


    # --- 손절매 테스트 (이전 수정 사항 반영) ---
    logger.info("\nTesting Stop Loss")
    entry = 10000.0
    high = 11000.0
    pos_size = 10

    current1 = 9400.0
    triggered1 = rm.check_stop_loss('TEST11', current1, entry, high, pos_size)
    logger.info(f"Current={current1}, Stop Triggered: {triggered1}")
    assert triggered1 is True

    current2 = 9600.0
    triggered2 = rm.check_stop_loss('TEST12', current2, entry, high, pos_size)
    logger.info(f"Current={current2}, Stop Triggered: {triggered2}")
    assert triggered2 is True # 이전 수정 사항 반영 (Trailing stop 발동)

    current3 = 10200.0
    triggered3 = rm.check_stop_loss('TEST13', current3, entry, high, pos_size)
    logger.info(f"Current={current3}, Stop Triggered: {triggered3} (High={high})")
    assert triggered3 is True

    current4 = 10500.0
    triggered4 = rm.check_stop_loss('TEST14', current4, entry, high, pos_size)
    logger.info(f"Current={current4}, Stop Triggered: {triggered4} (High={high})")
    assert triggered4 is False

    logger.info("--- RiskManager Independent Run Finished ---")

2025-04-28 13:28:20,989 - RiskManager_Test - INFO - --- Running RiskManager Independently ---
INFO:RiskManager_Test:--- Running RiskManager Independently ---
2025-04-28 13:28:20,991 - RiskManager_Test - INFO - RiskManager initialized with settings:
INFO:RiskManager_Test:RiskManager initialized with settings:
2025-04-28 13:28:20,992 - RiskManager_Test - INFO -   - Max Position Ratio per Stock: 10.00%
INFO:RiskManager_Test:  - Max Position Ratio per Stock: 10.00%
2025-04-28 13:28:20,994 - RiskManager_Test - INFO -   - Static Stop Loss: 5.00%
INFO:RiskManager_Test:  - Static Stop Loss: 5.00%
2025-04-28 13:28:20,995 - RiskManager_Test - INFO -   - Trailing Stop Loss: Enabled (7.00%)
INFO:RiskManager_Test:  - Trailing Stop Loss: Enabled (7.00%)
2025-04-28 13:28:20,997 - RiskManager_Test - INFO -   - Kelly Criterion for Sizing: Disabled
INFO:RiskManager_Test:  - Kelly Criterion for Sizing: Disabled
2025-04-28 13:28:20,998 - RiskManager_Test - INFO - 
Testing Position Sizing (Default: Max Rat

In [80]:
# risk_manager.py
import numpy as np


class RiskManager:
    """
    트레이딩 위험 관리 로직을 담당하는 클래스.
    포지션 크기 결정, 손절매 조건 확인 등의 기능을 제공합니다.
    """
    def __init__(self):
        """RiskManager 초기화. 설정 파일(cfg)에서 파라미터를 로드합니다."""
        self.max_pos_ratio = cfg.RISK_MAX_POSITION_RATIO
        self.stop_loss_pct = cfg.RISK_STOP_LOSS_PCT
        self.use_trailing_stop = cfg.RISK_USE_TRAILING_STOP
        self.trailing_stop_pct = cfg.RISK_TRAILING_STOP_PCT
        self.max_system_drawdown = cfg.RISK_MAX_SYSTEM_DRAWDOWN # 시스템 최대 손실률 (백테스터에서 활용)

        # 켈리 기준 관련 설정
        self.use_kelly_criterion = cfg.RISK_USE_KELLY_CRITERION
        self.kelly_fraction = cfg.RISK_KELLY_FRACTION # 사용할 켈리 비율
        self.kelly_win_rate = cfg.RISK_KELLY_WIN_RATE # 예상 승률
        self.kelly_payoff_ratio = cfg.RISK_KELLY_PAYOFF_RATIO # 예상 손익비 (평균 수익 / 평균 손실)

        # ML 예측기 사용 여부 (추후 확장용)
        # self.use_ml_risk_predictor = False
        # self.risk_predictor_model = None # load_ml_risk_predictor() 등으로 로드

        logger.info("RiskManager initialized with settings:")
        logger.info(f"  - Max Position Ratio per Stock: {self.max_pos_ratio:.2%}")
        logger.info(f"  - Static Stop Loss: {self.stop_loss_pct:.2%}")
        logger.info(f"  - Trailing Stop Loss: {'Enabled' if self.use_trailing_stop else 'Disabled'} ({self.trailing_stop_pct:.2%})")
        logger.info(f"  - Kelly Criterion for Sizing: {'Enabled' if self.use_kelly_criterion else 'Disabled'}")
        if self.use_kelly_criterion:
            logger.info(f"    - Kelly Fraction: {self.kelly_fraction:.2%}")
            logger.info(f"    - Kelly Est. Win Rate: {self.kelly_win_rate:.2%}")
            logger.info(f"    - Kelly Est. Payoff Ratio: {self.kelly_payoff_ratio:.2f}")


    def calculate_position_size(self, ticker, portfolio_value, current_price, available_cash, current_holdings=0, signal_strength=1.0):
        """
        현재 포트폴리오 가치, 가격, 가용 현금 등을 고려하여 매수할 포지션 크기(주식 수)를 결정합니다.

        Args:
            ticker (str): 대상 종목 티커.
            portfolio_value (float): 현재 총 포트폴리오 가치 (현금 + 주식 평가액).
            current_price (float): 현재 주가.
            available_cash (float): 현재 보유 현금.
            current_holdings (int, optional): 현재 해당 티커 보유량. Defaults to 0.
            signal_strength (float, optional): 매수 신호의 강도 (0~1). Defaults to 1.0.

        Returns:
            int: 매수할 주식 수 (0 이상).
        """
        if current_price <= 0 or portfolio_value <= 0:
            logger.warning(f"{ticker}: Cannot calculate position size with zero/negative price or portfolio value.")
            return 0

        # 1. 최대 투자 가능 금액 결정 (종목당, 현재 보유분 제외하고 추가 투자분 기준)
        max_investment_value_per_stock = portfolio_value * self.max_pos_ratio
        current_holding_value = current_holdings * current_price
        # 추가로 투자할 수 있는 최대 금액
        max_additional_investment = max(0, max_investment_value_per_stock - current_holding_value)

        if max_additional_investment <= 0:
            logger.debug(f"{ticker}: Already at or above max position ratio ({self.max_pos_ratio:.1%}). No additional buy.")
            return 0

        # 2. 포지션 크기 결정 전략 선택
        # 사용할 투자 비율 결정 (포트폴리오 전체 가치 기준)
        target_fraction = self.max_pos_ratio # 기본값: 최대 비율까지 채우도록 시도

        if self.use_kelly_criterion:
            try:
                # 켈리 기준 계산
                b = self.kelly_payoff_ratio
                p = self.kelly_win_rate * signal_strength # 신호 강도에 따라 승률 조정 가능
                q = 1.0 - p

                if b <= 0:
                    logger.warning(f"{ticker}: Kelly Criterion - Payoff ratio ({b:.2f}) is not positive. Sizing set to 0.")
                    kelly_f = 0.0
                elif p < 0 or p > 1:
                     logger.warning(f"{ticker}: Kelly Criterion - Win rate ({p:.2f}) is invalid. Sizing set to 0.")
                     kelly_f = 0.0
                else:
                    kelly_f = (p * b - q) / b
                    if not (0 < kelly_f): # 0 이하의 켈리값은 투자하지 않음
                        logger.debug(f"{ticker}: Kelly Criterion calculated non-positive fraction ({kelly_f:.4f}). Setting to 0.")
                        kelly_f = 0.0
                    else:
                         # 소수점 자리수 제한 등 안정화 로직 추가 가능
                         kelly_f = round(kelly_f, 4)

                # 최종 사용할 투자 비율 (켈리 비율 적용)
                adjusted_kelly_fraction = kelly_f * self.kelly_fraction
                target_fraction = min(adjusted_kelly_fraction, self.max_pos_ratio) # 최대 비율 넘지 않도록
                logger.debug(f"{ticker}: Kelly sizing: f={kelly_f:.4f}, adjusted_f={target_fraction:.4f} (KellyFrac:{self.kelly_fraction:.2%}, Signal:{signal_strength:.2f}, MaxRatio:{self.max_pos_ratio:.2f})")

            except ZeroDivisionError:
                 logger.error(f"{ticker}: Error calculating Kelly Criterion - Division by zero (Payoff Ratio might be 0?). Falling back.")
                 target_fraction = self.max_pos_ratio # 오류 시 기본값 사용
            except Exception as e:
                logger.error(f"{ticker}: Error calculating Kelly Criterion: {e}. Falling back.")
                target_fraction = self.max_pos_ratio

        # 3. 최종 추가 투자 금액 및 주식 수 계산
        # 목표 보유 금액
        target_holding_value = portfolio_value * target_fraction
        # 추가로 매수할 금액
        additional_investment_target = max(0, target_holding_value - current_holding_value)

        # 실제 투자 가능 금액 제한 (추가 가능 금액과 가용 현금 중 작은 값)
        affordable_investment = min(max_additional_investment, available_cash, additional_investment_target)

        if affordable_investment <= 0:
            logger.debug(f"{ticker}: No affordable investment amount (Max Add: {max_additional_investment:.0f}, Cash: {available_cash:.0f}, Target Add: {additional_investment_target:.0f})")
            return 0

        # 수수료/슬리피지 고려한 실제 구매 가격
        effective_buy_price = current_price * (1 + cfg.ENV_TRANSACTION_COST_PCT + cfg.ENV_SLIPPAGE_PCT)
        if effective_buy_price <= 0:
            logger.warning(f"{ticker}: Effective buy price is zero or negative.")
            return 0

        # 구매할 주식 수 계산
        position_size = int(affordable_investment / effective_buy_price)

        # 로그 개선: 어떤 제한(최대비율, 현금, 켈리)에 걸렸는지 명시하면 좋음
        limit_reason = ""
        if affordable_investment == max_additional_investment: limit_reason = "Max Position Ratio"
        elif affordable_investment == available_cash: limit_reason = "Available Cash"
        elif affordable_investment == additional_investment_target: limit_reason = "Kelly/Target Fraction"

        logger.info(f"{ticker}: Calculated position size to buy: {position_size} shares. "
                    f"(Affordable Investment: {affordable_investment:,.0f} based on {limit_reason}, "
                    f"Target Fraction: {target_fraction:.2%}, Price: {current_price:.2f})")

        return max(0, position_size) # 최종적으로 0 이상 반환


    def check_stop_loss(self, ticker, current_price, entry_price, high_water_mark, position_size):
        """
        현재 가격을 기준으로 손절매 조건을 확인합니다.

        Args:
            ticker (str): 대상 종목 티커.
            current_price (float): 현재 주가.
            entry_price (float): 해당 포지션 진입 가격.
            high_water_mark (float): 해당 포지션 진입 후 최고가 (추적 손절매용).
            position_size (int): 현재 보유 수량 (0보다 커야 함).

        Returns:
            bool: 손절매 조건이 충족되면 True, 아니면 False.
        """
        if position_size <= 0 or entry_price <= 0 or current_price <= 0:
            return False # 포지션이 없거나 가격이 유효하지 않으면 손절매 없음

        stop_loss_triggered = False
        trigger_reason = ""

        # 1. 고정 손절매 확인
        static_stop_price = entry_price * (1.0 - self.stop_loss_pct)
        if current_price <= static_stop_price:
            stop_loss_triggered = True
            trigger_reason = f"Static Stop Loss ({self.stop_loss_pct:.2%})"
            logger.info(f"{ticker}: {trigger_reason} triggered at {current_price:.2f} (Entry: {entry_price:.2f}, Stop Price: {static_stop_price:.2f})")

        # 2. 추적 손절매 확인 (활성화 시 및 고정 손절 발동 안했을 때)
        if not stop_loss_triggered and self.use_trailing_stop:
            # high_water_mark는 최소한 진입 가격 이상이어야 함
            effective_high_water_mark = max(high_water_mark, entry_price)
            trailing_stop_price = effective_high_water_mark * (1.0 - self.trailing_stop_pct)

            if current_price <= trailing_stop_price:
                stop_loss_triggered = True
                trigger_reason = f"Trailing Stop Loss ({self.trailing_stop_pct:.2%})"
                logger.info(f"{ticker}: {trigger_reason} triggered at {current_price:.2f} (High: {effective_high_water_mark:.2f}, Stop Price: {trailing_stop_price:.2f})")

        return stop_loss_triggered


    # --- 추후 확장 기능 ---
    # def check_system_drawdown(self, current_portfolio_value, peak_portfolio_value):
    #     """ 시스템 전체 최대 낙폭 체크 """
    #     if peak_portfolio_value <= 0: return False
    #     drawdown = (peak_portfolio_value - current_portfolio_value) / peak_portfolio_value
    #     if drawdown >= self.max_system_drawdown:
    #         logger.critical(f"CRITICAL: System drawdown limit exceeded! Drawdown: {drawdown:.2%}, Limit: {self.max_system_drawdown:.2%}")
    #         return True
    #     return False


# --- 위험 관리자 테스트 예시 ---
if __name__ == "__main__":
    logger.info("--- Running RiskManager Independently ---")
    rm = RiskManager()

    # --- 포지션 크기 계산 테스트 ---
    portfolio_val = 10000000.0
    cash = 5000000.0 # 가용 현금
    price = 50000.0
    holdings = 50 # 현재 50주 보유 (평가액 2,500,000)

    logger.info("\nTesting Position Sizing (Default: Max Ratio)")
    # 최대 종목당 가치 = 10,000,000 * 0.1 = 1,000,000
    # 현재 보유 가치 = 50 * 50,000 = 2,500,000
    # 추가 투자 가능 금액 = max(0, 1,000,000 - 2,500,000) = 0
    size1 = rm.calculate_position_size('TEST01', portfolio_val, price, cash, holdings)
    assert size1 == 0

    # 보유량이 적을 경우
    holdings_low = 5
    current_holding_value_low = holdings_low * price # 250,000
    max_additional_investment_low = max(0, portfolio_val * rm.max_pos_ratio - current_holding_value_low) # max(0, 1,000,000 - 250,000) = 750,000
    # affordable = min(750000, cash=5000000, target=750000) = 750000
    effective_price = price * (1 + cfg.ENV_TRANSACTION_COST_PCT + cfg.ENV_SLIPPAGE_PCT) # 50000 * (1 + 0.0015 + 0.001) = 50125
    # size = int(750000 / 50125) = 14
    size1_low = rm.calculate_position_size('TEST01_low', portfolio_val, price, cash, holdings_low)
    assert size1_low == 14

    # 현금이 부족할 경우
    cash_low = 500000.0
    # affordable = min(750000, cash=500000, target=750000) = 500000
    # size = int(500000 / 50125) = 9
    size1_low_cash = rm.calculate_position_size('TEST01_low_cash', portfolio_val, price, cash_low, holdings_low)
    assert size1_low_cash == 9


    logger.info("\nTesting Position Sizing (Kelly Criterion Enabled)")
    rm.use_kelly_criterion = True
    rm.kelly_win_rate = 0.60 # 승률 60%
    rm.kelly_payoff_ratio = 2.0 # 손익비 2
    # target_fraction = min( (0.6*2 - 0.4)/2 * 0.2, 0.1 ) = min( 0.4 * 0.2, 0.1) = min(0.08, 0.1) = 0.08
    # target_holding_value = 10,000,000 * 0.08 = 800,000
    # additional_investment_target = max(0, 800,000 - 250,000) = 550,000
    # affordable = min(max_add=750000, cash=5000000, target_add=550000) = 550,000
    # size = int(550000 / 50125) = 10
    size2 = rm.calculate_position_size('TEST02_kelly', portfolio_val, price, cash, holdings_low, signal_strength=1.0)
    assert size2 == 10

    # --- 손절매 테스트 (이전과 동일) ---
    logger.info("\nTesting Stop Loss")
    entry = 10000.0
    high = 11000.0
    pos_size = 10

    current1 = 9400.0 # 10000 * (1 - 0.05) = 9500 이하 (고정 손절 발동)
    triggered1 = rm.check_stop_loss('TEST11', current1, entry, high, pos_size)
    logger.info(f"Current={current1}, Stop Triggered: {triggered1}") # 로그 메시지 수정
    assert triggered1 is True

    current2 = 9600.0 # 9500 초과 (고정 손절 미발동), 11000 * (1-0.07) = 10230 이하 (추적 손절 발동)
    triggered2 = rm.check_stop_loss('TEST12', current2, entry, high, pos_size)
    # 로그 메시지 수정: 'Static Stop Triggered' -> 'Stop Triggered'
    logger.info(f"Current={current2}, Stop Triggered: {triggered2}")
    # Assertion 수정: False -> True (추적 손절매가 발동되므로 True가 기대값)
    assert triggered2 is True

    current3 = 10200.0 # 11000 * (1 - 0.07) = 10230 이하 (추적 손절 발동)
    triggered3 = rm.check_stop_loss('TEST13', current3, entry, high, pos_size)
    logger.info(f"Current={current3}, Stop Triggered: {triggered3} (High={high})") # 로그 메시지 수정
    assert triggered3 is True

    current4 = 10500.0 # 9500 초과 (고정 손절 미발동), 10230 초과 (추적 손절 미발동)
    triggered4 = rm.check_stop_loss('TEST14', current4, entry, high, pos_size)
    logger.info(f"Current={current4}, Stop Triggered: {triggered4} (High={high})") # 로그 메시지 수정
    assert triggered4 is False

    logger.info("--- RiskManager Independent Run Finished ---")

2025-04-28 13:28:21,065 - RiskManager_Test - INFO - --- Running RiskManager Independently ---
INFO:RiskManager_Test:--- Running RiskManager Independently ---
2025-04-28 13:28:21,067 - RiskManager_Test - INFO - RiskManager initialized with settings:
INFO:RiskManager_Test:RiskManager initialized with settings:
2025-04-28 13:28:21,069 - RiskManager_Test - INFO -   - Max Position Ratio per Stock: 10.00%
INFO:RiskManager_Test:  - Max Position Ratio per Stock: 10.00%
2025-04-28 13:28:21,071 - RiskManager_Test - INFO -   - Static Stop Loss: 5.00%
INFO:RiskManager_Test:  - Static Stop Loss: 5.00%
2025-04-28 13:28:21,072 - RiskManager_Test - INFO -   - Trailing Stop Loss: Enabled (7.00%)
INFO:RiskManager_Test:  - Trailing Stop Loss: Enabled (7.00%)
2025-04-28 13:28:21,073 - RiskManager_Test - INFO -   - Kelly Criterion for Sizing: Disabled
INFO:RiskManager_Test:  - Kelly Criterion for Sizing: Disabled
2025-04-28 13:28:21,075 - RiskManager_Test - INFO - 
Testing Position Sizing (Default: Max Rat

In [81]:
# backtester.py
import backtrader as bt
import pandas as pd
import numpy as np
from datetime import datetime
import os

# --- 프로젝트 모듈 임포트 ---
# main.py 에서 실행 시 cfg, logger 등은 이미 로드되어 있을 것으로 가정
# 단, 이 파일을 독립적으로 테스트하려면 아래 주석 해제 필요
# from config import cfg
# from utils import logger, timeit
# from data_manager import DataManager
# from feature_engineer import FeatureEngineer
# from rl_agent import RLAgent
# from risk_manager import RiskManager

# --- Backtrader 데이터 피드 정의 (특징 데이터 포함) ---
class PandasDataWithFeatures(bt.feeds.PandasData):
    """
    Pandas DataFrame에서 OHLCV 외에 추가 특징(feature) 컬럼들을
    라인(line)으로 사용할 수 있도록 확장한 데이터 피드 클래스.
    """
    # lines 튜플은 params 에서 동적으로 설정됨
    lines = ()

    # params 튜플에 feature_cols 추가
    params = (
        ('feature_cols', []), # 특징 컬럼 이름 리스트를 파라미터로 받음
    )

    # datafields 리스트는 params를 기반으로 __init__에서 동적으로 완성됨
    # datafields = bt.feeds.PandasData.datafields + [...] # 이렇게 하지 않음

    def __init__(self):
        # params에서 feature_cols 가져오기
        feature_cols = self.p.feature_cols
        # lines 튜플에 feature_cols 추가
        self.lines = tuple(feature_cols)
        # datafields 리스트 업데이트 (명시적으로 라인 추가)
        for line_name in self.lines:
             # backtrader 1.9.76.123 기준, linealias 로 자동 설정되는 경우도 있음
             # 명시적으로 선언하여 호환성 확보 시도
             setattr(self.lines, line_name, None) # 라인 이름 선언
             # 또는 self.lines.add_line(line_name) # 예전 방식일 수 있음

        super(PandasDataWithFeatures, self).__init__() # 상위 클래스 초기화
        # logger.info(f"PandasDataWithFeatures feed created with custom lines: {self.lines._fields}")


# --- Backtrader 전략 클래스 ---
class BacktraderStrategy(bt.Strategy):
    """
    RL 에이전트와 RiskManager를 사용하여 Backtrader에서 실행되는 전략 클래스.
    """
    params = (
        ('agent', None),            # 학습된 RLAgent 인스턴스
        ('risk_manager', None),     # RiskManager 인스턴스
        # ('feature_engineer', None), # 특징 추출은 run_backtest에서 수행하므로 전략에는 불필요
        ('ticker', None),           # 현재 전략이 적용되는 티커
        ('all_tickers', []),        # 전체 티커 리스트 (상태 구성 시 필요)
        ('window_size', 30),        # 에이전트 관찰 기간 (기본값)
        ('num_features', 0),        # 특징 개수 (관찰 구성 시 필요)
        # ('processed_data', None),   # 전체 데이터를 전달하는 대신, 라인으로 접근
    )

    def __init__(self):
        """전략 초기화"""
        if not self.p.agent or not self.p.risk_manager or not self.p.ticker or not self.p.all_tickers or self.p.num_features <= 0:
            raise ValueError("Agent, RiskManager, Ticker, All Tickers list, and Num Features must be provided in params")

        self.agent = self.p.agent
        self.risk_manager = self.p.risk_manager
        self.ticker = self.p.ticker
        self.all_tickers = self.p.all_tickers # 전체 티커 리스트 저장
        self.window_size = self.p.window_size
        self.num_features = self.p.num_features

        # 데이터 라인 별칭 설정
        self.dt = self.datas[0].datetime
        self.open = self.datas[0].open
        self.high = self.datas[0].high
        self.low = self.datas[0].low
        self.close = self.datas[0].close
        self.volume = self.datas[0].volume
        # 특징 라인 접근용 딕셔너리 생성 (PandasDataWithFeatures에서 정의된 lines 사용)
        self.feature_lines = {line_name: getattr(self.datas[0].lines, line_name) for line_name in self.datas[0].lines._fields if line_name not in bt.feeds.PandasData.lines._fields}

        self.order = None
        self.buy_price = 0.0
        self.buy_comm = 0.0
        self.high_water_mark = 0.0
        self.peak_portfolio_value = self.broker.getvalue()

        # logger 는 전역 변수 사용 (utils.py 에서 설정됨)
        # self.log = logger

        logger.info(f"Strategy initialized for {self.ticker}. Data available: {len(self.datas[0])} bars.")
        logger.info(f"Number of features expected: {self.num_features}. Features available in feed: {list(self.feature_lines.keys())}")


    def log(self, txt, dt=None):
        ''' 표준 로깅 함수 '''
        # self.datas[0].datetime.date(0) 는 현재 bar의 날짜 객체를 반환
        dt_obj = bt.num2date(self.dt[0]) # 현재 bar의 datetime 객체 얻기
        # 로그 출력 시 logger 직접 사용
        logger.info(f'{dt_obj.strftime("%Y-%m-%d")} - [{self.ticker}] {txt}')


    def notify_order(self, order):
        """주문 상태 변경 시 호출"""
        if order.status in [order.Submitted, order.Accepted]:
            return

        if order.status in [order.Completed]:
            executed_size = order.executed.size
            # buy/sell 에 따라 부호가 다를 수 있음, 절대값 사용 또는 부호 확인
            if order.isbuy():
                self.log(f'BUY EXECUTED @{order.executed.price:.2f}, Cost:{order.executed.value:.2f}, Comm:{order.executed.comm:.2f}, Size:{executed_size}')
                # 평균 매수 단가 업데이트 로직 필요 시 추가 (여기서는 마지막 매수가격만 기록)
                self.buy_price = order.executed.price
                self.buy_comm = order.executed.comm
                self.high_water_mark = self.high[0] # 현재 바의 고가로 초기화
            elif order.issell():
                # 매도 시 executed.size 는 음수일 수 있음
                self.log(f'SELL EXECUTED @{order.executed.price:.2f}, Cost:{order.executed.value:.2f}, Comm:{order.executed.comm:.2f}, Size:{executed_size}')
            self.order = None

        elif order.status in [order.Canceled, order.Margin, order.Rejected, order.Expired]:
            self.log(f'ORDER FAILED/CANCELLED: Status {order.getstatusname()}, Ref: {order.ref}')
            self.order = None

    def notify_trade(self, trade):
        """거래(매수-매도 사이클) 완료 시 호출"""
        if not trade.isclosed:
            return
        self.log(f'TRADE CLOSED - PNL Gross:{trade.pnl:.2f}, Net:{trade.pnlcomm:.2f}')
        self.buy_price = 0.0
        self.buy_comm = 0.0
        self.high_water_mark = 0.0


    def _get_current_observation(self):
        """현재 스텝 기준 RL 에이전트용 관찰(상태) 구성"""
        obs_dict = {'features': {}, 'portfolio': {}}

        # 1. 특징 데이터 (과거 window_size 만큼)
        feature_data_np = np.zeros((self.window_size, self.num_features), dtype=np.float32)
        # 현재 bar 포함하여 window_size 만큼의 데이터 추출
        for i in range(self.window_size):
            idx = -i # 현재 bar는 0, 이전 bar는 -1, ...
            try:
                # 각 feature line 에서 과거 값 가져오기
                feature_values = [self.feature_lines[fname][idx] for fname in self.feature_lines]
                # window_size 만큼 채워넣기 (과거 -> 현재 순서로)
                feature_data_np[self.window_size - 1 - i, :] = feature_values
            except IndexError:
                # 데이터 시작 부분에서 window_size 만큼 데이터가 없을 경우 0으로 채워짐 (np.zeros 초기화)
                # logger.debug(f"Index out of bounds at relative index {idx} for ticker {self.ticker}. Using zeros.")
                pass # 이미 0으로 초기화되어 있음

        obs_dict['features'][self.ticker] = feature_data_np

        # 2. 포트폴리오 상태
        current_portfolio_value = self.broker.getvalue()
        current_cash = self.broker.getcash()
        portfolio_state = np.zeros(len(self.all_tickers) + 1, dtype=np.float32)

        if current_portfolio_value > 1e-6: # 0으로 나누기 방지
            cash_ratio = np.clip(current_cash / current_portfolio_value, 0.0, 1.0) # 0~1 사이 값
            portfolio_state[-1] = cash_ratio

            try:
                ticker_index = self.all_tickers.index(self.ticker)
                current_price = self.close[0]
                current_position = self.getposition(self.datas[0]) # 현재 포지션 객체
                position_size = current_position.size # 보유 수량
                holding_value = position_size * current_price
                holding_ratio = np.clip(holding_value / current_portfolio_value, 0.0, 1.0)
                portfolio_state[ticker_index] = holding_ratio
            except ValueError:
                 logger.error(f"Ticker {self.ticker} not found in all_tickers list.")
            except Exception as e:
                 logger.error(f"Error calculating portfolio state for {self.ticker}: {e}")


            # 합계 1로 정규화 (포트폴리오 상태 벡터의 합이 1이 되도록)
            state_sum = portfolio_state.sum()
            if state_sum > 1e-6: # 0으로 나누기 방지
                 portfolio_state /= state_sum
            else:
                 # 합계가 0에 가까우면 현금 비율만 1로 설정 (예외 처리)
                 portfolio_state[-1] = 1.0


        obs_dict['portfolio'] = portfolio_state

        return obs_dict


    def next(self):
        """매 시점(bar)마다 호출되는 핵심 로직"""
        self.bar_executed += 1 # 실행된 바 카운트 증가

        # 데이터가 window_size 만큼 쌓이기 전에는 거래하지 않음
        if self.bar_executed < self.window_size:
            return

        current_portfolio_value = self.broker.getvalue()
        current_cash = self.broker.getcash()
        current_date = bt.num2date(self.dt[0]) # datetime 객체
        current_price = self.close[0] # 현재 봉 종가
        current_position = self.getposition(self.datas[0]) # 현재 포지션 객체
        position_size = current_position.size # 현재 보유 수량

        # 최대 낙폭 업데이트 및 체크
        self.peak_portfolio_value = max(self.peak_portfolio_value, current_portfolio_value)
        # drawdown = (self.peak_portfolio_value - current_portfolio_value) / self.peak_portfolio_value
        # if drawdown >= self.risk_manager.max_system_drawdown:
        #      self.log(f"CRITICAL: System Drawdown Limit ({self.risk_manager.max_system_drawdown:.1%}) Reached! Current DD: {drawdown:.1%}. Closing position.")
        #      if position_size != 0: self.order = self.close()
        #      # 여기서 cerebro 엔진을 멈추는 방법은 직접적으로 없음, 전략 실행 중단만 가능
        #      # self.env.close() # backtrader 환경에는 env 없음
        #      return

        if self.order: return # 진행 중인 주문 있으면 스킵

        # 1. 현재 상태 생성
        current_observation = self._get_current_observation()

        # 2. RL 에이전트 행동 예측
        predicted_action = 2 # 기본값: Hold
        try:
            action_raw, _ = self.agent.predict(current_observation, deterministic=True)
            # action_raw 는 보통 array 형태 (예: array([0]))
            predicted_action = int(action_raw.item()) if isinstance(action_raw, np.ndarray) else int(action_raw)
            if predicted_action not in [0, 1, 2]:
                 logger.warning(f"Agent predicted invalid action: {predicted_action}. Defaulting to Hold (2).")
                 predicted_action = 2
        except Exception as e:
            logger.error(f"Error getting prediction from agent: {e}. Defaulting to Hold (2).")
            predicted_action = 2

        # 3. 거래 실행 로직
        if position_size == 0: # 포지션 없음
            if predicted_action == 0: # 매수 신호
                size_to_buy = self.risk_manager.calculate_position_size(
                    ticker=self.ticker,
                    portfolio_value=current_portfolio_value,
                    current_price=current_price,
                    available_cash=current_cash,
                    current_holdings=0
                )
                if size_to_buy > 0:
                    self.log(f'BUY SIGNAL: Action={predicted_action}. Creating order for {size_to_buy} shares at ~{current_price:.2f}')
                    self.order = self.buy(size=size_to_buy)
                # else: self.log(f'BUY SIGNAL: Action={predicted_action}, but calculated size is 0. Holding.')
            # else: 매도/유지 신호 시 아무것도 안 함

        elif position_size > 0: # 롱 포지션 보유 중
            self.high_water_mark = max(self.high_water_mark, self.high[0])
            stop_loss_triggered = self.risk_manager.check_stop_loss(
                ticker=self.ticker, current_price=current_price,
                entry_price=current_position.price, # backtrader 포지션 객체의 평균 매입 단가 사용
                high_water_mark=self.high_water_mark,
                position_size=position_size
            )

            if predicted_action == 1 or stop_loss_triggered: # 매도 신호 또는 손절매 발동
                sell_reason = "Agent Sell Signal" if predicted_action == 1 else "Stop Loss Triggered"
                self.log(f'SELL CREATE ({sell_reason}): Closing position of {position_size} shares at ~{current_price:.2f}')
                self.order = self.close() # 포지션 전체 청산
            # else: 매수/유지 신호 시 홀드 (추가 매수 로직은 복잡도 증가로 일단 제외)

        # else: position_size < 0 (숏 포지션) - 현재 로직은 롱만 가정

    def stop(self):
        """백테스트 종료 시 호출"""
        final_value = self.broker.getvalue()
        self.log(f'--- Strategy Stop for {self.ticker} ---')
        self.log(f'Starting Portfolio Value: {self.broker.startingcash:,.2f}')
        self.log(f'Final Portfolio Value:    {final_value:,.2f}')
        self.log(f'Total PnL:                {final_value - self.broker.startingcash:,.2f}')
        self.log(f'Peak Portfolio Value:     {self.peak_portfolio_value:,.2f}')
        drawdown = (self.peak_portfolio_value - final_value) / self.peak_portfolio_value if self.peak_portfolio_value > 0 else 0
        self.log(f'Final Drawdown:           {drawdown:.2%}')
        self.log(f'--------------------------------------')

@timeit
def run_backtest(ticker, dm, fe, agent, rm):
    """
    단일 종목에 대한 Backtrader 백테스트를 실행합니다.
    """
    logger.info(f"--- Starting Backtest for {ticker} ---")
    cerebro = bt.Cerebro(stdstats=False) # 기본 분석기 사용 안 함 (수동 추가)

    # 1. 데이터 로드 및 전처리
    logger.info(f"Loading and processing data for backtest period: {cfg.TEST_START_DATE} to {cfg.TEST_END_DATE}")
    price_data_raw = dm.get_data('stock_prices', tickers=ticker,
                                 start_date=cfg.TEST_START_DATE, end_date=cfg.TEST_END_DATE)
    if price_data_raw is None or price_data_raw.empty or len(price_data_raw) <= cfg.ENV_WINDOW_SIZE:
        logger.error(f"Not enough price data found for {ticker} in the backtest period ({len(price_data_raw)} rows <= window {cfg.ENV_WINDOW_SIZE}). Skipping.")
        return None, None

    processed_data = fe.process_features(price_data_raw)
    if processed_data is None or processed_data.empty or len(processed_data) <= cfg.ENV_WINDOW_SIZE:
        logger.error(f"Feature processing failed or resulted in insufficient data for {ticker} ({len(processed_data)} rows <= window {cfg.ENV_WINDOW_SIZE}). Skipping.")
        return None, None

    # Backtrader 피드용 컬럼 확인 및 준비
    required_bt_cols = ['open', 'high', 'low', 'close', 'volume']
    if not all(col in processed_data.columns for col in required_bt_cols):
        logger.warning(f"Processed data for {ticker} missing OHLCV columns. Merging raw data.")
        # 인덱스가 datetime 객체인지 확인
        if not isinstance(processed_data.index, pd.DatetimeIndex):
             processed_data.index = pd.to_datetime(processed_data.index)
        if not isinstance(price_data_raw.index, pd.DatetimeIndex):
             price_data_raw.index = pd.to_datetime(price_data_raw.index)

        # merge 대신 join 사용 (인덱스 기준)
        processed_data = processed_data.join(price_data_raw[required_bt_cols], how='left', lsuffix='_feat')
        # merge 후에도 없으면 에러 처리
        if not all(col in processed_data.columns for col in required_bt_cols):
              logger.error(f"Could not merge required OHLCV columns for {ticker}. Skipping.")
              return None, None

    # 사용할 특징 컬럼 리스트 추출
    # 주의: OHLCV 및 adj_close 는 모델 학습 시 특징으로 사용되었다면 포함해야 함.
    #       여기서는 모델 입력 특징과 피드 구성 특징을 분리하여 생각.
    #       피드에는 OHLCV + 계산된 지표들 모두 포함.
    #       전략에서는 self.feature_lines 로 계산된 지표들에 접근 가능.
    #       _get_current_observation 에서는 필요한 모든 특징을 수집해야 함.
    feature_columns = [col for col in processed_data.columns if col not in
                       ['open', 'high', 'low', 'close', 'volume', 'ticker', 'source', 'date']] # 기본 OHLCV 등 제외
    # 만약 adj_close 가 특징으로 사용되었다면 위 리스트에서 제외하면 안됨!
    # 예: final_feature_list = ['MA5', 'RSI14', 'adj_close', ...] # 모델이 학습한 특징 리스트
    # feature_columns = [col for col in processed_data.columns if col in final_feature_list]

    if not feature_columns:
         logger.warning(f"No feature columns identified for {ticker}. Check FeatureEngineer output.")
         # 특징 없이 진행할 수도 있으나, RL 에이전트가 작동하지 않을 수 있음

    processed_data['openinterest'] = 0.0

    # --- PandasDataWithFeatures 피드 생성 ---
    data_feed = PandasDataWithFeatures(
        dataname=processed_data,
        fromdate=datetime.strptime(cfg.TEST_START_DATE, '%Y-%m-%d'),
        todate=datetime.strptime(cfg.TEST_END_DATE, '%Y-%m-%d'),
        # datetime=None, # 인덱스가 datetime 이면 자동 인식
        open='open', high='high', low='low', close='close', volume='volume',
        openinterest='openinterest',
        feature_cols=feature_columns # 사용자 정의 라인으로 추가될 컬럼들
    )

    cerebro.adddata(data_feed, name=ticker)
    logger.info(f"Data feed for {ticker} added. Length: {len(processed_data)}, Num Features for Strategy: {len(feature_columns)}")

    # 2. 전략 추가
    cerebro.addstrategy(BacktraderStrategy,
                        agent=agent, risk_manager=rm, ticker=ticker,
                        all_tickers=cfg.TARGET_TICKERS, # 전체 티커 리스트 전달
                        window_size=cfg.ENV_WINDOW_SIZE,
                        num_features=len(feature_columns)) # 특징 개수 전달

    # 3. 브로커 설정
    cerebro.broker.setcash(cfg.BACKTEST_INITIAL_CASH)
    cerebro.broker.setcommission(commission=cfg.BACKTEST_COMMISSION_PCT, commtype=bt.CommInfoBase.COMM_PERC)
    cerebro.broker.set_slippage_perc(perc=cfg.BACKTEST_SLIPPAGE_PCT)

    # 4. 분석기 추가
    cerebro.addanalyzer(bt.analyzers.SharpeRatio, _name='sharpe', timeframe=bt.TimeFrame.Days, annualization=252, riskfreerate=0.0)
    cerebro.addanalyzer(bt.analyzers.Returns, _name='returns', timeframe=bt.TimeFrame.Days)
    cerebro.addanalyzer(bt.analyzers.DrawDown, _name='drawdown')
    cerebro.addanalyzer(bt.analyzers.TradeAnalyzer, _name='trades') # 이름 변경
    cerebro.addanalyzer(bt.analyzers.SQN, _name='sqn')

    # 5. 백테스트 실행
    logger.info(f"Running Cerebro backtest for {ticker}...")
    try:
        results = cerebro.run()
        strat_results = results[0]
    except IndexError:
        logger.error(f"Cerebro run returned empty results for {ticker}.")
        return None, None
    except Exception as e:
        logger.error(f"Error during Cerebro run for {ticker}: {e}", exc_info=True)
        return None, None

    # 6. 결과 분석 및 로깅
    logger.info(f"--- Backtest Results for {ticker} ---")
    final_value = cerebro.broker.getvalue()
    initial_cash = cfg.BACKTEST_INITIAL_CASH
    logger.info(f"Starting Portfolio Value: {initial_cash:,.2f}")
    logger.info(f"Final Portfolio Value:    {final_value:,.2f}")
    total_return_pct = (final_value / initial_cash - 1) * 100 if initial_cash > 0 else 0
    logger.info(f"Total Net Return:         {total_return_pct:.2f}%")

    analysis = {}
    try:
        analysis['sharpe'] = strat_results.analyzers.sharpe.get_analysis().get('sharperatio', None)
        analysis['returns'] = strat_results.analyzers.returns.get_analysis().get('rtot', None) # Total compounded return
        analysis['max_drawdown'] = strat_results.analyzers.drawdown.get_analysis().max.drawdown
        analysis['trade_analysis'] = strat_results.analyzers.trades.get_analysis()
        analysis['sqn'] = strat_results.analyzers.sqn.get_analysis().get('sqn', None)

        logger.info(f"Annualized Sharpe Ratio:  {analysis['sharpe']:.3f}" if analysis['sharpe'] is not None else "Sharpe Ratio: N/A")
        logger.info(f"Max Drawdown:             {analysis['max_drawdown']:.2f}%")
        logger.info(f"System Quality Number:    {analysis['sqn']:.2f}" if analysis['sqn'] is not None else "SQN: N/A")

        ta = analysis['trade_analysis']
        if ta and ta.total.total > 0:
            logger.info(f"Total Closed Trades:      {ta.total.closed}")
            win_rate = (ta.won.total / ta.total.closed * 100) if ta.total.closed > 0 else 0
            logger.info(f"Win Rate:                 {win_rate:.2f}%")
            logger.info(f"Avg Winning PNL:          {ta.won.pnl.average:.2f}")
            logger.info(f"Avg Losing PNL:           {ta.lost.pnl.average:.2f}")
            profit_factor = abs(ta.won.pnl.total / ta.lost.pnl.total) if ta.lost.pnl.total != 0 else "inf"
            logger.info(f"Profit Factor:            {profit_factor}")
        else:
            logger.info("No trades were executed during the backtest.")

    except KeyError as e: logger.error(f"KeyError accessing analysis results: {e}")
    except Exception as e: logger.error(f"Error processing analysis results: {e}", exc_info=True)

    # 7. 차트 그리기 (Colab에서는 파일 저장 권장)
    try:
        plot_file = os.path.join(cfg.LOG_DIR, f"{ticker}_backtest_plot.png")
        # iplot=False 로 설정해야 non-interactive 환경에서 실행 가능
        # plotstyle='candlestick' 또는 'bar' 등
        cerebro.plot(style='candlestick', barup='green', bardown='red', volume=True, iplot=False, savefig=True, figfilename=plot_file, dpi=150)
        logger.info(f"Backtest plot saved to {plot_file}")
    except ImportError: logger.warning("matplotlib not found. Skipping plot generation.")
    except Exception as e: logger.error(f"Error generating plot for {ticker}: {e}", exc_info=True)

    logger.info(f"--- Backtest finished for {ticker} ---")
    return final_value, analysis

# --- 백테스터 실행 예시 (독립 실행 시) ---
# if __name__ == "__main__":
#     # Colab 등에서 직접 실행 시 (다른 .py 파일 셀들이 먼저 실행되었다고 가정)
#     from data_manager import DataManager
#     from feature_engineer import FeatureEngineer
#     from rl_agent import RLAgent
#     from risk_manager import RiskManager
#     from environment import StockTradingEnv

#     logger.info("--- Running Backtester Independently ---")
#     dm = DataManager()
#     fe = FeatureEngineer()
#     rm = RiskManager()
#     ticker_to_test = 'AAPL'

#     # 임시 환경 팩토리 (에이전트 로드용)
#     temp_env_factory = lambda: StockTradingEnv(dm, fe, [ticker_to_test], cfg.TEST_START_DATE, cfg.TEST_END_DATE, False)
#     agent = RLAgent(ticker=ticker_to_test, env_factory=temp_env_factory)

#     if agent.model is None:
#         logger.error(f"Could not load agent model for {ticker_to_test}. Train the agent first using '--mode train'.")
#     else:
#         final_val, results = run_backtest(ticker_to_test, dm, fe, agent, rm)
#         if final_val: logger.info(f"Backtest for {ticker_to_test} completed. Final value: {final_val:,.2f}")

#     dm.close_connection()
#     logger.info("--- Backtester Independent Run Finished ---")


In [1]:
# main.py
import argparse
import os
from datetime import datetime
import pandas as pd
import logging # 로깅 임포트

# --- 필요한 클래스 및 함수 임포트 ---
# (utils.py, config.py 등이 같은 경로 또는 PYTHONPATH에 있다고 가정)
try:
    from config import Config
    from utils import setup_logging, set_random_seed, timeit # 유틸리티 함수 임포트
    from data_manager import DataManager
    from feature_engineer import FeatureEngineer
    from risk_manager import RiskManager
    from environment import StockTradingEnv
    from rl_agent import RLAgent
    # from backtester import run_backtest # 백테스터 함수/클래스 임포트 (가정)

    # --- 임시 백테스터 함수 (실제 backtester.py 구현 필요) ---
    @timeit # 데코레이터 사용 가능
    def run_backtest(ticker, dm, fe, agent, rm):
        logger.info(f"Running dummy backtest for {ticker}...")
        # 이 부분은 실제 backtester.py의 로직으로 대체되어야 합니다.
        # 여기서는 임의의 결과 반환
        analysis = {
            'sharpe': np.random.rand() * 2,
            'max_drawdown': np.random.rand() * 30,
            'sqn': np.random.rand() * 5,
        }
        final_value = cfg.BACKTEST_INITIAL_CASH * (1 + (np.random.rand() - 0.4)) # 초기 자본 기준 임의 수익률
        logger.info(f"Dummy backtest for {ticker} finished. Final value: {final_value:,.0f}")
        return final_value, analysis

except ImportError as e:
    print(f"Error importing necessary modules: {e}")
    print("Please ensure config.py, utils.py, data_manager.py, etc. are available.")
    # 모듈 임포트 실패 시 실행 중단 또는 기본값 설정
    exit()


# --- 전역 설정 및 로거 객체 생성 ---
cfg = Config()
logger = setup_logging(cfg) # utils.py의 로깅 설정 함수 호출

# --- 메인 파이프라인 함수 ---
@timeit
def run_main_pipeline(mode='backtest', tickers=None, start_date=None, end_date=None, train_steps=None):
    """
    AI 트레이딩 시스템의 메인 파이프라인을 실행합니다.
    (내부 코드는 이전과 동일)
    """
    logger.info(f"--- Starting Main Pipeline in '{mode}' mode ---")
    set_random_seed(cfg.RANDOM_SEED) # 재현성 위한 시드 설정

    target_tickers = tickers if tickers else cfg.TARGET_TICKERS
    if not target_tickers:
        logger.error("No target tickers specified in config or arguments. Exiting.")
        return

    logger.info(f"Target Tickers: {target_tickers}")

    dm = None
    try:
        dm = DataManager()
        fe = FeatureEngineer()
        rm = RiskManager()

        # === 데이터 업데이트 모드 ===
        if mode == 'data':
            logger.info("--- Running Data Update ---")
            data_start = start_date if start_date else cfg.DATA_START_DATE
            data_end = end_date if end_date else cfg.DATA_END_DATE
            dm.update_stock_prices(tickers=target_tickers, start_date=data_start, end_date=data_end)
            # 재무 데이터 업데이트 로직 (필요 시 주석 해제)
            # kr_tickers_in_target = [t for t in target_tickers if len(t) == 6 and t.isdigit()] # 한국 티커 식별 개선
            # if cfg.DART_API_KEY and kr_tickers_in_target:
            #     funda_start_year = int(data_start[:4])
            #     funda_end_year = int(data_end[:4])
            #     logger.info(f"Updating financial data for KR tickers: {kr_tickers_in_target}")
            #     dm.update_financials(tickers=kr_tickers_in_target, start_year=funda_start_year, end_year=funda_end_year)
            # else:
            #     logger.warning("Skipping financial data update (No DART key or no KR tickers).")
            logger.warning("Financial data update is currently disabled in main.py.")


        # === 에이전트 학습 모드 ===
        elif mode == 'train':
            logger.info("--- Running Agent Training ---")
            total_timesteps = train_steps if train_steps else cfg.TOTAL_TRAINING_TIMESTEPS
            if total_timesteps <= 0:
                logger.error("Total training timesteps must be positive.")
                return

            for ticker in target_tickers:
                logger.info(f"--- Training Agent for {ticker} ---")
                try:
                    train_env_factory = lambda: StockTradingEnv(
                        data_manager=dm, feature_engineer=fe, tickers=[ticker],
                        start_date=cfg.TRAIN_START_DATE, end_date=cfg.TRAIN_END_DATE,
                        is_training=True
                    )
                    eval_env_factory = lambda: StockTradingEnv(
                        data_manager=dm, feature_engineer=fe, tickers=[ticker],
                        start_date=cfg.VALIDATION_START_DATE, end_date=cfg.VALIDATION_END_DATE,
                        is_training=False
                    )
                    agent = RLAgent(ticker=ticker, env_factory=train_env_factory) # logger, cfg는 전역 객체 사용
                    agent.train(total_timesteps=total_timesteps, eval_env_factory=eval_env_factory)
                    logger.info(f"--- Finished Training for {ticker} ---")
                except ValueError as ve:
                    logger.error(f"Value error during training setup for {ticker}: {ve}. Skipping.")
                    continue
                except Exception as e:
                    logger.error(f"An error occurred during training for {ticker}: {e}", exc_info=True)
                    continue

        # === 백테스팅 모드 ===
        elif mode == 'backtest':
            logger.info("--- Running Backtesting ---")
            backtest_results = {}
            portfolio_values = {}

            backtest_start = start_date if start_date else cfg.TEST_START_DATE
            backtest_end = end_date if end_date else cfg.TEST_END_DATE
            logger.info(f"Backtesting Period: {backtest_start} to {backtest_end}")

            for ticker in target_tickers:
                logger.info(f"--- Backtesting Agent for {ticker} ---")
                try:
                    # 에이전트 로드 시에도 실제 데이터를 사용하는 환경 팩토리 전달 가능
                    load_env_factory = lambda: StockTradingEnv(
                        data_manager=dm, feature_engineer=fe, tickers=[ticker],
                        start_date=backtest_start, end_date=backtest_end, is_training=False
                    )
                    agent = RLAgent(ticker=ticker, env_factory=load_env_factory) # 모델 로드 시도

                    if agent.model is None:
                        logger.warning(f"Could not load trained model for {ticker}. Skipping backtest.")
                        continue

                    # run_backtest 함수 호출 (위에서 정의한 임시 함수 또는 실제 함수)
                    final_value, analysis = run_backtest(ticker, dm, fe, agent, rm)

                    if final_value is not None:
                        backtest_results[ticker] = analysis
                        portfolio_values[ticker] = final_value
                    else:
                        logger.warning(f"Backtest function returned None for {ticker}.")

                except ValueError as ve:
                    logger.error(f"Value error during backtesting setup for {ticker}: {ve}. Skipping.")
                    continue
                except Exception as e:
                    logger.error(f"An error occurred during backtesting for {ticker}: {e}", exc_info=True)
                    continue

            # --- 전체 백테스트 결과 요약 ---
            if backtest_results:
                logger.info("--- Overall Backtest Summary ---")
                total_final_value = sum(portfolio_values.values())
                # 초기 자본 계산 방식 수정: 백테스트 성공한 티커 수만큼만 계산
                num_backtested = len(portfolio_values)
                total_initial_value = cfg.BACKTEST_INITIAL_CASH * num_backtested if num_backtested > 0 else 0.0

                if total_initial_value > 0:
                     overall_return = (total_final_value / total_initial_value - 1)
                     logger.info(f"Number of Tickers Backtested: {num_backtested}")
                     logger.info(f"Total Initial Value (Sum): {total_initial_value:,.2f}")
                     logger.info(f"Total Final Value (Sum):   {total_final_value:,.2f}")
                     logger.info(f"Overall Net Return:        {overall_return:.2%}") # (Avg) 제거
                else:
                     logger.info("Could not calculate overall return (no successful backtests or zero initial value).")


                # 개별 티커 상세 결과 출력 (개선)
                logger.info("--- Detailed Ticker Results ---")
                results_df = pd.DataFrame(backtest_results).T # 결과를 DataFrame으로 변환
                results_df['Final Value'] = pd.Series(portfolio_values)
                initial_cash = cfg.BACKTEST_INITIAL_CASH
                results_df['Return (%)'] = ((results_df['Final Value'] / initial_cash - 1) * 100).round(2) if initial_cash > 0 else 0.0
                # 필요한 컬럼만 선택하여 출력
                summary_cols = ['Final Value', 'Return (%)', 'sharpe', 'max_drawdown', 'sqn']
                # 컬럼 존재 여부 확인 후 출력
                valid_cols = [col for col in summary_cols if col in results_df.columns]
                print(results_df[valid_cols].to_string(float_format='{:,.2f}'.format)) # DataFrame 출력

            else:
                logger.info("No backtest results to summarize.")

        # === 잘못된 모드 ===
        else:
            logger.error(f"Invalid mode specified: '{mode}'. Please use 'data', 'train', or 'backtest'.")

    except Exception as e:
        logger.critical(f"An critical error occurred in the main pipeline: {e}", exc_info=True)
    finally:
        # --- 자원 정리 ---
        if dm and hasattr(dm, 'close_connection'): # close_connection 있는지 확인
            dm.close_connection()
        logger.info(f"--- Main Pipeline Finished ('{mode}' mode) ---")


# --- 스크립트 실행 진입점 ---
if __name__ == "__main__":
    # argparse 설정 (이제 전역 cfg 접근 가능)
    parser = argparse.ArgumentParser(description=f"{cfg.PROJECT_NAME} - Main Execution Pipeline")
    parser.add_argument('--mode', type=str, default='backtest', choices=['data', 'train', 'backtest'],
                        help="Execution mode: 'data' for update, 'train' for agent training, 'backtest' for running backtest.")
    parser.add_argument('--tickers', type=str, nargs='+', default=None,
                        help="List of specific tickers to process (e.g., AAPL MSFT 005930). Overrides config.")
    parser.add_argument('--start_date', type=str, default=None, help="Start date (YYYY-MM-DD). Overrides config for data update/backtest.")
    parser.add_argument('--end_date', type=str, default=None, help="End date (YYYY-MM-DD). Overrides config for data update/backtest.")
    parser.add_argument('--train_steps', type=int, default=None, help="Total timesteps for training. Overrides config.")

    args = parser.parse_args()

    # 명령줄 인자 또는 config 기본값 사용하여 파이프라인 실행
    run_main_pipeline(
        mode=args.mode,
        tickers=args.tickers,
        start_date=args.start_date,
        end_date=args.end_date,
        train_steps=args.train_steps
    )

Error importing necessary modules: No module named 'config'
Please ensure config.py, utils.py, data_manager.py, etc. are available.


NameError: name 'Config' is not defined