In [29]:
import gym
from gym import spaces
import numpy as np
import pandas as pd

# 사용자 정의 환경 클래스: PairTradingEnv
class PairTradingEnv(gym.Env):
    metadata = {'render.modes': ['human']}
    
    def __init__(self, data):
        """
        data: pandas DataFrame
            데이터프레임에는 최소한 다음 열들이 포함되어 있어야 합니다.
            - 'spread'     : 로그 주가 스프레드 값
            - 'spread_MA'  : 스프레드의 이동평균 값
            - 'spread_STD' : 스프레드의 표준편차 값
            - 'Z_score'    : 스프레드의 Z-score (예: (spread - MA) / STD)
            - 'price'      : 기준 주가 (예를 들어, AAPL 또는 페어의 가격)
        """
        super(PairTradingEnv, self).__init__()
        
        self.data = data.reset_index(drop=True)
        self.n_steps = len(self.data)
        self.current_step = 0

        # 행동 공간: 0-청산/홀드, 1-롱, 2-숏
        self.action_space = spaces.Discrete(3)
        
        # 상태 공간: 5개의 연속형 피처 (예: [spread, spread_MA, spread_STD, Z_score, price])
        low = -np.inf * np.ones(5)
        high = np.inf * np.ones(5)
        self.observation_space = spaces.Box(low=low, high=high, dtype=np.float32)
        
        # 현재 포지션: 1 (롱), -1 (숏), 0 (청산)
        self.position = 0
        self.entry_price = 0

    def reset(self):
        """환경 리셋: 초기 상태로 되돌리고 초기 관측값 반환"""
        self.current_step = 0
        self.position = 0
        self.entry_price = 0
        return self._next_observation()
    
    def _next_observation(self):
        obs = self.data.iloc[self.current_step][['spread', 'spread_MA', 'spread_STD', 'Z_score', 'price']].values
        return obs.astype(np.float32)
    
    def step(self, action):
        """
        한 타임스텝 진행.
        action: int, {0: 청산/홀드, 1: 롱, 2: 숏}
        """
        done = False
        reward = 0.0
        info = {}
        
        # 다음 시점으로 이동
        self.current_step += 1
        if self.current_step >= self.n_steps - 1:
            done = True
        
        # 현재 가격: 예를 들어, 기준 주가 열 사용
        current_price = self.data.iloc[self.current_step]['price']
        
        # 행동에 따른 포지션 변경 및 보상 산정
        if action == 1:  # 롱 포지션 실행
            # 만약 현재 포지션이 숏이면, 기존 포지션 청산 후 롱 전환
            if self.position < 0:
                reward += (self.entry_price - current_price)  # 숏 포지션의 손익
                self.position = 0
            # 포지션 없거나 청산된 상태일 때 신규 롱 포지션 진입
            if self.position == 0:
                self.position = 1
                self.entry_price = current_price
        elif action == 2:  # 숏 포지션 실행
            if self.position > 0:
                reward += (current_price - self.entry_price)  # 롱 포지션의 손익
                self.position = 0
            if self.position == 0:
                self.position = -1
                self.entry_price = current_price
        else:  # 0: 포지션 청산 또는 홀드
            if self.position != 0:
                if self.position == 1:
                    reward += (current_price - self.entry_price)
                else:
                    reward += (self.entry_price - current_price)
                self.position = 0
                self.entry_price = 0
        
        # 상태 업데이트
        obs = self._next_observation()
        return obs, reward, done, info
    
    def render(self, mode='human', close=False):
        """현재 단계의 상태를 출력하여 디버깅에 도움을 줍니다."""
        print(f"Step: {self.current_step}, Position: {self.position}, Price: {self.data.iloc[self.current_step]['price']}")

        
# 예시: 환경 사용법
if __name__ == "__main__":
    # 예시 데이터 생성 (실제 데이터로 대체)
    # 여기서는 로그 스프레드와 관련 피처들을 임의로 생성함.
    np.random.seed(42)
    T = 200
    dummy_data = pd.DataFrame({
        'spread': np.random.normal(0, 1, T),
        'spread_MA': np.random.normal(0, 1, T),
        'spread_STD': np.abs(np.random.normal(0, 1, T)),
        'Z_score': np.random.normal(0, 1, T),
        'price': np.linspace(100, 120, T)  # 예시: 서서히 상승하는 주가
    })
    
    # 환경 생성
    env = PairTradingEnv(dummy_data)
    
    # 환경 초기 상태 확인
    state = env.reset()
    print("초기 상태:", state)
    
    # 임의의 행동을 취하며 환경 실행 예시
    for _ in range(5):
        action = env.action_space.sample()  # 랜덤 행동 예시
        state, reward, done, info = env.step(action)
        env.render()
        print("Reward:", reward, "\n")
        if done:
            break


초기 상태: [  0.49671414   0.35778737   1.5944277    0.75698864 100.        ]
Step: 1, Position: 0, Price: 100.10050251256281
Reward: 0.0 

Step: 2, Position: 1, Price: 100.20100502512562
Reward: 0.0 

Step: 3, Position: 1, Price: 100.30150753768844
Reward: 0.0 

Step: 4, Position: 0, Price: 100.40201005025126
Reward: 0.20100502512563878 

Step: 5, Position: 0, Price: 100.50251256281408
Reward: 0.0 

