In [1]:
#!pip install torch numpy matplotlib
#!pip install nest-asyncio

In [2]:
import asyncio
import nest_asyncio
import os
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime
import json
import random

# 환경 관련 import
from env.battle_env import YakemonEnv

# 모델 관련 import

# 유틸리티 관련 import
from utils.battle_logics.create_battle_pokemon import create_battle_pokemon
from utils.visualization import plot_training_results

# 에이전트 관련 import
from agent.dddqn_agent import DDDQNAgent

# RL 관련 import
from RL.reward_calculator import calculate_reward
from RL.get_state_vector import get_state

# 데이터 관련 import
from p_data.move_data import move_data
from p_data.ability_data import ability_data
from p_data.mock_pokemon import create_mock_pokemon_list

# 컨텍스트 관련 import
from context.battle_store import store
from context.duration_store import duration_store

In [3]:
# 전역 변수 초기화
battle_store = store
duration_store = duration_store

# 하이퍼파라미터 설정
HYPERPARAMS = {
    "learning_rate": 0.0005,
    "gamma": 0.95,
    "epsilon_start": 1.0,
    "epsilon_end": 0.01,
    "epsilon_decay": 0.997,
    "batch_size": 128,
    "memory_size": 50000,
    "target_update": 20,
    "num_episodes": 1000,
    "save_interval": 50,
    "test_episodes": 300,
    "base_ai_episodes": 500,  # base AI를 사용할 에피소드 수
    "state_dim": 1165,  # get_state_vector의 출력 차원
    "action_dim": 7   # 4개의 기술 + 2개의 교체 + 1개의 행동불능
}

In [4]:
from training_dqn import test_agent
from training_dqn import train_agent
# 메인 실행 코드
from datetime import datetime

In [5]:
# 메인 실행 코드
from utils.visualization import capture_output


if __name__ == "__main__":
    # Jupyter에서 중첩된 이벤트 루프 허용
    nest_asyncio.apply()
    
    # 결과 저장 디렉토리 설정
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    results_dir = os.path.join('results', f'training_{timestamp}')
    models_dir = os.path.join('models', f'training_{timestamp}')
    
    # 환경 초기화
    env = YakemonEnv()  # 실제 게임 환경
    state_dim = HYPERPARAMS["state_dim"]
    action_dim = HYPERPARAMS["action_dim"]
    
    # DDDQN 에이전트 생성
    ddqn_agent = DDDQNAgent(
        state_dim=state_dim,
        action_dim=action_dim,
        learning_rate=HYPERPARAMS["learning_rate"],
        gamma=HYPERPARAMS["gamma"],
        epsilon_start=HYPERPARAMS["epsilon_start"],
        epsilon_end=HYPERPARAMS["epsilon_end"],
        epsilon_decay=HYPERPARAMS["epsilon_decay"],
        target_update=HYPERPARAMS["target_update"],
        memory_size=HYPERPARAMS["memory_size"],
        batch_size=HYPERPARAMS["batch_size"]
    )
    
    print("Starting DDDQN training...")
    print(f"Results will be saved in: {results_dir}")
    print(f"Models will be saved in: {models_dir}")
    print("\nHyperparameters:")
    for key, value in HYPERPARAMS.items():
        print(f"  {key}: {value}")
    print("\n" + "="*50 + "\n")
    
    # DDDQN 에이전트 학습
    with capture_output() as output:
        ddqn_rewards, ddqn_losses, ddqn_victories = asyncio.run(train_agent(
            env=env,
            agent=ddqn_agent,
            num_episodes=HYPERPARAMS["num_episodes"],
            save_path=models_dir,
            agent_name='ddqn',
            HYPERPARAMS=HYPERPARAMS
        ))
    
    # 학습 결과 시각화
    log_lines = output.getvalue().splitlines()
    plot_training_results(
        rewards_history=ddqn_rewards,
        losses_history=ddqn_losses,
        agent_name='DDDQN',
        save_path=results_dir,
        victories_history=ddqn_victories,  # 승리 기록 추가
        log_lines=log_lines
    )
    
    print("\nTraining completed!")
    print(f"Results saved in: {results_dir}")
    print(f"Models saved in: {models_dir}")
    
    # 학습된 에이전트 테스트
    print("\nStarting test phase...")
    test_results = asyncio.run(test_agent(
        env=env,
        agent=ddqn_agent,
        num_episodes=HYPERPARAMS["test_episodes"],
        HYPERPARAMS=HYPERPARAMS
    ))
    
    # 테스트 결과 저장
    test_stats = {
        'avg_reward': test_results[0],
        'std_reward': test_results[1],
        'avg_steps': test_results[2],
        'victories': test_results[3],
        'win_rate': test_results[4]
    }
    
    with open(os.path.join(results_dir, 'test_results.json'), 'w') as f:
        json.dump(test_stats, f, indent=4)
    
    with open(os.path.join(results_dir, 'test_results.txt'), 'w') as f:
        f.write("Test Results\n")
        f.write("=" * 50 + "\n\n")
        f.write(f"Average Reward: {test_stats['avg_reward']:.4f} ± {test_stats['std_reward']:.4f}\n")
        f.write(f"Average Steps: {test_stats['avg_steps']:.2f}\n")
        f.write(f"Victories: {test_stats['victories']}/{HYPERPARAMS['test_episodes']} (Win Rate: {test_stats['win_rate']:.1f}%)\n")
    
    print("\nTest completed!")
    print(f"Test results saved in: {results_dir}")

Starting DDDQN training...
Results will be saved in: results/training_20250524_013525
Models will be saved in: models/training_20250524_013525

Hyperparameters:
  learning_rate: 0.0005
  gamma: 0.95
  epsilon_start: 1.0
  epsilon_end: 0.01
  epsilon_decay: 0.997
  batch_size: 128
  memory_size: 50000
  target_update: 20
  num_episodes: 1000
  save_interval: 50
  test_episodes: 300
  base_ai_episodes: 500
  state_dim: 1165
  action_dim: 7


[Episode 1]

My Team:
1. 리피아 (HP: 140/140)
   타입: 풀
   특성: 리프가드
   기술: 하품, 개척하기, 리프블레이드, 방어
2. 크레베이스 (HP: 170/170)
   타입: 얼음
   특성: 마이페이스
   기술: 바디프레스, 얼어붙은바람, 아이언헤드, 눈사태
3. 리자몽 (HP: 153/153)
   타입: 불, 비행
   특성: 맹화
   기술: 에어슬래시, 지진, 원시의힘, 화염방사

Enemy Team:
1. 갸라도스 (HP: 170/170)
   타입: 물, 비행
   특성: 자기과신
   기술: 스톤에지, 전기자석파, 용의춤, 폭포오르기
2. 버섯모 (HP: 135/135)
   타입: 풀, 격투
   특성: 테크니션
   기술: 독찌르기, 발경, 암석봉인, 더스트슈트
3. 전툴라 (HP: 145/145)
   타입: 벌레, 전기
   특성: 복안
   기술: 기습, 벌레의야단법석, 끈적끈적네트, 전기자석파
--------------------------------------------------
Episode 1 / 1000

KeyboardInterrupt: 