# 🎮 Paper.io ML-Agents Colab Training

Unity ML-Agents Paper.io 프로젝트를 Google Colab에서 학습 가능하도록 Python으로 재구현한 환경입니다.

## 🌟 주요 특징
- **정확한 Unity 복제**: MyAgent.cs의 84차원 관찰 시스템과 보상 구조를 정확히 재현
- **4플레이어 경쟁**: 100x100 맵에서 실시간 대전
- **PPO 학습**: ML-Agents와 동일한 하이퍼파라미터 사용
- **실시간 시각화**: 게임 상태와 학습 진행 상황 모니터링
- **Colab 최적화**: GPU 가속 및 TensorBoard 연동

## 📦 1. 환경 설정

In [None]:
# 저장소 클론
!git clone https://github.com/4sz5sz6sz/Project-AI-Paper.io-ML-Agents.git
%cd Project-AI-Paper.io-ML-Agents/colab_training

In [None]:
# 의존성 설치
!pip install -r requirements.txt

## 🎯 2. 빠른 데모

In [None]:
# 전체 데모 실행
!python demo_colab.py

## 🧠 3. 본격 학습

In [None]:
# 학습 시작 (100K 스텝)
!python train_colab.py --steps 100000 --tensorboard

In [None]:
# TensorBoard 시작
%load_ext tensorboard
%tensorboard --logdir=runs

## 🎮 4. 대화형 환경 테스트

In [None]:
from paper_io_env import PaperIOEnv
from visualizer import PaperIOVisualizer
import numpy as np

# 환경 생성
env = PaperIOEnv()
visualizer = PaperIOVisualizer(env)

# 게임 리셋
obs = env.reset()
print(f"환경 초기화 완료: {len(obs[0])} 플레이어")

# 몇 스텝 실행
for step in range(20):
    actions = {pid: np.random.randint(0, 4) for pid in range(1, 5)}
    obs, rewards, dones, infos = env.step(actions)
    
    if step % 5 == 0:
        print(f"스텝 {step}: 점수 = {dict(env.scores)}")

print("✅ 환경 테스트 완료!")

In [None]:
# 게임 상태 시각화
visualizer.render_game_state(show_observations=True, target_player=1)

In [None]:
# 관찰값 상세 분석
visualizer.analyze_observations(player_id=1, display_components=True)

## 🔧 5. 고급 설정

In [None]:
from train_colab import PaperIOTrainer

# 커스텀 설정으로 학습
trainer = PaperIOTrainer(config_path="config.yaml", use_tensorboard=True)

# 하이퍼파라미터 조정
trainer.config.update({
    'batch_size': 4096,
    'learning_rate': 1e-4,
    'hidden_units': 1024
})

print(f"설정 완료: {trainer.config}")

In [None]:
# 장기 학습 (500K 스텝)
trainer.train(
    total_steps=500000,
    save_interval=50000,
    log_interval=2000
)

## 📊 6. 모델 평가

In [None]:
# 훈련된 모델 평가
trainer.load_models("final_model")
eval_results = trainer.evaluate(num_episodes=20)

# 결과 출력
for player_id, metrics in eval_results.items():
    win_rate = metrics['wins'] / 20 * 100
    avg_score = np.mean(metrics['scores'])
    print(f"플레이어 {player_id}: 승률 {win_rate:.1f}%, 평균 점수 {avg_score:.1f}")

In [None]:
# 학습 진행 대시보드
visualizer.create_training_dashboard(trainer.metrics)

## 💾 7. 모델 다운로드

In [None]:
# 훈련된 모델 압축 및 다운로드
!zip -r trained_models.zip models/

from google.colab import files
files.download('trained_models.zip')

print("모델 다운로드 완료!")

## 💡 팁 & 문제해결

### 🚀 성능 최적화
- GPU 런타임 사용: 런타임 > 런타임 유형 변경 > GPU
- 배치 크기 조정: 메모리에 맞게 `batch_size` 조정
- 병렬 환경: `num_envs` 설정으로 다중 환경 실행

### 🎯 학습 안정성
- 학습률 조정: 너무 높으면 불안정, 너무 낮으면 느림
- 에피소드 길이: `time_horizon` 설정으로 조정
- 정규화: `normalize: true`로 관찰값 정규화

### 🔧 문제 해결
- 메모리 부족: 배치 크기와 버퍼 크기 줄이기
- 학습 속도: GPU 사용 확인, 네트워크 크기 조정
- 시각화 오류: `matplotlib.use('Agg')` 백엔드 사용

### 📚 추가 리소스
- [ML-Agents 문서](https://github.com/Unity-Technologies/ml-agents)
- [PPO 알고리즘](https://arxiv.org/abs/1707.06347)
- [원본 Unity 프로젝트](https://github.com/4sz5sz6sz/Project-AI-Paper.io-ML-Agents)