# 251. REINFORCE Algorithm

- Monte-Carlo method를 통해 구한 episodic sample 의 estimated return을 이용하여 policy parameter 𝜃를 update해 나가는 기법

- REINFORCE 갱신 규칙

$$\Delta\theta_t = \alpha\nabla_\theta\log{\pi_\theta}(s, a)G_t$$

- 따라서, Loss function 은
$$-G_t\log{\pi_\theta}(s, a)$$

```
                log_prob = torch.log(pi(state_tensor))
                selected_log_probs = reward_tensor * \
                        torch.gather(log_prob, 1, action_tensor.unsqueeze(1)).squeeze()
                loss = -1 * selected_log_probs.mean()
```

In [None]:
# swig 설치 (Box2D와 같은 C/C++ 확장 모듈 빌드 시 필요)
# gymnasium 라이브러리 설치 (box2d 환경 지원 포함)
# 비디오 녹화 기능에 필요한 X 가상 프레임버퍼(xvfb)와 X11 유틸리티 설치
# > tmp : 설치 로그를 tmp 파일로 리다이렉트
# 가상 디스플레이(pyvirtualdisplay) 설치 (버전 0.2.*로 고정)
# - Colab이나 서버 환경에서 GUI 없이 환경 렌더링/비디오 생성 가능

<img src="https://miro.medium.com/max/1400/1*4RncZNj1ij5A5eMJpexhrw.png" width=700/>

### 환경 초기화

In [None]:
# ENV_NAME = 'LunarLander-v3'
# 환경 생성
# 행동 공간(Action space)을 정수 배열로 생성
# 예: 행동이 4개면 [0, 1, 2, 3]
# 행동 공간 출력
# 관측 공간(Observation space)의 형태와 행동 개수 출력
# env.observation_space.shape: 관측 값의 차원
# env.action_space.n: 가능한 행동의 개수

### Policy Network 생성

In [None]:
# 차별 가능한(differentiable) 정책 파라미터화 pi(a|s, θ) 정의
class PolicyNetwork(nn.Module):
    def __init__(self, input_dims, n_actions):
        # 입력 차원(*input_dims) → 128개의 은닉 노드
        # 128개의 은닉 노드 → 행동 개수(n_actions)
    def forward(self, state):
        # 첫 번째 층 통과 후 ReLU 활성화 함수 적용
        # 두 번째 층 통과 후 Softmax 적용 → 각 행동에 대한 확률 분포 생성
# 파라미터 θ 초기화
# env.observation_space.shape : 관측 값의 차원 (예: (4,))
# env.action_space.n           : 행동의 개수 (예: 2)
# 네트워크 구조 출력

### hyper-parameters 설정, reward 계산 도우미 함수 생성

In [None]:
# 학습률(스텝 사이즈) 설정: 0 < alpha < 1
# 할인율(감가율) 설정: 0 < gamma < 1
# 최대 학습 에피소드 수 N
# 한 번의 업데이트에 사용할 에피소드 수 (배치 크기)
# Adam 최적화 알고리즘을 사용하여 정책 네트워크(pi) 학습
def discount_rewards(rewards):
    # 보상을 역순으로 순회하며 할인 보상 계산
    # 계산된 리스트를 역순으로 뒤집어서 원래 시점 순서로 복원
    # 보상 정규화 (평균 0, 표준편차 1로 스케일링) → 학습 안정성과 수렴 속도 개선

### main algorithm 작성 / Train

In [None]:
# While episode n < N do:
    # 환경 초기화
    # 현재 에피소드의 상태, 보상, 행동 저장용 리스트
    # Generate an episode: s0, a0, r0, ... st, at, rt following policy pi(a|s, θ)
        # 정책 네트워크에서 행동 확률 분포 계산
        # 확률 분포에 따라 행동 샘플링
        # 환경에 행동 적용 → 다음 상태, 보상, 종료 여부 반환
        # 현재 step의 경험 저장
        # 상태 업데이트
        # 에피소드 종료 시 처리
            # 1) 보상 시퀀스 → 할인 보상(Return)으로 변환
            # 2) 배치 크기만큼 데이터가 쌓이면 정책 네트워크 업데이트
                # 상태, 보상, 행동 → 텐서 변환
                # 정책 로그 확률 계산
                # 수행한 행동에 해당하는 로그 확률만 선택 후, 할인 보상 곱하기
                # 정책 경사도의 손실 함수: L(θ) = - 평균[ G_t * log π(a|s, θ) ]
                # 정책 네트워크 파라미터 업데이트
                # 그래디언트 클리핑 (폭주 방지)
                # 배치 데이터 초기화
    # 100 에피소드마다 최근 100개 평균 보상 출력
# 환경 종료

### reward 변화 시각화

In [None]:
# 학습 소요 시간 출력 (분 단위)
# 최근 100 에피소드 평균 보상을 저장할 배열 초기화
# 각 에피소드별 최근 100개 평균 보상 계산
    # i번째까지의 보상 중, 최대 100개 구간의 평균을 계산
# 러닝 평균 보상 그래프 출력

### 이미 학습되어 저장된 model load

### Animate it with Video

In [None]:
# 동영상(mp4 등)을 base64로 인코딩하기 위한 모듈
# Gymnasium 환경에서 에피소드 실행 영상을 녹화하는 래퍼
# 가상 디스플레이 시작 (Colab이나 서버 환경에서 영상 렌더링용)
# MP4 영상을 HTML로 변환하여 노트북에 표시하는 함수
def render_mp4(videopath: str, width: int = 400) -> HTML:
# 환경 준비
# render_mode='rgb_array'로 설정해야 RecordVideo가 동작 가능
# 비디오 기록을 위한 래퍼(wrapper) 적용
# video_folder에 저장, episode_trigger=lambda e: True → 모든 에피소드 기록
# 행동(action) 공간 설정 (예: [0, 1])
# 에피소드 실행
    # 현재 상태(state)를 기반으로 정책 네트워크(pi)에서 행동 확률 계산
    # 확률 분포(probs)에 따라 행동 선택
    # 환경에서 선택한 행동 실행
    # 상태 갱신
# 환경 종료 (비디오 기록 완료)
# 저장된 비디오 중 가장 최근 파일 찾기
# Jupyter/Colab에서 비디오 재생