# 110. Deep Neural Network을 이용한 함수 근사에서 필요한 torch basics

- Colab에서 실행

In [None]:
# CartPole 환경 생성
# 환경에서 선택 가능한 행동(action)의 개수

## Experience Replay

예시 시나리오 (capacity = 4)

| step | position | memory                              |
| ---- | -------- | ----------------------------------- |
| 0    | 0        | \[exp0]                             |
| 1    | 1        | \[exp0, exp1]                       |
| 2    | 2        | \[exp0, exp1, exp2]                 |
| 3    | 3        | \[exp0, exp1, exp2, exp3]           |
| 4    | 0        | \[exp4, exp1, exp2, exp3] ← 덮어쓰기 시작 |
| 5    | 1        | \[exp4, exp5, exp2, exp3]           |
| ...  | ...      | 계속해서 순환 덮어쓰기                        |


In [None]:
class ExperienceReplay:
    def __init__(self, capacity):
        # 메모리의 최대 저장 용량 설정
    def push(self, state, action, new_state, reward, done):
        # 하나의 transition을 메모리에 저장 (s, a, s', r, done)
        # 메모리 용량이 아직 부족하면 append, 가득 찼으면 덮어쓰기
        # 저장 위치를 순환시키기 위해 모듈로 연산 사용
    def sample(self, batch_size):
        # 메모리에서 무작위로 batch_size만큼 샘플링하고, 각 항목별로 묶어서 반환
        # zip(*list) 형식으로 반환하면 (states, actions, new_states, rewards, dones) 순으로 반환됨
    def __len__(self):
        # 현재 메모리에 저장된 transition의 수 반환

In [None]:
# 리플레이 메모리 D를 용량 10으로 초기화
# 환경을 초기화하고 상태 s를 얻음
# 5번의 경험을 저장
    # 무작위로 액션 a를 선택
    # 환경에 액션 a를 적용하고 다음 상태 s_, 보상 r 등을 얻음
    # 에피소드가 끝났는지 여부 확인
    # 경험 (s, a, s_, r, done)을 메모리에 저장
    # 다음 상태를 현재 상태로 업데이트
# 저장된 메모리 내용을 출력

## Sample random minibatch

## Select Action

- 4개의 특성(feature)으로 구성된 상태에서, 각각의 상태에서 선택할 수 있는 행동이 2가지인 환경에서, 신경망으로 근사한 상태-행동 가치 함수

In [None]:
# 입력 차원, state feature
# 출력 차원,  action space
# 은닉층의 뉴런 수
# Q-함수 근사를 위한 신경망 정의
class NeuralNetwork(nn.Module):
    def __init__(self) -> None:
        # 첫 번째 선형 계층: 입력 → 은닉층
        # 두 번째 선형 계층: 은닉층 → 출력층 (Q값 출력)
    def forward(self, x):
        # 첫 번째 은닉층에 ReLU 활성화 함수 적용
        # 최종 출력값 (각 행동에 대한 Q값) 반환
# 네트워크를 생성하고, GPU 사용 가능 시 GPU에 올림

- 입력 : 4 개 feature 로 구성된 state
- 출력 : 2 개 action values  

- greedy action : $max_{a'}Q(s', a';\theta)$

In [None]:
# 환경을 초기화하고, 초기 상태(state) s를 얻음
# Q 네트워크에 상태를 입력하여 각 행동(action)에 대한 Q값 계산
# 계산된 Q값 출력 (예: [왼쪽으로 이동할 Q값, 오른쪽으로 이동할 Q값])

In [None]:
# greedy 방식으로 행동 선택 (가장 Q값이 높은 행동 선택)
# 선택된 행동 출력 (예: 0 또는 1 → CartPole에서는 왼쪽 또는 오른쪽)

## State-Action Value (q value) from DQN

Q-network 에서 입력으로 주어진 states 에 대응하는 action values 를 출력으로 얻어 greedy action 을 선택하는 code.  

함수 max()는 최대값과 해당 값의 인덱스를 모두 반환하므로 최대값과 argmax를 모두 계산합니다. 이 경우 값에만 관심이 있기 때문에 결과의 첫 번째 항목(values)을 사용합니다.

In [None]:
# numpy 형태의 상태들(states)을 텐서로 변환하고 GPU로 이동
# Q-네트워크에 상태들을 넣어 각 행동에 대한 Q값 예측
# detach(): 그래디언트 추적 중단
# cpu(): GPU에 있던 값을 CPU로 이동 (출력/시각화용)
# 각 상태에 대한 모든 행동의 Q값 출력
# 각 상태별로 가장 큰 Q값과 그에 해당하는 행동 인덱스를 튜플로 출력
# 가장 큰 Q값들만 추출 (values: 최대 Q값, indices: 해당 행동 인덱스)
# 각 상태에 대해 선택된 행동의 Q값 (가장 큰 값)
# 각 상태에 대해 Q값이 가장 큰 행동의 인덱스 (예: 0 또는 1)

## torch.gather

- torch.gather 함수 (또는 torch.Tensor.gather)는 다중 인덱스 선택 방법  

- 첫 번째 인수인 input은 요소를 선택하려는 소스 텐서. 두 번째 dim은 수집하려는 차원. 마지막으로 index는 입력을 인덱싱하는 인덱스.

4개의 항목과 4개의 작업으로 구성된 일괄 처리가 있는 간단한 예제 사례에서 gather가 수행하는 작업의 요약입니다.

```
state_action_values = net(states_v).gather(1, actions_v.unsqueeze(1))
```


<img src=https://miro.medium.com/max/1400/1*fS-9p5EBKVgl69Gy0gwjGQ.png width=400>

| 구분                    | 설명                                                 |
| --------------------- | -------------------------------------------------- |
| `Output of the model` | 신경망의 출력 → 각 상태(batch)에 대해 가능한 모든 action의 Q값들 (4개씩) |
| `Actions taken`       | 각 상태에서 실제로 취한 행동의 인덱스 (예: `[2, 3, 0, 2]`)          |
| `Result of gather`    | 각 상태에서 실제 취한 행동에 대한 Q값만 추출한 결과                     |


In [None]:
# gather: 각 row에서 지정한 index(actions) 위치의 값만 추출

In [None]:
# 실행한 action 들을 LongTensor 형태로 정의하고, (batch_size, 1) 형태로 reshape
# 예: batch 내 5개의 상태에서 취한 행동 = [1, 0, 1, 1, 0]

In [None]:
# # gather를 통해 각 상태에서 취한 action의 Q값 추출

## REINFORECE 알고리즘 지원을 위한 PROBABILITY DISTRIBUTIONS - TORCH.DISTRIBUTIONS

- distribution 패키지에는 매개변수화할 수 있는 확률 분포와 sampling 함수가 포함되어 있습니다. 이를 통해 최적화를 위한 확률적 계산 그래프 및 확률적 기울기 추정기를 구성할 수 있습니다.

- torch 는 다음과 같이 REINFORCE 알고리즘을 지원합니다.

```python
    probs = policy_network(state)
    m = Categorical(probs)
    action = m.sample()
    next_state, reward = env.step(action)
    loss = -m.log_prob(action) * reward
    loss.backward()
```

### 방법 1) Categorical(probs) 에서 sampling

'probs'가 길이가 'K'인 1차원 array인 경우, 각 element 는 해당 인덱스에서 클래스를 샘플링할 상대 확률입니다.

In [None]:
# 각 class 를 sampling 할 상대 확률

위의 m 에서 sampling 을 반복하면 softmax 확률 분포로 sampling 된다.

### 방법 2) np.random.choice 에서 sampling

- np.random.choice 의 `parameter p`에 softmax 확률 분포 지정하여 sampling

### REINFORCE 구현을  위해  total expected return $G_t$ 를 estimate 하는 방법

In [None]:
# 5 step 만에 spisode 종료 가정

In [None]:
# Reverse the array direction for cumsum and then
# revert back to the original order
# return r - r.mean()

In [None]:
# episodic task

In [None]:
# continuing task
def discount_rewards(rewards):
    # cumsum의 배열 방향을 반대로 한 다음 원래 순서로 되돌립니다.

### REINFORCE 구현을 위한 Score Function

- 확률 밀도 함수가 매개 변수와 관련하여 미분할 수있는 경우 REINFORCE를 구현하려면 sample () 및 log_prob () 만 필요

$$\Delta_{\theta} = \alpha r \frac{\partial log p(a | \pi^{\theta}(s))}{\partial\theta}$$  

$\alpha$ - learning rate, r - reward,  $p(a|\pi^\theta(s))$ - probability of taking action a  


- Network 출력에서 action을 샘플링하고 이 action을 environment에 적용한 다음 log_prob를 사용하여 동등한 손실 함수를 구성.   
- optimizer는 경사 하강법을 사용하기 때문에 음수를 사용하는 반면 위의 규칙은 경사 상승을 가정.   
- Categorical Policy를 사용하는 경우 REINFORCE를 구현하는 코드는 다음과 같다.

In [None]:
#probs = policy_network(state)
#loss.backward()

## Huber Loss

- Actor-Critic 의 critic value function 의 loss 계산에 사용  
- Huber Loss는 L1과 L2의 장점을 취하면서 단점을 보완하기 위해서 제안된 것이 Huber Loss다.
    - 모든 지점에서 미분이 가능하다.  
    - Outlier에 상대적으로 Robust하다.
<img src=https://bekaykang.github.io/assets/img/post/201209-2.png width=300>