# 9장 정책기반 에이전트
REINFORCE 알고리즘의 그라디언트 수식 : 

![image.png](attachment:image.png)

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

Q1. G_t가 왜 편향되지 않았지? Q는 G_t의 기댓값이라 편향되지 않은 값.. 평균으로 가지만 G_t 값 하나하나는 편향된거 아닌가요?

## 9.2 REINFORCE 알고리즘

![image.png](attachment:image.png)

repeat

    pi\_θ(s,a)로 에피소드 하나에 해당하는 데이터 얻고,

    해당 데이터로 θ를 업데이트 하고,

    업데이트된 pi\_θ(s,a)를 이용해 다음 에피소드의 경험을 얻고

    해당 데이터로 θ를 업데이트 하고,

until
    
    θ가 변하지 않거나 / 성능 개선이 일어나지 않을 때 까지 

## 2. REINFORCE 구현

데이터가 주어졌을 때, 데이터를 이용해 계산해야 하는 gradient 식:

![image.png](attachment:image.png)

파이토치나 텐서플로우에서 미분된 수식 사용 x - > 미분 전 식으로 구해야함

▽\_θJ(θ)대신 미분하기 전 값을 optimizer에게 넘겨주어야함

![image.png](attachment:image.png)

optimizer는 손실함수를 minimize하는 방향으로 업데이트함 => 우리는 maximize

그렇기 때문에 -를 취해줌

![image.png](attachment:image.png)

In [1]:
import gym
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.distributions import Categorical

#Hyperparameters
learning_rate = 0.0002
gamma         = 0.98 # 무조건 끝나는 episode라면 gamma == 1도 가능하다. 

In [2]:
class Policy(nn.Module):
    def __init__(self):
        super(Policy, self).__init__()
        self.data = []
        
        # weight를 정의  
        self.fc1 = nn.Linear(4, 128) # fully connected first layer
        self.fc2 = nn.Linear(128, 2) # fully connected second layer
        self.optimizer = optim.Adam(self.parameters(), lr=learning_rate)
        
    # 얜 언제 불러지는걸까요?
    def forward(self, x):
        x = F.relu(self.fc1(x)) # first layer 통과 후 비선형 함수 통과 
        x = F.softmax(self.fc2(x), dim=0) # second layer 통과 후 sofrmax로 합이 1이 되는 확률로 만들어
        return x
      
    # s, a pair 저장
    def put_data(self, item): 
        self.data.append(item)
        
    # 2-(C) presudo code
    def train_net(self):
        R = 0
        self.optimizer.zero_grad()
        for r, prob in self.data[::-1]: # return을 재귀적으로 뒤에서부터 더하면서 계산
            R = r + gamma * R # Return Gt
            loss = -torch.log(prob) * R # loss function
            loss.backward() # gradient 계산
        self.optimizer.step() # Adam optimizer update 진해
        self.data = []

  and should_run_async(code)


Q1. forward 함수는 언제 불러지는 걸까요?

- 모델 구조

길이 4인 벡터가 인풋으로 들어가, 2개의 액션에 대한 확률값을 리턴하는 네트워크입니다.

![image.png](attachment:image.png)

- train_net에서 아래 수식이 실제 사용됩니다.

![image.png](attachment:image.png)

- G_t

R이 G_t에 해당하며, 거꾸로 계산하고 있으므로 순간마다 R에는 해당 틱부터~게임끝까지 받은 보상값이 저장되어있습니다.

- loss

모든 데이터에 대해 loss를 계산하여 backward 함수를 호출하면 loss에 대한 그라디언트가 계산되어 계속 더해집니다.

해당 루프가 끝나면 optimizer.step이 실행되면 축적된 그라디언트를 이용해 뉴럴넷의 파라미터가 업데이트 됩니다.

In [3]:
# main role: 경험을 쌓는 역할 
def main():
    env = gym.make('CartPole-v1')
    # presudo code 1번
    pi = Policy()
    score = 0.0
    print_interval = 20
    
    
    for n_epi in range(10000):
        # 2-(A) presudo code
        s = env.reset() # env 초기화 상태를 받은 numpy 배열 n
        done = False
        
        # 2-(B) presudo code
        # presudo code 2번
        while not done: # CartPole-v1 forced to terminates at 500 step.
                        # Cartpole이 500번 성공하면 보통 성공이라고 봄
            prob = pi(torch.from_numpy(s).float()) # Pi에 (numpy 배열을 pytorch로 바꾼) state를 넣으면
            #각 action들의 확률이 리턴 Tensor(0.0255, -0.0159, -0.04898, -0.0408) 
            # 실제로 뽑으니 2.. 왜 길이가 4일까? 
            # 흥선님의 발표로 알았다..! (카트위치, 카트속도, 막대 각도, 막대 각속도)
#             print(prob) (0.4588, 0.543`~)
            
            m = Categorical(prob) # prob 중 높은 확률 값을 리턴 
#             print(m)
            
            a = m.sample() 
            # 이러한 확률을 가진 action에서 직접 sampling하면 cartpole의 경우에는 
            #action이 0 아니면 1 두가지중 하나로 나옴 Tensor(0)
#             print(a)
            
            s_prime, r, done, info = env.step(a.item()) 
            # 그 action을 env.step에 넣어주면 다음 상태, 보상, 겜 종료 여부를 받는다. 
            
            pi.put_data((r,prob[a])) 
            # policy 객체에 학습에 써야하기 때문에 reward, 내가 선택한 action인 prob[a] 확률을 모은다. 
            # 내가 선택하지 않은 action의 확률인 prob 쓰이지 않는다. 
            
            s = s_prime # next state 
            score += r 
        
        # 2-(C) presudo code
        pi.train_net()
        
        if n_epi%print_interval==0 and n_epi!=0:
            print("# of episode :{}, avg score : {}".format(n_epi, score/print_interval))
            score = 0.0
    env.close()

Q1. prob의 길이는 왜 4일까요? 액션은 두가지중 하나라했는데^\_^,,

- Categorical(prob)

액션 선택 방법이 범주형 정책일 경우

다른 방식으론 Normal이 있습니다. 이 경우 rsample()의 메소드를 사용한다고 하는데 어느 경우에 저 메소드를 사용하는진 이해 못했슴다^\_^,,

<br>

- 액션을 선택하는 방법

pi가 계산한 액션별 확률에다 m.sample()을 통해 하나의 액션을 샘플링 하는 방식

이때 pi확률이 높다 -> 액션을 더 자주

pi 확률이 낮다 -> 액션을 덜 뽑는다

위 과정으로 sampling된 액션 실행하면 => 전이된 상태, 보상, done등의 정보를 env로 부터 받습니다. (즉, 실제로 에이전트가 동작해본다는 것)


In [4]:
if __name__ == '__main__':
    main()

# of episode :20, avg score : 23.35
# of episode :40, avg score : 22.3
# of episode :60, avg score : 21.8
# of episode :80, avg score : 18.75
# of episode :100, avg score : 27.6
# of episode :120, avg score : 32.4
# of episode :140, avg score : 25.85
# of episode :160, avg score : 26.65
# of episode :180, avg score : 21.4
# of episode :200, avg score : 33.3
# of episode :220, avg score : 30.75
# of episode :240, avg score : 26.35
# of episode :260, avg score : 34.2
# of episode :280, avg score : 26.4
# of episode :300, avg score : 37.3
# of episode :320, avg score : 29.3
# of episode :340, avg score : 36.8
# of episode :360, avg score : 38.05
# of episode :380, avg score : 40.7
# of episode :400, avg score : 30.5
# of episode :420, avg score : 43.55
# of episode :440, avg score : 36.4
# of episode :460, avg score : 41.65
# of episode :480, avg score : 50.05
# of episode :500, avg score : 42.65
# of episode :520, avg score : 44.2
# of episode :540, avg score : 43.1
# of episode :560, av

# of episode :4340, avg score : 394.5
# of episode :4360, avg score : 364.3
# of episode :4380, avg score : 338.55
# of episode :4400, avg score : 316.0
# of episode :4420, avg score : 309.2
# of episode :4440, avg score : 389.95
# of episode :4460, avg score : 348.7
# of episode :4480, avg score : 391.05
# of episode :4500, avg score : 344.6
# of episode :4520, avg score : 400.45
# of episode :4540, avg score : 366.2
# of episode :4560, avg score : 333.15
# of episode :4580, avg score : 433.65
# of episode :4600, avg score : 417.1
# of episode :4620, avg score : 396.2
# of episode :4640, avg score : 396.0
# of episode :4660, avg score : 415.8
# of episode :4680, avg score : 393.2
# of episode :4700, avg score : 449.8
# of episode :4720, avg score : 375.2
# of episode :4740, avg score : 405.8
# of episode :4760, avg score : 458.8
# of episode :4780, avg score : 439.7
# of episode :4800, avg score : 390.65
# of episode :4820, avg score : 363.4
# of episode :4840, avg score : 405.9
# of 

# of episode :8620, avg score : 454.4
# of episode :8640, avg score : 460.1
# of episode :8660, avg score : 455.05
# of episode :8680, avg score : 413.9
# of episode :8700, avg score : 419.8
# of episode :8720, avg score : 398.05
# of episode :8740, avg score : 389.15
# of episode :8760, avg score : 398.65
# of episode :8780, avg score : 449.6
# of episode :8800, avg score : 435.5
# of episode :8820, avg score : 431.9
# of episode :8840, avg score : 455.9
# of episode :8860, avg score : 482.1
# of episode :8880, avg score : 444.25
# of episode :8900, avg score : 464.8
# of episode :8920, avg score : 449.75
# of episode :8940, avg score : 478.5
# of episode :8960, avg score : 470.6
# of episode :8980, avg score : 485.9
# of episode :9000, avg score : 473.25
# of episode :9020, avg score : 486.25
# of episode :9040, avg score : 478.15
# of episode :9060, avg score : 486.5
# of episode :9080, avg score : 463.25
# of episode :9100, avg score : 475.05
# of episode :9120, avg score : 459.75


# print적용할 때

![image.png](attachment:image.png)