# 의사코드

![image.png](attachment:image.png)

In [1]:
import gym
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.distributions import Categorical

#Hyperparameters
learning_rate = 0.0002
gamma         = 0.98
n_rollout     = 10 # n-step하고 update할지 

n_rollout값은 미니배치의 크기

TD 액터크리틱의 특성상 밸류 네트워크가 평가를 대신해주기 때문에 액터-크리틱 기반 방법론은 학습할 때 리턴이 필요없으며, 관측까지 기다릴 필요 없이 바로바로 네트워크를 업데이트할 수 있습니다.

이때 n틱의 데이터를 쌓아서 업데이트할 수 도 있습니다. n_rollout은 몇 틱의 데이터를 쌓아서 업데이트를 할지를 나타냅니다.


In [2]:
class ActorCritic(nn.Module):
    def __init__(self):
        super(ActorCritic, self).__init__()
        self.data = []
        
        self.fc1 = nn.Linear(4,256) # 공유되는 layer 
        self.fc_pi = nn.Linear(256,2)
        self.fc_v = nn.Linear(256,1)
        self.optimizer = optim.Adam(self.parameters(), lr=learning_rate)
      
    # 두개의 NN
    def pi(self, x, softmax_dim = 0): # pi NN
        x = F.relu(self.fc1(x))
        x = self.fc_pi(x)
        prob = F.softmax(x, dim=softmax_dim) # softmax
        return prob
    
    def v(self, x): # value NN
        x = F.relu(self.fc1(x))
        v = self.fc_v(x) # value는 확률이 아니므로 softmax 불필요 
        return v
    
    def put_data(self, transition):
        self.data.append(transition)
        
    # 모은 데이터로 batch를 생성
    def make_batch(self):
        s_lst, a_lst, r_lst, s_prime_lst, done_lst = [], [], [], [], []
        for transition in self.data: 
            s,a,r,s_prime,done = transition
            s_lst.append(s)
            a_lst.append([a])
            r_lst.append([r/100.0])
            s_prime_lst.append(s_prime)
            done_mask = 0.0 if done else 1.0
            done_lst.append([done_mask])

        # 같은 속성끼리 모아서 tensor로 전환
        s_batch, a_batch, r_batch, s_prime_batch, done_batch = torch.tensor(s_lst, dtype=torch.float), torch.tensor(a_lst), \
                                                               torch.tensor(r_lst, dtype=torch.float), torch.tensor(s_prime_lst, dtype=torch.float), \
                                                               torch.tensor(done_lst, dtype=torch.float)
        self.data = []
        return s_batch, a_batch, r_batch, s_prime_batch, done_batch
    # 학습 함수
    def train_net(self):
        s, a, r, s_prime, done = self.make_batch() # make_batch로 들어왔던 데이터 이용해서 tensor 생성됨 
        td_target = r + gamma * self.v(s_prime) * done # td_target: 정답
        delta = td_target - self.v(s) # target - v(s)
        
        pi = self.pi(s, softmax_dim=1) # pi action 확률들
        pi_a = pi.gather(1,a) # 거기서 고른 action
        loss = -torch.log(pi_a) * delta.detach() + F.smooth_l1_loss(self.v(s), td_target.detach())
              #policy_loss                         # value_loss
        
        # delta는 상수값이므로 detach() gradient가 생성되지 않게함
        self.optimizer.zero_grad()
        loss.mean().backward()
        self.optimizer.step()         

![image.png](attachment:image.png)

pi 함수와 v함수는 각각 정책 네트워크와 밸류 네트워크에 해당하며, 두 뉴럴 넷은 하나의 레이어를 공유하도록 구현 되어 있습니다.

make_batch는 챕터 8의 딥 Q러닝 구현에서 보았던 것과 거의 유사합니다. n_rollout만큼 모였던 데이터를 s, a, r, s'끼리 따로 모아서 미니배치를 만들어 주며 이를 바탕으로 train_net 함수를 통해 실제 함수를 이루어집니다.

loss 텀에는 정책 네트워크의 손실 함수와 밸류 네트워크의 손실 함수를 더하여 한 번에 업데이트를 진행하는 방식으로 구현하였습니다.

`loss = -torch.log(pi_a) * delta.detach()`가 정책 네트워크의 손실 함수인 -log(pi\_θ(s,a))*δ에 해당합니다.

delta에 detach()가 붙어있는 이유는 delta를 상수 취급 하기 위합니다.
δ값을 계산하기 까지 필요했던 모든 그래프 연산들을 떼어줌으로써 백 프로파게이션 단계에서 그라디언트가 뒤로 흘러가지 않게 됩니다.

또한, REINFORCE와 마찬가지로, gradient ascent를 위해 `-`부호 붙여주었습니다

밸류 네트워크의 loss는 TD 방식을 이용해 계산했습니다. td_target과 가치 네트워크의 아웃풋인 v(s) 사이 차이를 loss르 정의했습니다. DQN코드에서 TD타깃을 상수 취급했던 것과 같은 이유로 정답은 그 자리에 가만히 있고 예측치가 변하도록 하기 위함이다.

n_rollout만큼 즉 10틱의 데이터에 대해 각각의 데이터마다 loss가 구해질텐데, 10개의 loss의 평균을 최종 loss로 정의하였습니다. 그리고 그 후에 backward 함수를 호출하여 그라디언트가 계산됩니다.

In [3]:
def main():  
    env = gym.make('CartPole-v1')
    model = ActorCritic()    
    print_interval = 20
    score = 0.0

    for n_epi in range(1000):
        done = False
        s = env.reset()
        while not done:
            for t in range(n_rollout): # n_rollout만큼
                prob = model.pi(torch.from_numpy(s).float()) # policy로 action 진행
                m = Categorical(prob)
                a = m.sample().item() # action 추출
                s_prime, r, done, info = env.step(a) # 그 action을 env로 보내서 다음 s, a, r 추출
                model.put_data((s,a,r,s_prime,done)) # s, a, r, s' 데이터 수집 
                
                s = s_prime
                score += r
                
                if done:
                    break                     
            
            model.train_net()
            
        if n_epi%print_interval==0 and n_epi!=0:
            print("# of episode :{}, avg score : {:.1f}".format(n_epi, score/print_interval))
            score = 0.0
    env.close()

if __name__ == '__main__':
    main()

  s_batch, a_batch, r_batch, s_prime_batch, done_batch = torch.tensor(s_lst, dtype=torch.float), torch.tensor(a_lst), \


# of episode :20, avg score : 23.5
# of episode :40, avg score : 17.1
# of episode :60, avg score : 24.8
# of episode :80, avg score : 28.8
# of episode :100, avg score : 28.2
# of episode :120, avg score : 40.0
# of episode :140, avg score : 37.0
# of episode :160, avg score : 42.4
# of episode :180, avg score : 56.1
# of episode :200, avg score : 51.0
# of episode :220, avg score : 72.0
# of episode :240, avg score : 103.2
# of episode :260, avg score : 98.8
# of episode :280, avg score : 138.7
# of episode :300, avg score : 108.4
# of episode :320, avg score : 157.6
# of episode :340, avg score : 119.8
# of episode :360, avg score : 142.2
# of episode :380, avg score : 183.9
# of episode :400, avg score : 206.9
# of episode :420, avg score : 203.9
# of episode :440, avg score : 226.6
# of episode :460, avg score : 298.2
# of episode :480, avg score : 267.6
# of episode :500, avg score : 162.8
# of episode :520, avg score : 209.2
# of episode :540, avg score : 306.4
# of episode :560

메인 함수는 REINFORCE 메인과 대체로 유사합니다. 다른 점은, 미니 배치 단위로 데이터를 넣어주고, 미니배치가 끝나면 학습이 업데이트 되는 매커니즘이 추가된 것만 다릅니다.

TD 액터 크리틱은 정책함수 pi와 가치 함수 v가 있지만, 가치 함수 v는 학습에만 사용되기 때문에 메인 함수에서는 불리지 않습니다.


# Policy Gradient 비교
![image.png](attachment:image.png)