#### 여기서는 Tutorial에서 배운 개념을 이용하여 간단하게 Network parameter를 분산 환경에서 서로 보내고 가져오는 작업을 해보겠습니다. <br>
    1. 각 actor는 network을 가지고 있다. 
    2. 학습을 하면서 일정 간격으로 actor는 learner의 파라미터를 복제해온다.
    3. actor와 learner의 중간 매개체 역할을 하는 parameter server가 있다.

In [1]:
import ray 
import time 
import numpy as np 
from copy import deepcopy

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [2]:
ray.init() 

2021-01-26 17:07:49,343	INFO services.py:1173 -- View the Ray dashboard at [1m[32mhttp://127.0.0.1:8265[39m[22m


{'node_ip_address': '192.168.0.61',
 'raylet_ip_address': '192.168.0.61',
 'redis_address': '192.168.0.61:6379',
 'object_store_address': '/tmp/ray/session_2021-01-26_17-07-48_899056_97829/sockets/plasma_store',
 'raylet_socket_name': '/tmp/ray/session_2021-01-26_17-07-48_899056_97829/sockets/raylet',
 'webui_url': '127.0.0.1:8265',
 'session_dir': '/tmp/ray/session_2021-01-26_17-07-48_899056_97829',
 'metrics_export_port': 61431,
 'node_id': '9973c38a55f9f6d72d9bbc492b199727f3f3bc52'}

In [3]:
# QNetwork 정의
class QNetwork(nn.Module):
    def __init__(self, state_size, action_size, hidden=32):
        super(QNetwork, self).__init__()

        state_size = state_size[0]
        self.fc1 = nn.Linear(state_size, hidden)
        self.fc2 = nn.Linear(hidden, action_size)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Test
state_size = (4, ) 
action_size = 2 
temp_net = QNetwork(state_size, action_size, 32) 
test = torch.randn(size=(4,)) 
temp_net(test), temp_net(test).shape 

(tensor([-0.0461, -0.3639], grad_fn=<AddBackward0>), torch.Size([2]))

In [4]:
@ray.remote
class Parameter_server:
    def __init__(self):
        self.params = []
        
    def updates_params(self, model):
        self.params.append(model) 

    def pull_params(self):
        return self.params[-1]

In [5]:
@ray.remote
class Actor:
    def __init__(self, params_server, actor_idx):
        self.params_server = params_server
        self.actor_idx = actor_idx
        self.device = 'cpu' # actor는 cpu에서 process가 할당되므로, gpu로 선언하게 되면 작동이 되지 않는다.
        self.actor_network = QNetwork((4, ), 12, 64).to(self.device)
        
    def explore(self):
        while 1:
            time.sleep(5)
            print("Explore..")
            self.pull_params()
        pass

    def pull_params(self):
        updated_params = ray.get(self.params_server.pull_params.remote()) 
        print("Parameter Type: ", type(updated_params)) 
        self.actor_network.load_state_dict(updated_params) 
        print(f"Model is updated in actor number_{self.actor_idx}")


In [6]:
class Learner: 
    def __init__(self, params_server):
        self.params_server = params_server
        self.device = 'cuda:1' # Learner는 GPU를 써야하므로 CUDA에 할당하기 위해 device를 cuda로 설정
        
        self.q_behave = QNetwork((4, ), 12, 64).to(self.device)
        self.q_target = QNetwork((4, ), 12, 64).to(self.device)
        self.q_target.load_state_dict(self.q_behave.state_dict())
        self.q_target.eval() 

    def push_parameters(self):
        self.params_server.updates_params.remote(self.q_behave.cpu().state_dict())

    def pull_parameters_from_server(self):
        return self.params_server.pull_params.remote() 
    
    def train(self):
        while 1:
            time.sleep(2)
            self.push_parameters() 
            print("Learner: Model parameter is sent to Server.")

#### 먼저 하나의 actor에서 한번씩의 메서드가 잘 작동하는지 테스트를 해보겠습니다

In [7]:
# parameter sever
params_server = Parameter_server.remote()    

# learner와 actor 모두 parameter sever를 상속받아 정의합니다. 
# 그 이유는, learner와 actor는 각각의 방식으로 server에 접근하여 model의 parameter를 주거나 가져오기 때문입니다.
learner = Learner(params_server) 
actor = Actor.remote(params_server, 0)   

In [8]:
# model 업데이트하는 것을 임의로 횟수로 잡고, learner의 update 메소드를 그 횟수만큼 실행합니다.
iteration = 3
for _  in range(iteration): learner.push_parameters() 

In [None]:
# learner에서 server의 parameter를 가지고 오는 것도 되는지 test를 해봅니다. (실제로 learner는 server에서 가지고 올 일은 없습니다.)
ray.get(learner.pull_parameters_from_server())  

In [None]:
# actor의 explore 메소드를 통해 server에 위에서 learner로 부터 받은 parameter를 가지고 온 후, actor의 모델로 저장이 되는지 테스트 해봅니다.  
actor.explore.remote()  

In [7]:
# 마지막으로 learner가 주기적으로 model parameter를 server에 저장을 하면서,
# 동시에 여러 actor가 explore 메소드를 통해 그 parameter를 지속적으로 가지고 오고 update가 되는지 테스트를 해봅니다.

params_server = Parameter_server.remote()    
learner = Learner(params_server) 

num_actor = 5
for idx in range(num_actor): 
    actor = Actor.remote(params_server, idx)
    actor.explore.remote() 


In [None]:
learner.train() 

#### 성공을 하게 되면 아래와 같은 메세지를 확인할 수 있습니다. <br>
    1. Learner: Model parameter is sent to Server.  --> 이 메세지는 learner가 server에 parameter를 보낸 것을 성공했을 시의 메세지입니다.
    2. 이 외에, (pid=숫자) 가 붙은 메세지는 각 actor 가 update를 성공했을 때의 메세지입니다.

    [실행 예시]
    
    Learner: Model parameter is sent to Server.
    Learner: Model parameter is sent to Server.
    (pid=87629) Explore..
    (pid=87629) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87629) Model is updated in actor number_3
    (pid=87584) Explore..
    (pid=87584) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87584) Model is updated in actor number_1
    (pid=87630) Explore..
    (pid=87630) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87630) Model is updated in actor number_0
    (pid=87588) Explore..
    (pid=87588) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87588) Model is updated in actor number_4
    (pid=87582) Explore..
    (pid=87582) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87582) Model is updated in actor number_2
    Learner: Model parameter is sent to Server.
    Learner: Model parameter is sent to Server.
    Learner: Model parameter is sent to Server.
    (pid=87629) Explore..
    (pid=87629) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87629) Model is updated in actor number_3
    (pid=87584) Explore..
    (pid=87584) Parameter Type:  <class 'collections.OrderedDict'>
    (pid=87584) Model is updated in actor number_1