In [None]:
# Framework
Buffer
Actor : 각 Env에서 경험한 것을 buffer에 넘겨준다
Learner : 공유 buffer를 통해 학습을 진행

# Questions
1. Env도 Agent 개수만큼 만들어야 하는가?
2. 공유 메모리 생성 방법?

In [1]:
import ray
import time
import numpy as np

In [2]:
ray.init()

2021-02-06 08:32:06,793	INFO services.py:1173 -- View the Ray dashboard at [1m[32mhttp://127.0.0.1:8265[39m[22m


{'node_ip_address': '192.168.0.2',
 'raylet_ip_address': '192.168.0.2',
 'redis_address': '192.168.0.2:6379',
 'object_store_address': '/tmp/ray/session_2021-02-06_08-32-06_319651_23789/sockets/plasma_store',
 'raylet_socket_name': '/tmp/ray/session_2021-02-06_08-32-06_319651_23789/sockets/raylet',
 'webui_url': '127.0.0.1:8265',
 'session_dir': '/tmp/ray/session_2021-02-06_08-32-06_319651_23789',
 'metrics_export_port': 52203,
 'node_id': '67557e630771e2f94d812582443967d98fd5aa56'}

In [None]:
# 간단한 env를 정의하겠습니다. environment의 일반적인 메소드만 넣고 어떤 의미가 있는 행동이나 상태를 정의한 것은 아닙니다.
class Env:        
    def reset(self):
        return np.ones((2,2))

    def step(self, action):
        # state, reward, done 모두 random하게 지정. state의 크기는 2x2 차원을 가지는 2차원 matrix.
        state = action*np.random.randn(2, 2)
        reward = np.sum(state)

        # done은 numpy의 random.randn 이 0.06 보다 작을 때만 1을 주었습니다. 더 자주 done이 발생하도록 하고 싶다면, 0.06을 더 키우면 됩니다.
        done = 1 if abs(np.random.randn())<0.06 else 0
        return state, reward, done

In [None]:
# 각 Agent에서 생성된 sample을 공유메모리인 buffer에 저장
# 왜 buffer가 ray함수여야 하는가?
# --> 각 쓰레드에서 얻은 sample를 저장할때 buffer 함수 호출을 하기 때문에
# --> 그렇담, store()만 ray함수로 만들면 되지 않는가?
@ray.remote
class ReplayBuffer:
    def __init__(self, buffer_size=1000):
        self._memory = deque(max_len=buffer_size)
        
    def store(self, sample):
        self._memory.append(sample)
        
    def sample_batch(self):
        pass    

In [None]:
@ray.remote
class Agent:
    def __init__(self):
        pass
    def get_action(self, state):
        pass

In [None]:
episode_len = 100
num_workers = 4

@ray.remote
def train(env, agent, episode_len):
    for i in range(episode_len):
        state = env.reset()
        while True:
            action = agent.get_action(state)
            next_state, reward, done = env.step(action)
            buffer.store(state, action, reward, next_state, done)
            if done:
                break

env = Env()
agents = [Agent.remote() for _ in range(num_workers)]

for i in range(len(agents)):
    train.remote(env, agents[i], episode_len)

In [None]:
@ray.remote
class Actor:
    def __init__(self, buffer, idx, episode_len=100):
        # 공유 메모리 생성을 위해서, 외부에서 메모리를 불러온다
        # 그 후, remote를 이용하여 외부 메모리의 함수를 실행한다
        # env는 agent마다 독립적으로 가져야 하기 때문에 내부에서 클래스 선언한다
        self.env = Env()
        self.buffer = buffer
        
        self.episode_len = episode_len
    
    def explore(self):
        for i in range(self.episode_len):
            state = self.env.reset()
            while True:
                action = self.np.random.randint(3)
                next_state, reward, done = self.env.step(action)
                sample = {'state': state, 'action': action, 
                          'reward': reward, 'next_state': next_state, 'done': done}            
                self.buffer.store.remote(sample)
                if done:
                    break

In [None]:
# 원래는 Agent(Actor)에서 Q Network를 선언했다
# 하지만 multi-agent의 경우, Agent의 안에서 Q Network를 생성하면 여러개가 된다
# (q_behave와 q_target은 하나여야 함)
# 따라서 Network의 값을 가지고 있는 별도의 Class Learner를 생성한다 
class Learner:
    def __init__(self):
        self.q_behave = Net()
        self.q_target = Net()
    def update_model(self):
        pass
    def update_q_target_parameter(self):
        pass

In [None]:
num_actors = 10
batch_size = 20

buffer = ReplayBuffer(batch_size)
learner = Learner()

for idx in range(num_actors):
    actor = Actor.remote(buffer, idx) 
    actor.explore.remote()

learner.update_model()
