In [38]:
import numpy as np
import gym
import random
from lava_grid import ZigZag6x10
from tqdm import tqdm

class agent():
    
    def __init__(self, environment, epsilon=0.1, learning_rate = 0.1, gamma=1):

        self.environment = environment
        self.q_table = dict()
        for x in range(environment.nS):
            self.q_table[x] = {0:0, 1:0, 2:0, 3:0} # 0: left, 1: up, 2: right, 3: down


        self.action_space = [0, 1, 2, 3]

        self.learning_rate = learning_rate
        self.gamma = gamma
        self.epsilon = 1.0
        
    def action(self):
        
        if np.random.uniform(0,1) < self.epsilon:
            action = random.randint(0, len(self.action_space)-1)
        else:
            q_values_of_state = self.q_table[self.environment.s]
            max_value = max(q_values_of_state.values())
            action = np.random.choice([k for k, v in q_values_of_state.items() if v == max_value])
        return action

    def learn(self, old_state, reward, new_state, action):

        q_values_of_state = self.q_table[new_state]
        max_q_value_in_new_state = max(q_values_of_state.values())
        current_q_value = self.q_table[old_state][action]

        self.q_table[old_state][action] = (1-self.learning_rate) * current_q_value + self.learning_rate * (reward + self.gamma * max_q_value_in_new_state)



In [39]:
# default setting
max_steps = 100
stochasticity = 0 # probability of the selected action failing and instead executing any of the remaining 3
no_render = True

env = ZigZag6x10(max_steps=max_steps, act_fail_prob=stochasticity, goal=(5, 9), numpy_state=False)
s = env.reset()
done = False
cum_reward = 0.0

""" Your agent"""
agent = agent(env)


# moving costs -0.01, falling in lava -1, reaching goal +1
# final reward is number_of_steps / max_steps
for _ in tqdm(range(100000)):
    s = env.reset()
    done = False
    cum_reward = 0.0

    while not done:
        action = agent.action()
        ns, reward, done, i = env.step(action)
        ns = env.s
        agent.learn(s, reward, ns, action)
        cum_reward += reward
        s = ns
print(f"total reward: {cum_reward}")

100%|████████████████████████████████████████████████████| 100000/100000 [01:18<00:00, 1270.53it/s]

total reward: -1.05





In [35]:
agent.q_table[0]

{0: -0.06278484491219424,
 1: -0.06251147649689917,
 2: -0.05508455593487663,
 3: -0.05333910879446433}

In [40]:
for i in range(60):
    print(i, '상태의 행동가치 함수는 다음과 같다')
    print(agent.q_table[i])

0 상태의 행동가치 함수는 다음과 같다
{0: -0.14123503700152826, 1: -0.1412358247143763, 2: -0.13124046675639064, 3: -0.13123902584050587}
1 상태의 행동가치 함수는 다음과 같다
{0: -0.14122738939170587, 1: -0.13123441379733244, 2: -0.9999999999999994, 3: -0.1212489157909597}
2 상태의 행동가치 함수는 다음과 같다
{0: 0, 1: 0, 2: 0, 3: 0}
3 상태의 행동가치 함수는 다음과 같다
{0: 0, 1: 0, 2: 0, 3: 0}
4 상태의 행동가치 함수는 다음과 같다
{0: -0.94185026299696, 1: -0.02379995140152356, 2: -0.020312126389088803, 3: -0.026572541363859795}
5 상태의 행동가치 함수는 다음과 같다
{0: -0.025329549558340922, 1: -0.02260655334142808, 2: -0.015475971869231336, 3: -0.024998363531790836}
6 상태의 행동가치 함수는 다음과 같다
{0: -0.016509311279000165, 1: -0.014997954458475512, 2: -0.008627278082963511, 3: -0.016001182238655633}
7 상태의 행동가치 함수는 다음과 같다
{0: -0.011081092801456825, 1: -0.002, 2: -0.007722987699000001, 3: -0.007995306702100002}
8 상태의 행동가치 함수는 다음과 같다
{0: -0.0066953279000000025, 1: -0.004863900000000001, 2: -0.003981000000000001, 3: -0.0036490000000000003}
9 상태의 행동가치 함수는 다음과 같다
{0: -0.004791, 1: -0.0039

### 7, 8, 17, 18 상태에서 루프를 도는 모습을 보임
# 시간차 학습으로 해결 요망

1. agent에 env를 copy 해서 넣고, 실제 환경과 차이를 두고 시간차 학습
2. epsilon을 점차 감소
3. 벽에서 할 수 있는 행동을 제약