# FrozenLake-v1 환경을 통한 RL 기초 코드 실습

FrozenLake open-ai gym: https://gym.openai.com/envs/FrozenLake-v0/  

[구현 source code](https://github.com/openai/gym/blob/master/gym/envs/toy_text/frozen_lake.py)  


Agent는 빙판으로 가정된 grid world에서 움직인다. Starting point, Goal, Frozen sruface, Hole의 4가지 상황이 있는데, agent의 목적은 starting point에서 시작해 goal로 가는 것이다. 매 에피소드는 2가지 상황에서 종료되는데, goal에 도착했을 경우와 hole에 도착해서 물에 빠지는 경우이다. Hole을 제외한 타일은 빙판이므로, agent가 이동 방향을 결정했더라도 미끄러져 다른 방향으로 이동할 수도 있다. (Agent는 항상 의도한 방향으로 움직이는 것은 아니다)

4x4, 8x8 map이 있으며 아래는 4x4 map의 예시이다.  

```
SFFF       (S: starting point, safe)  
FHFH       (F: frozen surface, safe)  
FFFH       (H: hole, fall to your doom)  
HFFG       (G: goal, where the frisbee is located)  
```

State: 0 ~ 15 사이의 값으로 agent의 위치를 표현한다. (맨 왼쪽 맨 위부터 0으로 시작해 오른쪽으로 1, 2, 3.. 그 다음 라인은 4, 5, 6, 7 ..)  
Action: 0 ~ 3 사이의 값으로 agent가 이동할 방향을 표현한다. (Left, Down, Right, Up)  
Reward: Goal에 도착하면 1을 반환하며 다른 상태에서는 0을 반환한다.  
Done: agnet가 Goal, Hole에 도착할 때 True를 반환하고 다른 타일에 있을 때는 False를 반환한다.  


---


## Library Import

In [1]:
import gym
import numpy as np

## 환경 만들기


- is_slippery: agent가 이동할 때 미끄러질 수 있는지 선택 (True 입력시 Transition probability = 0.33)

`env.render()` 함수를 통해 현재 환경의 상황을 출력한다.

In [2]:
env = gym.make('FrozenLake-v1', is_slippery=False)

env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


### 주요 함수

`env.reset()` 함수를 통해 환경을 처음 상태로 초기화 할 수 있다.  

`env.step(action)` action을 수행한 후, next state, reward, done, transition probability 정보를 반환한다.


In [3]:
direction = {0:'Left', 1:'Down', 2:'Right', 3:'Up'}

for action in range(env.action_space.n): # env.action_space.n = action의 수
    env.reset()
    
    print("\nAgent가 움직이는 방향: {}".format(direction[action]))
    new_state, reward, done, info = env.step(action)
    
    print('new_state:{}, reward:{}, done:{}, info:{}'.format(new_state, reward, done, info))
    env.render()


Agent가 움직이는 방향: Left
new_state:0, reward:0.0, done:False, info:{'prob': 1.0}
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG

Agent가 움직이는 방향: Down
new_state:4, reward:0.0, done:False, info:{'prob': 1.0}
  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG

Agent가 움직이는 방향: Right
new_state:1, reward:0.0, done:False, info:{'prob': 1.0}
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG

Agent가 움직이는 방향: Up
new_state:0, reward:0.0, done:False, info:{'prob': 1.0}
  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG


`env.P[state][action]` agent가 특정 state에서 특정 action을 수행한다고 했을 때, 상태가 나타날 확률

In [4]:
# policy

env = gym.make('FrozenLake-v1', is_slippery=False)

env.P[6]

{0: [(1.0, 5, 0.0, True)],
 1: [(1.0, 10, 0.0, False)],
 2: [(1.0, 7, 0.0, True)],
 3: [(1.0, 2, 0.0, False)]}

In [5]:
# policy

env = gym.make('FrozenLake-v1', is_slippery=True)

env.P[6]

{0: [(0.3333333333333333, 2, 0.0, False),
  (0.3333333333333333, 5, 0.0, True),
  (0.3333333333333333, 10, 0.0, False)],
 1: [(0.3333333333333333, 5, 0.0, True),
  (0.3333333333333333, 10, 0.0, False),
  (0.3333333333333333, 7, 0.0, True)],
 2: [(0.3333333333333333, 10, 0.0, False),
  (0.3333333333333333, 7, 0.0, True),
  (0.3333333333333333, 2, 0.0, False)],
 3: [(0.3333333333333333, 7, 0.0, True),
  (0.3333333333333333, 2, 0.0, False),
  (0.3333333333333333, 5, 0.0, True)]}

### Ex 1. Implement the **value iteration** for policy evaluation.  

- uniformly random policy 사용
- 초기값은 0을 사용
- 가장 큰 value 값의 차이가 threshold(theta)보다 작은 경우 iteration 끝

`env.nS` number of states  
`env.nA` number of actions  

![image.png](attachment:image.png)

In [6]:
env = gym.make('FrozenLake-v1', is_slippery=True)

def policy_evaluation(policy, env, discount_factor=1.0, theta=0.00001):
    V = np.zeros(env.nS)
    
    while True:
        delta = 0
        # 모든 state에 대해 탐색
        for state in range(env.nS):
            v = 0
            
            # 현재 state에서 수행하는 policy array - 각 action을 수행할 확률
            for action, action_prob in enumerate(policy[state]):
                
                # 이전 시점을 기준으로 state, action을 선택
                for  transition_prob, next_state, reward, done in env.P[state][action]:
                    v = v + action_prob * transition_prob * (reward + discount_factor * V[next_state])
                    
            delta = max(delta, np.abs(v - V[state]))
            V[state] = v
            
        if delta < theta:
            break
            
    return np.array(V)

# random policy: 모든 action선택에 대한 확률이 동일함
random_policy = np.ones([env.nS, env.nA]) / env.nA

v = policy_evaluation(random_policy, env)

print("Value Function:\n{}".format(v))

Value Function:
[0.013911   0.01161424 0.02094062 0.01046758 0.01623478 0.
 0.04074774 0.         0.03479961 0.08816698 0.14205099 0.
 0.         0.17581855 0.4392897  0.        ]


In [7]:
env = gym.make('FrozenLake-v1', is_slippery=False)

random_policy[6]

array([0.25, 0.25, 0.25, 0.25])