# 楼 + 机器学习实战

# 挑战：使用 Sarsa 进行迷宫挑战

---

** 以下内容仅保留挑战代码部分，挑战全文请到原课程查看。**

---

**挑战**：从实验中学习到不论是 Q-Learning 还是 Sarsa，他们的核心都是 Q-Table ，首先对 Q-Table 进行初始化。 

In [None]:
import numpy as np
import pandas as pd
import time
from IPython import display

def init_q_table():
    
    #### 代码开始 ####  (≈ 2 行代码)  
    actions = np.array(['up','down','left','right'])
    q_table = pd.DataFrame(np.zeros((16, len(actions))),columns=actions) #初始化 Q-Table 全为0
    #### 代码结束 ####
    
    return q_table

---

**挑战**：使用 $\epsilon-greedy$ 方法根据 Q-Table 进行动作选择。 

In [None]:
def act_choose(state, q_table, epsilon):
    
    state_act = q_table.iloc[state,:]
    actions=np.array(['up','down','left','right'])
    
    #### 代码开始 #### (≈ 4 行代码)
    if (np.random.uniform() > epsilon or state_act.all() == 0):
        action = np.random.choice(actions)
    else:
        action = state_act.idxmax()
    #### 代码结束 #### 

    return action

---

**挑战**：通过学习我们知道 Sarsa 的 Q-Table 的更新公式为： $Q(s_{t},a_{t})=(1-\alpha) \cdot Q(s_{t},a_{t})+\alpha \cdot (r_{t}+\gamma \cdot Q(s_{t+1},a_{t+1}))$ ，根据公式完善 Q-Table 更新函数。 

In [None]:
def update_q_table(q_table,state,action,next_state,next_action,terminal,gamma,alpha,reward):

    x, y = state
    next_x, next_y = next_state
    q_original= q_table.loc[x * 4 + y, action]
    
    if next_state != terminal:
        ### 代码开始 ### (≈ 1 行代码)
        q_predict = reward + gamma * q_table.loc[next_x * 4 + next_y, action] # 不通过 .max() 选择
        ### 代码结束 ###
    else:
        q_predict = reward
        
    #### 代码开始 ### (≈ 1 行代码)   
    q_table.loc[x * 4 + y, action] = (1-alpha) * q_original + alpha * q_predict # 和 Q-Learning 一致
    ### 代码结束 ###
    
    return q_table

---

**挑战**：顺利完成以上几个函数后，根据算法流程实现 Sarsa 算法。 

In [None]:
def sarsa(max_episodes, alpha, gamma, epsilon):
    q_table = init_q_table()
    terminal = (3, 2)
    hole = (2, 1)
    episodes = 0
    while(episodes < max_episodes):
        step = 0
        state = (0, 0)
        end = 0
        show_state(end, state, episodes, step, q_table)
        x, y = state

        # 代码开始 ### （≈ 1 行代码)
        next_action = act_choose(x * 4 + y, q_table, epsilon) #动作选择
        ### 代码结束 ###

        while(end == 0):
            x, y = state
            action = act_choose(x * 4 + y, q_table, epsilon)  # 动作选择
            next_state, reward, end = env_feedback(state, action, hole, terminal)  # 环境反馈

            # 代码开始 ### （≈ 3 行代码)
            q_table=update_q_table(q_table, state, action, next_state, next_action, 
                                   terminal, gamma, alpha, reward) # q-table 更新
            state=next_state
            action=next_action
            ### 代码结束 ###

            step += 1
            show_state(end, state, episodes, step, q_table)
        if end == 2:
            episodes += 1

---

<div style="color: #999;font-size: 12px;font-style: italic;">*本课程内容，由作者授权实验楼发布，未经允许，禁止转载、下载及非法传播。</div>