# -o---T
# T 就是宝藏的位置, o 是探索者的位置

In [None]:
# Q-learning 是一种记录行为值 (Q value) 的方法, 每种在一定状态的行为都会有一个值 Q(s, a),
# 就是说 行为 a 在 s 状态的值是 Q(s, a). s 在上面的探索者游戏中, 就是 o 所在的地点了. 而每一个地点探索者都能做出两个行为 left/right,
# 这就是探索者的所有可行的 a 啦.

# 如果在某个地点 s1, 探索者计算了他能有的两个行为, a1/a2=left/right, 计算结果是 Q(s1, a1) > Q(s1, a2),
# 那么探索者就会选择 left 这个行为. 这就是 Q learning 的行为选择简单规则.

# 当然我们还会细说更具体的规则. 在之后的教程中, 我们会更加详细得讲解 RL 中的各种方法, 下面的内容,
# 大家大概看看就行, 有个大概的 RL 概念就行, 知道 RL 的一些关键步骤就行, 这节的算法不用仔细研究.

# 预设值

# 这一次需要的模块和参数设置:

In [1]:
import numpy as np
import pandas as pd
import time

N_STATES = 6   # 1维世界的宽度------
ACTIONS = ['left', 'right']     # 探索者的可用动作
EPSILON = 0.9   # 贪婪度 greedy
ALPHA = 0.1     # 学习率
GAMMA = 0.9    # 奖励递减值
MAX_EPISODES = 13   # 最大回合数
FRESH_TIME = 0.3    # 移动间隔时间

In [None]:
# Q 表

# 对于 tabular Q learning, 我们必须将所有的 Q values (行为值) 放在 q_table 中,
# 更新 q_table 也是在更新他的行为准则. q_table 的 index 是所有对应的 state (探索者位置), columns 是对应的 action (探索者行为).

In [2]:
def build_q_table(n_states, actions):
    table = pd.DataFrame(
        np.zeros((n_states, len(actions))),     # q_table 全 0 初始
        columns=actions,    # columns 对应的是行为名称
    )
    return table

# q_table:
"""
   left  right
0   0.0    0.0
1   0.0    0.0
2   0.0    0.0
3   0.0    0.0
4   0.0    0.0
5   0.0    0.0
"""

'\n   left  right\n0   0.0    0.0\n1   0.0    0.0\n2   0.0    0.0\n3   0.0    0.0\n4   0.0    0.0\n5   0.0    0.0\n'

In [None]:
# 定义动作

# 接着定义探索者是如何挑选行为的. 这是我们引入 epsilon greedy 的概念. 因为在初始阶段, 随机的探索环境,
# 往往比固定的行为模式要好, 所以这也是累积经验的阶段, 我们希望探索者不会那么贪婪(greedy).
# 所以 EPSILON 就是用来控制贪婪程度的值. EPSILON 可以随着探索时间不断提升(越来越贪婪), 不过在这个例子中,
# 我们就固定成 EPSILON = 0.9, 90% 的时间是选择最优策略, 10% 的时间来探索.

In [3]:
# 在某个 state 地点, 选择行为
def choose_action(state, q_table):
    state_actions = q_table.iloc[state, :]  # 选出这个 state 的所有 action 值
    if (np.random.uniform() > EPSILON) or (state_actions.all() == 0):  # 非贪婪 or 或者这个 state 还没有探索过
        action_name = np.random.choice(ACTIONS)
    else:
        action_name = state_actions.argmax()    # 贪婪模式
    return action_name

In [7]:
# 做出行为后, 环境也要给我们的行为一个反馈, 反馈出下个 state (S_) 和 在上个 state (S) 做出 action (A) 所得到的 reward (R).
# 这里定义的规则就是, 只有当 o 移动到了 T, 探索者才会得到唯一的一个奖励, 奖励值 R=1, 其他情况都没有奖励.

In [8]:
def get_env_feedback(S, A):
    # This is how agent will interact with the environment
    if A == 'right':    # move right
        if S == N_STATES - 2:   # terminate
            S_ = 'terminal'
            R = 1
        else:
            S_ = S + 1
            R = 0
    else:   # move left
        R = 0
        if S == 0:
            S_ = S  # reach the wall
        else:
            S_ = S - 1
    return S_, R

In [None]:
# 环境更新

# 接下来就是环境的更新了, 不用细看.

In [9]:
def update_env(S, episode, step_counter):
    # This is how environment be updated
    env_list = ['-']*(N_STATES-1) + ['T']   # '---------T' our environment
    if S == 'terminal':
        interaction = 'Episode %s: total_steps = %s' % (episode+1, step_counter)
        print('\r{}'.format(interaction), end='')
        time.sleep(2)
        print('\r                                ', end='')
    else:
        env_list[S] = 'o'
        interaction = ''.join(env_list)
        print('\r{}'.format(interaction), end='')
        time.sleep(FRESH_TIME)

In [None]:
# 强化学习主循环

# 最重要的地方就在这里. 你定义的 RL 方法都在这里体现. 在之后的教程中, 我们会更加详细得讲解 RL 中的各种方法,
# 下面的内容, 大家大概看看就行, 这节内容不用仔细研究.

In [10]:
def rl():
    q_table = build_q_table(N_STATES, ACTIONS)  # 初始 q table
    for episode in range(MAX_EPISODES):     # 回合
        step_counter = 0
        S = 0   # 回合初始位置
        is_terminated = False   # 是否回合结束
        update_env(S, episode, step_counter)    # 环境更新
        while not is_terminated:

            A = choose_action(S, q_table)   # 选行为
            S_, R = get_env_feedback(S, A)  # 实施行为并得到环境的反馈
            q_predict = q_table.ix[S, A]    # 估算的(状态-行为)值
            if S_ != 'terminal':
                q_target = R + GAMMA * q_table.iloc[S_, :].max()   #  实际的(状态-行为)值 (回合没结束)
            else:
                q_target = R     #  实际的(状态-行为)值 (回合结束)
                is_terminated = True    # terminate this episode

            q_table.ix[S, A] += ALPHA * (q_target - q_predict)  #  q_table 更新
            S = S_  # 探索者移动到下一个 state

            update_env(S, episode, step_counter+1)  # 环境更新

            step_counter += 1
    return q_table

In [11]:
# 写好所有的评估和更新准则后, 我们就能开始训练了, 把探索者丢到环境中, 让它自己去玩吧.

In [13]:
if __name__ == "__main__":
    q_table = rl()
    print('\r\nQ-table:\n')
    print(q_table)

o----T

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  if sys.path[0] == '':


                                
Q-table:

       left     right
0  0.002047  0.010971
1  0.001577  0.034190
2  0.001563  0.121947
3  0.004796  0.345873
4  0.002268  0.745813
5  0.000000  0.000000


In [129]:
import numpy as np
import pandas as pd
import time





'''o----T'''  #o為子機 可用左或又操作，目標是到達T
import numpy as np
import pandas as pd
import time
n_states=6#關卡長度
actions=['left','right']#操作(左右)
epsilon=0.9
alpha=0.1
gamma=0.9
max_episodes=13#玩13次
fresh_time=0.3#每0.3秒做一次動作

q_table=pd.DataFrame(np.zeros((n_states,len(actions))),columns=actions)
for episode in range(max_episodes):#執行13次
#     print(episode)
    #初始狀態設定
    step_counter=0#做幾次操作?
    S=0  #一開始在關卡最左邊(用數字表達位置，如果到達終點，改為terminal字) >位置狀態
    is_terminated=False#一開始不在終點(terminated)
    
    
    #狀態更新
    env_list=['-']*(n_states-1)+['T']#目前遊戲畫面(狀態)
    
    if S=='terminal': #如果到達終點了 這樣呈獻
        interaction='episode $s: total_steps=%s'%(episode+1, step_counter)
        print('\r{}'.format(interaction), end='')
        time.sleep(1)
        print('\r                          ',end=' ')
    else: #如果沒到達終點，顯示位置
        env_list[S]='o'
        interaction=''.join(env_list)
        print('\r{}'.format(interaction), end='')#這樣的寫法會在同一個位置印出，覆蓋舊
        time.sleep(fresh_time)
        
        
        
    while not is_terminated:#如果還沒到達終點 做以下事
        
        #確認動作
        state_actions = q_table.iloc[S, :]#在S位置的q-table的値及型別
        if(np.random.uniform()>epsilon) or (state_actions.all()==0): 
            A=np.random.choice(actions) # 1給定10%機率讓它隨機亂走 # 2如果這個位置(S)還沒探索過就隨機亂走
        else:
            A=state_actions.argmax()#否則走值比較大的那個值
        
        #執行動作後的新狀態產生
        if A=='right':
            if S== n_states-2: #如果你目前在終點的左邊一格 往右走>到達終點!!!
                S_='terminal' #S_代表新狀態位置
                R=1 #R代表獎勵!!
            else:
                S_=S+1
                R=0
        else:
            R=0
            if S==0:
                S_=S #在起點不能在往左走，所以位置不變
            else:
                S_=S-1
                
#         做某位置狀態做行為估算 #尚不懂意義 (估算的 位置_行為 值)
        q_predict=q_table.ix[S,A]#dataframe的ix為篩選用 這裡是篩出 原S位置(row) A動作(col)的値
        
        if S_ != 'terminal': #將獎勵+0.9*該位置較大的値
            q_target=R+gamma*q_table.iloc[S_, :].max() #將獎勵+0.9*該新位置S_較大的値做為q-target #實際 位置_行為 值(回合未結數)
        else:
            q_target=R #實際位置_行為 值(回合結速)
            is_terminated=True
            
        q_table.ix[S,A]+=alpha*(q_target-q_predict) #以0.1*(新位置_數值較大的動作 -舊位置_動作數值)做為新的 舊位置_動作數值
        S=S_ #位置更新的成位置
        
        #狀態更新
        env_list=['-']*(n_states-1)+['T']#新遊戲畫面(狀態)
    
        if S=='terminal': #如果到達終點了 這樣呈獻
            interaction='episode %s: total_steps=%s'%(episode+1, step_counter+1)
            print('\r{}'.format(interaction), end='')
            time.sleep(2)
            print('\r                          ',end=' ')
        else: #如果沒到達終點，顯示位置
            env_list[S]='o'
            interaction=''.join(env_list)
            print('\r{}'.format(interaction), end='')#這樣的寫法會在同一個位置印出，覆蓋舊
            time.sleep(fresh_time)
        step_counter += 1
    print('\r')#重第一格開始print 不管前面有什麼
    print(q_table)
    print("-"*50+str(episode)+'-'+ str(step_counter))

print('\r\nQ-table:\n')
print(q_table)       
        


o----T

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix


                           
   left  right
0   0.0    0.0
1   0.0    0.0
2   0.0    0.0
3   0.0    0.0
4   0.0    0.1
5   0.0    0.0
--------------------------------------------------0-7
                           
   left  right
0   0.0  0.000
1   0.0  0.000
2   0.0  0.000
3   0.0  0.009
4   0.0  0.190
5   0.0  0.000
--------------------------------------------------1-42
                           
       left    right
0  0.000000  0.00000
1  0.000000  0.00000
2  0.000000  0.00081
3  0.000000  0.03978
4  0.002268  0.27100
5  0.000000  0.00000
--------------------------------------------------2-17
                           
       left     right
0  0.000000  0.000000
1  0.000000  0.000139
2  0.000007  0.007458
3  0.000388  0.078563
4  0.007458  0.343900
5  0.000000  0.000000
--------------------------------------------------3-12
                           
       left     right
0  0.000002  0.000034
1  0.000003  0.000796
2  0.000007  0.013783
3  0.000388  0.101658
4  0.007458  0.40951