In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib.pyplot as plt
import gym
gpus = tf.config.experimental.list_physical_devices(device_type='GPU')
tf.config.experimental.set_memory_growth(gpus[0], True)

In [2]:
env = gym.make('CartPole-v0')

In [3]:
print(env.action_space)
print(env.action_space.n)

Discrete(2)
2


In [6]:
print(env.observation_space)
print(env.observation_space.shape[0])

Box(-3.4028234663852886e+38, 3.4028234663852886e+38, (4,), float32)
4


In [None]:
print(env.observation_space.high)

In [3]:
class DeepQNetwork:
    def __init__(
        self,
        n_actions,
        n_features,
        learning_rate=0.01,
        reward_decay=0.9,
        e_greedy = 0.9,
        replace_target_iter=300,
        memory_size=500,
        batch_size=32,
        e_greedy_increment=None, #这个是设置epsilon的变化与否的，它是nan证明epsilon一直不变
        output_graph=False
    ):
        '''四个动作数量，两个状态数量'''
        self.n_actions = n_actions
        self.n_features = n_features
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon_max = e_greedy
        self.replace_target_iter = replace_target_iter
        self.memory_size = memory_size
        self.batch_size = batch_size
        self.epsilon_increment = e_greedy_increment
        #如果e_greedy_increment不是none，那么刚开始动作是瞎选的，随着learn的次数增多
        #epsilon值慢慢增加，每次增加e_greedy_increment直到最大，使得随机选动作的概率变小
        self.epsilon = 0 if e_greedy_increment is not None else self.epsilon_max
        
        # 总共的学习步数，执行一次learn函数，这个值才加一
        self.learn_step_counter = 0
        
        # 初始化[s, a, r, s_]
        self.memory = np.zeros((self.memory_size, n_features*2 + 2))  #500行,有6列：s占2列，a占1列，r占1列，s_占2列；
        
        # [target_net, evalunet]
        self._build_net()   #因为self.target_net和self.evalunet这两个网络是在这个方法里产生的，别的方法要去调用他们，
        #要么这两个网络在别的方法里先被运行出来，就可以被调用了
        #要么这两个网络一开始就变成全局的变量，不用别的方法每次都运行一遍。！
        
        self.cost_his = []     #这一句是创造一个记录损失的列表
        
    def _build_net(self):
        '''建立预测模型和target模型'''
        #----------------------------------build evaluate model--------------------------------
        # 输入状态，None,2 ;输出动作对应的值 None,4 四个动作每个都对应一个动作价值
        s = tf.keras.layers.Input(shape=(self.n_features,), name='s')
        q_target = tf.keras.layers.Input(shape=(self.n_actions,), name='q_target')
        
        # 预测模型
        x = tf.keras.layers.Dense(20, activation='relu', name='l1')(s)
        x = tf.keras.layers.Dense(self.n_actions, name='l2')(x)
        self.eval_net = tf.keras.Model(inputs=s, outputs=x)
        
        #损失函数
        self.loss = tf.keras.losses.MeanSquaredError()
        
        #优化器
        self._train_op = tf.keras.optimizers.RMSprop(learning_rate=self.lr)
        
        #-----------------------------------build target model------------------------------------
        #目标模型就是一个框架，他不需要训练，只需要把预测模型里面的权重往里更新即可
        s_ = tf.keras.layers.Input(shape=(self.n_features,), name='s_')
        
        #目标模型
        x = tf.keras.layers.Dense(20, activation='relu', name='l1')(s_)
        x = tf.keras.layers.Dense(self.n_actions, name='l2')(x)
        self.target_net = tf.keras.Model(inputs=s_, outputs=x)
        
    def replace_target(self):
        '''预测模型的权重更新到目标模型'''
        #使用set_weights和get_weights的方法对每层的权重进行复制转移
        self.target_net.get_layer(name='l1').set_weights(self.eval_net.get_layer(name='l1').get_weights())
        self.target_net.get_layer(name='l2').set_weights(self.eval_net.get_layer(name='l2').get_weights())
        
    def store_transition(self, s, a, r, s_):  #这里传入的a是一个动作！
        '''存入记忆库'''
        if not hasattr(self, 'memory_counter'):
            #返回对象是否具有具有给定名称的属性。从上面来看，是没有的，那么hasattr会返回FALSE，也就是说如果没有，就会执行下面语句
            self.memory_counter = 0
        
        transition = np.hstack((s, [a,r], s_))
        
        # 替换旧的memory，当memory计数500次，下一次就会更新memory的第一行，。。。
        index = self.memory_counter % self.memory_size  #取余
        self.memory[index, :] = transition
        
        self.memory_counter += 1
    
    def choose_action(self, observation):
        '''选择动作的方法'''
        observation = observation[np.newaxis, :]  
        #在s前面增加一个维度，如s原来是[2,]现在变成[1,2]，因为要这样才能符合模型的要求，因为模型要求[None,2]和RNN北京天气讲的单个预测方法一样
        
        # 小于epsilon时候按照动作价值选,用模型预测出四个动作价值，转成numpy之后用最大索引
        if np.random.uniform() < self.epsilon:
            actions_value = self.eval_net(observation).numpy()
            action = np.argmax(actions_value)
        else:
            action = np.random.randint(0, self.n_actions)
        
        return action
    
    def learn(self):
        '''从记忆库学习'''
        print('learn step is:',self.learn_step_counter)
        if self.learn_step_counter % self.replace_target_iter == 0: 
            #每replace_target次学习更换一次参数,也就是把target模型的参数更新成和evaluate模型参数
            self.replace_target()
            print('\n目标模型的参数已经被替换。')
            
        # 从memory里面采样
        if self.memory_counter > self.memory_size:
            #如果memory存储次数大于了memory表的长度（500）
            sample_index = np.random.choice(self.memory_size, size=self.batch_size)  #从500里面选择32个整数作为索引
        else:
            #会不会出现memorycounter<32的情况，首先让memory记录多少，这是在主循环里面设定的
            sample_index = np.random.choice(self.memory_counter, size=self.batch_size) #从memorycounter范围选取32个整数作为索引
        
        batch_memory = self.memory[sample_index, :]  #从memory表里面取出上面32个索引对应的行作为batchmemory
        
        with tf.GradientTape() as tape:
            # batch_memory一共32行，6列，前2列s,action1列，r1列，最后两列s_.所以是把s_放到target网络里面，得到q_next[32,4],一个q表
            
            #生成之前的结果，是以前的模型生成的，是一个[32,4]的tensor
            q_next = self.target_net(batch_memory[:, -self.n_features:]).numpy() #模型输入：所有行，最后两列s_。q_target随便，因为它不用训练
            
            #生成预测结果，是现在的模型生成的, 是一个[32,4]的tensor
            q_eval = self.eval_net(batch_memory[:, :self.n_features])      #这里不能直接.numpy()，因为会使他不是tensor，造成无法计算梯度
            #模型输入：所有行，前两列s
            
            #改变q_target,q_target[32,4]
            q_target = q_eval.numpy()
            batch_index = np.arange(self.batch_size, dtype=np.int32)       #0到31
            eval_act_index = batch_memory[:, self.n_features].astype(int)  #预测的动作:所有行，index=2也就是第三列.[32,]
            reward = batch_memory[:, self.n_features+1]                    #奖励，index=3也就是第4列,[32,]
            
            #根据奖励更新当前的预测结果:这里怎么选的？ 每行按照动作index选一个，最后形状是[32,]，对负数的动作如-3也可以选，就是往左数，
            #不够用了再蹦到右边往左数
            q_target[batch_index, eval_act_index]  = reward + self.gamma * np.max(q_next, axis=1) #左右最大，也就是这一行的最大值
            
            #计算损失
            self.cost = self.loss(y_true=q_target, y_pred=q_eval)
            
        #计算梯度
        gradients = tape.gradient(self.cost, self.eval_net.trainable_variables)
        #优化器梯度下降
        self._train_op.apply_gradients(zip(gradients, self.eval_net.trainable_variables))
        #记录损失
        self.cost_his.append(self.cost)
        
        # increasing epsilon
        # 随机概率随着训练次数减少，默认不变
        self.epsilon = self.epsilon + self.epsilon_increment if self.epsilon < self.epsilon_max else self.epsilon_max
        self.learn_step_counter += 1  #只要执行一次learn函数，这个就会加一
    
    def plot_cost(self):
        plt.plot(np.arange(len(self.cost_his)), self.cost_his)
        plt.ylabel('cost')
        plt.xlabel('steps')
        plt.show()

In [None]:
RL = DeepQNetwork(n_actions=env.action_space.n,
                  n_features=env.observation_space.shape[0],
                  learning_rate=0.01,
                  e_greedy=0.9,
                  replace_target_iter=100,
                  memory_size=2000,
                  e_greedy_increment=0.001)

In [None]:
totle_steps = 0

for episode in range(1000):
    observation = env.reset()
    
    while True:
        env.render()
        action = RL.choose_action(observation)
        observation_, reward, done, info = env.step(action) #还有一个叫做info
        
        #修改一下默认env里面的奖励函数，怎么知道怎么改，pycharm里面搜索源文件
        # the smaller theta and closer to center the better
        x, x_dot, theta, theta_dot = observation_
        r1 = (env.x_threshold - abs(x))/env.x_threshold - 0.8
        r2 = (env.theta_threshold_radians - abs(theta))/env.theta_threshold_radians - 0.5
        reward = r1 + r2
        
        RL.store_transition(observation, action, reward, observation_)
        
        if (totle_steps>50) and (totle_steps%5==0):
            RL.learn()
        
        if done:
            print('eposode: ', episode)
            print('epsilon: ',round(RL.epsilon,2))
            break
            
        observation = observation_
        totle_steps += 1
        
RL.plot_cost()