# 基于MindSpore实现强化学习示例

本实验主要介绍强化学习的相关概念，使用Mindspore实现强化学习示例，以DQN算法为例。

## 1、实验目的

- 掌握强化学习（Reinforcement Learning）的相关概念。
- 掌握如何使用Mindspore实现强化学习。

## 2、强化学习原理介绍

（1）强化学习（Reinforcement Learning）是机器学习的一个分支，旨在让智能体（agent）通过与环境的交互来学习最优行为策略，以最大化累积奖励或获得特定目标。

（2）强化学习的基本元素包括：

- 环境（Environment）：智能体与其交互的外部环境，可以是真实世界或模拟环境。
- 状态（State）：环境的某个特定时刻的观测值，用于描述环境的特征。
- 动作（Action）：智能体在某个状态下可以执行的操作或决策。
- 奖励（Reward）：在特定状态下，环境根据智能体的动作给予的反馈信号。
- 策略（Policy）：智能体的行为策略，决定在给定状态下采取哪个动作。
- 值函数（Value Function）：评估状态或状态-动作对的优劣程度，用于指导决策。
- 学习算法（Learning Algorithm）：根据智能体与环境的交互经验，更新策略或值函数的算法。

（3）强化学习的目标：

通过学习最优策略来最大化累积奖励。为了达到这个目标，智能体通过与环境的交互，观察当前状态，选择动作，接收奖励，并根据奖励信号来调整策略或值函数。强化学习算法可以分为基于值函数的方法（如Q-learning、DQN）和基于策略的方法（如Policy Gradient、Actor-Critic）等。

（4）应用

强化学习在许多领域都有应用，例如机器人控制、游戏玩法、自动驾驶、金融交易等。它的独特之处在于智能体通过与环境的交互进行学习，而无需依赖标注的数据集，因此适用于很多现实世界的场景，可以在复杂、未知和动态的环境中进行决策和学习

（5）DQN 算法

DQN（Deep Q-Network）是一种用于解决强化学习问题的深度学习算法。它结合了Q-learning和神经网络，能够学习并估计状态-动作对的Q值函数，通过使用神经网络来逼近Q值函数，实现了对高维状态空间的学习和泛化能力。 
 
DQN算法的基本步骤：
   
a.初始化Q网络，目标Q网络和经验回放缓冲区。

b.对于每个回合（episode）循环：

- 重置环境并获取初始状态。
- 对于每一步（step）循环：根据当前状态从Q网络中选择一个动作（通常使用ε-greedy策略，其中ε是一个随时间递减的参数）。
- 执行选定的动作，观察下一个状态和奖励。
- 将转移（当前状态，动作，下一个状态，奖励）存储在经验回放缓冲区中。
- 从经验回放缓冲区中随机采样一批转移。
- 计算目标Q值：对于每个样本转移，计算目标Q值作为
- target_Q = reward + discount_factor * max(Q(next_state, next_action))
- 其中 next_action 是从目标Q网络中选择的下一个动作。
- 通过最小化目标Q值和当前Q值的均方误差来更新Q网络的参数。
- 定期更新目标Q网络的参数，例如每隔一定的步数。
- 更新当前状态为下一个状态。
- 如果达到终止条件（例如，达到最大步数或解决了环境），则跳出循环。
     
c.返回训练好的Q网络。
   
   
（6）gym平台介绍

本实验借助了gym平台的环境，该平台由OpenAI公司开发，且提供了一整套与平台中虚拟环境进行交互的API接口，gym 的推出为强化学习算法的研究提供了更好地基准测试平台，同时将各类 环境标准化，使研究员可以专注于算法研究而无需花过多的时间在环境的模拟上。gym 提供一个 step 函数供智能体与环境进行交互，其参数为动作，主要返回值及含义分别为：
- state：表示智能体所处环境的当前状态，代表着智能体的观察值即状态。
- reward：表示智能体采取操作后从环境中获得的奖励，其类型可能是整数、小数等，但是具体的规模和类型与具体的规模和类型与环境有关，但是智能体的总目标仍然是获取最大的奖励值。
- done: 大多数任务都属于阶段性任务，当到达一定条件的时候表示任务已经结束，比如五子棋游戏中的一方五子相连，机器人在路面上摔倒，或者在规定的步数以内没有完成任务，则都代表任务结束。所以 done 是一个判断条件，类型为布尔值，代表当前任务是否结束，如果结束则可以选择使用 reset 函数重置当前任务。

## 3、 实验环境

在动手进行实践之前，需要注意以下几点：
* 确保实验环境正确安装，包括安装MindSpore。安装过程：首先登录[MindSpore官网安装页面](https://www.mindspore.cn/install)，根据安装指南下载安装包及查询相关文档。同时，官网环境安装也可以按下表说明找到对应环境搭建文档链接，根据环境搭建手册配置对应的实验环境。
* 推荐使用交互式的计算环境Jupyter Notebook，其交互性强，易于可视化，适合频繁修改的数据分析实验环境。
* 实验也可以在华为云一站式的AI开发平台ModelArts上完成。
* 推荐实验环境：MindSpore版本=MindSpore 2.4；Python环境=3.11


|  硬件平台 |  操作系统  |          软件环境           | 开发环境 | 环境搭建链接 |
| :-----:| :----: |:-----------------------:|:----:   |:----:   |
| CPU | Windows-x64 | MindSpore2.4 Python3.11 | JupyterNotebook |[MindSpore环境搭建实验手册第二章2.1节和第三章3.1节](./MindSpore环境搭建实验手册.docx)|
| GPU |Linux-x86_64| MindSpore2.4 Python3.11 | JupyterNotebook |[MindSpore环境搭建实验手册第二章2.2节和第三章3.1节](./MindSpore环境搭建实验手册.docx)|
| Ascend 910  | Linux-x86_64| MindSpore2.4 Python3.11 | JupyterNotebook |[MindSpore环境搭建实验手册第四章](./MindSpore环境搭建实验手册.docx)|

安装对应强化学习环境

In [None]:
pip install gym==0.22.0
pip install pygame

## 4、数据处理

本实验采用Open Gym中的CartPole-v1环境，DQN的实现主要参考了论文：[Playing Atari with Deep Reinforcement Learning](https://arxiv.org/pdf/1312.5602.pdf)。

### 4.1 数据准备

在本实验中，需要设置一些超参数，如学习率设为0.01，贪婪度设为0.9，奖励的折扣因子设为0.9等。

In [1]:
# Hyper Parameters
BATCH_SIZE = 8
LR = 0.01                   # learning rate
EPSILON = 0.9               # greedy policy
GAMMA = 0.9                 # reward discount
TARGET_REPLACE_ITER = 100   # target update frequency
MEMORY_CAPACITY = 2900

# EPS_START 是 epsilon 的起始值
# EPS_END 是 epsilon 的最终值
# TAU is the update rate of the target network
EPS_START = 0.9
EPS_END = 0.05
EPS_DECAY = 1000
TAU = 0.005

### 4.2 数据加载

加载车杆模型、获取动作数和状态数。

In [2]:
# 科学计算库
import gym

# 加载车杆模型
env = gym.make('CartPole-v1')
env = env.unwrapped
# 获取动作数
N_ACTIONS = env.action_space.n
# 获取状态数
N_STATES = env.observation_space.shape[0]
ENV_A_SHAPE = 0 if isinstance(env.action_space.sample(), int) else env.action_space.sample().shape     # to confirm the shape




## 5、模型构建

### 5.1 导入Python库和模块

在使用前，导入需要的Python库和模块。

In [3]:
# MindSpore库
import mindspore as ms
import mindspore.nn as nn
# 常见算子操作
from mindspore import ops
# 引入张量模块
from mindspore import Tensor

import math
import random
import numpy as np

from collections import namedtuple, deque

### 5.2 定义神经网络模型 Net

使用Mindspore框架的nn模块，定义一个神经网络模型 Net。

### 5.3增加重设内存

In [4]:
Transition = namedtuple('Transition',
                        ('state', 'action', 'next_state', 'reward'))


class ReplayMemory(object):

    def __init__(self, capacity):
        self.memory = deque([],maxlen=capacity)

    def push(self, *args):
        """Save a transition"""
        self.memory.append(Transition(*args))

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

构建通用网络结构

In [5]:
class Net(nn.Cell):
    def __init__(self, ):
        super(Net, self).__init__()
        # 一个全连接层
        self.fc1 = nn.Dense(N_STATES, 20)
        # 第二个全连接层
        self.fc2 = nn.Dense(20, 50)
        # 第s三个全连接层
        self.fc3 = nn.Dense(50, N_ACTIONS)
        # 激活函数
        self.relu = nn.ReLU()

    def construct(self, x):
        # 全连接层
        x = self.fc1(x)
        # 全连接层
        x = self.fc2(x)
        # 激活层
        x = self.relu(x)
        # 全连接层
        x = self.fc3(x)
        # 输出
        actions_value = self.relu(x)
        # 返回输出值
        return actions_value

### 5.3 构建DQN

实现DQN（Deep Q-Network）算法的类 DQN，包括网络的初始化、动作选择、记忆存储和学习过程。

#### 5.3.1 初始化（__init__）：

- 初始化DQN智能体。创建两个Net类的实例（eval_net和target_net）。
- learn_step_counter用于跟踪目标网络更新的步数。
- memory_counter用于跟踪存储在内存中的转换数。
- memory数组用于存储转换（状态、动作、奖励、下一个状态）。
- optimizer是Adam优化器的实例，用于更新神经网络参数。
- loss_func是均方误差（MSE）损失函数，用于计算损失。

In [6]:
n_actions = env.action_space.n
eval_net = Net()
target_net = Net()
target_net.update_parameters_name('target.')
target_net_state_dict = target_net.trainable_params()
eval_net_state_dict = eval_net.trainable_params()
for t_param, p_param in zip(target_net_state_dict, eval_net_state_dict):
    ops.assign(t_param, p_param)

criterion = nn.SmoothL1Loss(reduction='mean')
optimizer = nn.AdamWeightDecay(eval_net.trainable_params(), learning_rate=LR, eps=1e-08, weight_decay=0.01)
memory = ReplayMemory(10000)

#### 5.3.2 选择动作（choose_action）：
- choose_action方法以状态x作为输入，并根据ε-贪心策略选择动作。
- 如果随机生成的数小于探索率（EPSILON），则从评估网络（eval_net）中选择具有最高Q值的动作。
- 否则，选择一个随机动作。

In [7]:
steps_done = 0


def select_action(state):
    global steps_done
    sample = random.random()
    eps_threshold = EPS_END + (EPS_START - EPS_END) * \
        math.exp(-1. * steps_done / EPS_DECAY)
    steps_done += 1
    if sample > eps_threshold:
        # t.max(1) will return largest column value of each row.
        # second column on max result is index of where max element was
        # found, so we pick action with the larger expected reward.
        return eval_net(Tensor(state)).argmax(1).view(1, 1).asnumpy()
    else:
        return np.array([[env.action_space.sample()]], dtype=np.int64)

#### 5.3.3 学习过程：

首先对一个批次进行采样，将所有张量连接成一个张量，计算$Q(s_t, a_t)$
 和$V(s_{t+1}) = \\max_a Q(s_{t+1}, a)$ ，并将它们合并到我们的损失中。根据定义，我们设置$V(s) = 0$ 如果 $s$为终止状态。我们还使用目标网络来计算$V(s_{t+1})$ ,增加稳定性。目标网络在每一步都会使用 soft update_ 由之前定义的超参数 TAU 控制。

In [8]:
def forward(state_batch, action_batch, reward_batch, non_final_mask, non_final_next_states):
    # Compute Q(s_t, a) - the model computes Q(s_t), then we select the
    # columns of actions taken. These are the actions which would've been taken
    # for each batch state according to policy_net
    state_action_values =eval_net(state_batch).gather_elements(1, action_batch)

    # Compute V(s_{t+1}) for all next states.
    # Expected values of actions for non_final_next_states are computed based
    # on the "older" target_net; selecting their best reward with max(1)[0].
    # This is merged based on the mask, such that we'll have either the expected
    # state value or 0 in case the state was final.
    next_state_values = non_final_mask * target_net(non_final_next_states).max(1)
    # Compute the expected Q values
    expected_state_action_values = (next_state_values * GAMMA) + reward_batch

    # Compute Huber loss
    loss = criterion(state_action_values, expected_state_action_values.expand_dims(1))
    return loss

grad_fn = ops.value_and_grad(forward, None, optimizer.parameters)

def train_step(state_batch, action_batch, reward_batch, non_final_mask, non_final_next_states):
    # Optimize the model
    loss, grads = grad_fn(state_batch, action_batch, reward_batch, non_final_mask, non_final_next_states)
    grads = ops.clip_by_value(grads, -100, 100)
    optimizer(grads)
    return loss

def optimize_model():
    if len(memory) < BATCH_SIZE:
        return
    transitions = memory.sample(BATCH_SIZE)
    # Transpose the batch (see https://stackoverflow.com/a/19343/3343043 for
    # detailed explanation). This converts batch-array of Transitions
    # to Transition of batch-arrays.
    batch = Transition(*zip(*transitions))

    # Compute a mask of non-final states and concatenate the batch elements
    # (a final state would've been the one after which simulation ended)
    # non_final_mask = mindspore.Tensor(tuple(map(lambda s: s is not None,
    #                                       batch.next_state)), dtype=mindspore.bool_)
    # non_final_next_states = ops.concat([s if s is not None else ops.zeros((1, 4)) for s in batch.next_state])
    # state_batch = ops.concat(batch.state)
    # action_batch = ops.concat(batch.action)
    # reward_batch = ops.concat(batch.reward)
    non_final_mask = Tensor(tuple(map(lambda s: s is not None,
                                          batch.next_state)), dtype=ms.bool_)
    non_final_next_states = Tensor(np.concatenate([s if s is not None else np.zeros((1, 4)).astype(np.float32) for s in batch.next_state]))
    state_batch = Tensor(np.concatenate(batch.state))
    action_batch = Tensor(np.concatenate(batch.action))
    reward_batch = Tensor(np.concatenate(batch.reward))
    train_step(state_batch, action_batch, reward_batch, non_final_mask, non_final_next_states)

## 6、模型训练

模型训练

In [9]:
num_episodes = 300

for i_episode in range(num_episodes):
    # Initialize the environment and get it's state
    state=env.reset()
    state = np.array([state], dtype=np.float32)
    # 总奖励
    ep_r = 0
    while True:
        action = select_action(state)
        observation, reward, terminated, truncated = env.step(action.item())


        ep_r += reward
        reward = np.array([reward], np.float32)

        done = terminated or truncated

        if terminated:
            next_state = None
        else:
            next_state = np.array([observation], dtype=np.float32)

        # Store the transition in memory
        memory.push(state, action, next_state, reward)


        # Move to the next state
        state = next_state

        # Perform one step of the optimization (on the eval network)
        optimize_model()

        # Soft update of the target network's weights
        # θ′ ← τ θ + (1 −τ )θ′
        target_net_state_dict = target_net.trainable_params()
        policy_net_state_dict = eval_net.trainable_params()
        for t_param, p_param in zip(target_net_state_dict, policy_net_state_dict):
            ops.assign(t_param, (p_param*TAU + t_param*(1-TAU)))

        if done:
            print('Epoch: ', i_episode, '| Epoch_reward: ', round(ep_r, 2))

            break

print('Complete')

Epoch:  0 | Epoch_reward:  30.0
Epoch:  1 | Epoch_reward:  31.0
Epoch:  2 | Epoch_reward:  21.0
Epoch:  3 | Epoch_reward:  21.0
Epoch:  4 | Epoch_reward:  30.0
Epoch:  5 | Epoch_reward:  19.0
Epoch:  6 | Epoch_reward:  12.0
Epoch:  7 | Epoch_reward:  21.0
Epoch:  8 | Epoch_reward:  11.0
Epoch:  9 | Epoch_reward:  19.0
Epoch:  10 | Epoch_reward:  13.0
Epoch:  11 | Epoch_reward:  16.0
Epoch:  12 | Epoch_reward:  14.0
Epoch:  13 | Epoch_reward:  24.0
Epoch:  14 | Epoch_reward:  11.0
Epoch:  15 | Epoch_reward:  14.0
Epoch:  16 | Epoch_reward:  13.0
Epoch:  17 | Epoch_reward:  17.0
Epoch:  18 | Epoch_reward:  10.0
Epoch:  19 | Epoch_reward:  29.0
Epoch:  20 | Epoch_reward:  21.0
Epoch:  21 | Epoch_reward:  17.0
Epoch:  22 | Epoch_reward:  31.0
Epoch:  23 | Epoch_reward:  13.0
Epoch:  24 | Epoch_reward:  30.0
Epoch:  25 | Epoch_reward:  11.0
Epoch:  26 | Epoch_reward:  14.0
Epoch:  27 | Epoch_reward:  24.0
Epoch:  28 | Epoch_reward:  17.0
Epoch:  29 | Epoch_reward:  13.0
Epoch:  30 | Epoch_r

完成数据处理、定义神经网络模型Net以及构建DQN之后，开始模型训练。