# 强化学习机器关键元素

## 关键元素

- `奖励(reward)`
- `策略(policy)`: 强化学习的学习对象就是策略。通过改进策略以期最大化总奖励。

## 强化学习的应用

- 电动游戏
- 自动驾驶

## 智能体/环境接口

- `智能体(agent)`: 强化学习系统中的决策者和学习者，它可以做出决策和接受奖励信号
- `环境(environment)`: 强化系统中除智能体外的所有事物，是智能体交互的对象。

在智能体/环境接口中，智能体和环境的交互主要有以下三个环节：

1. `智能体观测(observation)环境`：可以获得环境的观测，记为`O`
2. `动作(action)`：智能体对环境施加的动作，记为`A`
3. `状态(state)`：环境受智能体动作的影响，改变自己的`状态`，记为`S`，并给出`奖励(reward)`，记为`R`

## 使用`gymnasium`

In [6]:
import gymnasium as gym

# 创建环境
env = gym.make('CartPole-v1')

In [7]:
# 查看已注册的环境

from gymnasium import envs

env_specs = envs.registry
env_ids = [env_spec for env_spec in env_specs]
env_ids

['CartPole-v0',
 'CartPole-v1',
 'MountainCar-v0',
 'MountainCarContinuous-v0',
 'Pendulum-v1',
 'Acrobot-v1',
 'phys2d/CartPole-v0',
 'phys2d/CartPole-v1',
 'phys2d/Pendulum-v0',
 'LunarLander-v2',
 'LunarLanderContinuous-v2',
 'BipedalWalker-v3',
 'BipedalWalkerHardcore-v3',
 'CarRacing-v2',
 'Blackjack-v1',
 'FrozenLake-v1',
 'FrozenLake8x8-v1',
 'CliffWalking-v0',
 'Taxi-v3',
 'tabular/Blackjack-v0',
 'tabular/CliffWalking-v0',
 'Reacher-v2',
 'Reacher-v4',
 'Pusher-v2',
 'Pusher-v4',
 'InvertedPendulum-v2',
 'InvertedPendulum-v4',
 'InvertedDoublePendulum-v2',
 'InvertedDoublePendulum-v4',
 'HalfCheetah-v2',
 'HalfCheetah-v3',
 'HalfCheetah-v4',
 'Hopper-v2',
 'Hopper-v3',
 'Hopper-v4',
 'Swimmer-v2',
 'Swimmer-v3',
 'Swimmer-v4',
 'Walker2d-v2',
 'Walker2d-v3',
 'Walker2d-v4',
 'Ant-v2',
 'Ant-v3',
 'Ant-v4',
 'Humanoid-v2',
 'Humanoid-v3',
 'Humanoid-v4',
 'HumanoidStandup-v2',
 'HumanoidStandup-v4',
 'GymV21Environment-v0',
 'GymV26Environment-v0']

In [8]:
# 观测空间
observation_space = env.observation_space
print(observation_space)

# 动作空间
action_space = env.action_space
print(action_space)

Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32)
Discrete(2)


In [9]:
# 环境初始化
env.reset()

(array([-0.01096658,  0.01667925, -0.01663081,  0.02936794], dtype=float32),
 {})

In [10]:
# 随机获取一个动作
action = env.action_space.sample()

# 图形化方式显示当前环境
env.render()

  gym.logger.warn(


In [11]:
# 关闭环境
env.close()

---

### 小车上山

In [14]:
import gymnasium as gym

env = gym.make('MountainCar-v0')
print('观测空间 = {}'.format(env.observation_space))
print('观测范围 = {}'.format(env.observation_space.low, env.observation_space.high))

print('动作空间 = {}'.format(env.action_space))
print('动作数 = {}'.format(env.action_space.n))

观测空间 = Box([-1.2  -0.07], [0.6  0.07], (2,), float32)
观测范围 = [-1.2  -0.07]
动作空间 = Discrete(3)
动作数 = 3
