Skip to content

Commit

Permalink
根据两位校对完成了修改
Browse files Browse the repository at this point in the history
根据两位校对完成了修改
  • Loading branch information
CACppuccino committed Oct 25, 2017
1 parent fe90efc commit 1a3b4c6
Showing 1 changed file with 14 additions and 14 deletions.
28 changes: 14 additions & 14 deletions TODO/what-is-mcts.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,9 +9,9 @@

蒙特卡洛树搜索(MCTS)是一种在人工智能问题中进行决策优化的方法,通常是对于那些在组合游戏中需要移动规划的部分。蒙特卡洛树搜索将随机模拟的通用性与树搜索的准确性进行了结合。

冯·诺依曼于 1928 年提出的极小化极大理论(minimax)为之后的对抗性树搜索方法铺平了道路,而这些在计算机科学和人工智能刚刚成立的时候就成为了决策理论的根基。蒙特卡洛方法通过随机样本解决问题,随后在 20 世纪 40 年代,被作为了一种解决模糊定义问题而不适合直接树搜索的方法。Rémi Coulomb 于 2006 年将这两种方法结合,来提供一种新的方法作为围棋中的移动规划,如今称为蒙特卡洛树搜索(MCTS)。
冯·诺依曼于 1928 年提出的极小化极大理论(minimax)为之后的对抗性树搜索方法铺平了道路,而这些在计算机科学和人工智能刚刚成立的时候就成为了决策理论的根基。蒙特卡洛方法通过随机采样解决问题,随后在 20 世纪 40 年代,被作为了一种解决模糊定义问题而不适合直接树搜索的方法。Rémi Coulomb 于 2006 年将这两种方法结合,来提供一种新的方法作为围棋中的移动规划,如今称为蒙特卡洛树搜索(MCTS)。

近期由于它在计算机围棋上的成果和对某些难题具有解决的潜力,科研领域对于 MCTS 的研究兴趣快速上升。它的应用领域已不止于博弈,而且理论上 MCTS 可以应用于任何能够以 {状态,动作} 形式描述,通过模拟来预测结果的领域。
近期由于它在计算机围棋上的成果和对某些难题具有解决的潜力,科研领域对于 MCTS 的研究兴趣快速上升。它的应用领域已不止于博弈,而且理论上 MCTS 可以应用于任何能够以 **{状态,动作}** 形式描述,通过模拟来预测结果的领域。

---

Expand Down Expand Up @@ -47,15 +47,15 @@

### 老虎机与 UCB 算法

在树递归地向下发展时的节点的选择,是取决于该节点是否最大化了某些数量,类似于多臂老虎机问题:即玩家每回合都要选择那个能够带给他们最大化收益的老虎机。接下来的上限置信区间(Upper Confidence Bounds, UCB)公式通常会被用到:
在树递归地向下发展时的节点的选择,是取决于该节点是否最大化了某些数量,类似于**多臂老虎机**问题:即玩家每回合都要选择那个能够带给他们最大化收益的老虎机。接下来的上限置信区间(Upper Confidence Bounds, UCB)公式通常会被用到:

![](https://i.imgur.com/0m8A2zl.png)

其中 `vi` 是节点的估值,`ni` 是节点被访问的次数而 `N` 是它的父亲节点被访问的总次数。`C` 是可调的偏置参数。

### 利用性 vs 探索性

UCB 公式在利用性与探索性之间提供了不错的平衡,鼓励访问未曾访问过的节点。奖励是基于随机模拟的,所以节点在变的可靠之前必须被访问一定的次数。MCTS 估值往往在开始的表现会非常不可靠,但随着足够多的时间而逐渐向可靠的估值收敛,若有无限多的时间则可以收敛至最优估值。
UCB 公式在**利用性****探索性**之间提供了不错的平衡,鼓励访问未曾访问过的节点。奖励是基于随机模拟的,所以节点在变的可靠之前必须被访问一定的次数。MCTS 估值往往在开始的表现会非常不可靠,但随着足够多的时间而逐渐向可靠的估值收敛,若有无限多的时间则可以收敛至最优估值。

### 蒙特卡洛树搜索(MCTS)与上限置信区间树(UCT)

Expand All @@ -73,39 +73,39 @@ MCTS 相对传统树搜索方法具有一些不错的优点。

MCTS最大的好处就在于它无需知道该博弈(或者其他问题领域)的任何战术或策略。这个算法可以无需知道任何该博弈的信息(除了可进行的动作和终止条件)。这意味着任何的 MCTS 的实现方案可以在仅仅修改一小部分后便移植到其他的博弈中,对于所有的博弈问题来说 MCTS 的这个特性也是一种隐形的好处。

### Asymmetric Tree Growth
### 非对称树增长

### 非对称树增长(Asymmetric Tree Growth)

MCTS 表现出一种非对称的树增长来适应搜索空间的拓扑。算法会访问其更‘感兴趣’的节点,并将搜索空间集中于更加相关的部分。

![](https://i.imgur.com/5ctcMfU.png)

这使得 MCTS 很适合于拥有大量影响因素的博弈中,如 19x19 大小的围棋。如此巨大的空间组合往往会使得标准的深度或广度搜索方法出现问题,但 MCTS 的适应特性意味着它会(最终)找到那些更为优秀的移动(动作)并专注于那里的搜索。

### Graceful Exit

### 优雅的退出

算法可以在任意时间中止并返回当前最佳的评估策略。建立的搜索树可以被抛弃或为以后的复用而保留。

### 简单性
### 易用性

算法非常易于实现,可见教程。(译者注:ummmm...原作者还没有写出来
算法非常易于实现,可见教程。(译者注:[python](http://mcts.ai/code/python.html)[java](http://mcts.ai/code/java.html) 源码及相关知识点可在此找到

---

## 缺点

MCTS 有一些缺陷,但他们可以变为主要的部分
MCTS 有一些缺陷,但他们可以很严重

###博弈强度
### 博弈强度

MCTS 算法,在最基本的形式下,即使针对中等复杂度的博弈也有可能在一定时间内不能够给出很好的决策。这很可能是由于决策空间的绝对大小和关键树节点在没有被访问足够多的次数的情况下不能够给出可靠的估值的原因。

幸运的是,算法的表现可以通过一些技巧来提升。

---

#提升方法
# 提升方法

这里有两种方法可能有益于提升 MCTS 的实现:一个是对于特定领域,另一个对于所有的领域。

Expand All @@ -118,11 +118,11 @@ MCTS 算法,在最基本的形式下,即使针对中等复杂度的博弈也
### 领域独立(提升方法)

领域独立提升方法有着很大的应用范围,是 MCTS 算法研究中的圣杯,也是当今很多研究所瞄准的方向。许多这样的提升被提出并与不同层面的成功相吻合,从简单(博弈并获胜的移动/避免在推出中可能失败的移动)到复杂的节点初始化和选择方法,还有元策略。
可以通过浏览[提升列表](http://www.cameronius.com/research/mcts/enhancements/index.html)来查看 MCTS 更多提升的细节

---

## 成立的研究课题
As MCTS is a new field of study, there are many open research topics.
MCTS 仍是研究领域中的新的部分,有许多正在进行的研究课题。

### 算法提升
Expand All @@ -139,7 +139,7 @@ MCTS 仍是研究领域中的新的部分,有许多正在进行的研究课题

### 节点可靠性

若能基于情景和节点在搜索树中的位置,知道一个节点要被访问了多少次之后才会变得可靠,会非常有用处。
若能基于情景和节点在搜索树中的相对位置,知道一个节点要被访问了多少次之后才会变得可靠,会非常有用处。

### 树形状分析

Expand Down

1 comment on commit 1a3b4c6

@ppp-man
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Hi, 那句

+MCTS 有一些缺陷,但他们可以很严重。

原文里面的 few 理解上应该是 not many,才能跟后面的 but 形成对比,语义上合逻辑。

reference:
http://dictionary.cambridge.org/grammar/british-grammar/quantifiers/little-a-little-few-a-few

Please sign in to comment.