# Training a Goal-Oriented Chatbot with Deep Reinforcement Learning
在本系列教程中我们将学会如何从零开始搭建一个基于python深度强化学习的任务型对话机器人系统，代码见[here](https://github.com/maxbren/GO-Bot-DRL)
### 内容提纲
* 简介和训练流程
* DQNAgent
* 对话状态追踪器
* 用户仿真和错误控制
* 运行和Future work

## What is a Goal-Oriented Chatbot?
一个任务型机器人是用于帮助用户解决特定方面的问题，例如订机票，查订单等。实现一个任务型机器人主要包括两种方法：1.使用encoder-decoder类的监督学习，直接将对话映射到答案；2. 使用强化学习，通过真实用户或者仿真用户进行试错对话。使用强化学习训练对话机器人技术上已经非常成熟。
### Dialog System
基于强化学习的对话系统一般分为三部分：
1. Dialogue Manager (DM)
    * Dialogue State Tracker (DST) / State Tracker (ST)
    * 针对agent的policy, 使用NN实现
2. Natural Language Understanding (NLU) unit
3. Natural Language Generator (NLG) unit.
此外，系统流程中还有一个带有目的的用户，这个目的即用户想要从对话中完成什么任务。例如下图中的订餐对话流程图
![avatar](img/dialog-flow.png)<br>
在这个流程中，用户的表述被NLU模块转化为可以被`agent`处理的底层语义框架，之后DST模块将当前语义框架结合历史对话，转化成可以被agent策略使用的状态`state`表达。这个state将作为agent的输入，最终输出一个行为`action`。agent也可以从数据库中获取任务需要的其他信息。最后agent的action将被NLG模块转化为自然语言。
![avatar](img/TC-Bot.png)<br>
本教程及代码时基于MluLAB的对话系统，称为[TC-Bot](https://github.com/MiuLab/TC-Bot)，其论文的主要介绍了如何实现一个仿真用户并将其应用于训练。我们的论文特色是提供了完整代码，介绍如何训练。
### 用户模拟器和错误模型控制器
用户仿真是一种确定的基于规则的控制器，它基于用户进程建模，使用一个内部状态来表示用户sim的约束和需求。这个内部状态持续追踪当前对话和完成目标所需要的做的事。目标是从可用的用户目标列表中随机挑选出来的，其中目标由一组约束和其他信息组成，在用户sim试图实现当前目标时指导其操作。采用误差模型控制器在语义框架的层次上向用户sim的动作添加误差，提高了训练的效果。

## Movie Ticket Data 
1. `Database`: 电影票的database是带有不同插槽`slots`的电影票数据。ticket数据以dict形式展示，key表示index，value包含了票的信息，每种票的信息基本各不相同。
2. `Database Dictionary`: 提供了每个`slots`的可选项
3. `User Goal List` 我们将用户目标作为一个字典列表，其中包含每个目标的请求和通知槽。使用这个数据库的是为了让agent找到基于这些user goal下的符合要求的电影票，由于每张电影票是唯一的且多数电影票的slots不同，这个任务不是很简单。
### Anatomy of an Action 
了解该系统中行为的结构。用户sim和agent都将语义框架格式作为输入和输出，一个行为包括一个意图`intent`，通知槽和请求槽。`Slot`在这是指能代表一个通知或请求的key-value对。如```{'starttime': 'tonight', 'theater': 'regal 16'}, 'starttime': 'tonight' and 'theater': 'regal 16'```都是插槽。<br>
意图`intent`表示行为的类型。action分为告知(`inform`)类型，表示限制条件，告知slots中包含发送者想要接受者知道的信息，请求(`request`)类型，表示发送者想要从接受者处获得的信息，因此是以```{key:Unknown}```的形式(这里sender指售票方，receiver指订票方)。

### All intents
* `Inform` 表示限制条件
* `Request` 表示待填信息
* `Thanks` 用户(购票者)表示感谢
* `Match Found` 仅由agent表示，指示用户它拥有一个它认为可以实现用户目标的匹配项
* `Reject` 仅由用户表示，用于回应agent的match found行为不满足限制条件
* `Done` agent使用它来关闭对话并查看它是否完成了当前的目标，当流程进行得太久时，用户动作会自动有这个意图

### State
状态由ST创建，作为代理选择适当操作的输入。它是来自当前会话历史的大量有用信息的数组。


## Training an Agent
![avatar]("img/train-loop.png")
该图表示了模型训练中一个完整的循环，四个主要部分是agent`dqn_agent`, dialog state tracker`state_tracker`, user(or user simultor) `user` 和Error Model Controller `EMC`，系统的工作流程如下：
1. 获得当前状态并将其作为输入发送给agent的Get action方法
    1. 从上一状态获得，当前状态=上一个"next_state"
    2. 如果这是情节的开始，则获取初始状态
2. 获得agent的行动，并将其发送给state tracker的更新方法, ST将在这个方法中更新当前对话的历史记录以及根据数据库信息更新agent的行动
3. 更新后的agent行动将作为用户step方法的输入，在step方法中，用户sim会创建自己的基于规则的响应，并输出奖励和成功信息
4. EMC向用户操作注入了错误
5. 带有error的用户行动作为输入发送到ST更新方法，与ST更新agent action的方法类似，但是，它仅将信息保存在其历史记录中，而不以重要方式更新user action.
6. 最后，从ST中获得状态作为"next_state"输出，这就完成了agent在当前轮的经验元组，并添加到agent的记忆中了


In [1]:
def run_round(state, warmup=False):
    # 1) Agent takes action given state tracker's representation of dialogue (state)
    agent_action_index, agent_action = dqn_agent.get_action(state, use_rule=True)
    # 2) Update state tracker with the agent's action
    round_num = state_tracker.update_state_action(agent_action)
    # 3) User takes action given agent action
    user_action, reward, done, success = user.step(agent_action, round_num)
    if not done:
        # 4) Infuse error into semantic frame level of user action
        emc.infuse_error(user_action)
    # 5) Update state tracker with user action
    state_tracker.update_state_user(user_action)
    # 6) Get next state and add experience
    next_state = state_tracker.get_state(done)
    dqn_agent.add_experience(state, agent_action_index, reward, next_state, done)
    
    return next_state, reward, next_state, success

需要注意的是，与任何DQN代理一样，内存缓冲区在预热阶段会在一定程度上被填充。与游戏中DQNs的许多使用不同，代理在这一阶段不会采取随机行动。相反，在热身过程中，它使用一个非常简单的基于规则的算法，这将在第二部分中解释。  
在整个流程中并没有使用自然语言模块，NLG和NLU模块在预训练中使用，且与agent的训练独立开。
### Episode Reset
在warm-up和training loop之前有重置函数，在每个episode前调用（本文中的episode=conversation）

In [2]:
def episode_reset():
    # First reset the state tracker
    state_tracker.reset()
    # Then pick an init user action
    user_action = user.reset()
    # Infuse with error
    emc.infuse_error()
    # Add update state tracker
    state_tracker = update_state_user(user_action)
    # Finally, reset agent
    dqn_agent.reset()

### Warm-up the Agent

In [3]:
def warmup_run():
    total_step = 0
    while total_step != WARMUP_MEM and not dqn_agent.is_memory_full():
        # Reset episode
        episode_reset()
        done = False
        # Get initial state from state tracker
        state = state_tracker.get_state()
        while not done:
            next_state, _, done, _ = run_round(state, warmup=True)
            total_step += 1
            state = next_state

首先，我们定义外部循环，只运行到代理的内存被填满以预热MEM或其内存缓冲区完全被填满为止。接下来重置episode，获得初始状态。内循环执行`run_round`直到`done == True`，表示episode执行完毕。

### Train the Agent

In [4]:
def train_run():
    episode = 0
    period_success_total = 0
    success_rate_best = 0
    # Almost exact same loop as warm-up
    while episode < NUM_EP_TRAIN:
        episode_reset()
        episode += 1
        done = False
        state = state_tracker.get_state()
        while not done:
            next_state, reward, done, success = run_round(state)
            period_reward_total += reward
            state = next_state
        # ------
    period_success_total += success
    # Train block
    if episode % TRAIN_FREQ == 0:
        # Get success rate
        success_rate = period_success_total / TRAIN_FREQ
        # 1. Empty memory buffer if statemement is true
        if success_rate >= success_rate_best and success_rate >= SUCCESS_RATE_THRESHOLD:
            dqn_agent.empty_memory()
            success_rate_best = success_rate
        # Refresh period success total
        period_success_total = 0
        # 2. Copy weights
        dqn_agent.copy()
        # 3. Train weights
        dqn_agent.train()

忽略一些额外的变量，loop与warm-up非常相似。到目前为止，主要的区别在于，当剧集数量达到`NUM_EP_TRAIN`时，该方法将结束其外部循环。