# Lec 03: 机器学习构建chatbot

## 目录
- <a href='#basic'>1. 关于聊天机器人的思考</a>
    - <a href='#basic1'>1.1 工程考量</a>
    - <a href='#basic2'>1.2 机器学习角度考虑</a>
- <a href='#pre'>2. 预备知识</a>
    - <a href='#pre1'>2.1 检索与分配</a>
    - <a href='#pre2'>2.2 编辑距离</a>
    - <a href='#pre3'>2.3 TF-IDF</a>
    - <a href='#pre4'>2.4 相似度匹配</a>
    - <a href='#pre5'>2.5 分类与朴素贝叶斯</a>
- <a href='#chatter'>3. chatterbot框架</a>
    - <a href='#chatter1'>3.1 架构与使用方法</a>
    - <a href='#chatter2'>3.2 源码分析</a>
- <a href='#traditonal'>4. 传统聊天机器人</a>
    - NLP 基础知识
        - 基本分词: jieba, nltk, pynlpir
        - 关键词抽取（tf-idf等）
        - 正则表达式模式匹配
        - ...

    - Machine Learning 相关知识
        - 文本表示与匹配：向量化（one-hot, tf-idf, word2vec, nnlm, co-currence+SVD等）
        - 分类（文本场景分析）：Closed Domain
        - 数据驱动（特征工程）: Generative-Based
        - ...



---

<h2><a name='basic'>1. 聊天机器人的一些思考</a></h2>

<a name='basic1'>1.1 工程考量</a>
- 架构设计清晰、模块化
- 功能分拆，解耦，部件可插拔与拓展
    
<img src='./images/frame01.png' width='60%'/>
    

Closed Domain: 分到不同的体系下，就可以有比较高的准确率。



<a name='basic2'>1.2 算法与机器学习角度考量</a>
- 算法简单，数据（特征）驱动
- 场景化与垂直领域

常见的电商的机器人，一跳进页面，就会出现一些用户常见的问题，

用户常见的问题，是呈现“长尾的分布”。 
<img src='./images/long_tail.png' width='50%'/>


<h2><a name='pre'>2. 预备知识</a></h2>

<h3><a name='pre1'>2.1 预备知识：检索与匹配</a></h3>
- 基于**检索**与**匹配**
    - 知识库（存储了问题与回复内容）
    - 检索：搜寻相关问题
    - 匹配：对结果进行排序


<h3><a name='pre2'>2.2 预备知识：编辑距离</a></h3>
- 编辑距离
    - 编辑距离/Levenshtein 距离，是指两个字符串之间，由一个转成另一个所需要的最少编辑操作次数。
    - 允许的编辑操作包括：
        - 将一个字符替换成另一个字符 s: substitute
        - 插入一个字符 i: insert 
        - 删除一个字符 d: delete
<img src='./images/levenshtein_distance.png' width='80%'/>
    - Python在string类型中，默认的utf-8编码下，一个中文字符是用三个字节来表示的。
    在Python2下，中文字符串一定要用unicode，在Python3下则都可以。
   

上面图上介绍了由"INTE NTION"==> " EXECUTION"的最小编辑距离，和操作方式。


经常在互联网上面试小算法，会用递归的方式去实现。  
<a href='./编辑距离思想和代码实现.ipynb'>编辑距离和代码实现的思想</a>

Levenshtein包安装：
> pip install python-Levenshtein

In [3]:
# -*- coding:utf-8 -*-
import Levenshtein
texta = '七月在线'
textb = '七月 在线'
print(Levenshtein.distance(texta, textb))

1


In [4]:
textc = u'七月在线'
textd = u'七月 在线'
print(Levenshtein.distance(textc, textd))

1


<h3><a name='pre3'>2.3 预备知识：TD-IDF</a></h3>

编辑距离可以用于评估predict的问题与知识库中的问题的相似程度。

如：   
“你喜欢什么书”“你喜欢什么电影”
从编辑距离来看，这两个问题的编辑距离非常小，但是这两句话实际上问询的问题的方面差非常多。

问题：  
在这个问题中，我们对待每个字（词）的权重是相同的。“书”和“电影”在问题中所占的权重应该更高才对。 

优化思路：   
将里面的关键词先提取出来，比如用：TF-IDF。 
将核心词进行比对，而不是直接像上面那样，去比对每个词（字）。  


实例：  
百度的检索是怎么做的呢？   
倒排索引等各种索引，利用关键词去做。



<h3><a name='pre4'>2.4 预备知识：相似度匹配</a></h3>

Closest Match Adapter：
- 字符串模糊匹配（编辑距离）

关键词提取：
- tf-idf，text-Rank等常用算法

Closest Meaning Adpater:
- “含义”的匹配
- nltk中有近义词，关联词，WordNet
    - 缺点：需要专家，人工构造，耗时费力维护
    - 好处：稳定性强，有实际语义的支撑，而不是word2vec通过语料训练出来的近似。

Word2Vec:
    - 近义词来自哪里？ word2vec从大量的语料中学习出“语义”。
    - 可更新
    

<h3><a name='pre5'>2.5 预备知识：场景分类与NB</a></h3>

最简单的场景分类是用朴素贝叶斯。  

通过判断给定的Query，判断出具体的场景后，减少调用全局的知识库。


$$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$

<img src='./images/nb.png' width='50%'/>

<h2><a name='chatter'>3. chatterbot框架</a></h2>

## Chatterbot聊天机器人
<img src='./images/chatterbot01.png' width='70%'/>

ChatterBot是一个基于机器学习的聊天机器人引擎，构建在python上，主要特点是可以从已有的对话中进行学（记忆）习（匹配）。

<h3><a name='chatter1'>3.1 架构与使用方法</a></h3>

- 架构：可用性，可拓展性。

- 数据驱动Data-Driving：算法越精简，算法就越具有解释性。当数据量足够大的时候，覆盖的情况足够多的时候，数据的分布会和真实世界的大部分场景非常相似。  

- 场景化：特定领域的知识的场景，如：售前，售后等。  
open domain 开放域，理想的机器人，但是很难；  
task-oriented 工程领域还是专注于这种机器人。  

**下面的各个适配器的介绍是chatterbot的实现方式，实际还可以使用更多的选择：**

- 每个部分都设计了不同的“适配器”（Adapter）
    - 机器人应答逻辑 => Logic Adapters
        - Closest Match Adapter
            - 字符串模糊匹配（编辑距离）    置信度confidence，用threshold阈值大小判断是否回答。
        - Closest Meaning Adapter
            - 借助nltk的WordNet，近义词评估
        - Time Logic Adapter
            - 处理涉及时间的提问
        - Mathematical Evaluation Adapter
            - 涉及数学运算

这里应答逻辑需要区分不同的场景，就可以用朴素贝叶斯。   
比如：问题里面有加减乘除等数学相关符号或术语，则调用Mathematical Evalution Adapter。



- 存储器后端 => Storage Adapters
    - Read Only Mode
        - 只读模式，当有输入数据到chatterbot的时候，数据库并不会发生改变。
    - Json Database Adapter
        - 用于存储对话数据的接口，对话对数以Json格式进行存储
    - Mongo Database Adapter
        - 以MongoDB database方式来存储对话数据

存储器后端，其实就是知识库的设计。  

如Siri，微软小冰这些机器人，根据用户的提问再学习。
上面的Read Only Mode模式，是不存储用户的问题到知识库。

Json的载入耗时，生产环境下千万不能用Json。

Key-Value这种数据，可以存在redis, memcache这种缓存数据库中。



- 输入形式 => Input Adapters
    - Variable innput type adapter
        - 允许chatter bot 接收不同类型的输入的，如：strings, dictionaries和Statements
    - Terminal adapter
        - 使得ChatterBot可以通过终端进行对话
    - HipChat Adapter（微信、QQ等社交媒体软件的入口）
        - 使得ChatterBot可以从HipChat聊天室获取输入语句，通过HipChat和ChatterBot进行对话
    - Speech recognition
        - 语音识别输入，详见chatterbot-voice库

chatterbot-voice里面是完成了一套语音识别的框架，GitHub：https://github.com/gunthercox/chatterbot-voice

可以接入到chatterbot里面。

在输出里面，可以通过TTS生成语音回复。

- 输出形式 => Output Adapters
    - Output format adapter 
        - 支持text, json和object格式的输出
    - Terminal adapter
    - HipChat Adapter
    - Mailgun adapter
        - 允许chat bot基于Mailgun API进行邮件的发送
    - Speech synthesis
        - TTS(Text to speech) 部分，详见<a href='https://github.com/gunthercox/chatterbot-voice'>chatterbot-voice</a>

<h4><a href='./chatterbot机器人简单调用示例.ipynb'>chatterbot机器人简单调用示例</a></h4>

<h3><a name='chatter2'>3.2 源码分析</a></h3>

<h4><a href=''>聊天机器人应答逻辑代码实现</a></h4>
<h4><a href=''>聊天机器人存储适配器代码实现</a></h4>
<h4><a href=''>聊天机器人输入适配器代码实现</a></h4>