# Lec 03: 机器学习构建chatbot

## 目录
- <a href='#basic'>关于聊天机器人的思考</a>
    - <a href='#basic1'>1. 工程考量</a>
    - <a href='#basic2'>2. 机器学习角度考虑</a>
- <a href='#pre'>预备知识</a>
    - <a href='#pre1'>1. 检索与分配</a>
    - <a href='#pre2'>2. 分类与朴素贝叶斯</a>
- <a href='#chatter'>chatterbot</a>
    - <a href='#chatter1'>1. 架构与使用方法</a>
    - <a href='#chatter2'>2. 源码分析</a>
- <a href='#traditonal'>传统聊天机器人</a>
    - NLP 基础知识
        - 基本分词
        - 关键词抽取（tf-idf等）
        - 正则表达式模式匹配
        - ...

    - Machine Learning 相关知识
        - 文本表示与匹配
        - 分类（文本场景分析）
        - 数据驱动（特征工程）
        - ...



## 聊天机器人的一些思考
- 工程考量
    - 架构设计清晰、模块化
    - 功能分拆，解耦，部件可插拔与拓展
    
    <img src='./images/frame01.png' width='70%'/>
    
    
- 算法与机器学习角度考量
    - 算法简单，数据（特征）驱动
    - 场景化与垂直领域

## 预备知识：检索与匹配
- 基于检索与匹配
    - 知识库（存储了问题与回复内容）
    - 检索：搜寻相关问题
    - 匹配：对结果进行排序


## 预备知识：编辑距离
- 编辑距离
    - 编辑距离/Levenshtein 距离，是指两个字符串之间，由一个转成另一个所需要的最少编辑操作次数。
    - 允许的编辑操作包括：
        - 将一个字符替换成另一个字符
        - 插入一个字符
        - 删除一个字符
<img src='./images/levenshtein_distance.png' width='80%'/>
    - Python在string类型中，默认的utf-8编码下，一个中文字符是用三个字节来表示的。
    用unicode。 
   

Levenshtein包安装：
> pip install python-Levenshtein

In [3]:
# -*- coding:utf-8 -*-
import Levenshtein
texta = '七月在线'
textb = '七月 在线'
print(Levenshtein.distance(texta, textb))

1


## 预备知识：场景分类与NB
$$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$$

<img src='./images/nb.png' width='60%'/>

## Chatterbot聊天机器人
<img src='./images/chatterbot01.png' width='70%'/>

ChatterBot是一个基于机器学习的聊天机器人引擎，构建在python上，主要特点是可以从已有的对话中进行学（记忆）习（匹配）。

- 每个部分都设计了不同的“适配器”（Adapter）
    - 机器人应答逻辑 => Logic Adapters
        - Closest Match Adapter
            - 字符串模糊匹配（编辑距离）
        - Closest Meaning Adapter
            - 借助nltk的WordNet，近义词评估
        - Time Logic Adapter
            - 处理涉及时间的提问
        - Mathematical Evaluation Adapter
            - 涉及数学运算

- 存储器后端 => Storage Adapters
    - Read Only Mode
        - 只读模式，当有输入数据到chatterbot的时候，数据库并不会发生改变。
    - Json Database Adapter
        - 用于存储对话数据的接口，对话对数以Json格式进行存储
    - Mongo Database Adapter
        - 以MongoDB database方式来存储对话数据

- 输入形式 => Input Adapters
    - Variable innput type adapter
        - 允许chatter bot 接收不同类型的输入的，如：strings, dictionaries和Statements
    - Terminal adapter
        - 使得ChatterBot可以通过终端进行对话
    - HipChat Adapter
        - 使得ChatterBot可以从HipChat聊天室获取输入语句，通过HipChat和ChatterBot进行对话
    - Speech recognition
        - 语音识别输入，详见<a href=''>chatterbot-voice</a>

- 输出形式 => Output Adapters
    - Output format adapter 
        - 支持text, json和object格式的输出
    - Terminal adapter
    - HipChat Adapter
    - Mailgun adapter
        - 允许chat bot基于Mailgun API进行邮件的发送
    - Speech synthesis
        - TTS(Text to speech) 部分，详见<a href=''>chatterbot-voice</a>

<h4><a href=''>聊天机器人应答逻辑代码实现</a></h4>
<h4><a href=''>聊天机器人存储适配器代码实现</a></h4>
<h4><a href=''>聊天机器人输入适配器代码实现</a></h4>