# Table of Contents
 <p><div class="lev1 toc-item"><a href="#聊天机器人怎么做" data-toc-modified-id="聊天机器人怎么做-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>聊天机器人怎么做</a></div><div class="lev2 toc-item"><a href="#工作原理" data-toc-modified-id="工作原理-11"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>工作原理</a></div><div class="lev2 toc-item"><a href="#关键技术" data-toc-modified-id="关键技术-12"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>关键技术</a></div><div class="lev2 toc-item"><a href="#技术方法" data-toc-modified-id="技术方法-13"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>技术方法</a></div><div class="lev1 toc-item"><a href="#词性标注与关键词提取" data-toc-modified-id="词性标注与关键词提取-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>词性标注与关键词提取</a></div><div class="lev2 toc-item"><a href="#问句解析过程" data-toc-modified-id="问句解析过程-21"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>问句解析过程</a></div><div class="lev2 toc-item"><a href="#NLPIR-使用" data-toc-modified-id="NLPIR-使用-22"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>NLPIR 使用</a></div><div class="lev1 toc-item"><a href="#0-字节存储海量语料资源" data-toc-modified-id="0-字节存储海量语料资源-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>0 字节存储海量语料资源</a></div>

# 聊天机器人怎么做

## 工作原理

- 三个模块
  - 提问处理模块
    - 查询关键词生成
    - 答案类型确定
    - 句法和语义分析
  - 检索模块
    - 根据查询关键词进行信息检索，返回句子或段落
  - 答案抽取模块
    - 分析和推理从检索的句子或段落中抽取出和提问一致的实体
    - 根据概率最大对候选答案排序

## 关键技术

- 海量文本知识表示
  - 网络文本获取
  - 机器学习方法
  - 大规模语义计算和推理
  - 知识表示体系
  - 知识库构建
- 问句解析
  - 中文分词
  - 词性标注
  - 实体标注
  - 概念类别标注
  - 句法分析
  - 语义分析
  - 逻辑结构标注
  - 指代消解
  - 关联关系标注
  - 问句分类
    - 简单问句
    - 复杂问句
    - 实体型
    - 段落型
    - 篇章级
  - 答案类别确定
- 答案生成与过滤
  - 候选答案抽取
  - 关系推演
    - 并列
    - 递进
    - 因果
  - 吻合程度判断
  - 噪声过滤

## 技术方法

- 基于检索的技术
- 基于模式匹配的技术
- 基于自然语言理解的技术
- 基于统计翻译模型的技术

# 词性标注与关键词提取

## 问句解析过程

一般问句解析需要进行分词、词性标注、命名实体识别、关键词提取、句法分析以及查询问句分类等

- 第一个要数哈工大的LTP(语言技术平台)了，它可以做中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术

- 第二个就是博森科技了，它除了做中文分词、词性标注、命名实体识别、依存文法之外还可以做情感分析、关键词提取、新闻分类、语义联想、时间转换、新闻摘要等，但因为是商业化的公司，除了分词和词性标注免费之外全都收费

- 第三个就是jieba分词，这个开源小工具分词和词性标注做的挺不错的，但是其他方面还欠缺一下，如果只是中文分词的需求完全可以满足

- 第四个就是中科院张华平博士的NLPIR汉语分词系统，也能支持关键词提取

## NLPIR 使用

In [5]:
import jieba
import jieba.posseg as pseg
import jieba.analyse

In [1]:
from textrank4zh import TextRank4Keyword, TextRank4Sentence

In [5]:
# coding:utf-8
s = '聊天机器人到底该怎么做呢？'

In [46]:
segments = pseg.cut(s)

In [47]:
for w in segments:
    print(w)

聊天/nz
机器人/n
到底/d
该/r
怎么/r
做/v
呢/y
？/x


In [19]:
jieba.analyse.textrank(s, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

[u'\u673a\u5668\u4eba', u'\u505a']

In [20]:
print(u'\u673a\u5668\u4eba')

机器人


In [21]:
print( u'\u505a')

做


In [53]:
jieba.analyse.textrank(s, topK=20, withWeight=False,allowPOS=('ns', 'n', 'vn', 'v', 'a'))

[u'\u673a\u5668\u4eba', u'\u505a']

In [54]:
for w in _:
    print(w)

In [9]:
tr4w = TextRank4Keyword()

In [10]:
tr4w.analyze(text=s, lower=True, window=2)

In [12]:
tr4w.get_keywords(20, word_min_len=1)

[{'weight': 0.4651161545800183, 'word': u'\u804a\u5929'},
 {'weight': 0.4651161545800183, 'word': u'\u673a\u5668\u4eba'},
 {'weight': 0.06976769083996354, 'word': u'\u505a'}]

In [62]:
for item in tr4w.get_keywords(20, word_min_len=1):
    print(item.word, item.weight)

In [63]:
print(u'\u804a\u5929') # 聊天

方案
- jieba 分词 + 词性标注
- TextRank 关键词

# 0 字节存储海量语料资源