# 句法分析

## 句法分析概述

句法分析的两个主要难点：
- <b>歧义</b>
- <b>搜索空间</b>

句法分析（Parsing）是从单词串得到句法结构的过程，而实现该过程的工具或程序被称为句法分析器（Parser）。      
句法分析器的两个主要种类：
- <b>完全句法分析</b>：以获取整个句子的句法结构为目的
- <b>局部句法分析</b>：只关注于局部的一些成分，例如依存句法分析

句法分析中所用方法：
- <b>基于规则的方法</b>
- <b>基于统计的方法</b>：PCFG

## 句法分析的数据集与评测方法

### 句法分析的数据集

句法分析的数据集是一种树形的标注结构，又称树库。   
最常用的中文树库有中文宾州树库（CTB）、清华树库（TCT）、台湾中研院树库，不同的树库有着不同的标记体系。

### 句法分析的评测方法

句法分析评测的主要任务是评测句法分析器生成的树结构与手工标注的树结构之间的相似程度。   
主要考虑两方面的性能：
- 满意度：指测试句法分析器是否适合或胜任某个特定的自然语言处理任务
- 效率：主要用于对比句法分析器的运行时间   


主流的句法分析评测方法是PARSEVAL评测体系

## 句法分析的常用方法

### 基于PCFG的句法分析

PCFG是基于概率的短语结构分析方法，是目前最为充分、形式最为简单的统计句法分析模型，也可以认为是规则方法与统计方法的结合。      
PCFG是上下文无关文法的扩展，是一种生成式的方法，其短语结构文法可以表示为一个五元组（X，V，S，R，P）：
- X是一个有限词汇的集合（词典），它的元素称为词汇或终结符。
- V是一个有限标注的集合，称为非终结符集合。
- S称为文法的开始符号，其包含于V。
- R是有序偶对（a,b）的集合，也就是产生的规则集。
- P代表每个产生规则的统计概率。

PCFG可以解决以下的问题：
- 基于PCFG可以计算分析树的概率值
- 若一个句子有多个分析树，可以依据概率值对所有的分析树进行排序
- PCFG可以用来进行句法排歧，面对多个分析结果选择概率值最大的

PCFG的三个基本问题：
- 给定上下文无关文法G，如何计算句子S的概率？（可以使用内向算法和外向算法）
- 给定上下文无关文法G，如何选择最佳的句法树？（使用Viterbi算法）
- 如何为文法规则选择参数，使得训练句子的概率最大？（使用EM算法）

### PCFG衍生出的各种形式算法：基于单纯PCFG的句法分析方法、基于词汇化的PCFG句法分析方法、基于子类划分PCFG的句法分析方法。

### 基于最大间隔马尔可夫网络的句法分析

最大间隔马尔可夫网络是SVM和马尔可夫网络的结合，能够解决复杂的结构化预测问题，尤为适用于句法分析任务，这是一种判别式的句法分析方法。

### 基于CRF的句法分析

与PCFG相比，采用CRF模型进行句法分析，主要不同点在于概率计算方法和概率归一化方式。CRF模型最大化的是句法树的条件概率值而不是联合概率值，并且对概率进行归一化。基于CRF的句法分析是一种判别式的方法。

### 基于移进-归约的句法分析模型

移进-归约方法是一种自下而上的方法。其从输入串开始，逐步进行归约，直至归约到文法的开始符号。     
移进-归约算法主要涉及四种操作（符号S表示句法树的根节点）：
1. 移进：从句子左端将一个终结符移到栈顶。
2. 归约：根据规则，将栈顶的若干个字符替换为一个符号。
3. 接受：句子中所有词语都已移进栈中，且栈中只剩下一个符号S，分析成功，结束。
3. 拒绝：句子中所有词语都已移进栈中，栈中并非只有一个符号S，也无法进行任何归约操作，分析失败，结束。

## 使用Standord Parser的PCFG算法进行句法分析

In [3]:
# 分词
import jieba
string = '他骑自行车去了菜市场。'
seg_list = jieba.cut(string, cut_all=False, HMM=True)
seg_str = ' '.join(seg_list)            #Stanford Parser句法分析器接收的输入是分词完后以空格隔开的句子
print(seg_str)

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 2.110 seconds.
Prefix dict has been built succesfully.


他 骑 自行车 去 了 菜市场 。


In [4]:
# PCFG句法分析
from nltk.parse import stanford

# 指定路径
root = '/home/shenjiming/Tools/StanfordParser/'
parser_path = root + 'stanford-parser.jar'
model_path = root + 'stanford-parser-3.9.2-models.jar'
pcfg_path = 'edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz'

parser = stanford.StanfordParser(path_to_jar=parser_path, path_to_models_jar=model_path, model_path=pcfg_path)
sentence = parser.raw_parse(seg_str)
for line in sentence:
    print(line)
    line.draw()

Please use [91mnltk.parse.corenlp.StanforCoreNLPParser[0m instead.
  # Remove the CWD from sys.path while we load stuff.


(ROOT
  (IP
    (NP (PN 他))
    (VP (VP (VV 骑) (NP (NN 自行车))) (VP (VV 去) (AS 了) (NP (NN 菜市场))))
    (PU 。)))
