# 第3章：形式语言与自动机


## 3.1 基本概念

### 3.1.1 图

图的本质是二元关系，图分为无向图和有向图两种。

定义3-1（无向图）：$G$可以定义为一个二元组$G = (N, E)$，其中，$N$表示顶点的非空有限集合，$N = \{n | i = 0, 1, \cdots, k \}$；$E$表示边的有限集合，$E = \{ (n_{i}, n_{j}) | n_{i}, n_{j} \in N \}$。

定义3-2（有向图）：有向图$D$定义为一个二元组$D = (N, E)$，其中，$N$表示顶点的非空有限集合，$N = \{n | i = 0, 1, \cdots, k \}$；$E$表示边的有限集合，$E = \{ (n_{i}, n_{j}) | n_{i}, n_{j} \in N \}$，且$(n_{i}, n_{j}) \not = (n_{j}, n_{i})$。$(n_{i}, n_{j}) \in E$是顶点$(n_{i}$的出边，顶点$(n_{j}$的入边。

定义3-3（连通图）：连通图是一个无向图$G = (N, E)$或有向图$D = (N, E)$，对于$N$中的任意两个顶点$n_{s}$和$n_{t}$，存在一个顶点的序列$P$，使得$n_{s} = n_{i_{0}}, n_{i_{1}}, \cdots, n_{i_{k}} = n_{t}$，均属于$N$，且$e_{j} = (n_{i_{j}}, n_{i_{j + 1}})$（$j = 0, 1, \cdots, k - 1$）均属于$E$，$P$也被称为图$G$或$D$的一条路径或通路。

定义3-4（回路）：设$P$是有向图$D$的一条路径，$P = n_{i_{0}}, n_{i_{1}}, \cdots, n_{i_{k}}$，如果$n_{i_{0}} = n_{i_{k}}$，则称$P$是$D$的一条回路。即开始和终结于同一顶点的通路称为回路。如果$k = 0$，则称$P$为自回路。若$P$是无向图$G$的一条路径，$P = n_{i_{0}}, n_{i_{1}}, \cdots, n_{i_{k}}$，且$k \gt 0$，则称$P$是$G$的一条回路。若图中无任何回路，则称该图为无环图。

### 3.1.2 树

定义3-5（树）：一个无向无环图称为森林。一个连通无向无环图称为树（或自由树）。如果树中有一个结点被特别地标记为根结点，则这棵树称为根树。

从逻辑结构上讲，树是包含$n$个结点的有穷集合$S$（$n \gt 0$ ），且在$S$上定义了一个关系$R$，$R$满足以下三个条件：

1. 有且仅有一个结点$t_{0} \in S$，该结点对于$R$来说没有前驱，结点$t_{0}$称为树根；

2. 除了结点$t_{0}$以外，$S$中的每个结点对于$R$来说，都有且仅有一个直接前驱；

3. 除了结点$t_{0}$以外的任何结点$t \in S$，都存在一个结点序列$t_{0}, t_{1}, \cdots, t_{k}$，使得$t_{0}$为树的根，$t_{k} = t$，有序对$\langle t_{i - 1}, t_{i} \rangle \in R$（$1 \leq i \leq k$），则该结点序列称为从根结点$t_{0}$到结点$t$的一条路径。

在根树中，自上而下的路径末端结点称为树的叶结点，介于根结点和叶结点之间的结点称为中间结点（或内结点）。

<img src="./img/fig_3_1.jpg" width="200" />

图3-1中，$A$为根结点，$C$、$D$、$E$为叶结点，$B$为中间结点，$A$为$B$、$C$结点的父结点，$B$、$C$称为$A$结点的子结点或后裔，$D$、$E$互为兄弟结点，它们都是$B$结点的子结点。

### 3.1.3 字符串

定义3-6（字符串）：假定$\Sigma$是字符的有限集合，一般称作字符表，它的每一个元素称为字符。由$\Sigma$中字符相连而成的有限序列称为$\Sigma$上的字符串。特殊地，不包括任何字符的字符串称为空串，记作$\epsilon$。包括空串在内的$\Sigma$上字符串的全体记为$\Sigma^{\ast}$。

“连接”和“闭包”是字符串操作中的两种基本运算。

定义3-7（字符串连接）：假定$\Sigma$是字符的有限集合，$x$、$y$是$\Sigma$上的符号串，则把$y$的各个符号依次写在$x$符号串之后得到的符号串称为$x$与$y$的连接，记作$xy$。

如果$x$是符号串，把$x$自身连接$n$（$n \geq 0$）次得到的符号串$z = \overbrace{x x \cdots x}^{n}$，称为$x$的$n$次方幂，记作$x^{n}$。当$n = 0$时，$x^{0} = \epsilon$。当$n \geq 1$时，$x^{n} = x x^{n - 1} = x^{n - 1} x$。

定义3-8（符号串集合的乘积）：设$A$、$B$是字符表$\Sigma$上符号串的集合，则$A$和$B$的乘积定义为

$$AB = \{xy | x \in A, y \in B \}$$

其中，$A^{0} = \{ \epsilon \}$。当$n \geq 1$时，$A^{n} = A A^{n - 1} = A^{n - 1} A$。

定义3-9（闭包运算）：字符表$S$上的符号串集合$V$的闭包定义为：$V^{\ast} = V^{0} \cup V^{1} \cup V^{2} \cup \cdots$，$V^{+} = V^{1} \cup V^{2} \cup \cdots$，$V^{+} = V^{\ast} - \{ \epsilon \}$。

一般用$|x|$表示字符串$x$的长度，即字符串$x$中包含字符的个数。

## 3.2 形式语言

### 3.2.1 概述

乔姆斯基（NoamChomsky）把语言定义为：按照--定规律构成的句子和符号串的有限或无限的集合。构成这些集合的是句子、单词或其他符号。吴蔚天把语言看成一个抽象的数学系统。

一般地，描述一种语言有三种途径：

1. 穷举法：把语言中的所有句子都枚举出来。显然，这种方法只适合句子数目有限的语言。

2. 文法（产生式系统）描述：语言中的每个句子用严格定义的规则来构造，利用规则生成语言中合法的句子。

3. 自动机法：通过对输入的句子进行合法性检验，区别哪些是语言中的句子，哪些不是语言中的句子。

文法用来精确地描述语言和其结构，自动机则是用来机械地刻画对输人字符串的识别过程。用文法来定义语言的优点是：由文法给予语言中的句子以结构，各成分之间的结构关系清楚、明了。但是，如果要直接用这些规则来确定一个字符串是否属于这套规则所定义的语言似乎并不十分明确。而由自动机来识别一个字符串是否属于该语言则相对简单，但自动机很难描述语言的结构。所以自然语言处理中的识别和分析算法，大多兼取两者之长。

### 3.2.2 形式语法的定义

形式语言是用来精确地描述语言(包括人工语言和自然语言)及其结构的手段。形式语言学也称代数语言学。

如果用重写规则$\alpha \rightarrow \beta$的形式表示，其中，$\alpha$、$\beta$为字符串。则该规则表示字符串$\alpha$可以被改写成$\beta$。一个初始的字符串通过不断地运用重写规则，就可以得到另一个字符串。如果通过选择多个不同的规则并以不同的顺序来运用这些规则，就可以得到不同的新字符串。

定义3-10（形式语法，或称形式文法）：形式语法是一个四元组$G = (N, \Sigma, P, S)$，其中，$N$是非终结符（non-terminal symbol）的有限集合（也称变量集或句法种类集）；$\Sigma$是终结符号（terminal symbol）的有限集合，$N \cap \Sigma = \emptyset$；$V = N \cup \Sigma$称为总词汇表（vocabulary）；$P$是一组重写规则的有限集合：$P = \{ \alpha \rightarrow \beta \}$，其中，$\alpha$、$\beta$是由$V$中元素构成的串，但是，$\alpha$中至少应含有一个非终结符号；$S \in N$称为句子符或初始符。

定义3-11（推导）：设$G = (N, \Sigma, P, S)$是一个文法，在$(N \cup \Sigma)^{\ast}$上定义关系$\underset{G} \Rightarrow$（直接派生或推导）为：如果$\alpha \beta \gamma$是$(N \cup \Sigma)^{\ast}$中的符号串，且$\beta \rightarrow \sigma$是$P$中的一个产生式，则$\alpha \beta \gamma \underset{G} \Rightarrow \alpha \sigma \gamma$。

用$\overset{+}{ \underset{G}{\Rightarrow} }$（读作按非平凡方式派生）表示$\underset{G} \Rightarrow$的传递闭包，即$(N \cup \Sigma)^{\ast}$上的符号串$\xi_{i}$到$\xi_{i + 1}$（$i \geq 0$）至少经过一步推导或派生。$\overset{\ast}{ \underset{G}{\Rightarrow} }$（读作派生）表示$\underset{G} \Rightarrow$的自反或传递闭包，即由$(N \cup \Sigma)^{\ast}$上的符号串$\xi_{i}$到$\xi_{i + 1}$（$i \geq 0$）经过$n$（$n \geq 0$）步推导或派生。

如果已经明确某个推导是由给定文法$G$所产生的，则符号$\overset{\ast}{ \underset{G}{\Rightarrow} }$或$\overset{+}{ \underset{G}{\Rightarrow} }$中的$G$一般可以省略不写。如果每步推导中只改写最左边的那个非终结符，这种推导称为“最左推导”。反之，如果每次都只改写最右边的非终结符，则为最右推导。最右推导又称规范推导。

<img src="./img/eg_3_1.jpg" width="500" />

定义3-12（句子）文法$G = (N, \Sigma, P, S)$的句子形式（句型）通过如下递归方式定义：

（1）$S$是一个句子形式；

（2）如果$\gamma \beta \alpha$是一个句子形式，且$\beta \rightarrow \sigma$是$P$中的产生式，则$\gamma \sigma \alpha$也是一个句子形式。

对于文法$G$，不含非终结符的句子形式称为$G$生成的句子。由文法$G$生成的语言（或称$G$识别的语言）是指$G$生成的所有句子的集合，记作$L(G)$：

$$L(G) = \{ x | x \in \Sigma, S \overset{+}{ \underset{G}{\Rightarrow} } x \} \tag {3-1}$$

### 3.2.3 形式语法的类型

在乔姆斯基的语法理论中，文法被划分为4种类型：3型文法、2型文法、1型文法和0型文法，分别称为正则文法、上下文无关文法、上下文相关文法和无约束文法。

1. 正则文法

定义3-13（正则文法）：如果文法$G$的规则集$P$中所有规则均满足如下形式：$A \rightarrow Bx$或$A \rightarrow x$，其中$A, B \in N$，$x \in \Sigma$，则称该文法$G$为正则文法，或称3型文法。

在这种书写格式中，由于规则右部的非终结符号（如果有的话）出现在最左边，所以，这种形式的正则文法又叫左线性正则文法。类似地，如果一正则文法所有含非终结符号的规则形式为$A \rightarrow xB$，则该文法称为右线性正则文法。

<img src="./img/eg_3_2.jpg" width="600" />

2. 上下文无关文法

定义3-14（上下文无关文法）：如果文法$G$的规则集$P$中所有规则均满足如下形式：$A \rightarrow a$，其中$A \in N$，$a \in (N \cup \Sigma)^{\ast}$，则称文法$G$为上下文无关文法（context free grammar，CFG），或称2型文法。

<img src="./img/eg_3_3.jpg" width="450" />

2型文法比3型文法少了一层限制，其规则右端的格式没有约束。即规则左部的非终结符可以被改写成任何形式。

3. 上下文有关文法.

定义3-15（上下文有关文法）如果文法 G的规则集P中所有规则满足如下形式:
aAβ→aγβ,其中,A∈N,a,β,r∈（N∪E）°,且γ至少包含一个字符,则称文法G为上下文
有关文法（context-sensitive grammar,CSG）,或称1型文法。
从上述定义可以看出,字符串aAβ中的A被改写成γ时需要有上文语境a和下文语
境β,这体现了上下文相关的含义。当然,a和β可以为空字符ε,如果a和β同时为空时，
1型文法变成了2型文法。也就是说,2型文法是1型文法的特例。因此,1型文法可识
别的语言集合比2型文法可识别的语言集合更大。
例3-4 G=（N,E,P,S）,其中,N={S,A,B,C},Z={a,b,c},
P:（1）S→ABC
（2） A-→aA|a
（3） B-→b B|b
（4） BC→Bc c
根据第（4）条规则可以断定该文法为上下文有关文法,所识别的语言为
L（G） = {a"b"c2}，n≥1,m≥1
通过这个例子我们可以看到，规则左部不- -定仅为-一个非终结符,可以有上下文限

制,但是,规则右端的长度不小于规则左部的长度。因此,这种文法又有另一种定义:如
果文法G为上下文有关文法,当且仅当x→y,x∈（NUE）+ ,y∈（NUE）* ,并且，|yl≥
|x|。注意,在定义中,空字符ε不可出现在1.2、3型文法的产生式中,否则,第二种定义不
成立。不过在形式语言理论中,我们可以把1.2.3型文法的定义扩充到允许x→ε类型的
产生式存在。
4.无约束文法
定义3-16（无约束文法）如果文法G 的规则集P中所有规则满足如下形式:a-→β,其
中,a∈（N∪UE）+ ,β∈（N∪Z）* ,则称G为无约束文法或无限制重写系统,也称0型文法。
根据上述定义我们不难看出,从0型文法到3型文法,对规则的约束越来越多,每-一
个正则文法都是上下文无关文法,每一个上下无关文法都是上下文有关文法,而每一个上
下文有关文法都可以认为是0型文法。因此,从0型文法到3型文法所识别的语言集合
越来越小。如果用G。、G、G2和G3分别表示0型.1型、2型和3型文法,那么，
L（G。）卫L（G） 2 L（G2）卫L（G3）
（3-2）
我们约定,如果一个文法的产生式集合P中,有分属于不同类型文法的产生式，则把
属于包含最广类型文法的那条产生式所属的类型作为这个文法的类型。比如说,某个文
法的全部规则分别属于1型文法.2型文法和3型文法,则我们称这个文法为1型文法。
同理，如果--种语言能够由几种文法所产生,则把这种语言称为在这几种文法中受限制最
多的那种文法所产生的语言。
