# 一些语法困境

## 语言数据和无限可能性

自然语言处理面对的一个事实是：句子有无限的可能，而我们只能写有限的程序来分析其结构和发现它们的含义。

考虑下面的例子：

    a. Usain Bolt broke the 100m record.
    b. The Jamaica Observer reported that Usain Bolt broke the 100m record.
    c. Andre said The Jamaica Observer reported that Usain Bolt broke the 100m record.
    d. I think Andre said the Jamaica Observer reported that Usain Bolt broke the 100m record.

可以看出，我们不难构造一个全新的句子，一个在语言的历史上可能从来没有使用过的句子，而所有说这种语言的人都能理解它。

## 普遍存在的歧义

一个比较有名的关于歧义的例子如下，其中的歧义来自 I shot an elephant in my pajamas 部分：

> While hunting in Africa, I shot an elephant in my pajamas. How he got into my pajamas, I don't know.

这里我们首先定义一个简单的文法，这个文法允许以两种方式分析句子，取决于介词短语 in my pajamas 是描述大象还是枪击事件。

In [1]:
import nltk

groucho_grammar = nltk.CFG.fromstring("""
    S -> NP VP
    PP -> P NP
    NP -> Det N | Det N PP | 'I'
    VP -> V NP | VP PP
    Det -> 'an' | 'my'
    N -> 'elephant' | 'pajamas'
    V -> 'shot'
    P -> 'in'
""")

sent = ['I', 'shot', 'an', 'elephant', 'in', 'my', 'pajamas']
parser = nltk.ChartParser(groucho_grammar)
for tree in parser.parse(sent):
    print(tree)

(S
  (NP I)
  (VP
    (VP (V shot) (NP (Det an) (N elephant)))
    (PP (P in) (NP (Det my) (N pajamas)))))
(S
  (NP I)
  (VP
    (V shot)
    (NP (Det an) (N elephant) (PP (P in) (NP (Det my) (N pajamas))))))


程序产生了两个树状结构，对应了两种不同的分析句子的方式。