In [1]:
import nltk

## Грамматики составляющих
NLTK умеет читать грамматику из строчки и из файла. Попробуем сначала строчки. Запишем пример грамматики и превратим в список, чтобы потом было удобнее добавлять правила:

In [2]:
rules = """
    S -> NP VP
    NP -> Det ADJ N | Det N | NN
    VP -> V NP | VP PP | V
    Det -> 'a'
    ADJ -> 'tasty' | ADV ADJ
    ADV -> 'very'
    N -> 'fish' | 'fork' | 'dog' | 'boy'
    NN -> 'Mary' | 'John'
    V -> 'eats'
    PP -> P NP |
    P -> 'with'
""".split('\n')

Теперь склеим список обратно в строчку и превратим в грамматику NLTK.grammar.CFG:

In [3]:
grammar = nltk.CFG.fromstring('\n'.join(rules))

In [7]:
# Можно посмотреть, что это за объект
?nltk.CFG
#help(grammar)

Теперь используем эту грамматику для разбора с помощью парсера Эрли (да, он есть в NLTK):

In [5]:
cp = nltk.EarleyChartParser(grammar)

Поищем, как теперь разобрать предложение парсером:

In [6]:
help(cp)

Help on EarleyChartParser in module nltk.parse.earleychart object:

class EarleyChartParser(IncrementalChartParser)
 |  EarleyChartParser(grammar, **parser_args)
 |  
 |  An *incremental* chart parser implementing Jay Earley's
 |  parsing algorithm:
 |  
 |  | For each index end in [0, 1, ..., N]:
 |  |   For each edge such that edge.end = end:
 |  |     If edge is incomplete and edge.next is not a part of speech:
 |  |       Apply PredictorRule to edge
 |  |     If edge is incomplete and edge.next is a part of speech:
 |  |       Apply ScannerRule to edge
 |  |     If edge is complete:
 |  |       Apply CompleterRule to edge
 |  | Return any complete parses in the chart
 |  
 |  Method resolution order:
 |      EarleyChartParser
 |      IncrementalChartParser
 |      nltk.parse.chart.ChartParser
 |      nltk.parse.api.ParserI
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __init__(self, grammar, **parser_args)
 |      Create a new Earley chart parser, that uses ``gram

Метод `parse` возвращает итератор. Чтобы каждый раз не писать цикл, давайте заведём функцию, которая будет разбивать предложение на токены, проходить по всем разборам и печатать их:

In [None]:
def print_parses(parser, sentence):
    ##

In [None]:
print_parses(cp, "Mary eats a fish")

Вернемся к описанию EarleyChartParser и найдём, как включить отладочный вывод -- чтобы посмотреть на шаги разбора.

In [None]:
##cp_verbose = nltk.EarleyChartParser(grammar)
print_parses(cp_verbose, "Mary eats a fish")

In [None]:
# Можно больше отладочного вывода!
##very_verbose_cp = nltk.EarleyChartParser(grammar)
print_parses(very_verbose_cp, "Mary eats a very tasty fish")

Разборы можно не только печатать в формате составляющих со скобками, но и рисовать:

In [None]:
# Положим все разборы в список, чтобы получать к ним доступ по индексу
p = list(cp.parse("Mary eats a fish".split()))
# Посмотрим, сколько разборов получилось
len(p)

Проверим, почему получилось два разбора -- разве входное предложение неоднозначно?

In [None]:
p[0]

Разберём классический пример неоднозначности: *One morning I shot an elephant in my pajamas* (https://www.kinopoisk.ru/film/1749/).

In [None]:
ambiguous_sentence = 'One morning I shot an elephant in my pajamas'
##

Что пошло не так? Давайте это исправим!

In [None]:
# Сначала будет полезно посмотреть на правила, которые уже есть в грамматике
grammar.productions()

In [None]:
add_rules = """
""".split("\n")

In [None]:
# Добавим правила и заведем новую грамматику
##

In [None]:
# Попробуем разобрать. Если что-то ломается, полезно включать отладочный вывод
cp = nltk.EarleyChartParser(grammar)
print_parses(cp, ambiguous_sentence)

## Грамматики зависимостей
Можно использовать то же предложение, поскольку неоднозначность проявляется и в представлении зависимостей.
В NLTK можно примерно одинаково работать с CFG и зависимостями (`DependencyGrammar`)

In [None]:
dep_rules = """
... 'shot' -> 'I' | 'elephant' | 'in' | 'morning'
... 'morning' -> 'One'
... 'elephant' -> 'an' | 'in'
... 'in' -> 'pajamas'
... 'pajamas' -> 'my'
... """

In [None]:
dep_grammar = nltk.DependencyGrammar.fromstring(dep_rules)

In [None]:
pdp = nltk.ProjectiveDependencyParser(dep_grammar)
sent = 'One morning I shot an elephant in my pajamas'
print_parses(pdp, sent)

In [None]:
parses = list(pdp.parse(sent.split()))

In [None]:
parses[0]

In [None]:
parses[1]

## Встроенные грамматики NLTK

In [None]:
nltk.download()

In [None]:
nltk.data.path

In [None]:
sentences = []
with open("%s/grammars/large_grammars/atis_sentences.txt" % nltk.data.path[0], encoding="utf-8") as f:
    ##

In [None]:
atis_parser = nltk.load_parser('grammars/large_grammars/atis.cfg')

In [None]:
# Посмотрим на предложения
sentences[:10]

In [None]:
print_parses(atis_parser, sentences[0])

In [None]:
parses = list(atis_parser.parse(sentences[0]))
parses[0]