# Синтаксический анализ

#### Математика для лингвистов
#### Клышинский Э.С., 16.10.2020

### Теоретическое введение

Грамматикой называется четверка  
G={VN, VT, P,E}.  
VN – множество нетерминалов,  
VT – множество терминалов,  
P – набор правил, описывающих цепочки, принадлежащие описываемому языку и  
E – начальный символ грамматики. 

**Продукцией** или **правилом подстановки** называется упорядоченная пара (U,x) записываемая как  
U::=x,  
где U – некоторый символ (левая часть правила),  
x – цепочка символов (правая часть правила).

Левая и правая части эквивалентны. Это означает, что в цепочках можно проводить замены левой части на правую или наоборот.


`<DIGIT> ::= 0  
<DIGIT> ::= 1  
…  
<DIGIT> ::= 9`  
Или более коротко  
`<DIGIT> ::= 0|1|…|9`

Правая часть может состоять не только из терминалов, но и нетерминалов.
`<NUMBER>::=<DIGIT>  
<NUMBER>::=<DIGIT><NUMBER>`  
Или в другой записи  
`<NUMBER>::=0|1|…|9|  
            0<NUMBER>|1<NUMBER>|…|9<NUMBER>`
`<NUMBER>::=0|1|…|9|  
            0<NUMBER>|1<NUMBER>|…|9<NUMBER>`
            
`<INI_NUMBER> ::= 0 | 1 | ... | 9 | 1<NUMBER> | 2<NUMBER> | ...
 <NUMBER>::=0|1|…|9|  
            0<NUMBER>|1<NUMBER>|…|9<NUMBER>`
 
Цепочка V непосредственно порождает цепочку W (обозначается как $V \rightarrow W$), если  
V=xUy, W=xuy и ∃ U::=u.  
x и y – любые (в том числе пустые) цепочки символов.  
Цепочка V порождает W (W выводима из V) (обозначается как $V \xrightarrow{*} W$), если ∃ $V \rightarrow V' \rightarrow V" \rightarrow … \rightarrow W$. 

Если V является начальным символом грамматики G, то говорят, что W выводима из этой грамматики.  
При этом W называется сентенциальной формой. Предложением называется сентенциальная форма, состоящая только из терминальным символов.  
Язык – это множество предложений, выводимых из данной грамматики.

Подобный формат называется БНФ – Бэкусовские нормальная форма или Бэкуса-Науэра форма (калька с Becus Normal Form - BNF).

#### Пример грамматики в БНФ

*Цветовые обозначения:*  
<font color="blue">**НЕТЕРМИНАЛЫ**, описанные на слайде  
НЕТЕРМИНАЛЫ, отсутствующие на слайде</font>  
<font color="green">Терминалы</font>  
Фрагменты БНФ

<pre>
<font color="blue"><b>HTML</b></font> ::= <font color="blue"><b>HEAD</b> BODY</font>  
<font color="blue"><b>HEAD</b></font> ::= <font color="green">&lt;head&gt;</font> <font color="blue">TITLE <b>HEAD2</b></font> <font color="green">&lt;/head&gt;</font>  
<font color="blue"><b>HEAD2</b></font> ::= <font color="blue"><b>STYLE</b></font> | <font color="blue">SCRIPT</font> |  
          <font color="blue"><b>STYLE HEAD2</b></font> |  
          <font color="blue">SCRIPT <b>HEAD2</b></font>  
<font color="blue"><b>STYLE</b></font> ::= <font color="green">&lt;style&gt;</font> <font color="blue"><b>STYLE2</b></font> <font color="green">&lt;/style&gt; </font>  
<font color="blue"><b>STYLE2</b></font> ::= <font color="blue"><b>STYLE_LINE</b></font> |  
           <font color="blue"><b>STYLE_LINE</b> STYLE2</font>  
<font color="blue"><b>STYLE_LINE</b></font> ::= <font color="green">.</font> <font color="blue"><b>STYLE_ID</b></font> <font color="green">{ </font><font color="blue">STYLES</font><font color="green"> }</font>  
<font color="blue"><b>STYLE_ID</b></font> ::= <font color="blue">CHAR</font> | <font color="blue">CHAR <b>STYLE_ID</b></font>  
...  
</pre>

### Иерархия грамматик по Хомскому

Тип 3 (регулярные) A::=aα, где α∈VN или α=ε, a∈VT, A∈VN  
Тип 2 (контекстно-свободные) A::=αβ, где α и β∈{VT, VN}*  
Тип 1 (контекстно-зависимые) αAβ::=αγβ, где A∈VN, α и β∈{VT, VN}\*, γ∈{VT, VN}+  
Тип 0 (неограниченные) α::=β, где α∈{VT, VN}+ и содержит хотя бы один нетерминал, β∈{VT, VN}*  

**Регулярные грамматики**  
A::=aα, где α∈VN или α=ε, a∈VT, A∈VN
Самый простой вид грамматик – как для написания, так и с точки зрения языка. Запись при помощи более удобных регулярных выражений вместо грамматик. Скорость разбора строк – линейна.
Грамматика для языка a$^n$:  
A ::= a | aA

**Контекстно-свободные грамматики**  
A::=αβ, где α и β∈{VT, VN}*  
Простой вид грамматик – человеку обычно удобнее писать КС-грамматики, чем соблюдать регулярность. Время разбора в худшем случае равна длине строки на число продукций.  
Грамматика для языка a$^n$b$^n$:  
A ::= ab | aAb

**Контекстно-зависимые грамматики**  
αAβ::=αγβ, где A∈VN, α и β∈{VT, VN}\*, γ∈{VT, VN}+ 
Непростой вид грамматик. Время разбора в худшем случае экспоненциально.
 
**Неограниченные грамматики**  
α::=β, где α∈{VT, VN}+ и содержит хотя бы один нетерминал, β∈{VT, VN}*  

*Практического применения в силу своей сложности такие грамматики не имеют.  
Полны по Тьюрингу нормальный алгоритм Маркова, 2-теговая система, клеточный автомат с правилом 110, ингибиторная сеть Петри. Полными по Тьюрингу являются также неограниченные грамматики.*  

<div style="text-align:right">Википедия</div>

#### Как писать КС-грамматику

* Если в последовательности можно выделить несколько идущих подряд более простых подпоследовательностей, их следует оформлять как одну продукцию с несколькими идущими подряд символами: αβ запишем как A::=BC.
* Если в последовательности имеется несколько альтернативных вариантов разбора, необходимо оформить их как различные продукции одного и того же правила: α+β запишем как A::=B | C.
* a* ⇒ A::=aA | ε или A::=Aa | ε  
a+ ⇒ A::=aA | a или A::=Aa | a  
Или в более общем случае,  
a\*b ⇒ A::=aA|b или A::=Bb, B::= ε | Ba;  
ba\* ⇒ A::=Aa | b или A::= bB, B::= ε |aB.   
При b= ε получим a\*, а при b=a получим a+.  
* KISS – keep it simple, stupid.

### Разбор строки при помощи грамматики

![](img/derivation_tree.png)

Если стрелки направлены вниз, то есть мы заменяем нетерминал из левой части продукции на правую часть продукции - это нисходящий разбор. Если мы заменяем правую часть продукции на нетерминал - это восходящий разбор.

Грамматика, для которой существует цепочка для которой можно построить более одного дерева вывода, называется **неоднозначной**. В общем случае доказать, что грамматика является однозначной, невозможно.

**Неоднозначная грамматика**  
E ::= &lt;T&gt; | &lt;E&gt; + &lt;E&gt;  
T ::= (&lt;E&gt;) | id  
    
**Однозначная грамматика**  
E ::= &lt;T&gt; | &lt;T&gt; + &lt;E&gt;  
T ::= (&lt;E&gt;) | id  

### Метод разбора рекурсивным спуском 

Пусть дана грамматика  
E ::= &lt;T&gt; | &lt;T&gt;&lt;E2&gt;  
E2 ::= +&lt;T&gt; | +&lt;T&gt;&lt;E2&gt;  
T ::= &lt;F&gt; | &lt;F&gt;&lt;T2&gt;  
T2 ::= \*&lt;F&gt; | \*&lt;F&gt;&lt;T2&gt;  
F ::= (&lt;E&gt;) | id  

Тогда ее разбор можно осуществить при помощи кода, написанного по следующим принципам. Каждый терминал проверяется при помощи некоторой функции is_lexem (которую мы олжны написать сами). Каждому нетерминалу сопоставим функцию, проводящую разбор входной строки в соответствии с его продукциями. Разбор начинается с функции, означающей начальный символ. Если терминал находится во входной строке на текущей позиции, функция сдвигает текущую позицию. Если часть продукции было разобрано, а потом выяснилось, что разбор неуспешен, необходимо вернуться в позицию, с которой данный вызов функции начинал свой разбор, и вернуть неуспех. Если разбор при помощи начального символа прошел успешно и завершился в конце строки, эта строка принадлежит языку, порождаемому данной грамматикой.

При переходе от грамматики к коду мы провели левую факторизацию грамматики. Если несколько продукций одного нетерминала начинаются с одного и того же символа или набора символов, не обязательно проводить разбор по ним несколько раз.

A→αβ$_1$| αβ$_2$|…| αβ$_n$| α  
Преобразуется в  
A→αA’  
A’→β$_1$|β$_2$|…|β$_n$|ε  


In [6]:
def is_lexeme(lex):
    global cur_pos
    if cur_pos >= len(input_str):
        return False
    
    cp = cur_pos
    for c in lex:
        if c != input_str[cp]:
            return False
        cp += 1
    cur_pos = cp
    return True

def E():
    global cur_pos
    pos = cur_pos
    if not T():
        cur_pos = pos
        return False
    E2()
    return True

def E2():
    global cur_pos
    pos = cur_pos
    if is_lexeme("+"):
        if not T():
            cur_pos = pos
            return False
        E2()
        return True
    else:
        return False


def T():
    global cur_pos
    pos = cur_pos
    if not F():
        cur_pos = pos
        return False
    T2()
    return True

def T2():
    global cur_pos
    pos = cur_pos
    if is_lexeme("*"):
        if not F():
            cur_pos = pos
            return False
        T2()
        return True
    else:
        return False

def F():
    global cur_pos
    pos = cur_pos
    if is_lexeme("id"):
        return True
    if is_lexeme("("):
        if not E() or not is_lexeme(")"):
            cur_pos = pos
            return False
    return True



In [12]:
cur_pos = 0
input_str = "id+id+id"

E() and cur_pos == len(input_str)

True

In [11]:
cur_pos = 0
input_str = "id/id+id"

E() and cur_pos == len(input_str)

False

In [None]:
def A(mmm = 0):
    mmm=A(mmm)+1
    return mmm
    
A()

Врагом такого разбора является левая рекурсия, когда первым символом продукции является нетерминал, которому принадлежит данная продукция. Так как в такой ситуации рекурсивный спуск зациклится, используется

### Избавление от левой рекурсии 

Грамматика является леворекурсивной если ∃ A∈VN : A $\xrightarrow{+}$ Aα, для некоторой строки α .
 
При преобразовании используется следующий метод.  
A → Aα$_1$ | Aα$_2$ | … | Aα$_m$ | β$_1$ | β$_2$ | …| β$_n$  
Преобразуется в  
A → β$_1$A’ | β$_2$A’ | … | β$_n$A’ | β$_1$ | β$_2$ | … | β$_n$  
A’ → α$_1$A’ | α$_2$A’ | … | α$_m$A’ | α$_1$ | α$_2$ | … | α$_m$  


### LL(k)-грамматики

LL(k)-грамматики предлагают, что будет найден единственный самый левый вывод. В общем случае LL(k)-грамматики ищут вывод слева направо (L), самый левый вывод (L), при этом заглядывание вперед будет производиться на 1 (1) символ. По определению LL(k)-грамматик ищется единственный левый вывод по нескольким известным предыдущим символам и k последующим. 

Грамматика G является LL(1)-грамматикой тогда и только тогда, когда для любого A → α | β продукции грамматики отвечают следующим требованиям.  
* Ни для какого терминала a α и β не порождают одновременно строк, начинающихся с a.
* Только одна строка α или β может порождать пустую строку.
* Если β$\xrightarrow{*}$ε, то α не порождает строк, начинающихся с терминалов из FOLLOW(A), то есть нетерминалов, которые могут следовать за А.

Табличный предсказывающий анализатор работает:
* с входной строкой, заканчивающейся символом конца строки ^;
* со стеком, который содержит последовательность символов грамматики с ^ на дне; первоначально хранится только ^S, где S – начальный символ;
* с таблицей разбора M[A,a], где A – нетерминал, а a – терминал и S.

```
do
   X – вершина стека, a – символ, на который показывает ip;
   if X – терминал или '^', then
      if X=a then
          вытолкнуть X из стека, сдвинуть ip;
      else
         error();
   else /* нетерминал */
      if M[X,a]=X→Y$_1$Y$_2$…Y$k$ then begin
         вытолкнуть X из стека;
         поместить Y$_$kY$_{k-1}$…Y$_2$Y$_1$ в стек;
         выдать продукцию X→Y$_1$Y$_2$…Y$_k$;
      end 
      else
         error();
while X!='^';

```

Здесь мы не будем рассматривать как генерируется таблица разбора.

### LR(k)-грамматики

Грамматика будет LR(k)-грамматикой, если в каждой правовыведенной цепочке читая ее слева направо, можно выделить основу и определить, каким нетерминалом надо ее заменить, дойдя при этом не более, чем до k-го символа, расположенного справа от правого конца этой основы.

Пополненной назовем грамматику, в которую добавлен новый начальный символ S’, не принадлежащий VN.

Пусть G={VN,VT,P,S} – КС-грамматика и G’={VN’,VT,P’,S’} – полученная из нее пополненная грамматика. Будем называть G LR(k)-грамматикой для k≥0, если из условий  
* S’ $\xrightarrow{*}$ αAω $\rightarrow$ αβω;
* S’ $\xrightarrow{*}$ γBx $\rightarrow$ αβy;
* FIRST$_k$(ω)=FIRST$_k$(y);

следует, что αAy=γBx (т.е. α=γ, A=B, x=y).  
Здесь FIRST$_k$(ω) - множество терминалов, которые могут стоять в начале цепочек, выводимых из ω.

Все эти условия означают, что для фиксированного начального символа данного правила можно предсказать, какие цепочки могут быть выведены из данной.

Для LR-анализатора вводятся действия:
* перенос – текущий входной символ переносится в стек, вслед за ним заносится символ следующего состояния, в которое будет переведен анализатор. 
* свертка i – если в грамматике определено правило с номером i, такое что A→α, то из верхней части магазина выталкиваются 2|α| символов, а затем помещает в стек A и символ следующего состояния, в которое будет переведен анализатор. 
* допуск – успешно завершить разбор.
* ошибка – цепочка не является предложением.

**Алгоритм разбора**  
* По текущему символу входной строки и состоянию в вершине стека определяем текущее действие и производим его.  
* По верхнему символу стека (терминал или нетерминал) и символу под ним (состояние) определяем состояние, в которое надо перейти. Помещаем это состояние в стек.
 
Идея алгоритма заключается в том, чтобы отправлять в стек символы текущей строки до тех пор, пока мы не сможем сказать, что верхние несколько символов не могут быть свернуты по некоторому правилу. Тогда мы изввлекаем из стека эти символ и заменяем на нетерминал правила. Заметьте, что извлекаться и заменяться могут и терминалы, и нетерминалы. Свертки проводятся до тех пор, пока в стеке не останется только начальный символ, а входная строка не закончится.

За счет применения операции свертки, LR(k)-грамматики не боятся ни левой, ни правой рекурсии. Нормальной является грамматика  правилами следующего вида.

S ::= T + T | T


### Хранение конечного автомата

Конечный автомат можно представить в виде графа или матрицы, а можно просто записать в коде. Начнем с последнего варианта. Запишем функцию для разбора идентификаторов.

In [1]:
# Разбор идентификатора в коде.
def isIdentifier(line):
    state = 'A' # Начальное состояние - А.
    correct = True
    for s in line:
        if state == 'A': 
            if s == '_':
                state = 'A'
            elif s >= 'a' and s <= 'z':
                state = 'B'
            else:
                correct = False
                break
        if state == 'B': 
            if s == '_' or (s >= 'a' and s <= 'z') or (s >= '0' and s <= '9'):
                state = 'B'
            else:
                correct = False
                break
    return correct and state == 'B'

In [2]:
print(isIdentifier('_asd'))
print(isIdentifier('asd12'))
print(isIdentifier('asd'))
print(isIdentifier('_'))
print(isIdentifier('123'))
print(isIdentifier('123d'))

True
True
True
False
False
False


Теперь создадим матрицу, описывающую переходы между состояниями. Первая колонка матрицы будет обозначать переход по символу '\_', вторая колонка - по букве, третья - по цифре. Состояния обозначим их номерами. Состояние -1 будет означать ошибку. Последняя колонка - является ли состояние конечным.

In [8]:
transitions = [[0, 1, -1, -1],
               [1, 1, 1, -1]]

def char2code(s):
    if s == '_':
        return 0
    elif s >= 'a' and s <= 'z':
        return 1
    elif s >= '0' and s <= '9':
        return 2  
    else:
        return -1

def isIdentifier2(line):
    state = 0
    correct = True
    for s in line:
        state = transitions[state][char2code(s)]
        if state == -1:
            correct = False
            break
    return correct and state == 1
        

In [9]:
print(isIdentifier2('_asd'))
print(isIdentifier2('asd12'))
print(isIdentifier2('asd'))
print(isIdentifier2('_'))
print(isIdentifier2('123'))
print(isIdentifier2('123d'))

True
True
True
False
False
False


Напишем теперь конечный автомат для решения следующей задачи. Необходимо разобрать строку, содержащую арифметическое выражение без скобок. Необходимо для каждого идентификатора выдать строку "id", а для каждого арифметического оператора - "sign". Но так как до прихода знака мы не можем сказать, что идентификатор закончился, то будем на знаки (кроме унарного минуса) выдавать "id, sign".

Создадим еще одну матрицу, аналогичную матрице переходов, но содержащую выдачу для каждого перехода. Добавим информацию о том, является ли состояние конечным.

Расширим наш алфавит знаками арифметических операций. Учтем, что унарный минус также может встретиться в выражении. Наконец, добавим целые числа.

In [6]:
transitions3 = [[1, 2, -1, -1, 3], [1, 2, -1, -1, -1], [2, 2, 2, 1, 1], [1, 2, -1, -1, -1]]
final = [0, 0, 1, 0]
output = [['','','','','sign'], ['','','','',''],['','','','id, sign', 'id, sign'],['','','','','']]

def char2code3(s):
    if s == '_':
        return 0
    elif s >= 'a' and s <= 'z':
        return 1
    elif s >= '0' and s <= '9':
        return 2
    elif s in ['*', '/']:
        return 3
    elif s in ['-', '+']:
        return 4

def isIdentifier3(line):
    state = 0
    correct = True
    for s in line:
        out = output[state][char2code3(s)]
        state = transitions3[state][char2code3(s)]
        if out != '':
            print("-> ", out)
        if state == -1:
            correct = False
            break
    if correct and final[state] == 1:
        print("-> id")
    return correct and final[state] == 1
        

In [7]:
print(isIdentifier3('_asd'))
print(isIdentifier3('asd12'))
print(isIdentifier3('asd'))
print(isIdentifier3('asd+asd'))
print(isIdentifier3('-_asd*dsw_sd'))
print(isIdentifier3('_'))
print(isIdentifier3('123'))
print(isIdentifier3('123d'))

-> id
True
-> id
True
-> id
True
->  id, sign
-> id
True
->  sign
->  id, sign
-> id
True
False
False
False



### Детерминированные и недетерминированные конечные автоматы

Автомат называется детерминированным (ДКА), если на каждом шаге терминал из входной цепочки однозначно определяет следующее текущее состояние. Его противоположность – недетерминированный конечный автомат (НКА), в котором из одной вершины может выходить несколько дуг, помеченных одним символом, либо присутствуют е-дуги.

Минусом НКА является то, что мы не знаем куда перейти из текщей вершины, еслси текущим символом помечены более, чем одна дуга. Если мы выберем оба маршрута, то дальше нам снова придется встать перед выбором в другом состоянии. Из-за этого сложность разбора будет расти экспоненциально.

Если конечный автомат содержит в себе переходы по ε, к нему может быть применен

#### Алгоритм избавления от е-дуг

Е-дугой называется дуга, помеченная пустым символом ε. Символ ε позволяет упросить конечный автомат, однако приводит к тому, что мы не знаем, следует ли перейти по дуге, помеченной очередным символом, или следует выбрать е-дугу.

Для того, чтобы избавиться от е-дуги воспользуемся свойством эквивалентности правой и левой части правила и возможностью заменить одно на другое. В примере ниже вхождение B в правую часть продукции может быть заменено на свою правую часть. Однако α ε = α. Если теперь переобозначить B$\rightarrow$γ, то получится, что мы избавились от ε.

<table>
    <tr><td bgcolor="#FFFFFF">A$\rightarrow$αB|β </td><td bgcolor="#FFFFFF"> $\Leftrightarrow$ </td><td bgcolor="#FFFFFF"> A$\rightarrow$αB| α |β </td><td bgcolor="#FFFFFF"> $\Leftrightarrow$ </td><td bgcolor="#FFFFFF">A$\rightarrow$αγ| α |β </td></tr>
    <tr><td style="text-align:left">B$\rightarrow$γ|ε </td><td></td><td style="text-align:left"> B$\rightarrow$γ </td><td></td></tr>
</table>

### Генерация НКА по регулярному выражению

Создадим начальную и конечную вершины графа конечного автомата. Теперь наша задача соединить эти вершины по регулярному выражению. Создадим дугу, помеченную этим регулярным выражениям. Теперь для всех дуг графа, содержащих цепочки, более сложные, чем единственный терминал, применим следующие правила.

* Для дуги, соединяющей вершины S и Z, помеченной цепочкой αβ создадим промежуточную вершину T и разделим цепочку следующим образом. $S\xrightarrow{αβ}Z \Rightarrow S\xrightarrow{α}T\xrightarrow{β}Z$
* Для дуги, соединяющей вершины S и Z, помеченной цепочкой α|β создадим две параллельные дуги. $S\xrightarrow{α|β}Z \Rightarrow S \xrightarrow{α}Z, S\xrightarrow{β}Z$
* Для дуги, соединяющей вершины S и Z, помеченной цепочкой $α^*$ создадим промежуточную вершину Т и три дуги. $S\xrightarrow{α^*}Z \Rightarrow S \xrightarrow{ε}T, T\xrightarrow{ε}Z, T\xrightarrow{α}T$
* Для дуги, соединяющей вершины S и Z, помеченной цепочкой $α^+$ создадим промежуточную вершину Т и три дуги. $S\xrightarrow{α^+}Z \Rightarrow S \xrightarrow{α}T, T\xrightarrow{ε}Z, T\xrightarrow{α}T$

#### Пример генерации НКА по регулярному выражению
1) <img src="img/FA1.png">
2) <img src="img/FA2.png">
3) <img src="img/FA3.png">
4) <img src="img/FA4.png">
5) <img src="img/FA5.png">
6) <img src="img/FA6.png">

### Методы оптимизации КА

#### Избавление от е-дуг

Е-дуга показывает, что мы можем перейти из одного состояния в другое без перемещения по входной строке. Того же эффекта можно добиться копированием всех дуг, исходящих из дуги, в которую входит е-дуга, так, чтобы они начинали в состоянии, из которого исходит е-дуга, и заканчивались в том же состоянии, в котором они заканчивались до копирования. Если е-дуга входит в конечное состояние, то состояние, из которого она исходит, тоже становится конечным.
<img src="img/FA7.png">
После замены е-дугу можно удалить.
<img src="img/FA8.png">

#### Избавление от недостижимых состояний

Недостижимыми называются состояния, в которые нельзя попасть по какому-либо пути из начального. Для того, чтобы избавиться от недостижимых символов, используют следующий алгоритм.
1. Внесем в некоторое множество начальный символ.
2. Добавим в множество все состояния, достижимые из состояний, входящих в это множество.
3. Будем повторять шаг 2 до тех пор, пока на нем будут добавляться вершины.

<img src="img/FA9.png">

#### Устранение эквивалентных состояний
 
В КА некоторые состояния могут оказаться эквивалентными, то есть при получении одних и тех же терминалов в них производятся переходы в одни и те же или эквивалентные состояния, при этом оба состояния должны быть оба конечными или не конечными.

1. Множество всех состояния разбивается на множество конечных и не конечных символов.
2. Если по одним и тем же терминалам два различных состояния подмножества переходят в одно и то же подмножество, то они остаются в этом подмножестве. В противном случае они выделяются в различные подмножества.
3. Шаг 2 производится до тех пор, пока разбиение на подмножества возможно.



### Преобразование НКА в ДКА

1. Удаляем е-дуги НКА если они есть.
2. Создаем начальное состояние ДКА, представляющее собой объединение всех начальных состояний НКА.
3. Для всех ячеек ДКА проверяем, имеется ли в ДКА состояние, в которое должен осуществляться переход. При отсутствии такого состояния создаем его путем объединения вершин НКА, имена которых записаны в данной ячейке.
4. Удаляем полученные эквивалентные состояния.

<img src="img/FA10.png">