In [1]:
import nltk

In [2]:
sents = ['Вася читает мою книгу', 'Напиши какое-нибудь письмо', 'Этот веселый мальчик идет',
         'Он любит читать всякие книги']

In [3]:
rules = """
     S -> NP VP | NP V | VP
     NP -> ADJ NP | ADJ N | NN
     VP -> V NP | V VP 
     N -> 'книгу' | 'письмо' | 'мальчик' | 'книги'
     NN -> 'Вася' | 'Он'
     V -> 'читает' | 'Напиши' | 'идет' | 'любит' | 'читать'
     ADJ -> 'мою' | 'какое-нибудь' | 'Этот' | 'веселый' | 'всякие'
""".split('\n')

In [4]:
grammar = nltk.CFG.fromstring('\n'.join(rules))

In [5]:
def print_parses(parser, sentence):
    for tree in parser.parse(sentence.split()):
        print(tree)
        print()

## 1. Алгоритм Кока-Янгера-Касами (CYK)

### Последовательно продемонстрируем действие CYK: 
* Разделим предложение на слова и поместим на нулевую строку: 

<table style="width: 250px;" >
    <tbody>
        <tr>
            <td></td>
            <td><b>1</b></td>
            <td><b>2</b></td>
            <td><b>3</b></td>
            <td><b>4</b></td>
        </tr>
        <tr>
            <td><b>4</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>3</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>2</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>1</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>0</b></td>
            <td>Вася</td>
            <td>читает</td>
            <td>мою</td>
            <td>книгу</td>
        </tr>
    </tbody>
</table>

* В первую строку внесем нетерминальные символы, соотвествующие заданным терминальным:

<table align="center" style="width: 250px; text-align: 'center';" > 
    <tbody>
        <tr>
            <td></td>
            <td><b>1</b></td>
            <td><b>2</b></td>
            <td><b>3</b></td>
            <td><b>4</b></td>
        </tr>
        <tr>
            <td><b>4</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>3</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>2</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>1</b></td>
            <td style="text-align: center;">N</td>
            <td style="text-align: center;">V</td>
            <td style="text-align: center;">ADJ</td>
            <td style="text-align: center;">N</td>
        </tr>
        <tr>
            <td><b>0</b></td>
            <td>Вася</td>
            <td>читает</td>
            <td>мою</td>
            <td>книгу</td>
        </tr>
    </tbody>
</table>

* Найдем все возможные разбиения на 2 составляющих c шагом 1 (NP -> ADJ N): 

<table align="center" style="width: 250px; text-align: 'center';" > 
    <tbody>
        <tr>
            <td></td>
            <td><b>1</b></td>
            <td><b>2</b></td>
            <td><b>3</b></td>
            <td><b>4</b></td>
        </tr>
        <tr>
            <td><b>4</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>3</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>2</b></td>
            <td></td>
            <td></td>
            <td style="text-align: center;">NP</td>
            <td></td>
        </tr>
        <tr>
            <td><b>1</b></td>
            <td style="text-align: center;">N</td>
            <td style="text-align: center;">V</td>
            <td style="text-align: center;">ADJ</td>
            <td style="text-align: center;">N</td>
        </tr>
        <tr>
            <td><b>0</b></td>
            <td>Вася</td>
            <td>читает</td>
            <td>мою</td>
            <td>книгу</td>
        </tr>
    </tbody>
</table>

* Найдем все возможные разбиения на 2 составляющих с шагом 3(VP -> V NP):

<table align="center" style="width: 250px; text-align: 'center';" > 
    <tbody>
        <tr>
            <td></td>
            <td><b>1</b></td>
            <td><b>2</b></td>
            <td><b>3</b></td>
            <td><b>4</b></td>
        </tr>
        <tr>
            <td><b>4</b></td>
            <td></td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>3</b></td>
            <td></td>
            <td  style="text-align: center;">VP</td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>2</b></td>
            <td></td>
            <td></td>
            <td style="text-align: center;">NP</td>
            <td></td>
        </tr>
        <tr>
            <td><b>1</b></td>
            <td style="text-align: center;">N</td>
            <td style="text-align: center;">V</td>
            <td style="text-align: center;">ADJ</td>
            <td style="text-align: center;">N</td>
        </tr>
        <tr>
            <td><b>0</b></td>
            <td>Вася</td>
            <td>читает</td>
            <td>мою</td>
            <td>книгу</td>
        </tr>
    </tbody>
</table>

* **S -> NP VP => предложение выводится заданной нами грамматикой в нормальной форме Хомского:**

<table align="center" style="width: 250px; text-align: 'center';" >
    <tbody>
        <tr>
            <td></td>
            <td><b>1</b></td>
            <td><b>2</b></td>
            <td><b>3</b></td>
            <td><b>4</b></td>
        </tr>
        <tr>
            <td><b>4</b></td>
            <td style="text-align: center;">S</td>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>3</b></td>
            <td></td>
            <td style="text-align: center;">VP</td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td><b>2</b></td>
            <td></td>
            <td></td>
            <td style="text-align: center;">NP</td>
            <td></td>
        </tr>
        <tr>
            <td><b>1</b></td>
            <td style="text-align: center;">N</td>
            <td style="text-align: center;">V</td>
            <td style="text-align: center;">ADJ</td>
            <td style="text-align: center;">N</td>
        </tr>
        <tr>
            <td><b>0</b></td>
            <td>Вася</td>
            <td>читает</td>
            <td>мою</td>
            <td>книгу</td>
        </tr>
    </tbody>
</table>

## Алгоритм Эрли

### Последовательно продемонстрируем действие алгоритма Эрли: 

* S = Вася читает мою книгу

0: * Вася читает мою книгу:

<table align="center" style="width: 200px; text-align: 'center';">
    <tbody>
        <tr>
            <td style="text-align: left;"><b>state</b></td>
            <td style="text-align: left;"><b>situation</b></td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">S -&gt; * NP VP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]<br></td>
            <td style="text-align: left;">S -&gt; * NP V</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]<br></td>
            <td style="text-align: left;">S -&gt; *VP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">VP-&gt; * V NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">VP-&gt; * V VP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">VP-&gt; * V</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">NP-&gt; * ADJ NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">NP-&gt; * ADJ N<br></td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]<br></td>
            <td style="text-align: left;">NP-&gt; *N</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:0]</td>
            <td style="text-align: left;">NP-&gt; *NN</td>
        </tr>
    </tbody>
</table>

1: Вася * читает мою книгу:

<table>
    <tbody>
        <tr>
            <td style="text-align: left;"><b>state</b></td>
            <td style="text-align: left;"><b>situation</b></td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:1]</td>
            <td style="text-align: left;">NP -&gt; 'Вася' *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:1]</td>
            <td style="text-align: left;">S -&gt; NP * VP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:1]</td>
            <td style="text-align: left;">S -&gt; NP * V</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:1]</td>
            <td style="text-align: left;">VP-&gt; *V NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:1]<br></td>
            <td style="text-align: left;">VP-&gt; *V VP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:1]<br></td>
            <td style="text-align: left;">VP-&gt; *V</td>
        </tr>
    </tbody>
</table>

2: Вася читает * мою книгу:

<table>
    <tbody>
        <tr>
            <td style="text-align: left;"><b>state</b></td>
            <td style="text-align: left;"><b>situation</b></td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:2]</td>
            <td style="text-align: left;">V -&gt; 'читает' *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:2]</td>
            <td style="text-align: left;">S -&gt; NP VP *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:2]<br></td>
            <td style="text-align: left;">VP -&gt; V * NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:2]<br></td>
            <td style="text-align: left;">VP -&gt; V * VP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:2]</td>
            <td style="text-align: left;">VP -&gt; V * N</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]</td>
            <td style="text-align: left;">NP-&gt; * ADJ NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]</td>
            <td style="text-align: left;">NP-&gt; * ADJ N</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]</td>
            <td style="text-align: left;">NP -&gt; 'Вася'</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]</td>
            <td style="text-align: left;">NP -&gt; 'Он'</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]<br></td>
            <td style="text-align: left;">VP -&gt; * V NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]</td>
            <td style="text-align: left;">VP -&gt; * V VP </td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:2]</td>
            <td style="text-align: left;">VP -&gt; * V N<br></td>
        </tr>
    </tbody>
</table>

3: Вася читает мою * книгу:

<table>
    <tbody>
        <tr>
            <td style="text-align: left;"><b>state</b></td>
            <td style="text-align: left;"><b>situation</b></td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:3]</td>
            <td style="text-align: left;">ADJ -&gt; 'мою'</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:3]</td>
            <td style="text-align: left;">NP -&gt; ADJ * NP</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:3]</td>
            <td style="text-align: left;">NP -&gt; ADJ * N<br></td>
        </tr>
        <tr>
            <td style="text-align: left;">[3:3]</td>
            <td style="text-align: left;">NP -&gt; * ADJ NP<br></td>
        </tr>
        <tr>
            <td style="text-align: left;">[3:3]<br></td>
            <td style="text-align: left;">NP -&gt; * ADJ N<br></td>
        </tr>
        <tr>
            <td style="text-align: left;">[3:3]</td>
            <td style="text-align: left;">NP -&gt; * NN<br></td>
        </tr>
        <tr>
            <td style="text-align: left;">[3:3]<br></td>
            <td style="text-align: left;">NP -&gt; * N</td>
        </tr>
    </tbody>
</table>

4: Вася читает мою книгу *:

<table>
    <tbody>
        <tr>
            <td style="text-align: left;"><b>state</b></td>
            <td style="text-align: left;"><b>situation</b></td>
        </tr>
        <tr>
            <td style="text-align: left;">[3:4]</td>
            <td style="text-align: left;">N -&gt; 'книгу' *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:4]</td>
            <td style="text-align: left;">NP -&gt; ADJ NP *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[2:4]<br></td>
            <td style="text-align: left;">NP -&gt; ADJ N *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[1:4]</td>
            <td style="text-align: left;">VP -&gt; V NP *</td>
        </tr>
        <tr>
            <td style="text-align: left;">[0:4]</td>
            <td style="text-align: left;">S -&gt; NP VP *</td>
        </tr>
    </tbody>
</table>

**! S -> NP VP => предложение выводится заданной нами грамматикой в нормальной форме Хомского:**

## 2. Проверим результаты работы нашей грамматики с помощью NLTK: 

In [6]:
cp = nltk.EarleyChartParser(grammar)
for i, sent in enumerate(sents):
    print(sent)
    print_parses(cp, sent) # работает

Вася читает мою книгу
(S (NP (NN Вася)) (VP (V читает) (NP (ADJ мою) (N книгу))))

Напиши какое-нибудь письмо
(S (VP (V Напиши) (NP (ADJ какое-нибудь) (N письмо))))

Этот веселый мальчик идет
(S (NP (ADJ Этот) (NP (ADJ веселый) (N мальчик))) (V идет))

Он любит читать всякие книги
(S
  (NP (NN Он))
  (VP (V любит) (VP (V читать) (NP (ADJ всякие) (N книги)))))



## 3. Как можно улучшить работу парсера? 

*Работу парсера с новыми словами можно улучшить с помощью морфологического анализатора:* 

* Морфологический анализатор поможет определить части речи, что позволит нам добавлять правила для новых слов.

* Также вместо того, чтобы записывать в грамматику правила для всех употребленных в предложении словоформ, мы сможем внести одно правило для приведения слова в начальную форму. 

## 4. Неоднозначность 

*Неодназначность может возникнуть в тех случаях, когда в предложении присутствует омонимия. Например, слово "пила" может являться как глаголом в форме прошедшего времени женского рода (она пила), так и существительным (острая пила). Например, предложение "Девочка пила холодную воду" будет иметь неоднозначные разборы.*