# Регулярные выражения

## Предисловие

### Концепция числа

Число — это абстракция. Она может конкретизироваться как:

- **количество объектов** (5 яблок),
- **количество событий** (5 вспышек),
- **пропорция между количествами** (3/5 яблока на человека),
- **протяжённость в пространстве** (5 километров),
- **протяжённость во времени** (5 минут)

и ещё огромным количеством других способов.

Но не надо принимать конкретные примеры за общую идею. Число — это не количество объектов и не протяжённость в пространстве.

### Концепция 'формального языка'

Точно так же "формальные языки", которыми занимается математическая теория формальных грамматик — это абстрация.

Мы можем объяснять эту абстракцию _на примере_ алфавита с буквами. Или мы можем объяснять её _на примере_ словаря со словами. Но не надо принимать конкретные примеры за общую идею.

Общая идея выглядит примерно так:
* **Алфавит** = множество возможных событий.
* **Строка** = последовательность событий.
* **Язык** = множество допустимых строк, т.е. множество возможных последовательностей событий.
* **Порождающая грамматика** = способ задать все строки в языке, т.е. описание возможностей.
* **Распознающий автомат** = алгоритм или механизм для опознания строк алфавита.

## Василий учится танцевать

### Стадия первая

Василий изучает танец Хастл. В этом танце мужчина ведёт (т.е. принимает решения), а женщина следует за ним. Танец состоит из фигур. Можно выполнять любые фигуры в любой последовательности.

Василий успел изучить только четыре фигуры. Назовём их `a`, `b`, `c`, `d`.

In [1]:
# Множество изученных фигур
Alphabet = {'a', 'b', 'c', 'd'}

# Состояния Василия
InitialState = 'Start'
States = {'Start', 'Continue'}

# В каждом состоянии можно выполнить действие
# и перейти в следующее состояние.
Rules = {
    # Если Василий находится в состоянии 'Start',
    # то он выполняет одну из фигур и переходит
    # в состояние 'Continue'.
    'Start': [
        ['a', 'Continue'],
        ['b', 'Continue'],
        ['c', 'Continue'],
        ['d', 'Continue'],
    ],
    # Если Василий находится в состоянии 'Continue',
    # то он выполняет одну из фигур и заканчивает
    # либо продолжает танец.
    'Continue': [
        ['a'],
        ['b'],
        ['c'],
        ['d'],
        ['a', 'Continue'],
        ['b', 'Continue'],
        ['c', 'Continue'],
        ['d', 'Continue'],
    ]
}

In [2]:
import random

def generate():
    result = ['Start']
    while True:
        # распечатаем промежуточный результат
        print(f"-> {result}")
        # если в конце цепочки есть состояние,
        # выполняем одно из возможных действий
        end = result[-1]
        if end not in States:
            break
        alternatives = Rules[end]
        todo = random.choice(alternatives)
        result[-1:] = todo

In [3]:
generate()

-> ['Start']
-> ['a', 'Continue']
-> ['a', 'd', 'Continue']
-> ['a', 'd', 'b']


In [4]:
generate()

-> ['Start']
-> ['d', 'Continue']
-> ['d', 'd', 'Continue']
-> ['d', 'd', 'b']


Танцы Василия описываются регулярным выражением:
```
[abcd]+
```

### Стадия вторая

Тренер говорит Василию, что застревать в одной и той же фигуре — это не круто.

Василий принимает решение не никогда не выполнять одинаковые фигуры подряд.

In [5]:
# Множество изученных фигур
Alphabet = {'a', 'b', 'c', 'd'}

# Состояния Василия
InitialState = 'Start'
States = {'Start', 'AfterA', 'AfterB', 'AfterC', 'AfterD'}

# В каждом состоянии можно выполнить действие
# и перейти в следующее состояние.
Rules = {
    # Если Василий находится в состоянии 'Start',
    # то он выполняет одну из фигур и переходит
    # в состояние после неё.
    'Start': [
        ['a', 'AfterA'],
        ['b', 'AfterB'],
        ['c', 'AfterC'],
        ['d', 'AfterD'],
    ],
    # Если Василий находится в состоянии 'AfterA',
    # то он выполняет одну из фигур (кроме 'a') и заканчивает
    # либо продолжает танец.
    'AfterA': [
        ['b'],
        ['c'],
        ['d'],
        ['b', 'AfterB'],
        ['c', 'AfterC'],
        ['d', 'AfterD'],
    ],
    # Если Василий находится в состоянии 'AfterB',
    # то он выполняет одну из фигур (кроме 'b') и заканчивает
    # либо продолжает танец.
    'AfterB': [
        ['a'],
        ['c'],
        ['d'],
        ['a', 'AfterA'],
        ['c', 'AfterC'],
        ['d', 'AfterD'],
    ],
    # Если Василий находится в состоянии 'AfterC',
    # то он выполняет одну из фигур (кроме 'c') и заканчивает
    # либо продолжает танец.
    'AfterC': [
        ['a'],
        ['b'],
        ['d'],
        ['a', 'AfterA'],
        ['b', 'AfterB'],
        ['d', 'AfterD'],
    ],
    # Если Василий находится в состоянии 'AfterD',
    # то он выполняет одну из фигур (кроме 'd') и заканчивает
    # либо продолжает танец.
    'AfterD': [
        ['a'],
        ['b'],
        ['c'],
        ['a', 'AfterA'],
        ['b', 'AfterB'],
        ['c', 'AfterC'],
    ],
}

In [6]:
generate()

-> ['Start']
-> ['a', 'AfterA']
-> ['a', 'c', 'AfterC']
-> ['a', 'c', 'b']


In [7]:
generate()

-> ['Start']
-> ['b', 'AfterB']
-> ['b', 'a']


## Марта ищет Василия

Василий участвует в танцевальном конкурсе. Марта хочет найти его среди выступающих. Но Марта знает его только по описанию его манеры танца. Как ей опознать Василия?

### Поиск от противного

Проще всего – идти от противного. Выступающий явно **не** является Василием, если он показывает какую-то фигуру за пределами `a`, `b`, `c`, `d` или дважды повторяет одинаковую фигуру.

Это описывается регулярным выражением:

```
[^abcd]|aa|bb|cc|dd
```

### Прямой поиск

Написать регулярное выражение для танцев Василия сложнее. Марта явно не будет делать это в моменте, но ради академического интереса решим и эту задачу.

Марта может воспользоваться [расширенными возможностями регулярных выражений](https://www.regular-expressions.info/lookaround.html), позволяющими заглянуть вперёд или назад, не меняя текущей позиции курсора.

* `(?=x)` следующая буква _'x'_,
* `(?!x)` следующая буква не _'x'_,
* `(?<=x)` предыдущая буква _'x'_,
* `(?<!x)` предыдущая буква не _'x'_.

Заглядывая назад на один шаг, Марта может описать четыре возможности:

* `(?<!a)a` : (не после а) а,
* `(?<!b)b` : (не после b) b,
* `(?<!c)c` : (не после c) c,
* `(?<!d)d` : (не после d) d

Затем она может объединить эти возможности через _“или”_ (`|`) и добавить квантор _“один или более раз”_ (`+`). Итого всё вместе:

```
((?<!a)a|(?<!b)b|(?<!c)c|(?<!d)d)+
```

In [8]:
import re

regex = "((?<!a)a|(?<!b)b|(?<!c)c|(?<!d)d)+"
example = "abcdab"

# `fullmatch` проверяет, что строка сопоставляется целиком
m = re.fullmatch(regex, example)
print(m)

<re.Match object; span=(0, 6), match='abcdab'>


### Прямой поиск (вариант 2)

Не все регулярные выражения поддерживают просмотр назад (“lookbehind”). Но для наших целей подойдёт и просмотр вперёд.

* `a(?!a)` : a (не перед a),
* `b(?!b)` : b (не перед b),
* `c(?!c)` : c (не перед c),
* `d(?!d)` : d (не перед d).

И вместе:

```
(a(?!a)|b(?!b)|c(?!c)|d(?!d))+
```

In [9]:
regex = "(a(?!a)|b(?!b)|c(?!c)|d(?!d))+"
example = "abcdab"

# `fullmatch` проверяет, что строка сопоставляется целиком
m = re.fullmatch(regex, example)
print(m)

<re.Match object; span=(0, 6), match='abcdab'>


Воспользуемся сайтом [https://regexper.com/](https://regexper.com/#%28a%28%3F!a%29%7Cb%28%3F!b%29%7Cc%28%3F!c%29%7Cd%28%3F!d%29%29%2B), чтобы превратить регулярное выражение в красивую диаграмму:

![title](images/state-diagram.png)