## Регулярные выражения

Регулярное выражение - это шаблон, который соотносится с последовательностью символов в тексте. По существу, РВ - это обобщенная запись для разных вариантов строк, например, можно обобщить, как выглядят все телефонные номера в тексте или все e-mail адреса. РВ придумали в 1950-х гг., когда математик Стефен Коул Клейни формализовал описание регулярного языка. Звездочка Клейни (Клини) называется в его честь. 

Одно из первых применений РВ - это поиск по текстам, содержащимся внутри файлов. До 90-х годов прошлого века операционные системы не имели графического интерфейса, а во многих файлах лежала текстовая информация. В 70-з гг. программисты создали программу grep, которая с помощью РВ ищет все файлы, внутри которых есть совпадающие тексты. grep работает из командной строки в системах unix (linux, MacOS) и до сих пор активно используется при работе с серверами. 

У РВ есть несколько типов синтаксиса (flavors), которые различаются функциональностью. Самые известные такие:

- POSIX (имеет два варианта: базовый и расширенный, BRE & ERE)
- Perl 5 (разработчики языка Perl добавили свои плюшки)
- Perl 6 = Raku Rules
- PCRE (Perl Compatible Regular Expressions)

Некоторые ЯП имеют свои версии синтаксиса РВ, в основном очень похожие на PCRE; питон в их числе. 

Существует множество сайтов, которые предназначения для *тестирования* шаблонов регулярных выражений. Сами РВ обычно используются в программах для того, чтобы что-то найти в обрабатываемом тексте или проверить, удовлетворяет ли строка условиям, но прежде чем запускать готовую большую программу, шаблон всегда лучше потестировать. 

- https://regex101.com/ - самый, на мой взгляд, удобный сайт для тестирования
- https://pythex.org/ - сайт с РВ исключительно для версии питона
- https://www.regexpal.com/ - сайт с РВ для JavaScript, для простых случаев его тоже можно использовать

Для желающих попрактиковаться есть https://regexcrossword.com/ - это сайт с кроссвордами-РВ, где вам нужно подбирать регулярные выражения, чтобы заполнить табличку. 

### Что нужно знать про РВ

**Когда их использовать**

Если вы уверены, что без РВ не обойтись. Прежде чем писать РВ, подумайте, нельзя ли решить задачу стандартными методами строк или множеств? РВ - мощный инструмент, но для некоторых задач это overkill. У РВ есть своя вычислительная сложность: для компиляции регулярного выражения длины n компьютеру приходится тратить $2^n$ времени. А еще в РВ легко запутаться, даже опытному программисту бывает не так-то просто составить правильный шаблон, который не захватывал бы лишнего и не пропускал бы нужного. 

Но вообще РВ очень часто используются для:
- поиска по корпусам (в ГИКРЯ поддерживаются некоторые возможности РВ)
- поиска по текстам внутри файлов (на серверах - но даже ваша привычная Windows кое-что знает про РВ, хотя у нее свои правила)
- токенизации, сегментации по предложениям
- обработки путей файлов
...

(этот список длинный)


### Правила составления шаблонов

Регулярное выражение читается слева направо и ищет посимвольно. То есть, допустим, мы хотим найти слово из трех букв. Мы можем представить его как 

    _ _ _
    
Дальше уже нужно подумать, что поставить на место каждого прочерка. Если мы хотим искать конкретные буквы, то можем прямо их и написать, например, 

    _ _ _
    c a t
    
Найдет нам все вхождения "cat" в тексте (ну или хотя бы одно, в зависимости от функции). 

Но у РВ есть специальные последовательности и метасимволы, позволяющие обобщить некоторые вещи, иначе зачем они были бы нужны?

- Специальные последовательности

Мы такие вещи уже знаем из обычного питона: \\n и \\t. То есть, специальная последовательность - это какая-то буковка (или набор их) после бэкслеша. РВ распознают и стандартные питоновские последовательности, но имеют и некоторые свои. Какие нам пригодятся:

- \\d - любая цифра (те символы, которые в юникоде имеют ярлык "digit")
- \\w - любая цифра или буква (те символы, которые в юникоде считаются цифробуквенными). Примечание: туда еще входит нижнее подчеркивание _
- \\s - любой пробельный символ (пробел, неразрывный пробел, табуляция, перенос на новую строку...)
- \\b - граница слова: это не символ, а условие, которое говорит, что на этом месте должно быть \\W\\w или наоборот

Любую из этих последовательностей можно использовать наоборот, если писать заглавную букву. То есть, \\D означает все символы, кроме цифр.

- Метасимволы

Это такие символы, которые означают не сами себя, а что-то еще. Что именно, сейчас разберем. 

- . - обозначает любой символ вообще (кроме \\n)
- | - обозначает оператор "или" (логическое объединение)
- +, \*, ?, {} - квантификаторы
- ^ - начало строки; \$ - конец строки. И то, и другое функционирует как \\b.
- () - обозначают группу
- [] - обозначают класс

Если вам нужно искать сами эти символы, то их нужно экранировать с помощью бэкслеша: \\. позволит искать точку, например. Сам бэкслеш тоже, кстати, нужно экранировать: \\\\

**Квантификаторы**

Мы можем искать телефонные номера с помощью \\d, например. Предположим, наши номера состоят из шести любых цифр, разделенных дефисами:

    _ _ - _ _ - _ _ 
    
Мы можем записать такие номера РВ как:

    \d \d - \d \d - \d \d
    
Но если мы хотим одиннадцатизначные номера, в которых цифры просто идут подряд? Или все номера, где от 6 до 11 цифр?

Такие вещи позволяют искать квантификаторы: они сообщают поисковому движку, что искать нужно не один символ, а сколько-то таких символов подряд. Тогда:

    _ _ _ _ _ _ _ _ _ _ _ - наш одиннадцатизначный номер превратится в
    \d{11}
    
Итак, квантификаторы применяются к одному символу, стоящему слева от них. Какие они бывают:

- {n} велит искать ровно n таких символов
- {n,m} велит искать не меньше n и не больше m символов
- {n,} велит искать не меньше n, но чем больше, тем лучше
- {,m} - велит искать от 0 до m
- ? - либо один такой символ, либо ни одного сойдет
- \* - либо 0 таких символов, либо чем больше, чем лучше
- \+ - от 1 до бесконечности символов!

Таким образом:

\\d{3} - найдет 3 цифры

\\d{2,3} - найдет либо 2, либо 3 цифры, но охотнее 3

\\d{2,} - найдет минимум 2 цифры, но лучше побольше

\\d{,3} - найдет от 0 до 3 цифр

\\d? - либо найдет пустоту, либо 1 цифру

\\d\* - либо найдет пустоту, либо как можно больше цифр

\\d+ - найдет 1 и больше цифр

Такие квантификаторы называются жадными: они ищут как можно больше повторяющихся символов. Можно сделать квантификатор ленивым, чтобы он искал поменьше, если поставить сразу после него ?, например, \\d+?, если сможет, будет стараться обходиться только одной цифрой. 

**Классы символов**

Квадратные скобки обозначают классы символов. Класс символов - это некоторый набор символов, которые нас устраивают в этом месте. Мы уже знаем некоторые классы: \\d, \\w, \\s. Но можно задавать и свои, произвольные. Например, мы хотим найти в тексте все слова these, но those нас в принципе тоже устраивают. Тогда:

    _ _ _ _ _
    t h [eo] s e
    
То есть, внутри квадратных скобок можно просто перечислить все символы, которые нам нравятся. Сами квадратные скобки будут занимать **только одну позицию**: они обозначают один символ, любой из перечисленных внутри них. 

Внутри квадратных скобок в основном метасимволы теряют свою силу, и . делается обычной точкой, например. Но некоторые ее, наоборот, приобретают или изменяют. 

Дефис, если не стоит с краю, обозначает диапазон: [0-9] - это все цифры от 0 до 9. Как берется диапазон? По таблице юникода. Мы уже знаем, что в основном буквы там идут по алфавиту, но буква ё, например, убежала не туда. Значит, чтобы захватить весь русский алфавит с ё, нужно писать: [а-яё]. А если нас еще и заглавные буквы интересуют, то придется написать [А-ЯЁа-яё].

^ из начала строки превращается в отрицание, но только в начале класса. Если нас интересует **все**, кроме того, что мы перечислили, можно записать: [^а-яё]. Такая запись будет означать "все, кроме кириллических строчных букв". 

Не теряет свою силу только \\, потому что внутри класса мы можем написать \\d или \\t, например. 

**Группы**

Группы нужны в основном для каких-то технических целей. Самая, пожалуй, частая - это для того, чтобы ограничить действие оператора "или". 

По умолчанию "или" работает на все РВ целиком: он считает, что нас устраивает или все, что стоит слева, или все, что стоит справа. То есть, 

    a|bc будет искать либо a, либо bc.
    
Но если мы хотим искать либо ac, либо bc? Ну, можно написать явно: ac|bc, но часто повторяющаяся часть оказывается слишком длинной. Тут на помощь нам приходят скобки, которые выделят символы в группу и ограничат |:

    (a|b)c = ac|bc
    
Группы также можно использовать для того, чтобы ссылаться на них. Группы в РВ нумеруются (по левой скобке), и к любой можно обратиться по ее номеру:

    (\w+) so \1 = найдет все выражения вида X so X
    
Иногда, правда, группа нам нужна не для того, чтобы на нее ссылаться, и тогда используются группы без захвата содержимого:

    (?:...) = на эту группу нельзя сослаться, ее не видно как группу
    
Позже мы увидим, когда такое бывает нужно. 

**Проверки**

Проверки - это уже достаточно хитрое средство РВ (в POSIX их нет, их придумали создатели Perl). Проверка - это когда мы хотим проверить какое-то условие, чтобы слева или справа от нашего искомого текста были определенные вещи, при этом включать их в результат поиска не хотим. Проверки бывают 4 видов:

- опережающая позитивная (positive lookahead) = (?=...) = смотрим справа от того, что ищем
- опережающая негативная (negative lookahead) = (?!...) 
- ретроспективная позитивная (positive lookbehind) = (?<=...) = смотрим слева от того, что ищем
- ретроспективная негативная (negative lookbehind) = (?<!...)

Как это понимать? Например, мы хотим найти в тексте имя "Вася", но только такое, чтобы после него шла фамилия "Пупкин". Тогда нам нужна опережающая позитивная проверка:

    Вася (?=Пупкин)
    
А если нас интересуют все Васи, кроме Пупкина, это будет:

    Вася (?!Пупкин)
    
Если же мы китайцы и пишем сперва фамилию, а потом имя, и при этом нас тоже интересует Вася, то:

    (?<=Пупкин) Вася - найдет всех Пупкиных Василиев
    (?<!Пупкин) Вася - найдет всех Василиев, кроме Пупкиных
    
Внутри проверки может быть тоже какой-то регулярный шаблон, и проверки даже бывают вложенные, но лучше с ними не перебарщивать, а то легко запутаться. :)