# Регулярные выражения

## Введение

При регистрации учетной записи в новом приложении социальной сети или при оформлении заказа на подарок онлайн, почта каждая часть информации, которую вы вводите в веб-форму, проверяется. Ввели ли вы правильно отформатированный адрес электронной почты, включая *`@`* символ? Ввели ли вы номер телефона, состоящий из *`10`* цифр, с *`-`* буквами *`s`* и скобками или без них? И, наконец, самый главный вопрос - соответствует ли ваш новый пароль, казалось быЮ растущему числу требований по включению (и исключению) символов, цифр, а также заглавный и строчных букв?

Хотя исправление каждого поля в нашей цифровой жизни для приведения его в надлежащий формат может быть утомительным, это необходимо для обеспечения безопасности наших учетных записей, успешной доставки наших посылок и возможности связаться с нами по телефону и электронной почте.

Технология, которая питает эту систему проверки почти на каждом веб-сайте и в каждом приложении, - это всегда надежный, часто причудливый язык ***`регулярных выражений`***, обычно сокращенны до *`regex`*, как мы будем использовать здесь, или regexp. *`Регулярное выражение`* - это специальная последовательность символов, описывающая шаблон текста, который должен быть найден или сопоставлен в нить или документ. Спосотавляя текст, мы можем определить, как часто имеем возможность заменить или обновить эти фрагменты текста при необходимости.

Регулярные выражения имеют множество вариантов использования, включая:
- проверка ввода данных пользователем в HTML-формах
- проверка и анализ текста в файлах, коде и приложениях
- проверка результатов теста
- поиск ключевых слов в электронных письмах и веб-страницах

Хотя существует множество реализаций регулярных выражений на разных платформах.

## Литералы

Самый простой текст, с которым мы можем сопоставить регулярные выржаения являются *`литералами`*. Это то, где наше регулярное выражение содержит точный текст, который мы хотим сопоставить. Например *`a`*, регулярное выражение будет соответствовать тексту, а регулярное выражение *`bananas`* будет соответствовать тексту *`bananas`*.

Мы можем дополнительно сопоставить только часть фрагмента текста. Возможно, мы ищем документ, чтобы увидеть, *`monkey`* встречается ли слово, так как мы любим обезьян. Мы могли бы использовать регулярное выражение *`monkey`* для сопоставления *`monkey`* фрагмента текста *`The monkeys like to eat bananas.`*.

Мы можем сопоставлять не только алфавитные символы - цифры тоже работают! Регулярное выражение *`3`* будет соответствовать *`3`* фрагменту текста *`34`*, и регулярное выражение *`5 gibbons`* будет полностью соответствовать тексту *`5 gibbons`*!

Регулярные выражения работают, перемещая символы за символом слева направо по фрагменту текста. Когда регулярное выражение находит символ, который соответствует первой части выражения, оно пытается найти непрерывную последовательность соответствующих символов.

## Чередование

Любите ли вы бабуинов и горилл? Вы можете найти любого из них с тем же регулярным выражением, используя *`чередование!`* Чередование выполненное в регулярном выражении с символов вертикальной черты `|` (pipeline), позволяет нам сопоставить либо символы, предшествующие этому знаку либо символы после этого знака. Регулярное выражение *`baboons|gprillas`* будет соответствовать *`baboons`* в тексте *`I love baboons`*, но также будет соответствовать *`gorillas`* в тексте *`I love gorillas`*.

## Наборы символов

Тесты по правописанию могут показаться далеким воспоминанием из начальный школы, но в конечном итоге мы проходим их каждый день, печатая. Легко сделать ошибки в часто встречающихся словах с ошибками, таких как *`consensus`*, и в добавок ко всему еще есть альтернативы написания никоторых слов.

*`Наборы символов`*, обозначенные парой скобок *`[]`*, позволяют нам сопоставлять один символ из набора символов, допуская совпадения с неправильным или различным написанием.

Регулярное выражение *`con[sc]en[sc]us`* будет соответствовать *`consensus`* правильному написанию слова но также соответствовать трем неправильным написаниям: *`concensus, consencus, и concencus`*. Буквы внутри первых скобок, являются различными вариантами символа который ижет после *`con`* и перед *`en`*. Аналогично для вторых скобок, буквы являются различными вариантами символа, который идет после *`en`* и перед *`us`*.

Таким образом, регулярное выражение *`[cat]`* будет соответствовать символам *`c, a или t`*, но не тексту *`cat`*.

Прелесть наборов символов (и их чередования) в том, что они позволяют нам сделать регулярные выражения более гибкими и менее жесткими, чем просто сопоставления с литералами.

Мы можем сделать наши наборы символов еще более мощными с помощью *`^`* символа вставки. Помещенный в начало набора символов, *`^`* отрицает набор, сопоставляя любой символ, который не указан. Они называются *`отрицательными наборами символов`*. Таким образом, регулярное выражение *`[^cat]`* будет соответствовать любому символу, которые не является *`c, a или t`*, и будет полностью соответствовать каждому символу *`d, o или g`*.

## Wild для Wildcards

Иногда нам не важно, КАКИЕ именно символы есть в тексте, важно только, чтобы там были НЕКОТОРЫЕ символы. Введите подстановочный знак *`.`*! *`Подстановчные знаки`* будут соответствовать любому одиночному символу (букве, цифре, символу или пробелу) в тексте. Они полезны, когда нас не волнует конкретное значение символа, а важно только то, что символ существует!

Допустим, мы хотим сопоставить любой фрагмент теста из 9 символов. Регулярное выражение *`.........`* полностью сопоставит *`orangutan и marsupial`*! Аналогично, регулярное выражение *`I ate . bananas`* полностью сопоставит *`I ate 3 bananas`* и *`I ate 8 bananas`*!

Что произойдет, если мы захотим сопоставить фактическуб точку, *`.`*? Мы можем использовать экранирующий символ, *`\`*, чтобы экранировать функционал подстановочных знаков и сопоставить фактическую точку. Регулярное выражение *`Howler monkeys are really lazzy\.`* будет полностью сопоставлять текст *`Howler monkeys are really lazy.`*

## Диапазоны

Наборы символов великолепны, но их истинная мощщь не реализуется без диапазонов. *`Диапазоны`* позволяют нам указать диапазон символов, в котором мы можем выполнить сопоставления без необходимости вводить каждый отдельный символ. Регулярное выражения *`[abc]`*, которое будет соответствовать любому символу *`a, b или c`*, эквивалентно решулярному выражению range *`[a-c]`*. *`-`* данный символ позволяет нам указать, что мы заинтересованы в сопоставлении диапазона символов.

Регулярное выражение *`I adopted [2-9] [b-h]ats`* будет соответствовать тексту *`I adopted 4 bats`*, а также *`I adopted 8 cats`* и даже *`I adopted 5 hats`*.

С диапазонами мы можем сопоставить любую отдельную заглавную букву с regez *`[A-Z]`*, строчную букву c regex *`[a-z]`*, любую цифру с regex *`[0-9]`*. Мы даже можем иметь несколько диапазонов в одном наборе символов! Чтобы сопоставить любой отдельный заглавный или строчный буквенный символ, мы можем использовать regex *`[A-Za-z]`*

Помните, в любом наборе символов *`[]`* мы сопоставляем только один символ.

## Классы сокращенных символов

Хотя диапазоны символов чрезвычайно полезны, их может быть неудобно записывать каждый раз, когда вы хотите сопоставить общие диапазоны, такие как те, которые обозначают алфавитные символы или цифры. Чтобы облегчить это боль, существуют *`сокращенные классы символов`*, которые представляют общие диапазоны, и они делаю написание регулярных выражений намного проще. Это сокращенные классы включают:
- *`\w`*: класс "символ слова" представляет диапазон регулярных выражений *`[A-Za-z0-9_]`* и соответствует одному заглавному символу, строчному символу, цифре или подчеркиванию
- *`\d`*: класс "цифровой символ" представляет диапазон регулярного выражения *`[0-9]`* и соответствует одному цифровому символу.
- *`\s`*: класс "пробел" представляет диапазон регулярных выражений *`[ \t\r\n\f\v]`*, соответствующий одному пробелу, табуляции, возврату каретки, разрыву строки, переводу страницы или вертикальной табуляции

Например, регулярное выражения *`\d\s\w\w\w\w\w\w\w`* соответствует цифровому символу, за которым следует пробельный сивол, за которым следуют 7 символов слова. Таким образом, регулярное выражение полностью соответствует тексту *`3 monkeys`*.

В дополнение к классам сокращеных символов *`\w, \d и \s`* у нас также есть доступ к *`отрицательным классам сокращенных`* символов ! Эти сокращения будут соответствовать любому символу, который НЕ находится в обычных классах сокращенных символов. Эти отрицательные классы сокращенных символов включают:
- *`\W`*: класс "несловесный символ" представляет диапазон регулярного выражения *`[^A-Za-z0-9_]`*, соответствующий любому символу, который не включен в диапазон, представленный *`\w`*
- *`\D`*: класс "нецифровых символов" представляет диапазон регулярных выражений *`[^0-9]`*, соответствующий любому символу, который не включен в диапазон, представленный *`\d`*
- *`\S`*: класс "символ, не являющийся пробелом" представляет диапазон регулярных выражений *`[^ \t\r\n\f\v]`*, соответствующий любому символу, который не включен в диапазон, представленный *`\s`*

## Группировка

Помните, как мы были влюблены в бабуинов и горилл несколько упражнений назад? Мы могли сопоставить *`baboons`* или *`gorillas`* с помощью регулярного выражения *`baboons|gorillas`*, используя *`pipeline`* символ.

Но что, если мы хотим сопоставить весь фрагмент текста *`I love baboons`* и *`I love gorallas`* с тем же регулярным выражением? Ваша первая догадка может быть использовать regex *`I love baboons|gorillas`*. Это регулярное выражение, хотя оно полностью сопоставит *`I love baboons`*, не будет соответствовать *`I love gorillas`*, а вместо этого будет соответствовать *`gorillas`*. Это происходит потому, что *`|`* символ соответствует всему выражению до или после себя.

Группировка спешит на помощь! *`Группировка`*, обозначаемая открывающей и закрывающей скобками *`()`*, позволяет нам группировать части регулярного выражения вместе и позволяет нам ограничивать чередование частью регулярного выражения.

Регулярное выражения *`I love (baboons|gorillas)`* сопоставит текст *`I love `*, а затем сопоставит либо *`baboons`*, либо *`gorillas`*, поскольку группировка ограничивает область действия *`|`* текстом в скобках.

Эти группы также называются *`группами захвата`*, поскольку они обладают полномочиями выбирать или захватывать подстроку из сопоставленного текста.

## Квантификаторы - фиксированные

Вот тут-то все и становится действительно интересным. До сих пор мы сопоставляли текст только посимвольно. Но вместо того, чтобы писать регулярное выражение *`\w\w\w\w\w\w\w\w\w`*, которое будет сопоставлять определенное кол-во символов, есть ли лучший способ обозначить кол-во символов, которые мы хотим сопоставить?

Ответ - да, с помощью квантификаторов! *`Фиксированные квантификаторы`*, обозначенные фигурными скобками *`{}`*, позволяют нам указать точное кол-во символов, которые мы хотим сопоставить, или позволяют нам указать диапазон кол-ва для сопоставления.
- *`\w{3}`* будет соответствовать ровно 3 символам слова
- *`\w{4,7}`* будет соответствовать миниму 4 и максимум 7 символам слова

Регулярное выражение *`roa{3}r`* будет соответствовать символам, *`ro`* за которым следует *`3 a`*, а затем символ *`r`*, например, в тексте *`roaaar`*. Регулярное выражение *`roa{3,7}r`* будет соответствовать символам, *`ro`* за которым следует не менее *`3`* и не более *`7`* символов *`а`*, за которыми следует *`r`*.

Важно отметить, что квантификаторы считаются *`жадными`*. Это означает, что они будут соответствовать наибольшему кол-ву символов, которые они могут. Например, регулярное выражение *`mo{2,4}`* будет соответствовать тексту *`moooo`*, и не возвращает совпадение moo, или mooo. Это происходит потому что фиксированный квантификатор хочет сопоставить наибольшее возможное кол-во, которое есть в строке.

## Квантификаторы - необязательны

Вы работаете над исследовательским проектом, который обобщает выводы ученых, изучающих поведение приматов со всего мира. Особый интерес для вас представляют наблюдения ученых за юмором у шимпанзе, поэтому вы на скорую руку составляете регулярные выражения, чтобы найти все упоминания этого слова *`humor`* в собранных вами документах. К вашему разочарованию, ваше регулярное выражение пропускает наблюдения за развлечением, написанные учеными из стран, говорящих на британском английском, где это слово пишется как *`humour`*. Необязательные кванитификаторы спешат на помощь!

*`Необязательный квантификаторы`*, обозначенные вопросительным знаком *`?`*, позволяют на указать, что символ в регулярном выражении является необязательным или может появляться либо 0 раз, либо 1 один раз. Например, регулярное выражение *`humou?r`* сопоставляет символы *`humo`*, затем либо 0 вхождений, либо 1 вхождение буквы *`u`*, и наконец буквка *`r`*. Обратите внимание, что *`?`* применяется только к символу, стоящему непосредственно перед ним.

Со всеми квантификаторами мы можем воспользоваться группировкой, чтобы сделать еще более сложные регулярные выражения. Регулярное выражение *`The monkey ate a (rotten )? banana`* будет полностью соответствовать как *`The monkey ate a ritten banana`* и *`The monkey are a banana`*.

Поскольку *`?`* это метасимвол, вам необходимо использовать экранирующий символ в вашем регулярном выражении, чтобы сопоставить вопросительный знак *`?`* в текстею *`Aren't owl monkeys beautiful\?`* Таким образом, регулярное выражение будет полностью соответствовать тексту *`Aren't owl monkeys beautiful?`*

## Квантификаторы - 0 или более, 1 или более

В 1951 году математик Стивен Коул Клини разработал систему для сопоставления шаблонов письменного языка с математической нотацией. Эта нотация теперь известна как регулярное выражение.

В его честь, назвали следующую часть регулярного выражения - *`Звезда Клини`*. Она обозначается звездочкой *`*`*, также является квантификатором и соответствует предыдущему символу 0 или более раз. Это означает, что символ не обязательно должен появляться, может появляться один раз или может появляться много-много раз.

Регулярное выражение *`meo*w`* будет соответствовать символам *`me`*, за которыми следует 0 или более *`o`*, за которыми следует *`w`*. Таким образом, регулярное выражение будет соответствовать *`mew, meow, meooooow, meoooooooooow`*.

Другим полезным квантификаторо являются *`плюс Клини`*, обозначаемый знаком плюс *`+`*, который соответствует предыдущему символу 1 или более раз.

Регулярное выражение *`meo+w`* будет соответствовать символам *`me`*, за которыми следует 1 или более *`o`*, за которыми следует *`w`*. Таким образом регулярное выражение будет соответствовать *`meow, meooow, meoooooooow`* но не будет соответствовать *`mew`*.

Как и все остальные метасимволы, для того, чтобы сопоставить символы *`* и +`* вам нужно использовать экранирующий символ в вашем регулярном выражении.

## Якоря

При написании регулярного выражения, полезно сделать выражение как можно более конкретным, чтобы гарантировать, что мы не будем соответствовать непреднамеренному тексу. Чтобы помочь в этой миссии специфичности, мы можем использовать метасимволы привязки. Знаки привязки шляпа *`^`* и доллар *`$`* используются для сопоставления текста в начале и конце соответственно.

Регулярное выражение *`^Monkeys: my mortal enemy$`* будет полностью соответствовать тексту *`Monkeys: my mortal enemy`*, но не соответствовать *`Spider Monkeys: my mortal enemy in the wild`*. *`^`* гарантирует, что совпадающий текст начинается с *`Monkeys`*, а *`$`* гарантирует, что совпадающий текст заканчивается на *`enemy`*.