# Регулярные выражения

## Определение

Регулярное выражение - это шаблон, сопоставляемый с искомой строкой слева направо. Термин «Регулярное выражение» сложно произносить каждый раз, поэтому, обычно, вы будете сталкиваться с сокращениями "регэкспы" или "регулярки". Регулярные выражения используются для замен текста внутри строк, валидации форм, извлечений подстрок по определенным шаблонам и множества других вещей.

Представьте, что вы пишете приложение и хотите установить правила, по которым пользователь выбирает свой юзернейм. Мы хотим, чтобы имя пользователя содержало буквы, цифры, подчеркивания и дефисы. Мы также хотим ограничить количество символов в имени пользователя, чтобы оно не выглядело безобразно. Для этого, используем следующее регулярное выражение:

`^[a-z0-9_-]{3,15}$`

Регулярное выражения выше может принимать строки `john_doe`, `jo-hn_doe` и `john12_as`. Оно не валидирует `Jo`, поскольку эта строка содержит заглавные буквы, а также она слишком короткая.

## Совпадения

Большинство букв и символов соответствуют сами себе. Например, регулярное выражение test будет в точности соответствовать строке test (Вы можете включить режим без учета регистра, что позволит этому регулярному выражению также соответствовать Test или TEST).

Из этого правила есть исключения; некоторые символы это специальные метасимволы, и сами себе не соответствуют. Вместо этого они указывают, что должна быть найдена некоторая необычная вещь, или влияют на другие части регулярного выражения, повторяя или изменяя их значение.

## Метасимволы

Вот полный список метасимволов:

| Метасимволы | Описание                                                                                                   |
| :---------: | ---------------------------------------------------------------------------------------------------------- |
|      .      | Точка соответствует любому отдельному символу, кроме разрыва строки.                                       |
|     []      | Класс символов. Находить любые символы заключенные в квадратных скобках.                                   |
|     [^]     | Отрицание класа символов. Находить любые символы не заключенные в квадратных скобках.                      |
|      *      | Находить 0 или более повторений предыдущего символа.                                                       |
|      +      | Находить 1 или более повторений предыдущего символа.                                                       |
|      ?      | Сделать предыдущий символ необязательным.                                                                  |
|    {n,m}    | Скобки. Находить по крайней мере "n" но не более чем "m" повторений предыдущего символа.                   |
|    (xyz)    | Группа символов. Находить только символы xyz в указанном порядке.                                          |
|   &#124;    | Чередование. Находить либо буквы до, либо буквы после символа.                                             |
|    &#92;    | Экранирование. Позволяет находить зарезервированные символы: <code>[ ] ( ) { } . * + ? ^ $ \ &#124;</code> |
|      ^      | Обозначает начало пользовательского ввода.                                                                 |
|      $      | Обозначает конец пользовательского ввода.                                                                  |

### Точка

Точка `.` это простейший пример метасимвола. Метасимвол `.` находит любой отдельный символ. Точка не будет находить символы перехода или перевода строки.

Например, регулярное выражение `.og` обозначает: любой символ, за которым следуют буквы `o` и `g`.

### Набор символов

Набор символов также называется классом символов. Квадратные скобки `[]` используются для определения набора символов. Дефис используется для указания диапазона символов. Порядок следования символов, заданный в квадратных скобках, не важен. 

Например, регулярное выражение [Tt]he обозначает заглавную `T` или строчную `t`, за которой следуют буквы `h` и `e`.

Точка внутри набора символов, однако, обозначает непосредственно точку, как символ. Регулярное выражение `rk[.]` обозначает строчную `r`, за которой следует `k`, за которой следует `.` (символ точки).

Знак вставки `^` обозначает начало строки, однако, когда вы вписываете его после открытия квадратных скобок, он отрицает набор символов. Например, регулярное выражение `[^c]ar` обозначает любой символ, кроме `c`, за которым следуют буквы `a` и `r`.

### Повторения

Символы `+`, `*` или `?` используются для обозначения того сколько раз появляется какой-либо подшаблон. Данные метасимволы могут вести себя по-разному, в зависимости от ситуации.

#### Звёздочка

Символ `*` обозначает ноль или более повторений предыдущего совпадения. Регулярное выражение `a*` означает ноль или более повторений предыдущего строчного символа `a`. Если же символ появляется после набора или класса символов, он находит повторения всего набора символов. Например, регулярное выражение `[a-z]*` означает любое количество строчных букв в строке.

Символы можно комбинировать, так, например, символ `*` может использоваться с метасимволом `.` для поиска одной строки с произвольным содержанием.

#### Плюс

Символ `+` соответствует одному или более повторению предыдущего символа. Например, регулярное выражение `c.+t` означает строчную `c`, за которой следует по крайней мере один символ, следом за которым идёт символ `t`.

#### Знак вопроса

В регулярном выражении метасимвол `?` делает предыдущий символ необязательным. Этот символ соответствует нулю или одному экземпляру предыдущего символа. Например, регулярное выражение `[T]?he` означает необязательную заглавную букву `T`, за которой следуют символы `h` и `e`.

### Фигурные скобки

В фигурных скобках `{}`, которые также называются квантификаторами, указывается, сколько раз символ или группа символов могут повторяться. Например, регулярное выражение `[0-9]{2,3}` означает совпадение не менее `2` но не более `3` цифр в диапазоне от `0` до `9`.

Уберём второй номер, тогда, регулярное выражение `[0-9]{2,}` будет означать совпадение `2` или более цифр. Если мы также удалим запятую, то регулярное выражение `[0-9]{3}` будет означать совпадение точно с `3` цифрами.

### Скобочные группы

Скобочные группы это группы подшаблонов, которые написаны в круглых скобках `()`. Как мы уже говорили ранее в регулярном выражении, если мы поставим квантификатор после символа, он будет повторять предыдущий символ. Но если мы поставим квантификатор после скобочной группы, он будет искать всю группу. 

Например, регулярное выражение `(ab)*` соответствует нулю или более повторений символа `ab`. Мы также можем использовать метасимвол чередования `|` внутри скобочной группы. Например, регулярное выражение `(c|g|p)ar` означает поиск одной из строчных букв `c`, `g` или `p`, за которыми следуют буквы `a` и `r`.

### Экранирование спецсимволов

Обратный слэш `\` используется в регулярных выражениях для экранирования следующего символа. Это позволяет формировать шаблоны с поиском зарезервированных символов, таких как `{ } [ ] / \ + * . $ ^ | ?`. Для использования спецсимвола в шаблоне необходимо указать символ `\` перед ним.

### Якоря

Понятие якорей в регулярных выражениях используется для обозначения проверок, является ли соответствующий символ начальным или конечным символом входной строки. Якоря бывают двух типов: Первый тип - Каретка `^`, проверяет, является ли соответствующий символ начальным символом в тексте. Второй тип - Доллар `$`, проверяет, является ли соответствующий символ последним символом входной строки.

## Наборы сокращений и диапазоны

Регулярные выражения предоставляют сокращения для часто используемых наборов символов, которые предлагают удобные сокращения для часто используемых регулярных выражений. Наборы сокращенных символов следующие:


|Сокращение|Описание|
|:----:|----|
|.|Любой символ кроме символа новой строки|
|\w|Поиск буквенно-цифрового диапазона символов: `[a-zA-Z0-9_]`|
|\W|Поиск не буквенно-цифрового диапазона символов: `[^\w]`|
|\d|Поиск цифр: `[0-9]`|
|\D|Поиск всего, что не является цифрой: `[^\d]`|
|\s|Поиск пробелов и символов начала строки: `[\t\n\f\r\p{Z}]`|
|\S|Поиск всего кроме пробелов и символов начала строки: `[^\s]`|



In [3]:
import re

# Поиск вхождения в начале строки
result = re.match(r'AV', 'AV Analytics Vidhya AV')
print (result)

# Поиск вхождения
result = re.search(r'Analytics', 'AV Analytics Vidhya AV')
print (result.group(0))

# Поиск всех вхождений
result = re.findall(r'AV', 'AV Analytics Vidhya AV')
print (result)

# Разделение строки
result = re.split(r'y', 'Analytics')
print (result)

# Замена
result = re.sub(r'India', 'the World', 'AV is largest Analytics community of India')
print (result)

<re.Match object; span=(0, 2), match='AV'>
Analytics
['AV', 'AV']
['Anal', 'tics']
AV is largest Analytics community of the World
