# Регулярные выражения
Предположим стоит задача проверить найти слово в строке, тут мы можем проверить вхождение подстроки в строку.
```python
main_string = 'This is test string'
substring = 'test'
if substring in main_string:
    pass
```

Проблема в том, что подстроку для поиска необходимо знать заранее

А если предположим нужно найти все числа в строке, тут мы тоже можем выкрутиться, но чтобы этот алгоритм работал корректно нужно учесть много нюансов

In [1]:
str_with_num = "test 123, 567^ 8909t 4234324 r2ed25543"
num_list = []

tmp_num = ""
for char in str_with_num:
    if char.isdigit():
        tmp_num += char
    else:
        if tmp_num:
            num_list.append(tmp_num)
            tmp_num = ""
        
print(num_list)

['123', '567', '8909', '4234324', '2']


И тут возникает проблема, что если мы заранее знаем только шаблон того, что хотим искать? Так вот чтобы решить эту проблему были придуманы регулярные выражения! Работа с регулярными выражениями так или иначе реализована во всех серьезных языках программирования.

**Регулярные выражения** – строка, задающая шаблон поиска подстроки в тексте.
Одному шаблону может соответствовать много подстрок.

Выражения строятся на основе определенного синтаксиса.
Пример:
```
http[s]?:\/\/(?:[A-Za-z\d]+\.)+[a-z]+\/
```

Чему может соответствовать этот шаблон?

## Основы синтаксиса регулярных выражений
Для начала несколько правил:
1. Регулярное выражение – строка, состоит из различных символов, описывающий шаблон для поиска, а также из «дополнительной части», в которой указываются параметры поиска (case-insensitive, multi-line etc.)
2. Регулярное выражение состоит из букв разного регистра, цифр и спец-символов, каждый из которых имеет какое-то значение или меняет поведение шаблона. Если вы хотите найти именно этот символ в тексте – его нужно экранировать с помощью обратного слэша

Список спецсимволов: `.` `^` `$` `*` `+` `?` `{` `}` `[` `]` `\` `|` `(` `)`


---
Любая строка является регулярным выражением, ищущим самого себя. Без указания дополнительных параметров регулярные выражения регистро зависимые.

**Пример:**  
Шаблон `«ха»` будет искать все «ха» в тексте:  
"""хаха хих хохо ххахахаххаха ХаХаХа хиха Хииихи хаааахха xaxaxa хах хахааааааа ХОХОХОХО 12345678"""

Расмотрим пример работы на сайте [regex101.com](https://regex101.com/).

### Группы символов
Для указания любого символа или группы символов используются группы:
- `[abcdef]` – один любой символ из списка
- `[^abcd]` – любой символ, кроме тех, что указаны в списке
- `[a-z]` – любой символ между a и z включительно (любая буква латинского алфавита)
- `[^a-z]` – один любой символ, кроме тех, что между a и z включительно
- `[a-zA-Zа-яА-Я0-9]` – один символ из любой из групп

**Примечание:**  
Нюанс: буквы `ё` и `Ё` не входят в группы `а-я` и `А-Я`

Попробуем рассмотреть пару примеров:  
* `х[аи]` - регулярка для поиска слов хи и ха
* `[Xx][аи]` - регулярка для поиска цифр  ИСПРАВИТЬ
* `[Xx][^аи]` - регулярка для поиска двухзначных чисел

### Токены
Часто употребляемые группы символов были выделены в отдельные объекты **токены**:  
- `\s` – любой пробельный символ (пробел, перенос строки, таб и т.д.), эквивалентно `[ \f\n\r\t\v]` (На самом деле чуть больше)
- `\S` – любой НЕпробельный символ, эквивалентно `[^ \f\n\r\t\v]`
- `\d` – любая цифра (цифра, не число), эквивалентно `[0-9]`
- `\D` – любая не цифра, эквивалентно `[^0-9]`
- `\w` – любой символ, относящийся к слову (буква, число, подчеркивание), эквивалентно `[a-zA-Z0-9_]`
- `\W` – любой не относящийся к слову символ, эквивалентно `[^a-zA-Z0-9_]`
- `.` – любой один символ (вообще любой)

**Примеры:** 
* `\w\w\w` - регулярка для поиска сочетаний из трех букв (не слов из трех букв)
* `\d\d` - регулярка для поиска сочетаний из двух чисел (не двухзначных чисел)

### Проверки границ
Прошлый пример не выдал слова, состоящие из трех букв, и двузначные числа. Для этого нужны дополнительные проверки на границы.

Первая проверка, это так называемые "якоря": 
- начало строки `^`
- конец строки `$`

Эти проверки следят за тем, чтобы шаблон стоял либо в начале либо в конце строки:
- `^\w\w\w` - шаблон будет проверять только начало строки на наличие трех буквенных символов. 
- `\d\d$` - шаблон будет проверять только конец строки на наличие двух цифр
- `^\w+$` - строка состоит только из букв (квантификатор `+` будет рассмотрен далее)

**Пример:**
- `^Hello` - строка начинается со слова Hello
- `Bye!$` - строка заканчивается словом Bye!

---
Следующая проверка - граница слова.  

`\b` – это проверка, как `^` и `$`. Проверка границы слова проверяет что, `\w` с одной стороны и `\W` – с другой.  
Проверка границы единственный шаблон, указывающий не символ, а **позицию** – находится «между» двумя символами.  

Здесь доступны три варианта:
- Начало текста, если его первый символ `\w`.
- Позиция внутри текста, если слева находится `\w`, а справа – не `\w`, или наоборот.
- Конец текста, если его последний символ `\w`.

**Примеры:**
* `\b\w\w\w\b` - регулярка для поиска слов из трех букв
* `\b\d\d\b` - регулярка для поиска двухзначных чисел

---
Попробуем разобрать несколько регулярок и понять, что они могут захватывать

1. `www\.\w\w\w\.com`
2. `\+7 \(\d\d\d\) \d\d\d-\d\d-\d\d`
3. `\d\d:\d\d:\d\d`
4. `[АВЕКМНОРСТУХ] \d\d\d [АВЕКМНОРСТУХ][АВЕКМНОРСТУХ]`


---
### Квантификаторы
Как вы могли заметить, иногда (на самом деле – почти всегда) нужно проверять конструкции из повторяемых символов
Для этого в языке регулярных выражений есть квантификаторы, позволяющие указать количество повторений:
- `{3}` – ровно 3 раза.
- `{,3}` – не более 3 раз  `{0,3}`
- `{3,}` – 3 и более раз
- `{3,6}` – от 3 до 6 раз
- `?` – предыдущий символ или группа должны появиться 0 или 1 раз. Аналог {0,1} 
- `*` - 0 или много раз. Аналог {0,}
- `+` - 1 и более раз (не 0!). Аналог {1,}

**Примеры:**
- `\b\d{3}\b` - трехзначные числа
- `http[s]?` - протокол http или https
- `\b\w+\b` - все слова из текста
- `\b\w+\d*\.log\b` - все лог файлы с расширением filename.log, filename1.log, ...



### Ленивые и жадные квантификаторы
Все квантификаторы в регулярных выражениях по умолчанию являются жадными, то есть они будут стараться захватить как можно большее количество повторений символов. Яркий пример жадности квантификаторов можно наблюдать при поиске слов, заключенных в кавычках. Предположим дана строка c некоторыми цитатами, попытаемся с помощью регулярки выбрать их:
```
""" Любой дурак сможет написать код, который поймет машина. 
Хорошие программисты пишут код, который сможет понять человек."""

""" Простота — залог надежности."""

""" Если вы хотите, чтобы код было легко и быстро писать — делайте его удобным для чтения."""

""" Чтобы написать чистый код, мы сначала пишем грязный код, а затем рефакторим его."""

"""Некоторые проблемы лучше не решать, а избегать."""

"""Небольшие программы случайно компилируются и выполняются правильно при первой же попытке. 
Но если это происходит с любой не тривиальной программой, то это очень и очень подозрительно."""
```

Регулярка `"""(.|\n)+"""` (работу с группами рассмотрим далее) даст не совсем ожидаемый [результат](https://regex101.com/r/zAZlp1/1/). Из-за "жадности" квантификаторов, вместо отдельных цитат, мы получим, что это всё одна большая цитата.

Поэтому квантификатор нужно сделать "ленивым", чтобы как только он видит минимально досточное совпадение, то прекращал захват и переходил к поиску следующего совпадения.

Подробнее с "жадным" и "ленивым" поиском можно ознакомиться [здесь](https://learn.javascript.ru/regexp-greedy-and-lazy)

---
Пересмотрим регулярки с учетом квантификаторов
1. `www\.\w+\.com`
2. `\+7 \(\d{3}\) \d{3}-\d{2}-\d{2}`
3. `[АВЕКМНОРСТУХ] \d{3} [АВЕКМНОРСТУХ]{2}`
4. `\d\d:{2}\d\d` - ПРОБЛЕМА

Как можно заметить, в примере с временем возникла проблема - `\d\d:{2}` ожидает два раза символ `:`, а не всю группу из двух цифр.
Для решения таких проблем существует понятие группировки символов.

### Скобочные группы
Часть шаблона можно заключить в скобки `(...)`. Это называется «скобочная группа».  
Какие задачи решает группировка:
- квантификаторы начинают работать сразу с группой.
- можно указывать выбор из разных вариантов.
- можно «запоминать» захваченный шаблон и возвращать позже пользователю

Рассмотрим основной текст и работу со скобочными группами.

**Примеры:**
1. Дата - `(\d\d:){2}\d\d`
2. Домены - `www\.\w+\.(com|ru|org|io)`
3. Захват шаблона - `www\.(\w+)\.com` (см. пример работы в python)

#### Исключение из запоминания
Все скобочные группы по умолчанию являются запоминающими, и дают возможность получить результат их захвата. Если обрать внимание на пример с доменами, то сам сайт и его домен были захвачены, но домены на выбор мы указывали сами и нам незачем запоминать их. Для такого, чтобы исключить группу из запонимания путем указания вопросительного знака и двоеточия в самом начале скобочной группы `(?:...)`:  
- `www\.\w+\.(?:com|ru|org|io)`
- `(?:\d\d:){2}\d\d`

Не следует лениться и пренебрегать "незапоминающим" захватом, так как это оптимизирует и ускоряет работу регулярок

#### Именованный захват
Запоминать группы по номерам бывает не всегда удобно. Для простых шаблонов это допустимо, но в сложных регулярных выражениях считать скобки затруднительно, чтобы понять их порядковый номер. Гораздо лучше – давать скобкам имена.  
Для того, чтобы скоробочная группа стала именованной, нужно в начале скобочной группы поставить следующее:  
`(?P<name_group>...)`

**Примеры**:
- `(?P<year>[0-9]{4})-(?P<month>[0-9]{2})-(?P<day>[0-9]{2})` - дата
- `www\.(?P<site>\w+)\.(com|ru|org|io)` - сайт

Итак, скобочные группы могут быть:
- *именованными* (обращение по имени) и *неименнованными* (обращение по порядковому индексу)
- *запоминающими* (результат захвата доступен после проверки совпадения) и *незапоминающими*
---

Рассмотрим несколько различных примеров и попытаемся понять, что они могут искать
1. `www\.(?:\w+\.)+com`
2. `(?:[A-F\d]{2}(?:-|:)){5}[A-F\d]{2}`
3. `(?:\d\d:){2}\d\d` 
4. `(?P<mail>\w+)@(?P<domain>\w+\.com)`
5. `(?:\d{1,3}\.){3}\d{1,3}`
6. `(?P<year>[0-9]{4})-(?P<month>[0-9]{2})-(?P<day>[0-9]{2})`

Видно, что не все регулярки, работают точно, возникает вопрос, а до какой степени детализации следует опускаться?  
В реальной жизни допустимы разные варианты. Ответ на подобные вопросы зависит от того, насколько реально важна точность и насколько потом будет сложно или несложно отфильтровать лишние совпадения.

### Сила и проблема регулярных выражений
Регулярные выражения – очень мощный инструмент, но у которого есть два критичных недостатка, о которых нужно знать.
1. Плохо написанные регулярные выражения работают очень медленно (относительно медленно)
2. Регулярные выражения – write-only code. Вы с трудом разберете написанную собственноручно регулярку через день после создания, через полгода - не разберете совсем. Все настолько плохо, что всегда легче написать новую.

### Подробный пример поиска IPv4 адресов

В оставшееся время либо самостоятельно попробуйте составить регулярку для поиска IPv4 адресов. 

Каждый октет может состоять из чисел от 0 до 255, следовательно доступны такие диапазоны:
```
  0 -   9
 10 -  99 (десятки могут быть, а могут не быть)
100 - 199 (сотня может быть, а может не быть)
200 - 249 (меняются десятки и единицы)
250 - 255 (меняются только единицы)
```