# Регулярные выражения

## Основной синтаксис

Регулярные выражения - язык поисковых запросов для поиска шаблонов в тексте.

Синтаксис:
* "." - любой символ
* "^" - начало строки, или инвертирование (все, кроме...)
* "$" - конец строки
* "*" - любое количество вхождений, от 0 до беск.
* "+" - количество вхождений от 1 до беск.
* "?" - 0 или 1 вхождение 
* "{n}" точное количество вхождение - n раз 
* "{n, m}" - количество вхождений не менее n и не более m раз
* "\" - символ экранирования. Например символ точки: \\.
* "|" - символ "или". Найдет любой из шаблонов (например 500|100 - будет находить и 500, и 100)
* [] - набор символов, любой из которых может встретиться в тексте.
* \d - любая цифра. Аналогично [0-9]
* \D - все, кроме цифры. Аналогично [^0-9]
* \w - (для unicode). Любые буква, цифра и символ подчеркивания. Для ASCII то же самое, но работает только для латинских букв
* \W - все, кроме букв, цифр и символа подчеркивания
* \s - любой проблельный символ [ \t\n\r\f\v]
* (...) - группировка символов (вместо ... - текст или регулярное выражение)

## Модуль re в Python

Основные функции этого модуля:

* re.match (pattern, string, flags=0) - ищет по заданному шаблону строго с начала текста;
* re.search (pattern, string, flags=0) - ищет во всем тексте, возвращает первое совпадение. Выдает объект re.Match, к которому можно вызвать .group() и получить строку - первое вхождение, .start() - это индекс начала, .end() - конца;
* re.findall (pattern, string) - ищет во всем тексте, возвращает список всех найденных совпадений;
* re.compile (pattern, flags=0) - компилирует регулярное выражение в объект, который можно вызывать без re. Для многократного использования. Работает быстрее, чем re;
* re.split (pattern, string, maxsplit=0, flags=0) - разделяет строку по заданному шаблону;
* re.sub (pattern, repl, string) - ищет шаблон в строке и заменяет его на указанную подстроку.

Флаги:

* re.A, re.ASCII - ASCII-диапазон символов вместо Юникода
* re.U, re.UNICODE - использование диапазонов Юникода. Работает по умолчканию
* re.I, re.IGNORECASE - игнорировать регистр символов
* re.M, re.MULTILINE - разбивать текст на строки при обработке. Нужен, в основном, для функций re.match и re.search
* re.S, re.DOTALL - по умолчанию символ точки означает любой символ, кроме символа \n. Если назначить флаг, это ограничение снимается.

In [12]:
import re

text = "Регулярные выражения — формальный язык, используемый в задачах на поиск и замену подстроки в тексте. Поскольку поиск MediaWiki накладывает свои ограничения, некоторые из которых контринтуитивны, данная справочная страница подразумевает, что вы уже знакомы с регулярными выражениями и умеете ими пользоваться. Тем не менее, краткая шпаргалка по синтаксису регулярных выражений может быть полезна: Регулярное выражение."

pattern = r"Регулярн\w+ выражен\w+"

print("\t--findall--")

result = re.findall(pattern, text)
print(result)

print("\t--search--")

result2 = re.search(pattern, text)
print(result2)
print(result2.group())
print(result2.start(), result2.end(), text[result2.start():result2.end()])

shift = 0
while result2 is not None:
    result2 = re.search(pattern, text[shift:])
    if result2 is not None:
        shift += result2.end()
        print(result2.group(), result2.start(), result2.end())

print(text[376:396])

print("\t--match--")

result = re.match(pattern, text)
print(result.group())
# но:
pattern = r'формальный язык'
result = re.match(pattern, text)
# print(result.group()) - Ошибка

print("\t--все слова--")
pattern = r'\w+-?\w*'

result = re.findall(pattern, text)
print(result)

print("\t--все предложения--")
pattern = r'[.?!]+\s?'

result = re.split(pattern, text)
print(result)

print("\t--замена--")
pattern = r'язык'

result = re.sub(pattern, 'нос', text)
print(result)

	--findall--
['Регулярные выражения', 'Регулярное выражение']
	--search--
<re.Match object; span=(0, 20), match='Регулярные выражения'>
Регулярные выражения
0 20 Регулярные выражения
Регулярные выражения 0 20
Регулярное выражение 376 396
может быть полезна: 
	--match--
Регулярные выражения
	--все слова--
['Регулярные', 'выражения', 'формальный', 'язык', 'используемый', 'в', 'задачах', 'на', 'поиск', 'и', 'замену', 'подстроки', 'в', 'тексте', 'Поскольку', 'поиск', 'MediaWiki', 'накладывает', 'свои', 'ограничения', 'некоторые', 'из', 'которых', 'контринтуитивны', 'данная', 'справочная', 'страница', 'подразумевает', 'что', 'вы', 'уже', 'знакомы', 'с', 'регулярными', 'выражениями', 'и', 'умеете', 'ими', 'пользоваться', 'Тем', 'не', 'менее', 'краткая', 'шпаргалка', 'по', 'синтаксису', 'регулярных', 'выражений', 'может', 'быть', 'полезна', 'Регулярное', 'выражение']
	--все предложения--
['Регулярные выражения — формальный язык, используемый в задачах на поиск и замену подстроки в тексте', 'П