# Регулярные выражения
---

# Содержание

* [Регулярные выражения](#Регулярные-выражения)

* [Простые метасимволы](#Простые-метасимволы)

* [Классы метасимволов](#Классы-метасимволов)

* [Другие метасимволы](#Другие-метасимволы)

* [Группы](#Группы)

* [Специальные последовательности](#Специальные-последовательности)

---


## Регулярные выражения
---

**Регулярные выражения** - мощное средство для работы со строками.  
Они представляют собой предметно-ориентированный язык (ПОЯ) и доступны как библиотека в большинстве современных языков программирования, включая Python.  
Главным образом они используются для выполнения двух задач:  
- чтобы проверить, соответствует ли строка определенному набору символов (например, имеет ли строка формат адреса электронной почты)
- когда нужно выполнить замену внутри строки (например, исправить правописание слова во всех его упоминаниях).

---
>Предметно-ориентированные языки - своего рода узкоспециализированные мини-языки программирования.
На ряду с регулярными выражениями широко используется язык SQL (для работы с базами данных).
Кроме них есть частные предметно-ориентированные языки, которые создаются компаниями под конкретные цели.

---

Регулярные выражения в Python создаются с использованием модуля **re**, входящего в стандартную библиотеку.  
После того как вы определили регулярное выражение, с помощью функции **re.match** можно определить, есть ли совпадение в начале строки.  
Если совпадение найдено, **match** возвращает объект совпадения; в противном случае возвращает **None**.  
Во избежание путаницы при работе с регулярными выражениями, мы будем использовать «сырые» строки формата **r"выражение"**.  
Сырье строки ничего не экранируют, поэтому с регулярными выражениями так легче работать.  

In [1]:
import re

In [3]:
pattern = r"spam"

if re.match(pattern, "spamspamspam"):
    print("match")
else:
    print("no match")

match


В примере выше программа проверяет совпадает ли строка с набором символов «spam» и выводит слово «match», если это так.

---
>Мы использовали простое слово, но также используются различные символы, которые имеют специальное значение в регулярных выражениях.

---

Для поиска совпадений используются и другие функции, такие как **re.search** и **re.findall**.  
Функция **re.search** используется для поиска набора символов в любом месте строки.  
Функция **re.findall** возвращает список всех подстрок, которые совпадают с искомым набором символов.  

In [4]:
import re

In [6]:
pattern = r"spam"
string = r"ssmspamd_0k23spmaspam"

if re.match(pattern, string):
    print("match")
else:
    print("no match")
    
if re.search(pattern, string):
    print("match")
else:
    print("no match")
    
print(re.findall(pattern, string))

no match
match
['spam', 'spam']


В примере выше функция **match** не нашла совпадений, так как она искала в начале строки.  
Функция **search** нашла совпадение в строке.  

---
>Функция **re.finditer** делает то же самое, что и **re.findall**, за исключением того, что она возвращает итератор, а не список.

---

Поиск с регулярными выражениями возвращает объект с несколькими методами, содержащими информацию об объекте.  
Это такие методы, как **group**, возвращающий совпавшую строку, **start** и **end**, возвращающие начальную и конечную позицию первого совпадения, и **span**, возвращающий начальную и конечную позицию первого совпадения в виде кортежа.  

In [84]:
import re

In [85]:
pattern = r"pam"

if match := re.search(pattern, "eggsspamsausage"):
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())

pam
5
8
(5, 8)


---
Один из наиболее важных методов **re**, используемых в регулярных выражениях, метод **sub**.  

**re.sub(pattern, repl, string, count=0)**  
 
Этот метод заменяет все упоминания **набора символов** в строке на **repl**: заменяются все упоминания, если не установлено ограничение **count**. Метод возвращает новую версию строки.

In [11]:
import re

In [14]:
string = "My name is Grisha. Hi Grisha."
pattern = r"Grisha"
new_string = re.sub(pattern, "Slavik", string)

print(new_string)

My name is Slavik. Hi Slavik.


---
## Простые метасимволы
---

Именно благодаря использованию **метасимволов** регулярные выражения эффективней обычных строковых методов.  
Они позволяют выражать с помощью регулярных выражений такие сложные условия, как «одно или несколько повторений гласных».  

Существование метасимволов несколько усложняет создание регулярных выражений, состоящих из обычных символов, являющихся также метасимволами, например, \$. В таких случаях метасимволы необходимо экранировать, ставя перед ними обратную косую черту.  
Хотя такой способ также может создать проблемы, так как обратные косые черты также имеют функцию экранирования в коде Python.   По этой причине может потребоваться три или четыре бэкслэша в строке.  

>Чтобы не делать этого, можно использовать «сырую» строку, то есть обычную строку, начинающуюся с «r», как делалось это выше.

---

Первый метасимвол, с которым мы познакомимся - **.** (точка).  
Точка означает **любой символ**, исключая символ новой строки.  

In [24]:
import re

In [25]:
pattern = r"gr.y"

if re.match(pattern, "grey"):
    print("match 1")

if re.match(pattern, "gray"):
    print("match 2")

if re.match(pattern, "hfgrey"):
    print("match 3")

match 1
match 2


---
Далее рассмотрим метасимволы **^ и $** .      
Они указывают соответственно на **начало и конец** строки.  

In [26]:
import re

In [27]:
pattern = r"^gr.y$"

if re.match(pattern, "grey"):
    print("match 1")

if re.match(pattern, "gray"):
    print("match 2")

if re.match(pattern, "stigrey"):
    print("match 3")

match 1
match 2


>Набор символов «**^gr.y$**» означает, что строка должна начинаться с **gr**, в середине содержать любой символ, за исключением символа новой строки, и заканчиваться на **у**.

---

## Классы метасимволов
---

**Классы символов** предназначены для поиска конкретного символа из набора символов.  
Класс символов создается путем заключения искомых символов в **квадратные скобки**.  

In [28]:
import re

In [32]:
pattern = r"[aeiou]"

if re.search(pattern, "grey"):
    print("match 1")

if re.search(pattern, "qwertyuiop"):
    print("match 2")

if re.search(pattern, "rhuthm myths"):
    print("match 3")

match 1
match 2
match 3


При поиске с набором **[aeiou]** будут найдены все строки, содержащие хотя бы один символ с набора.

---
Классы символов могут также использоваться для поиска символов в заданном диапазоне.  
Вот несколько примеров:  
класс **[a-z]** - поиск любой строчной буквы  
класс **[G-P]** - поиск любого символа верхнего регистра от G до P  
класс **[0-9]** - поиск любой цифры.  
Класс может состоять из больше, чем одного диапазона. Например, класс **[A-Za-z]** означает поиск любой буквы алфавита верхнего или нижнего регистра.  

In [40]:
import re

In [41]:
pattern = r"[A-Z][A-Z][0-9]"

if re.search(pattern, "LS8"):
    print("match 1")

if re.search(pattern, "E3"):
    print("match 2")

if re.search(pattern, "1abAA3"):
    print("match 3")

match 1
match 3


>Набор символов в примере выше совпадет со строками, которые содержат две прописных буквы с последующей цифрой.

---

Чтобы **инвертировать класс** символов, нужно поместить **^** в начало определения класса.  
Это команда ищет любой символ, кроме символов класса.  
Другие метасимволы, такие как **$** и **.** не имеют никакого специального значения в классах символов.  
Метасимвол **^** не имеет специального значения, если он не является первым символом класса.  

In [35]:
import re

In [45]:
pattern = r"[^A-Z]"

if re.search(pattern, "some text"):
    print("match 1")

if re.search(pattern, "ABCQWERTY"):
    print("match 2")

if re.search(pattern, "GGGGG GG"):
    print("match 3")

match 1
match 3


>Набор символов **[^A-Z]** исключает строки с текстом в верхнем регистре.  
Помните, чтобы класс символов был инвертирован, символ ^ должен быть внутри скобок.  

---

## Другие метасимволы
---

Среди других метасимволов: <b>*</b>, **+**, **?**, **{** и **}** .  
С их помощью задается число упоминаний.  
Метасимвол <b>*</b> означает «ноль или более упоминаний объекта поиска». «Объект поиска» указывается в **скобках**; им может быть один символ, класс или группа символов.  

In [46]:
import re

In [47]:
pattern = r"egg(spam)*"

if re.match(pattern, "egg"):
    print("match 1")

if re.match(pattern, "eggspamspamegg"):
    print("match 2")

if re.match(pattern, "spam"):
    print("match 3")

match 1
match 2


>В примере выше будут найдены строки, начинающиеся с комбинации «egg», за которой следует (или нет) неограниченное число упоминаний «spam».

---

Метасимвол + очень похож на * с тем отличием, что он означает «одно (или более) упоминание», в отличие от «ноль или более упоминаний».

In [48]:
import re

In [69]:
pattern = r"egg(spam)+"

if re.match(pattern, "egg"):
    print("match 1")

if re.match(pattern, "eggspamspamegg"):
    print("match 2")

if re.match(pattern, "spam"):
    print("match 3")

match 2


>\* означает ноль или более упоминаний предшествующего выражения  
\+ означает одно (или более) упоминание предшествующего выражения  

---

Метасимвол **?** означает «ноль повторений или одно повторение».

In [70]:
import re

In [76]:
pattern = r"ice(-)?cream"

if re.match(pattern, "ice-cream"):
    print("match 1")

if re.match(pattern, "icecream"):
    print("match 2")

if re.match(pattern, "ice--ice"):
    print("match 3")

match 1
match 2


---
**Фигурные скобки** можно использовать для поиска числа упоминаний между двумя числами.  
Выражение **{х, у}** означает «упоминания объекта поиска между х и у».  
Следовательно, **{0,1}** - то же самое, что **?** .  
Если первое число отсутствует, программа считает, что это число ноль. Если второе число отсутствует, программа будет искать до бесконечности.  

In [77]:
import re

In [80]:
pattern = r"9{1,3}$"

if re.match(pattern, "9"):
    print("match 1")

if re.match(pattern, "999"):
    print("match 2")

if re.match(pattern, "9999"):
    print("match 3")

match 1
match 2


>**"9{1,3}$"** соответствует строка с 1-3 девяток.

---

## Группы
---

Группа создается путем заключения части регулярного выражения в **круглые скобки** .  
Это означает, что группа может быть задана в качестве аргумента метасимволам, таким как * и ?.  

In [81]:
import re

In [82]:
pattern = r"egg(spam)*"

if re.match(pattern, "egg"):
    print("match 1")

if re.match(pattern, "eggspamspamegg"):
    print("match 2")

if re.match(pattern, "spam"):
    print("match 3")

match 1
match 2


>**(spam)** представляет собой группу внутри набора символов в примере вверху.

---

Содержание групп можно получить с помощью функции **group** .   
Вызов метода **group(0)** или **group()** возвращает все найденные совпадения.  
Вызов метода **group(n)**, где **n** больше 0, возвращает n-ю группу, считая слева.   
Метод **groups()** возвращает все группы, начиная с первой.  

In [83]:
import re

In [99]:
pattern = r"a(bc)(de)(f(g)h)i"
string = "abcdefghijklmnop"

if match := re.match(pattern, string):
    print(match.group())
    print(match.group(0))
    print(match.group(1))
    print(match.group(2))
    print(match.groups())

abcdefghi
abcdefghi
bc
de
('bc', 'de', 'fgh', 'g')


>Как вы видите в примере выше, группы могут быть вложенными.

---

Есть несколько типов специальных групп.  
Два наиболее важных: именованные группы и «незахватывающие» группы.  
Формат **именованных групп**: (**?P<name\>**...), где **name** - имя группы, а ... - содержание группы. У них точно такая же функциональность, как и у обычных групп, но их можно получить не только по номеру, но и с помощью метода **group(name)**.  
Формат «незахватывающих» групп: (**?:**...). Их нельзя получить по методу группы, поэтому их можно добавлять в регулярное выражение, не нарушая нумерацию.  

In [100]:
import re

In [102]:
pattern = r"(?P<first>abc)(?:def)(ghi)"
string = "abcdefghijklmnop"

if match := re.match(pattern, string):
    print(match.group("first"))
    print(match.groups())

abc
('abc', 'ghi')


---
Другой важный метасимвол: |.  
Он имеет значение «или».  

In [103]:
import re

In [104]:
pattern = r"gr(a|e)y"

if re.match(pattern, "grey"):
    print("match 1")

if re.match(pattern, "gray"):
    print("match 2")

if re.match(pattern, "griy"):
    print("match 3")

match 1
match 2


---
## Специальные последовательности
---

В регулярных выражениях также используются различные **специальные последовательности**. Их синтаксис записывается как бэкслэш, за которым следует другой символ.  
Одна такая специальная последовательность: бэкслэш и число между от 1 до 99, например, \1 или \17. Такая последовательность соответствует выражению группы с таким же числом.  

In [105]:
import re

In [123]:
pattern = r"(.+) \1"

if re.match(pattern, "word word"):
    print("match 1")

if re.match(pattern, "?! ?!"):
    print("match 2")

if re.match(pattern, "abc cde"):
    print("match 3")

match 1
match 2


>Обратите внимание, что (.+) \1 - не то же самое, что (.+) (.+), потому что \1 относится к подвыражению первой группы, которое само по себе является совпавшим выражением, а не набором символов регулярного выражения. То есть \1 означается повторение того, что было найдено в группе 1

In [121]:
pattern = r"(.+) (.+)"

if re.match(pattern, "ac fd"):
    print("match 1")

if re.match(pattern, "ghg hiogig"):
    print("match 2")

match 1
match 2


---
Есть другие специальные последовательности: **\d**, **\s** и **\w** .  
Они означают соответственно **цифр**ы (d от digits), **пробелы** (s от spaces) и **символы слов** (w от word characters).
В режиме ASCII им соответствуют **[0-9]**, **[ \t\n\r\f\v]** и **[a-zA-Z0-9_]**.  
В режиме Unicode они соответствуют также некоторым другим символам. Например, **\w** соответствует символам с диакритикой.
Если эти специальные последовательности записаны с заглавными буквами **(\D, \S и \W)**, они имеют противоположное значение.   Например, **\D** совпадет с любыми символами, кроме цифр.  

In [113]:
import re

In [119]:
pattern = r"(\D+\d)"

if re.match(pattern, "Hi 999!"):
    print("match 1")

if re.match(pattern, "1, 23, 456!"):
    print("match 2")

if re.match(pattern, " ! $?"):
    print("match 3")

match 1


>**(\D+\d)** будет искать один (или несколько) нецифровых символов с последующей цифрой.

---

Среди других специальных последовательностей: **\A**, **\Z** и **\b**.  
Последовательности **\A** и ****\Z** означают соответственно начало и конец строки.  
Последовательность **\b** соответствует пустой строке между символами **\w** и **\W**, или символами **\w** и началом или концом строки. Также неформально она означает словораздел.  
Последовательность **\B** соответствует пустой строке в любом другом месте.  

In [124]:
import re

In [127]:
pattern = r"\b(cat)\b"

if re.search(pattern, "the cat sat"):
    print("match 1")

if re.search(pattern, "GHf>cat<FJg@!"):
    print("match 2")

if re.search(pattern, "We scattered."):
    print("match 3")

match 1
match 2


>**\b(cat)\b** будет искать слово «cat», окруженное словоразделами.

---