##### Мораль

- Регулярные выражения используют особый синтаксис

- Регулярные выражения хороши для парсинга (имена файлов), валидации, модификации строк

- Шаблон всегда записывается как сырая строка

- **Не надо** учить значения всех мета-символов наизусть

- **Надо** понимать и всегда тестировать регулярное выражение (на хороших тестах)

- **Надо** понимать и всегда тестировать, что выводят функции и их методы (особенно при группировке и использовании мета-символов повтора)

- Начал(а) писать регулярку - допиши! (завтра не получится)

- **НЕ НАДО** парсить регулярками HTML

### Сырые строки и экранирование

**Экранируемые символы и их функционал:**

<details>
<summary>Спойлер:</summary>

| Символ   | Функция |
|-----|------------------------------------------------------|
| \\\  | Сам символ обратного слеша (остается один символ \) |
| \\'  | Апостроф (остается один ‘)                          |
| \\"  | Кавычка (остается один символ ")                    |
| \n  | Новая строка (перевод строки)                       |
| \r  | Перенос каретки                                     |
| \t  | Горизонтальная табуляция                            |
| \u… | 16-битовый символ Юникода в 16-ричном представлении |
| \U… | 32-битовый символ Юникода в 32-ричном представлении |
| \x… | 16-ричное значение                                  |

</details>


In [2]:
s = "Hello,\nworld"
print(s)

Hello,
world


In [3]:
print("\\")

\


In [4]:
print("\u10F0")

ჰ


In [7]:
print(r"\u10F0")

\u10F0


In [5]:
print("\U00001101")

ᄁ


#### Встроенная библиотека для работы с регулярными выражениями

In [8]:
import re

In [9]:
re.match

<function re.match(pattern, string, flags=0)>

In [10]:
re.search

<function re.search(pattern, string, flags=0)>

In [11]:
re.findall

<function re.findall(pattern, string, flags=0)>

In [12]:
re.sub

<function re.sub(pattern, repl, string, count=0, flags=0)>

**Основные функции библиотеки re**:

<details>
<summary></summary>

re.match(pattern, string) - подходит ли строка под шаблон (префикс)

re.search(pattern, string) - поиск первой подстроки, подходящей под шаблон

re.findall(pattern,  string) - поиск всех подстрок, подходящих под шаблон (непересекающихся)

re.sub(pattern, replacement, string) - замена всех подстрок, подходящих под шаблон, чем-то еще

</details>



re.match - поиск префиксов

In [17]:
pattern = r"cat"
s = "cat"
re.match(pattern, s)

<re.Match object; span=(0, 3), match='cat'>

In [18]:
pattern = r"cat"
s = "education"
re.match(pattern, s)

In [19]:
pattern = r"cat"
s = "catastrophe"
re.match(pattern, s)

<re.Match object; span=(0, 3), match='cat'>

**Методы:**

span() - удобно для слайсинга, кортеж из start и end

start()

end()

group() - возвращает вхождение

In [21]:
pattern = r"cat"
s = "catastrophe"
mtch_1 = re.match(pattern, s)

In [22]:
mtch_1.span()

(0, 3)

In [23]:
mtch_1.start()

0

In [24]:
mtch_1.end()

3

In [25]:
mtch_1.group()

'cat'

re.search - поиск первого вхождения

In [27]:
pattern = r"cat"
s = "education"
re.search(pattern, s)

<re.Match object; span=(3, 6), match='cat'>

(но только первого)

In [29]:
pattern = r"cat"
s = "education of scatterplot"
re.search(pattern, s)

<re.Match object; span=(3, 6), match='cat'>

**Мета-символы**

| - или (делит выражение на две части)

[] - варианты возможных символов в конкретной позиции

In [32]:
pattern = r"cat"
s_lst = ["cat", "cut", "vacation", "haircut"]
for string in s_lst:
    print(re.search(pattern, string))

<re.Match object; span=(0, 3), match='cat'>
None
<re.Match object; span=(2, 5), match='cat'>
None


In [33]:
pattern = r"cat|cut"
s_lst = ["cat", "cut", "vacation", "haircut"]
for string in s_lst:
    print(re.search(pattern, string))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cut'>
<re.Match object; span=(2, 5), match='cat'>
<re.Match object; span=(4, 7), match='cut'>


In [36]:
pattern = r"c[au]t"
s_lst = ["cat", "cut", "vacation", "haircut"]
for string in s_lst:
    print(re.search(pattern, string))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cut'>
<re.Match object; span=(2, 5), match='cat'>
<re.Match object; span=(4, 7), match='cut'>


In [37]:
pattern = r"c[aut]t"
s_lst = ["cat", "cut", "vacation", "haircut", "ctt"]
for string in s_lst:
    print(re.search(pattern, string))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cut'>
<re.Match object; span=(2, 5), match='cat'>
<re.Match object; span=(4, 7), match='cut'>
<re.Match object; span=(0, 3), match='ctt'>


In [39]:
%%time

for t in range(1000):
    "vacation".find("cat")

CPU times: user 234 μs, sys: 30 μs, total: 264 μs
Wall time: 270 μs


In [40]:
%%time

for t in range(1000):
    re.search(r"cat", "vacation")

CPU times: user 490 μs, sys: 64 μs, total: 554 μs
Wall time: 558 μs


re.findall(pattern, string) - поиск всех вхождений

re.sub(pattern, replacement, string) - замена всех вхождений

In [44]:
s = "My cat is the best cut of all. My cet is black and my neighbors' cit is white. Cut goes meow"
pattern = r"[Cc][auei]t"
re.findall(pattern, s)

['cat', 'cut', 'cet', 'cit', 'Cut']

re.sub не перезаписывает, а только возвращает измененную строку

In [45]:
s = "My cat is the best cut of all. My cet is black and my neighbors' cit is white. Cut goes meow"
pattern = r"[Cc][auei]t"
re.sub(pattern, "cat", s)

"My cat is the best cat of all. My cat is black and my neighbors' cat is white. cat goes meow"

Альтернативный способ использования шаблонов - re.compile()

In [47]:
pattern_2 = re.compile(r"[Cc][auei]t")

In [48]:
pattern_2.search(s)

<re.Match object; span=(3, 6), match='cat'>

In [49]:
pattern_2.findall(s)

['cat', 'cut', 'cet', 'cit', 'Cut']


Удобно в случаях, если один шаблон используется много раз (при предыдущем типе записи компиляция происходит каждый раз при вызове функции, но на скорость заметно это влияет при сложных регулярках)

In [50]:
%%time

pattern = r"Cat"
s = "Cat goes meow"

for i in range(1000):
    re.search(pattern, s)

CPU times: user 1.09 ms, sys: 10 μs, total: 1.1 ms
Wall time: 1.12 ms


In [51]:
%%time

cat = re.compile(r"Cat")
s = "Cat goes meow"

for i in range(1000):
    cat.search(s)

CPU times: user 258 μs, sys: 0 ns, total: 258 μs
Wall time: 262 μs


**Мета-символы** - расширение функционала паттерна, НО для использования в качестве обычных символов требуют экранирования \:

? - символ\группа не обязательно присутствуют

[] - множество подходящих символов

"-" - задает диапазон символов (a-z A-Z a-h 0-9)

[a-zA-z] - все буквы алфавита

^ - отрицание (если внутри [])

\d - [0-9] - любая цифра

\D - [^0-9] - что угодно, кроме цифры

\s - пробельный символ (любой, включая перенос строки)

\S - что угодно, кроме пробельного символа

\w - [a-zA-Z0-9_] - буквы, цифры, _

\W - [^a-zA-Z0-9_] - не буквы, цифры, _

. - любой символ, кроме переноса строки

In [52]:
s = "do you like cats?"
pattern = r"cats?"
re.search(pattern, s)

<re.Match object; span=(12, 16), match='cats'>

In [54]:
s = "do you like cat?"
pattern = r"cats?"
re.search(pattern, s)

<re.Match object; span=(12, 15), match='cat'>

In [56]:
s = "do you like cts?"
pattern = r"ca?ts"
re.search(pattern, s)

<re.Match object; span=(12, 15), match='cts'>

In [57]:
s = "do you like cats?"
pattern = r"cats\?"
re.search(pattern, s)

<re.Match object; span=(12, 17), match='cats?'>

In [59]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"[a-zA-Z]"
"".join(re.findall(pattern, s))

'doyoulikecatsihaveororidontremember'

In [60]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"[^a-zA-Z]"
"".join(re.findall(pattern, s))

"   ?   2  3  5  ' "

In [62]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"\d"
re.findall(pattern, s)

['2', '3', '5']

In [64]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"\D"
"".join(re.findall(pattern, s))


"do you like cats? i have  or  or  i don't remember"

In [67]:
s = "do you like cats? i have 2 or 3 or 5 i don't remembe_____r"
pattern = r"\w"
"".join(re.findall(pattern, s))

'doyoulikecatsihave2or3or5idontremembe_____r'

In [69]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"\W"
re.findall(pattern, s)

[' ', ' ', ' ', '?', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', "'", ' ']

In [71]:
s = "do you like cats?i have 2 or 3 or 5 i don't remember"
pattern = r"."
"".join(re.findall(pattern, s))

"do you like cats?i have 2 or 3 or 5 i don't remember"

In [72]:
s = "do you like cats?\ni have 2 or 3 or 5 i don't remember"
print(s)
pattern = r"."
"".join(re.findall(pattern, s))

do you like cats?
i have 2 or 3 or 5 i don't remember


"do you like cats?i have 2 or 3 or 5 i don't remember"

In [None]:
s = "do you like cats?\ni have 2 or 3 or 5 i don't remember"
print(s)
pattern = r""


In [None]:
# задача на перерыв ✨

s = """Есть те, чья тактичность помогает уладить любой спор, и рядом с ними становится спокойно. 
А бывают и такие, чья токсичность сразу чувствуется в разговоре — словно воздух тяжелеет. 
Иногда человек ведёт себя по-настоящему тактично, выбирая слова бережно, а иногда вдруг начинает говорить нетактично, 
и тогда его слова ранят сильнее, чем он сам предполагает.
Кто-то может оказаться сверхтактичным, он так боится задеть других, что теряет решительность, 
и тут же рядом появляется почти ультратоксичный чловек, превращающий каждое обсуждение в поле боя. 
Бывают и полутактичные люди: сегодня проявляют внимание, а завтра вдруг скатываются в атактичность. 
Точно так же встречаются и малотоксичные — вроде бы неприятные, но с ними ещё можно мириться, 
и прямо-таки высокотоксичные — рядом с ними коллектив разрушается на глазах.
Иногда кто-то старается вести себя тактичнее, учится на ошибках, а кто-то, наоборот, продолжает токсично 
реагировать на любую критику. И вот в этом смешении — тактичные жесты и токсичные слова, нетактичные поступки и редкая, 
но искренняя нетоксичность — и проявляется всё разнообразие человеческих характеров."""
pattern = r""
re.findall(pattern, s)

In [None]:
# задача на перерыв ✨

s = "\s\s....[]\\"
pattern = r""


**Больше мета-символов**

$ - конец строки

^ - вне квадратных скобок (!!!!!!!) - начало строки

\b - граница слов (пустая строка)

\B - пустая строка но не на границе слов

In [73]:
s = "kitty kitty"
pattern = r"kitty"
re.findall(pattern, s)

['kitty', 'kitty']

In [74]:
s = "kitty kitty"
pattern = r"^kitty"
re.findall(pattern, s)

['kitty']

In [75]:
s = "kitty\nkitty"
pattern = r"^kitty"
re.findall(pattern, s)

['kitty']

In [76]:
s = "kitty kitty"
pattern = r"kitty$"
re.findall(pattern, s)

['kitty']

In [77]:
s = "kitty kitty"
pattern = r"kitty$"
re.search(pattern, s)

<re.Match object; span=(6, 11), match='kitty'>

In [78]:
s = "kitty sjdghfsdgdsjbsdfgsfbsf kitty"
pattern = r"^k.*y$"
re.search(pattern, s)

<re.Match object; span=(0, 34), match='kitty sjdghfsdgdsjbsdfgsfbsf kitty'>

In [79]:
s = "kitty sjdghfsdgdsjbsdfgsfbsf kitty "
pattern = r"^k.*y$"
re.search(pattern, s)

In [80]:
s = "kitty cat kitten"
pattern = r"\b"
re.findall(pattern, s)

['', '', '', '', '', '']

In [81]:
s = "kitty cat kitten"
pattern = r"\B"
re.findall(pattern, s)

['', '', '', '', '', '', '', '', '', '', '']

In [84]:
s = "caterpillar vacation tomcat cat"
pattern = r"\Bcat\B"
re.findall(pattern, s)

['cat']

In [85]:
s = "caterpillar vacation tomcat cat"
pattern = r"\w*\Bcat\B\w*"
re.findall(pattern, s)

['vacation']

In [86]:
s = "caterpillar vacation tomcat cat"
pattern = r"\w\Bcat\B\w"
re.findall(pattern, s)

['acati']

In [89]:
s = "caterpillar vacation tomcat cat"
pattern = r"cat\B"
re.findall(pattern, s)

['cat', 'cat']

**Число повторов символа** - используется после символа

\* - любое кол-во данного символа, включая 0 

\+ - любое кол-во данного символа, не включая 0

? - 0 или 1 

{} - в фигурные скобки заключается искомое кол-во повторов символа. 

b{5} == bbbbb 

b{1, 3} от 1 до 3 b (included borders)

b{1,} от 1 до любого кол-ва b



In [92]:
s = "cattttttttttt"
pattern = r"cat{2}" # r'catt'
re.search(pattern, s)

<re.Match object; span=(0, 4), match='catt'>

In [94]:
s = "ca ttttttttttt"
pattern = r"cat?" # r'catt'
re.search(pattern, s)

<re.Match object; span=(0, 2), match='ca'>

In [96]:
s = "cattttttttttt"
pattern = r"cat+" 
re.search(pattern, s)

<re.Match object; span=(0, 13), match='cattttttttttt'>

**Жадный алгоритм поиска** - возвращается самое длинное подходящее вхождение паттерна в строку

In [None]:
pattern = r""
s = r"catatat"
#s = "cat"


In [97]:
s = "cattttttttttt"
pattern = r"cat+?"
re.search(pattern, s)

<re.Match object; span=(0, 3), match='cat'>

**Как сделать алгоритм поиска не жадным (ленивым)**, то есть чтобы вернулось самое короткое вхождение паттерна в строку?

(поставить ? после мета-символа, отвечающего за количество)

In [None]:
pattern = r""
s = "catatat"
re.search(pattern, s)

In [None]:
text = "catdogcat"
pattern = r"c.*t"
re.search(pattern, text)

In [None]:
text = "catdogcat"
pattern = r"c.*t"
re.search(pattern, text)

In [None]:
text = "<tag>content</tag>"
pattern = r"<.*>"
match = re.search(pattern, text)

print("Greedy:", match.group())

In [None]:
text = "<tag>content</tag>"
pattern = r"<.*?>"
match = re.search(pattern, text)

print("Non-Greedy:", match.group())

Использование мета-символов, определяющих жадность или ленивость поиска в выражениях с заданным числом повторов 

{}? 

{} 

In [None]:
pattern = r""
s = "roarrrrrrr"
re.match(pattern, s)

In [None]:
pattern = r""
s = "roarrrrrrr"
re.match(pattern, s)

In [None]:
pattern = r"a{3,5}aa"
s = "aaaaaa"
len(re.match(pattern, s).group())

**Группировка символов**

Метасимвол () - выделяют группу, номера групп соответствуют порядку открывающих скобок

Метасимвол | - или внутри группы

In [None]:
s = "caterpillar cat catcat catcatcat"
pattern = r"cat"
#pattern = r"(cat)"
print(re.search(pattern, s))
print(re.findall(pattern, s))

In [None]:
s = "caterpillar cat catcat catcatcat"
pattern = r"(cat){2}"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

Без использования групп | делит выражение на две части

In [None]:
s = "catkitty"
#s = "kittycat"
pattern = r"cat|kitty"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

In [None]:
s = "cat cat kitty kitty"
s = "cat cat kitty kitty cat kitty"
pattern = r"((cat|kitty) (kitty))"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

In [None]:
s = "Lana Del Rey"
pattern = r""
re.search(pattern, s)

Внимательнее с * и пустыми строками!

In [None]:
s = "GCGTATATATATGCGCGAT"
pattern = r"(AT)*"
#pattern = r"(AT)+"
#pattern = r"T(AT)*"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

Внимательнее с мета-символами повторения и тем, что возвращает функция search!

search.groups() - запомнит последний подходящий элемент во вхождение

In [None]:
s = "catkitty"
#s = "kittycat"
pattern = r"(cat|kitty)+"
print(re.search(pattern, s))
print(re.search(pattern, s).group())
print(re.search(pattern, s).groups())

При группировке нужно тестировать и понимать, что возвращает каждая из функций.

<details>
<summary>Спойлер: </summary>

re.search(pattern, string) - первое вхождение (все как мы любим)

re.search(pattern, string).groups() - кортеж из того, в какие группы попало, а в какие не попало первое вхождение

re.findall(pattern, string) - лист, соответствующий количеству вхождений, из кортежей длиной кол-ва групп

</details>


In [None]:
s = "catdog"
pattern = r"(cat|(dog|fish))"
#pattern = r"((dog|fish)|cat)" 
#pattern = r"((cat)|(dog|fish))" 
print(re.search(pattern, s))
print(re.search(pattern, s).groups()) #

print(re.findall(pattern, s)) 


In [None]:
s = "catdog"
pattern = r"((cat)|(dog|fish))"
print(re.search(pattern, s))
print(re.search(pattern, s).groups()) 
print(re.findall(pattern, s)) 

In [None]:
s = "catdog"
pattern = r"(cat|(cat|cat))"

print(re.search(pattern, s))
print(re.search(pattern, s).groups()) 
print(re.findall(pattern, s))

**Использование номеров групп**

Группы нумеруются согласно очередности открывающих скобок

In [102]:
s = "Cillian Murphy, Emily Blunt, Matt Damon, Robert Downey, Florence Pugh"
pattern = r"(([a-zA-Z]+) *([a-zA-Z]+))"

print(re.findall(pattern, s))
print(len(re.findall(pattern, s)))

[('Cillian Murphy', 'Cillian', 'Murphy'), ('Emily Blunt', 'Emily', 'Blunt'), ('Matt Damon', 'Matt', 'Damon'), ('Robert Downey', 'Robert', 'Downey'), ('Florence Pugh', 'Florence', 'Pugh')]
5


In [107]:
s = "Cillian Murphy, Emily Blunt, Matt Damon, Robert Downey, Florence Pugh"
pattern = r"(([a-zA-Z]+) *([a-zA-Z]+))"

print(re.sub(pattern, r"Family name: \3 \3 \1", s))

Family name: Murphy Murphy Cillian Murphy, Family name: Blunt Blunt Emily Blunt, Family name: Damon Damon Matt Damon, Family name: Downey Downey Robert Downey, Family name: Pugh Pugh Florence Pugh


In [None]:
s = "Le bon-bon"
pattern = r""
print(re.search(pattern, s))

In [None]:
s = "Le bon-bon"
pattern = r""
print(re.search(pattern, s))

**Для тех, кто хочет знать, насколько глубока кроличья нора**

Флаги

re.S re.DOTALL - чтобы . соответствовала в том числе переносу строки

re.DEBUG - для вывода дополнительной информации

re.X re.VERBOSE - для записи паттерна на нескольких строках

re.I, re.IGNORECASE - игнорировать регистр

In [None]:
re.compile(".*").match("Allons enfants de la patrie,\n le jour de gloire est arrivee!").group()

In [None]:
re.compile(".*", flags=re.DOTALL).match("Allons enfants de la patrie,\n le jour de gloire est arrivee!").group()

In [None]:
pattern = r"text"
s = "TEXT"
re.match(pattern, s, re.IGNORECASE)

In [None]:
pattern = r"text"
s = "TEXT"
re.match(pattern, s, re.DEBUG) 

In [None]:
pattern = r"((\w+)\s)+(\w+)\?"
s = "What if we repented?"
re.search(pattern, s)

In [None]:
pattern = r"""((\w+)\s)+
              (\w+)\?"""
s = "What if we repented?"
re.search(pattern, s, re.X)

А что если группа не нужна?

?:  мета-символ (в начале группы) для её "пропуска"

In [None]:
s = "Margot Robbie, Ryan Gosling, America Ferrera"

pattern = r"(\w+) (?:\w+)"

matches = re.findall(pattern, s)

for match in matches:
    print(f"Last Name: {match}")

print(re.findall(pattern, s))

re.sub(pattern, r"Last Name: \1", s)


re.match(pattern, string).groupdict() - вернет словарь с вхождениями каждой группы согласно названиям,

НО необходимо задать внутри каждой группы в начале ее имя конструкций ?P\<groupname\>

In [None]:
s = "12376 232 23823"
pattern = r"(?P<first>\d+) (?P<second>\d+) (?P<third>\d+)"
match = re.match(pattern, s)
match.groupdict()

fidnall с перекрывающимися подстроками - использовать ?=

In [None]:
s = "124781236"
pattern = r"(?=(\d{3}))"
print(re.findall(pattern, s))

Регулярка для парсинга e-mail (просто посмотреть):

(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])

Ещё пара полезных ссылок:

[туть песочница](https://regex101.com/)

[моё любимое эссе на тему регэкспов](https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags)
