##### Мораль

- Регулярные выражения используют особый синтаксис

- Регулярные выражения хороши для парсинга (имена файлов), валидации, модификации строк

- Шаблон всегда записывается как сырая строка

- **Не надо** учить значения всех мета-символов наизусть

- **Надо** понимать и всегда тестировать регулярное выражение (на хороших тестах)

- **Надо** понимать и всегда тестировать, что выводят функции и их методы (особенно при группировке и использовании мета-символов повтора)

- Начал(а) писать регулярку - допиши! (завтра не получится)

- **НЕ НАДО** парсить регулярками HTML

#### Сырые строки и экранирование

**Экранируемые символы и их функционал:**

<details>
<summary>Спойлер:</summary>

| Символ   | Функция |
|-----|------------------------------------------------------|
| \\\  | Сам символ обратного слеша (остается один символ \) |
| \\'  | Апостроф (остается один ‘)                          |
| \\"  | Кавычка (остается один символ ")                    |
| \n  | Новая строка (перевод строки)                       |
| \r  | Перенос каретки                                     |
| \t  | Горизонтальная табуляция                            |
| \u… | 16-битовый символ Юникода в 16-ричном представлении |
| \U… | 32-битовый символ Юникода в 32-ричном представлении |
| \x… | 16-ричное значение                                  |
| \o… | 8-ричное значение                                    |

</details>

(плюс немного напоминаний о строковых символах)

In [1]:
s = "Hello,\nworld"
print(s)

Hello,
world


In [2]:
s = r'Hello,\nworld'
print(s)

Hello,\nworld


In [3]:
print("string\ttabulation")
print(r"string\ttabulation")

string	tabulation
string\ttabulation


In [4]:
print("Where's my cat?")
print('Where\'s my cat?')
print(r"Where\'s my cat?")
print('Where\'s my cat?')

Where's my cat?
Where's my cat?
Where\'s my cat?
Where's my cat?


In [5]:
print("backslash: '\' is shown?")
print("backslash: '\\' is shown?")
print("backslash: '\\\' is shown?")
print("backslash: \'\\\' is shown?")

backslash: '' is shown?
backslash: '\' is shown?
backslash: '\' is shown?
backslash: '\' is shown?


In [6]:
print("string\"")

string"


In [7]:
print("aaa\rbbbbbbbbbbb\rcc")

ccbbbbbbbbb


In [8]:
print("\u10F0")

ჰ


In [9]:
print("\U00001101")

ᄁ


#### Встроенная библиотека для работы с регулярными выражениями

In [11]:
import re

In [8]:
print(re.match)
print(re.search)
print(re.findall)
print(re.sub)

<function match at 0x7fb9868dcdc0>
<function search at 0x7fb98688d3a0>
<function findall at 0x7fb98688d5e0>
<function sub at 0x7fb98688d430>


**Основные функции библиотеки re**

re.match(pattern, string) - подходит ли строка под шаблон (префикс)

re.search(pattern, string) - поиск первой подстроки, подходящей под шаблон

re.findall(pattern,  string) - поиск всех подстрок, подходящих под шаблон (непересекающихся)

re.sub(pattern, replacement, string) - замена всех подстрок, подходящих под шаблон, чем-то еще

re.match - поиск префиксов

In [9]:
pattern = r"cat"
s = "cat"
re.match(pattern, s)

<re.Match object; span=(0, 3), match='cat'>

In [15]:
pattern = r"edu"
s = "education cation"
print(re.match(pattern, s))

<re.Match object; span=(0, 3), match='edu'>


In [16]:
pattern = r"cat"
s = "education catastrophe"
re.match(pattern, s)

**Методы:**

span() - удобно для слайсинга, кортеж, кортеж из start и end

start()

end()

group() - возвращает вхождение

In [12]:
pattern = r"cat"
s = "catastrohe"
match1 = re.match(pattern, s)
match1

<re.Match object; span=(0, 3), match='cat'>

In [13]:
match1.span()

(0, 3)

In [14]:
match1.start()

0

In [15]:
match1.end()

3

In [16]:
match1.group()

'cat'

re.search - поиск первого вхождения

In [28]:
pattern = r"cat"
s = "education"
#s = "catastrophe"
#s = "dhgsjdsdgyjcat"
re.search(pattern, s)

<re.Match object; span=(3, 6), match='cat'>

(но только первого)

In [29]:
pattern = r"cat"
s = "education of scatterplot"
re.search(pattern, s)

<re.Match object; span=(3, 6), match='cat'>

**Мета-символы**

| - или (делит выражение на две части)

[] - варианты возможных символов в конкретной позиции

In [34]:
pattern = r"c[au]t"
s_lst = ["cat", "cut", "vacation", "haircut"]
for string in s_lst:
    print(re.search(pattern, string))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cut'>
<re.Match object; span=(2, 5), match='cat'>
<re.Match object; span=(4, 7), match='cut'>


In [17]:
pattern = r"cat|cut"
#pattern = r"cat|vacat"
s_lst = ["cat", "cut", "vacation", "haircut"]
for string in s_lst:
    print(re.search(pattern, string))

<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 3), match='cut'>
<re.Match object; span=(2, 5), match='cat'>
<re.Match object; span=(4, 7), match='cut'>


re.findall(pattern, string) - поиск всех вхождений

re.sub(pattern, replacement, string) - замена всех вхождений

In [46]:
s = "My cat is the best cut of all. My cet is black and my neighbors' cit is white. Cut ctt goes meow"
pattern = r"[Cc]\wt"
re.findall(pattern, s)

['cat', 'cut', 'cet', 'cit', 'Cut', 'ctt']

In [43]:
re.sub(pattern, "cat", s)

"My cat is the best cat of all. My cat is black and my neighbors' cat is white. cat goes meow"

re.sub не перезаписывает, а только возвращает измененную строку

In [44]:
s

"My cat is the best cut of all. My cet is black and my neighbors' cit is white. Cut goes meow"

Альтернативный способ использования шаблонов - re.compile()

In [18]:
expr = re.compile(r"c[aeu]t")

In [20]:
expr.match("caterpillar")

<re.Match object; span=(0, 3), match='cat'>

In [48]:
expr.search("abracatabra")

<re.Match object; span=(4, 7), match='cat'>

In [49]:
expr.findall("cat cut cet")

['cat', 'cut', 'cet']

In [21]:
expr.sub("dog", "I have a cat, I want to cut my hair")

'I have a dog, I want to dog my hair'


Удобно в случаях, если один шаблон используется много раз (при предыдущем типе записи компиляция происходит каждый раз при вызове функции, но на скорость заметно это влияет при сложных регулярках)

In [50]:
%%time

pattern = r"Cat"
s = "Cat goes meow"

for i in range(1000):
    re.search(pattern, s)

CPU times: user 867 µs, sys: 109 µs, total: 976 µs
Wall time: 986 µs


In [51]:
%%time

cat = re.compile(r"[Cc]at")
s = "Cat goes meow"

for i in range(1000):
    cat.search(s)

CPU times: user 208 µs, sys: 27 µs, total: 235 µs
Wall time: 239 µs


**Мета-символы** - расширение функционала паттерна, НО для использования в качестве обычных символов требуют экранирования \:

? - символ\группа не обязательно присутствуют

[] - множество подходящих символов

"-" - задает диапазон символов (a-z A-Z a-h 0-9)

[a-zA-Z] - все буквы алфавита

^ - отрицание (если внутри [])

\d - [0-9] - любая цифра

\D - [^0-9] - что угодно, кроме цифры

\s - пробельный символ (любой, включая перенос строки)

\S - что угодно, кроме пробельного символа

\w - [a-zA-Z0-9_] - буквы, цифры, _

\W - [^a-zA-Z0-9_] - не буквы, цифры, _

. - любой символ, кроме переноса строки

? - символ\группа не обязательно присутствуют

In [54]:
s = "do you like cats?"
pattern = r"cats\?"
re.search(pattern, s)

<re.Match object; span=(12, 17), match='cats?'>

In [53]:
s = "do you like cat?"
pattern = r"cats?"
re.search(pattern, s)

<re.Match object; span=(12, 15), match='cat'>

In [56]:
s = "do you like cat?"
pattern = r"[a-zA-Z]"
re.findall(pattern, s)

['d', 'o', 'y', 'o', 'u', 'l', 'i', 'k', 'e', 'c', 'a', 't']

In [58]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"[^a-zA-Z]"
"".join(re.findall(pattern, s))

"   ?   2  3  5  ' "

In [62]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"\d"
#pattern = r"[0-9]"
re.findall(pattern, s)

['2', '3', '5']

In [63]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"\D"
#pattern = r"[^0-9]"
"".join(re.findall(pattern, s))

"do you like cats? i have  or  or  i don't remember"

In [70]:
s = "do you like cats? i haveg 2 or 3 or 5_ i don'tremember"
pattern = r"\w\w\w\w\w"
re.findall(pattern, s)

['haveg', 'treme']

In [68]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"....."
re.findall(pattern, s)

['do yo',
 'u lik',
 'e cat',
 's? i ',
 'have ',
 '2 or ',
 '3 or ',
 '5 i d',
 "on't ",
 'remem']

In [71]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
pattern = r"\s"
re.findall(pattern, s)

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']

In [77]:
s = "do you like cats? i have 2 or 3 or 5 i don't remember"
print(s)
pattern = r"\scats\?\s"
re.findall(pattern, s)

do you like cats? i have 2 or 3 or 5 i don't remember


[' cats? ']

In [73]:
s = "do you like cats?\ni have 2 or 3 or 5 i don't remember"
print(s)
pattern = r"\S"
re.findall(pattern, s)

do you like cats?
i have 2 or 3 or 5 i don't remember


['d',
 'o',
 'y',
 'o',
 'u',
 'l',
 'i',
 'k',
 'e',
 'c',
 'a',
 't',
 's',
 '?',
 'i',
 'h',
 'a',
 'v',
 'e',
 '2',
 'o',
 'r',
 '3',
 'o',
 'r',
 '5',
 'i',
 'd',
 'o',
 'n',
 "'",
 't',
 'r',
 'e',
 'm',
 'e',
 'm',
 'b',
 'e',
 'r']

In [83]:
s = "\s\s..h.[]\\"
pattern = r"\\s\\s\.\..\.\[\]\\"
re.search(pattern, s)

<re.Match object; span=(0, 11), match='\\s\\s..h.[]\\'>

In [79]:
s = "gsts123"
pattern = r"[a-z][a-z][a-z][a-z]123"
re.match(pattern, s)

<re.Match object; span=(0, 7), match='gsts123'>

**Больше мета-символов**

$ - конец строки

^ - вне квадратных скобок (!!!!!!!) - начало строки

\b - граница слов (пустая строка)

\B - пустая строка но не на границе слов (граница между символами)

In [86]:
s = "kitty kitty"
pattern = r"kitty$"
re.search(pattern, s)

<re.Match object; span=(6, 11), match='kitty'>

In [87]:
s = "kitty kitty"
pattern = r"^kitty"
re.search(pattern, s)

<re.Match object; span=(0, 5), match='kitty'>

In [94]:
s = "kitty"
pattern = r"^k.*y$"
re.search(pattern, s)

<re.Match object; span=(0, 5), match='kitty'>

In [96]:
s = "kitty cat kitten"
pattern = r"\b"
len(re.findall(pattern, s))

6

In [99]:
# Как найти только подстроку cat?

s = "caterpillar vacation tomcat cat"
pattern = r"\bcat"
re.findall(pattern, s)

['cat', 'cat']

In [101]:
s = "caterpillar vacation tomcat cat"
pattern = r"\w*\Bcat\B\w*"
re.findall(pattern, s)

['vacation']

**Число повторов символа** - используется после символа

\* - любое кол-во данного символа, включая 0 

\+ - любое кол-во данного символа, не включая 0

? - 0 или 1 

{} - в фигурные скобки заключается искомое кол-во повторов символа. 

b{5} == bbbbb 

b{1, 3} от 1 до 3 b (included borders)

b{1,} от 1 до любого кол-ва b



In [22]:
s = "catt"
pattern = r"cat{2}"
re.findall(pattern, s)

['catt']

In [105]:
s = "b bb bbb"
pattern = r"b+"
re.findall(pattern, s)

['b', 'bb', 'bbb']

**Жадный алгоритм поиска** - возвращается самое длинное подходящее вхождение паттерна в строку

In [110]:
pattern = r"c[at]+"
s = "catataaattttttaat"
#s = "cat"
re.search(pattern, s)

<re.Match object; span=(0, 17), match='catataaattttttaat'>

In [114]:
pattern = r"c[at]+?"
s = "catataaattttttaat"
#s = "cat"
re.search(pattern, s)

<re.Match object; span=(0, 2), match='ca'>

**Как сделать алгоритм поиска не жадным (ленивым)**, то есть чтобы вернулось самое короткое вхождение паттерна в строку?

(поставить ? после мета-символа, отвечающего за количество)

In [42]:
pattern = r"c[at]*t"
#pattern = r"c[at]*?t"
s = "catatat"
re.search(pattern, s)

In [23]:
text = "catdogcat"
pattern = r"c[a-z]+t"
#pattern = r"c[a-z]+?t"
re.search(pattern, text)

<re.Match object; span=(0, 9), match='catdogcat'>

Использование мета-символов, определяющих жадность или ленивость поиска в выражениях с заданным числом повторов от a (нижняя граница **включительно**) до b (верхняя граница **включительно**)

{a,b}?  ленивый поиск (меньшая подстрока)

{a,b} "адекватно жадный" поиск

{a,b}+ очень-очень-очень жадный поиск (лично я в этой конструкции вообще не вижу смысл, советую избегать)

In [24]:
pattern = r"roar{1,}?"
s = "roarrrrrrr"
re.match(pattern, s)

<re.Match object; span=(0, 4), match='roar'>

In [25]:
pattern = r"roar{1,}"
s = "roarrrrrrr"
re.match(pattern, s)

<re.Match object; span=(0, 10), match='roarrrrrrr'>

В следующих трех ячейках советую попробовать разобраться, только если очень хочется, это уже кроличья нора

In [26]:
pattern = r"a{3,5}aa"
s = "aaaaaa"
len(re.match(pattern, s).group())

6

In [27]:
pattern = r"a{3,5}?aa"
s = "aaaaaa"
len(re.match(pattern, s).group())

5

In [29]:
# Суть разобраться тут заключается в ответе на вопрос, почему тут все падает
pattern = r"a{3,5}+aa"
s = "aaaaaa"
re.match(pattern, s)

error: multiple repeat at position 6

**Группировка символов**

Метасимвол () - выделяют группу, номера групп соответствуют порядку открывающих скобок

Метасимвол | - или внутри группы

Метод .groups() - выводит кортеж из найденных подстрок согласно группам: какая группа что нашла

In [33]:
# Использовать группы без символов повторений практически ничего не изменит


s = "caterpillar catcat"
pattern = r"(cat)"
print(re.search(pattern, s))
print(re.findall(pattern, s))

<re.Match object; span=(0, 3), match='cat'>
['cat', 'cat', 'cat']


In [32]:
# Кроличья нора
# А вот это тот пример, когда начинает становиться понятно,
# что при использовании групп findall начинает себя немного "странно" вести,
# (на самом деле все ок) потому, что выдал нам не совпадение catcat,
# которое мы искали, а просто cat - потому что его мы сделали группой
# Упс. 

s = "caterpillar cat catcat catcatcat"
pattern = r"(cat){2}"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

<re.Match object; span=(16, 22), match='catcat'>
('cat',)
['cat', 'cat']


Без использования групп | делит выражение на две части

**При использовании групп поведение некоторых методов меняется**

Номера групп соответствуют порядку первых открывающих скобок 

match().group(), search().group() - вернет найденное вхождение

match().groups(), search().groups() - вернет кортеж с обнаруженным вхождением для каждой из групп по порядку

findall() - для каждого обнаруженного совпадения в строке вернет кортеж с обнаруженным вхождением для каждой из групп

Следующие три ячейки - тоже углубление в вывод методов при использовании группировки. Можете поразбираться, разкомментить строки, сравнить выводы.

Или признать, что если используете группировку, то тестировать вывод и на практике делать такую регулярку, которая выводит именно то, что вам нужно.

In [35]:
s = "catkitty"
#s = "kittycat"
pattern = r"cat|kitty"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

<re.Match object; span=(0, 3), match='cat'>
()
['cat', 'kitty']


In [36]:
s = "catkitty"
#s = "kittycat"
pattern = r"(cat|kitty)"
print(re.search(pattern, s))
print(re.search(pattern, s).groups()) # вернется первое обнаруженное вхождение!
print(re.findall(pattern, s))

<re.Match object; span=(0, 3), match='cat'>
('cat',)
['cat', 'kitty']


In [38]:
# surprise - если используем символ повторения, то запомнится последнее вхождение

s = "catkitty"
#s = "kittycat"
pattern = r"(cat|kitty)+"
print(re.search(pattern, s))
print(re.search(pattern, s).groups()) # вернется первое обнаруженное вхождение!
print(re.findall(pattern, s))

<re.Match object; span=(0, 8), match='catkitty'>
('kitty',)
['kitty']


In [None]:
# Чтобы расслабиться - написать регулярку, чтобы в каждую группу поместилась
# каждая отдельная часть имени

s = "Lana Del Rey" 
pattern = r""
re.search(pattern, s)

Внимательнее с * и пустыми строками!

In [86]:
s = "GCGTATATAGCGAT"
pattern = r""


При группировке нужно тестировать и понимать, что возвращает каждая из функций.

<details>
<summary>Напоминание: </summary>

re.search(pattern, string) - первое вхождение (все как мы любим)

re.search(pattern, string).groups() - кортеж из того, в какие группы попало, а в какие не попало первое вхождение

re.findall(pattern, string) - лист, соответствующий количеству вхождений, из кортежей длиной кол-ва групп

</details>

(пример ниже может быть немного сложным, это так, интерености поведения группировки)

In [42]:
s = "catdog"
pattern = r"(cat|(dog|fish))"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

<re.Match object; span=(0, 3), match='cat'>
('cat', None)
[('cat', ''), ('dog', 'dog')]


In [44]:
s = "catdog"
pattern = r"((cat)|(dog|fish))"
print(re.search(pattern, s))
print(re.search(pattern, s).groups())
print(re.findall(pattern, s))

<re.Match object; span=(0, 3), match='cat'>
('cat', 'cat', None)
[('cat', 'cat', ''), ('dog', '', 'dog')]


**Использование номеров групп**

Группы нумеруются согласно очередности открывающих скобок

In [49]:
s = "Margot Robbie, Ryan Gosling, America Ferrera"
pattern = r"((\w+) (\w+))"
re.sub(pattern, r"\2 wow \3", s)

'Margot wow Robbie, Ryan wow Gosling, America wow Ferrera'

In [46]:
print(re.sub(pattern, r"Surname: \3", s))
print(re.sub(pattern, r"Name: \2", s))
print(re.sub(pattern, r"Name, Surname: \1", s))

Surname: Robbie, Surname: Gosling, Surname: Ferrera
Name: Margot, Name: Ryan, Name: America
Name, Surname: Margot Robbie, Name, Surname: Ryan Gosling, Name, Surname: America Ferrera


Группы можно использовать и внутри регулярного выражения

In [50]:
s = "Le bon-bon"
pattern = r"(\w+)-\1"
print(re.search(pattern, s))
print(re.sub(pattern, r"\1", s))

<re.Match object; span=(3, 10), match='bon-bon'>
Le bon


In [52]:
# Задача со звездочкой: почему все падает, и как исправить?
s = "Le bon-bon"
pattern = r"((\w+)-\1)"
print(re.search(pattern, s))
print(re.sub(pattern, r"\1", s))

error: cannot refer to an open group at position 7

**Для тех, кто хочет знать, насколько глубока кроличья нора**

(очень)

Флаги

re.S re.DOTALL - чтобы . соответствовала в том числе переносу строки

re.DEBUG - для вывода дополнительной информации

re.X re.VERBOSE - для записи паттерна на нескольких строках (как по мне, лучший флаг из всех для читабельности регулярного выражения)

In [53]:
re.compile(r".*").match("Allons enfants de la patrie,\n le jour de gloire est arrivee!").group()

'Allons enfants de la patrie,'

In [54]:
re.compile(r".*", flags=re.DOTALL).match("Allons enfants de la patrie,\n le jour de gloire est arrivee!").group()

'Allons enfants de la patrie,\n le jour de gloire est arrivee!'

In [55]:
pattern = r"text"
s = "TEXT"
re.match(pattern, s, re.IGNORECASE)


<re.Match object; span=(0, 4), match='TEXT'>

In [56]:
pattern = r"text"
s = "TEXT"
re.match(pattern, s, re.DEBUG) # добавление флагов через |

LITERAL 116
LITERAL 101
LITERAL 120
LITERAL 116

 0. INFO 14 0b11 4 4 (to 15)
      prefix_skip 4
      prefix [0x74, 0x65, 0x78, 0x74] ('text')
      overlap [0, 0, 0, 1]
15: LITERAL 0x74 ('t')
17. LITERAL 0x65 ('e')
19. LITERAL 0x78 ('x')
21. LITERAL 0x74 ('t')
23. SUCCESS


In [57]:
pattern = r"((\w+)\s)+(\w+)\?"
s = "What if we repented?"
re.search(pattern, s)

<re.Match object; span=(0, 20), match='What if we repented?'>

In [59]:
#  очень удобно разбить сложный шаблон на смысловые части
# и каждую можно закомментировать

pattern = r"""((\w+)\s)+
              (\w+)\?"""
s = "What if we repented?"
re.search(pattern, s, re.X)

<re.Match object; span=(0, 20), match='What if we repented?'>

А что если группа не нужна?

?:  мета-символ (в начале группы) для её "пропуска"

In [62]:
s = "Margot Robbie, Ryan Gosling, America Ferrera"

pattern = r"(\w+) (?:\w+)"
#pattern = r"(\w+) (\w+)" # для сравнения и вторым ре сабом
#pattern = r"(?:\w+) (\w+)" # для сравнения: порядок групп меняется, то есть группа с ?: просто исчезает

matches = re.findall(pattern, s)

for match in matches:
    print(f"Last Name: {match}")

print(re.findall(pattern, s))

re.sub(pattern, r"Last Name: \1", s)
#re.sub(pattern, r"Last Name: \2", s) # попробуйте разкомментить и посмотреть, что будет

Last Name: Margot
Last Name: Ryan
Last Name: America
['Margot', 'Ryan', 'America']


'Last Name: Margot, Last Name: Ryan, Last Name: America'

re.match(pattern, string).groupdict() - вернет словарь с вхождениями каждой группы согласно названиям,

НО необходимо задать внутри каждой группы в начале ее имя конструкций ?P\<groupname\>

In [63]:
s = "12376 232 23823"
pattern = r"(?P<first>\d+) (?P<second>\d+) (?P<third>\d+)"
match = re.match(pattern, s)
match.groupdict()

{'first': '12376', 'second': '232', 'third': '23823'}

fidnall с перекрывающимися подстроками - использовать ?=

In [64]:
s = "124781236"
pattern = r"(?=(\d{3}))"
print(re.findall(pattern, s))

['124', '247', '478', '781', '812', '123', '236']


Регулярка для парсинга e-mail (просто посмотреть):

(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])

Ещё пара полезных ссылок:

[туть песочница](https://regex101.com/)

[моё любимое эссе на тему регэкспов](https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags)


##### Мораль

- Регулярные выражения используют особый синтаксис

- Регулярные выражения хороши для парсинга (имена файлов), валидации (пароли), модификации строк

- Шаблон всегда записывается как сырая строка

- **Не надо** учить значения всех мета-символов наизусть

- **Надо** понимать и всегда тестировать регулярное выражение (на хороших тестах)

- **Надо** понимать и всегда тестировать, что выводят функции и их методы (особенно при группировке и использовании мета-символов повтора)

- Начал(а) писать регулярку - допиши! (завтра не получится)

- **НЕ НАДО** парсить регулярками HTML