Регулярний вираз — це рядок, який визначає шаблон пошуку підрядків у тексті. Одному шаблону може відповідати багато різних рядків. Термін "Регулярні вирази" є перекладом англійського словосполучення "Regular expressions". Переклад не дуже точно відображає зміст, правильніше було б «шаблонні вирази». Регулярний вираз, або коротко «регулярка», складається із звичайних символів та спеціальних командних послідовностей. Наприклад, \d задає будь-яку цифру, а \d+ - задає будь-яку послідовність з однієї чи більше цифр. Робота з регулярками реалізована у всіх сучасних мовах програмування. Однак існує кілька «діалектів», тому функціонал регулярних виразів може відрізнятись від мови до мови. У деяких мовах програмування регулярками користуватися дуже зручно (наприклад, у Python), у деяких — не надто (наприклад, C++).

In [2]:
import re

<h3>Засоби роботи з регулярками у Python</h3>

<b>re.search(pattern, string)</b> - пошук у рядку string першого підрядку(подстроки), який відповідає шаблону pattern.

In [2]:
match = re.search(r'\d\d\D\d', r'Телефон 123-12-12')
print(match[0] if match else 'Not found')

23-1


<b>re.fullmatch(pattern, string)</b> - перевірити, чи підходить рядок string під шаблон pattern.

In [3]:
match = re.fullmatch(r'\d\d\D\d\d', r'12-12') 
print('YES' if match else 'NO') 

YES


<b>re.split(pattern, string, maxsplit=0)</b> - аналог str.split(), тільки розрізання виконується по рядкам, що підходять під шаблон pattern

In [4]:
print(re.split(r'\W+', 'Де, скажіть мені, ключі від моєї Тесли??!')) 

['Де', 'скажіть', 'мені', 'ключі', 'від', 'моєї', 'Тесли', '']


<b>re.findall(pattern, string)</b> - знайти у рядку string всі входження шаблону pattern

In [5]:
print(re.findall(r'\d\d\.\d\d\.\d{4}', 
                 r'Цей рядок надрукували 19.01.2021, а могли б 02.09.2022')) 

['19.01.2021', '02.09.2022']


<b>re.finditer(pattern, string)</b> - Ітератор для всіх входжень шаблону pattern у рядок string. Повертає як входження, так і їх початкові індекси у рядку.

In [6]:
for m in re.finditer(r'\d\d\.\d\d\.\d{4}', r'Цей рядок надрукували 19.01.2021, а могли б 02.09.2022'): 
    print('Дата', m[0], 'починається з позиції', m.start()) 

Дата 19.01.2021 починається з позиції 22
Дата 02.09.2022 починається з позиції 44


<b>re.sub(pattern, repl, string, count=0)</b> - замінити у рядку string всі входження шаблону pattern на вміст рядку repl

In [7]:
print(re.sub(r'\d\d\.\d\d\.\d{4}', 
             r'DD.MM.YYYY', 
             r'Цей рядок надрукували 19.01.2021, а могли б 02.09.2022')) 

Цей рядок надрукували DD.MM.YYYY, а могли б DD.MM.YYYY


<h3>Приклади регулярних виразів для ознайомлення:</h3>

"some text" - текст «simple text»

In [8]:
string = "some text"
pattern = "me"
match = re.search(pattern, string)
match

<re.Match object; span=(2, 4), match='me'>

In [9]:
string = "some text"
pattern = "eme"
match = re.search(pattern, string)
match

"\d" - будь-яка цифра

"\d{n}" - послідовність з визначеної кількості цифр

In [10]:
string = "some text8234"
pattern = "\d"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(9, 10), match='8'>


In [11]:
string = "some text8234"
pattern = "\d{5}"
match = re.search(pattern, string)
print(match)

None


In [12]:
string = "some text8234"
pattern = "\d{2}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(9, 11), match='82'>


\d\d/\d{2}/\d{4} - Послідовність у вигляді дати ДД/ММ/РРРР, хоча може бути і 99/99/9999

\d  \d  /  \d{2}  /  \d{4}

In [13]:
string = "24/08.1991"
pattern = "\d{2}/\d{2}.\d\d\d\d"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 10), match='24/08.1991'>


"\b\w{3}\b" - слова з 3 літер

\b - кінець або початок слова (тобто з одніє сторони літера, з іншої - не літера)

\w - будь-яка літера, цифра або _

\w{n} - визначена кількість літер

In [14]:
string = "some text!"
pattern = "\w{2}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 2), match='so'>


In [15]:
string = "some text!"
pattern = "\w{4}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 4), match='some'>


In [16]:
string = "some text!"
pattern = "\w{5}"
match = re.search(pattern, string)
print(match)

None


In [17]:
string = "some texts!"
pattern = r"\b\w{5}\b"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(5, 10), match='texts'>


[-+]?\d+ - будь-яке ціле число

[-+]? - плюс, мінус або нічого

\d+ - будь-яка кількість цифр (аналогічно може бути \w+)

In [18]:
string = "some texts -42!"
pattern = r"[-+]?\d{1}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(11, 13), match='-4'>


In [19]:
string = "some texts -42!"
pattern = r"[-+]?\d{3}"
match = re.search(pattern, string)
print(match)

None


In [20]:
string = "some texts -42!"
pattern = r"[-+]?\d+"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(11, 14), match='-42'>


Сила та відповідальність

Регулярні вирази, або коротко, регулярні – це дуже потужний інструмент. Але використовувати їх слід з розумом та обережністю, і лише там, де вони дійсно приносять користь, а не шкоду. По-перше, погано написані регулярні висловлювання працюють повільно. По-друге, їх часто дуже складно читати, особливо якщо регулярка написана не особисто тобою п'ять хвилин тому. По-третє, дуже часто навіть невелика зміна завдання (те, що потрібно знайти) призводить до значної зміни виразу. Тому про регулярки часто говорять, що це write only code (код, який тільки пишуть з нуля, але не читають і не правлять). А також жартують: Деякі люди, коли стикаються з проблемою, думають: «Я знаю, я вирішу її за допомогою регулярних виразів». Тепер вони мають дві проблеми. Ось приклад write-only регулярки (для перевірки валідності e-mail адреси (не треба так робити!)):

(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|
2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])

А ось тут (http://www.ex-parrot.com/~pdw/Mail-RFC822-Address.html) більш точна регулярка для перевірки коректності email адрес стандарту RFC822. Якщо раптом перевірятимете email, то не робіть так! Якщо адресу вводить користувач, то нехай вводить майже що завгодно, аби там була собачка. Найнадійніше відправити туди листа і переконатися, що користувач може його отримати.

Документація та посилання
Оригінальна документація: https://docs.python.org/3/library/re.html;
Дуже докладний та ґрунтовний матеріал: https://www.regular-expressions.info/;
Різні складні трюки та тонкощі з прикладами: http://www.rexegg.com/;
Он-лайн налагодження регулярок https://regex101.com (не забудьте поставити галочку Python у розділі FLAVOR зліва);
Он-лайн візуалізація регулярок https://www.debuggex.com/ (не забудьте вибрати Python);
Могутній текстовий редактор Sublime text 3 (http://www.sublimetext.com/3), у якому дуже зручний пошук по регулярках;

Основи синтаксису

Будь-який рядок (в якому немає символів .^$*+?{}[]\|()) є регулярним виразом. Так, виразу "Хаха" буде відповідати рядок "Хаха" і тільки він. Регулярні вирази є регістрозалежними, тому рядок "хаха" (з маленької літери) вже не відповідатиме виразу вище. 

Подібно до рядків у мові Python, регулярні вирази мають спецсимволи .^$*+?{}[]\|(), які в регулярках є керуючими конструкціями. Для написання їх просто як символів потрібно їх екранувати, для чого потрібно поставити перед ними знак (або зазначити, що це сирий рядок - r). Так само, як і в пітоні, у регулярних виразах вираз \n відповідає кінець рядка, а \t - табуляцію.

<h3>Шаблони, що відповідають одному символу</h3>

"." - один символ, окрім нового рядка \n

In [21]:
string = "Це не я"
pattern = "Ц."
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 2), match='Це'>


"\d" - будь-яка цифра

...

"\D" - будь-який символ, окрім цифри

In [22]:
string = "21212 21?12"
pattern = "21\D12"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(6, 11), match='21?12'>


"\s" - будь-який пробільний символ (пробіл, новий рядок, кінець рядку)

In [23]:
string = "21212 21?13"
pattern = "2\s"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(4, 6), match='2 '>


In [24]:
string = "21212 21?13"
pattern = "3\s"
match = re.search(pattern, string)
print(match)

None


"\w" - будь-яка літера, цифра або _

In [25]:
string = "21212 21_ 13"
pattern = " \w\w\w"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(5, 9), match=' 21_'>


"\W" - будь-яка нелітера, не цифра або не підкреслення

In [26]:
string = "Cat!"
pattern = "Cat\W"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 4), match='Cat!'>


[..] - будь-який з символів у скобках, а також будь-який символ у діапазоні. Наприклад:

[+-] - плюс або мінус

[0-9] - будь-яка цифра від 0 до 9

[a-d] - будь-яка літера малого регістру - a, b, c, d

[0-9A-F] - будь-яка цифра або велика літера від A до F. Так само можна користуватись літерами інших мов

Спробуйте дізнатись як управлятись з україноським текстом

In [27]:
string = "1Д"
pattern = "[0-9][А-К]"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 2), match='1Д'>


In [28]:
string = "1Fa"
pattern = "[0-9][0-9A-Fa-f][0-9A-Fa-f]"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 3), match='1Fa'>


In [29]:
string = "1Fa"
pattern = "[0-9][0-9A-Fa-f][0-9A-F]"
match = re.search(pattern, string)
print(match)

None


[^..] - будь-які символи, окрім зазначених

In [30]:
string = "1Fa"
pattern = "[0-9][0-9A-Fa-f][^0-9A-F]"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 3), match='1Fa'>


In [31]:
string = "1Fa"
pattern = "[^0-9][0-9A-Fa-f][0-9A-F]"
match = re.search(pattern, string)
print(match)

None


Якщо потрібен мінус, його потрібно ставити першим або останнім

In [32]:
string = "-1Fa"
pattern = "[-0-9][0-9][0-9A-Fa-f][^0-9A-F]"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 4), match='-1Fa'>


\b - кінець або початок слова (тобто з одніє сторони літера, з іншої - не літера)

\B - або праворуч і ліворуч літери, або ліворуч та праворуч не літери

In [33]:
string = "some texts -42!"
pattern = "\B\w+\B"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(1, 3), match='om'>


In [34]:
string = "some texts -42!"
pattern = "\B\w{3}\B"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(6, 9), match='ext'>


<h3>Квантифікатори (указання кількості повторень)</h3>

{n} - n повторень

{m, n} - Від m до n повторень

In [35]:
string = "1 12 123 1234 12345 123456"
pattern = "\d{3, 5}"
match = re.search(pattern, string)
print(match)

None


In [36]:
string = "1 12 123 1234 12345 123456"
pattern = "\d{3,5}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(5, 8), match='123'>


{m,} - мінімум m повторень

In [37]:
string = "1 12 123 1234 12345 123456"
pattern = "\d{3,}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(5, 8), match='123'>


In [38]:
string = "1 12 123 1234 1234! 123456"
pattern = "\d{5,}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(20, 26), match='123456'>


{,n} - не більше n повторень

In [39]:
string = "1 12 123 1234 12345 123456"
pattern = "\d{,2}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 1), match='1'>


In [40]:
string = "1! 123 1234 1234! 123456"
pattern = "\d{,4}"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 1), match='1'>


? - 0 або 1 входження

In [41]:
string = "Рам-Бам-Вам"
pattern = "Б?ам"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(1, 3), match='ам'>


<b>*</b>   - 0 і більше повторень

In [42]:
string = "АН"
pattern = "\w{2}\d*"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 2), match='АН'>


In [43]:
string = "АН1234"
pattern = "\w{2}\d*"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 6), match='АН1234'>


<b>+</b> - 1 і більше повторень

In [3]:
string = "АН"
pattern = "\w{2}\d+"
match = re.search(pattern, string)
print(match)

None


In [4]:
string = "АН1234"
pattern = "\w{2}\d+"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 6), match='АН1234'>


In [5]:
string = "АН12TT34"
pattern = "\w{2}\d+"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 4), match='АН12'>


За замовчанням, квантифікатори <i>жадібні</i>, тобто захоплюють максимально можливу кількість символів. Додавання <i>?</i> роблять їх <i>лінивими</i> - вони захоплюють мінімально можливу кількість символів.

<i>Підказка: зверніть увагу на дужки</i>

In [6]:
string = "(a + b) * (c + d) * (e + f)"
pattern = "\(.*\)"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 27), match='(a + b) * (c + d) * (e + f)'>


In [7]:
string = "(a + b) * (c + d) * (e + f)"
pattern = "\(.*?\)"
match = re.search(pattern, string)
print(match)

<re.Match object; span=(0, 7), match='(a + b)'>


<h3>Орієнтовне завдання:</h3>

Для сдачі лабораторної потрібно буде виконати 3 типові завдання впродовж відповіді (5-6 хвилин). Нижче наведено типові завдання, за допомогою яких можна підготуватись.

Подивіться, як працюють прості шаблони та квантифікатори. Відкрийте пісочницю - https://regex101.com/. Розв'яжіть такі завдання для тексту нижче:
- Знайдіть усі натуральні числа (можливо, оточені літерами);
- Знайдіть усі «слова», написані капсом (тобто великими літерами), можливо всередині справжніх слів (аааБББввв);
- Знайдіть слова, в яких є українська літера, за якою може бути цифра;
- Знайдіть усі слова, що починаються з української або латинської великої літери (\b – межа слова);
- Знайдіть слова, які починаються на голосну (\b - межа слова);
- Знайдіть усі натуральні числа, що не знаходяться всередині або на межі слова;
- Знайдіть рядки, в яких є символ * ;
- Знайдіть рядки, в яких є дужки, що відкриваються і потім закриваються в кінці;
- Виділіть одним весь шматок змісту (наприкінці прикладу, разом із тегами);
- Виділіть одним лише текстову частину змісту, без тегів;
- Знайдіть порожні рядки.

Регулярні вирази є схожим, але набагато сильнішим інструментом.
для пошуку рядків, їх перевірки на відповідність якомусь шаблону та іншій подібній
роботі. Англомовна назва цього інструменту – Regular Expressions або просто RegExp.
Строго кажучи, регулярні вирази – спеціальна мова для опису шаблонів рядків.

АААА аааа АаАаАаАа 123 123 12345 11223344
А1Б2В3 АА11 ББ22ВВ 33ГГ44

Тест! Ще! Даєш! ЇЇ

QwertyЙцукен

+-,/[](), *** (***), a*(b+[c+d])*e/f+g-h

!!"""####$$$$$%%%%%&&&'''((((())***++++,,,,,-----..// :::;;;;<<<<<===>>>?????
@@@@@[[[[\\\]]]]]]^^^__``````{{{{|||||}}}}}~~~~~

<a href="#10">10: CamelCase -> under_score</a>;
<a href="#11">11: Видалення повторів</a>;
<a href="#12">12: Близькі слова</a>;
<a href="#13">13: Форматування великих чисел</a>;
<a href="#14">14: Розділити текст на пропозиції</a>;
<a href="#15">15: Форматування номера телефону</a>;
<a href="#16">16: Пошук e-mailів — 2</a>;