File for learning regular expressions in python

https://habr.com/ru/articles/349860/

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте.

<table>
<thead>
<tr>
<th>Регулярка</th>
<th>Её смысл</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>simple text</code></td>
<td>В точности текст «simple text»</td>
</tr>
<tr>
<td><code>\d{5}</code></td>
<td>Последовательности из 5 цифр<br>
<code>\d</code> означает любую цифру<br>
<code>{5}</code> — ровно 5 раз</td>
</tr>
<tr>
<td><code>\d\d/\d\d/\d{4}</code></td>
<td>Даты в формате ДД/ММ/ГГГГ<br>
(и прочие куски, на них похожие, например, 98/76/5432)</td>
</tr>
<tr>
<td><code>\b\w{3}\b</code></td>
<td>Слова в точности из трёх букв<br>
<code>\b</code> означает границу слова<br>
(с одной стороны буква, а с другой — нет)<br>
<code>\w</code> — любая буква,<br>
<code>{3}</code> — ровно три раза</td>
</tr>
<tr>
<td><code>[-+]?\d+</code></td>
<td>Целое число, например, 7, +17, -42, 0013 (возможны ведущие нули)<br>
<code>[-+]?</code> — либо -, либо +, либо пусто<br>
<code>\d+</code> — последовательность из 1 или более цифр</td>
</tr>
<tr>
<td><code>[-+]?(?:\d+(?:\.\d*)?|\.\d+)(?:[eE][-+]?\d+)?</code></td>
<td>Действительное число, возможно в экспоненциальной записи<br>
Например, 0.2, +5.45, -.4, 6e23, -3.17E-14.<br>
См. ниже картинку.</td>
</tr>
</tbody>
</table>

### Шаблоны, соответствующие одному символу

<table>
<thead>
<tr>
<th>Шаблон</th>
<th>Описание</th>
<th>Пример</th>
<th>Применяем к тексту</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>.</code></td>
<td>Один любой символ, кроме новой строки <code>\n</code>.</td>
<td><code>м.л.ко</code></td>
<td><u>молоко</u>, <u>малако</u>, <br>
И<u>м0л0ко</u>Ихлеб</td>
</tr>
<tr>
<td><code>\d</code></td>
<td>Любая цифра</td>
<td><code>СУ\d\d</code></td>
<td><u>СУ35</u>, <u>СУ11</u>1, АЛ<u>СУ14</u></td>
</tr>
<tr>
<td><code>\D</code></td>
<td>Любой символ, кроме цифры</td>
<td><code>926\D123</code></td>
<td><u>926)123</u>, 1<u>926-123</u>4</td>
</tr>
<tr>
<td><code>\s</code></td>
<td>Любой пробельный символ (пробел, табуляция, конец строки и т.п.)</td>
<td><code>бор\sода</code></td>
<td><u>бор ода</u>, <u>бор<br>
ода</u>, борода</td>
</tr>
<tr>
<td><code>\S</code></td>
<td>Любой непробельный символ</td>
<td><code>\S123</code></td>
<td><u>X123</u>, <u>я123</u>, <u>!123</u>456, 1 + 123456</td>
</tr>
<tr>
<td><code>\w</code></td>
<td>Любая буква (то, что может быть частью слова), а также цифры и <code>_</code></td>
<td><code>\w\w\w</code></td>
<td><u>Год</u>, <u>f_3</u>, <u>qwe</u>rt</td>
</tr>
<tr>
<td><code>\W</code></td>
<td>Любая не-буква, не-цифра и не подчёркивание</td>
<td><code>сом\W</code></td>
<td><u>сом!</u>, <u>сом?</u> </td>
</tr>
<tr>
<td><code>[..]</code></td>
<td>Один из символов в скобках,<br>
а также любой символ из диапазона <code>a-b</code></td>
<td><code>[0-9][0-9A-Fa-f]</code></td>
<td><u>12</u>, <u>1F</u>, <u>4B</u></td>
</tr>
<tr>
<td><code>[^..]</code></td>
<td>Любой символ, кроме перечисленных</td>
<td><code>&lt;[^&gt;]&gt;</code></td>
<td><u>&lt;1&gt;</u>, <u>&lt;a&gt;</u>, &lt;&gt;&gt;</td>
</tr>
<tr>
<td><code>\d≈[0-9], </code><br>
<code>\D≈[^0-9], </code><br>
<code>\w≈[0-9a-zA-Z </code><br>
<code>а-яА-ЯёЁ], </code><br>
<code>\s≈[ \f\n\r\t\v] </code></td>
<td>Буква “ё” не включается в общий диапазон букв!<br>
Вообще говоря, в <code>\d</code> включается всё, что в юникоде помечено как «цифра», а в <code>\w</code> — как буква. Ещё много всего!</td>
<td></td>
<td></td>
</tr>
<tr>
<td><code>[abc-], [-1]</code></td>
<td>если нужен минус, его нужно указать последним или первым</td>
<td></td>
<td></td>
</tr>
<tr>
<td><code>[*[(+\\\]\t]</code></td>
<td>внутри скобок нужно экранировать только <code>]</code> и <code>\</code></td>
<td></td>
<td></td>
</tr>
<tr>
<td><code>\b</code></td>
<td>Начало или конец слова (слева пусто или не-буква, справа буква и наоборот).<br>
В отличие от предыдущих соответствует позиции, а не символу</td>
<td><code>\bвал</code></td>
<td><u>вал</u>, перевал, Перевалка</td>
</tr>
<tr>
<td><code>\B</code></td>
<td>Не граница слова: либо и слева, и справа буквы,<br>
либо и слева, и справа НЕ буквы</td>
<td><code>\Bвал</code></td>
<td>пере<u>вал</u>, вал, Пере<u>вал</u>ка</td>
</tr>
<tr>
<td></td>
<td></td>
<td><code>\Bвал\B</code></td>
<td>перевал, вал, Пере<u>вал</u>ка</td>
</tr>
</tbody>
</table>

### Квантификаторы (указание количества повторений)

<table>
<thead>
<tr>
<th>Шаблон</th>
<th>Описание</th>
<th>Пример</th>
<th>Применяем к тексту</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>{n}</code></td>
<td>Ровно n повторений <code></code>.</td>
<td><code>\d{4}</code></td>
<td>1, 12, 123<u>1234</u>,<br>
12345</td>
</tr>
<tr>
<td><code>{m,n}</code></td>
<td>От m до n повторений включительно</td>
<td><code>\d{2, 4}</code></td>
<td>1, <u>12</u>, <u>123</u>, <u>1234</u>,
12345</td>
</tr>
<tr>
<td><code>{m,}</code></td>
<td>Не менее m повторений</td>
<td><code>\d{3,}</code></td>
<td>1, 12, <u>123</u>, <u>1234</u>, 
<u>12345</u></td>
</tr>
<tr>
<td><code>{,n}</code></td>
<td>Не более n повторений</td>
<td><code>\d{,2}</code></td>
<td><u>1</u>, <u>12</u>, <u>12</u>3</td>
</tr>
<tr>
<td><code>?</code></td>
<td>Ноль или одно вхождение, синоним {0,1}</td>
<td><code>валы?</code></td>
<td><u>вал</u>, <u>валы</u>, <u>вал</u>ов</td>
</tr>
<tr>
<td><code>*</code></td>
<td>Ноль или более, синоним {0,}</td>
<td><code>СУ\d*</code></td>
<td><u>СУ</u>, <u>СУ1</u>, <u>СУ12</u>, ...</td>
</tr>
<tr>
<td><code>+</code></td>
<td>Одно или более, синоним {1,}</td>
<td><code>a\)+</code></td>
<td><u><font color="#007d5b">a)</font></u>, <u><font color="#007d5b">a))</font></u>, <u><font color="#007d5b">a)))</font></u>, b<u><font color="#007d5b">a)</font></u>])</td>
</tr>
<tr>
<td><code>*?<br>
+?<br>
??<br>
{m,n}?<br>
{,n}?<br>
{m,}?</code></td>
<td>По умолчанию квантификаторы жадные —
захватывают максимально возможное число символов.
Добавление ? делает их ленивыми,
они захватывают минимально возможное число символов</td>
<td><code>\(.*\) <br>
\(.*?\)</code></td>
<td><u>(a + b) * (c + d) * (e + f)</u><br> <u>(a + b)</u>*(c + d) * (e + f)</td>
</tr>
</tbody>
</table>

## Пример использования

### Функции для работы с регулярками

<table>
<thead>
<tr>
<th>Функция</th>
<th>Её смысл</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>re.search(pattern, string)</code></td>
<td>Найти в строке string первую строчку, подходящую под шаблон pattern;</td>
</tr>
<tr>
<td><code>re.fullmatch(pattern, string)</code></td>
<td>Проверить, подходит ли строка string под шаблон pattern;</td>
</tr>
<tr>
<td><code>re.split(pattern, string, maxsplit=0)</code></td>
<td>Аналог str.split(), только разделение происходит по подстрокам, подходящим под шаблон pattern;</td>
</tr>
<tr>
<td><code>re.findall(pattern, string)</code></td>
<td>Найти в строке string все непересекающиеся шаблоны pattern;</td>
</tr>
<tr>
<td><code>re.finditer(pattern, string)</code></td>
<td>Итератор всем непересекающимся шаблонам pattern в строке string (выдаются match-объекты);</td>
</tr>
<tr>
<td><code>re.sub(pattern, repl, string, count=0)</code></td>
<td>Заменить в строке string все непересекающиеся шаблоны pattern на repl;</td>
</tr>
<tr>

In [1]:
import re 

match = re.search(r'\d\d\D\d\d', r'Телефон 123-12-12') 
print(match[0] if match else 'Not found') 
# -> 23-12 
match = re.search(r'\d\d\D\d\d', r'Телефон 1231212') 
print(match[0] if match else 'Not found') 
# -> Not found 

match = re.fullmatch(r'\d\d\D\d\d', r'12-12') 
print('YES' if match else 'NO') 
# -> YES 
match = re.fullmatch(r'\d\d\D\d\d', r'Т. 12-12') 
print('YES' if match else 'NO') 
# -> NO 

print(re.split(r'\W+', 'Где, скажите мне, мои очки??!')) 
# -> ['Где', 'скажите', 'мне', 'мои', 'очки', ''] 

print(re.findall(r'\d\d\.\d\d\.\d{4}', 
                 r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017')) 
# -> ['19.01.2018', '01.09.2017'] 

for m in re.finditer(r'\d\d\.\d\d\.\d{4}', r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017'): 
    print('Дата', m[0], 'начинается с позиции', m.start()) 
# -> Дата 19.01.2018 начинается с позиции 20 
# -> Дата 01.09.2017 начинается с позиции 45 

print(re.sub(r'\d\d\.\d\d\.\d{4}', 
             r'DD.MM.YYYY', 
             r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017')) 
# -> Эта строка написана DD.MM.YYYY, а могла бы и DD.MM.YYYY 

23-12
Not found
YES
NO
['Где', 'скажите', 'мне', 'мои', 'очки', '']
['19.01.2018', '01.09.2017']
Дата 19.01.2018 начинается с позиции 20
Дата 01.09.2017 начинается с позиции 45
Эта строка написана DD.MM.YYYY, а могла бы и DD.MM.YYYY


## Использование дополнительных флагов в питоне

<table>
<thead>
<tr>
<th>Константа</th>
<th>Её смысл</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>re.ASCII</code></td>
<td>По умолчанию \w, \W, \b, \B, \d, \D, \s, \S соответствуют
все юникодные символы с соответствующим качеством.
Например, \d соответствуют не только арабские цифры,
но и вот такие: ٠١٢٣٤٥٦٧٨٩.
re.ASCII ускоряет работу,
если все соответствия лежат внутри ASCII.</td>
</tr>
<tr>
<td><code>re.IGNORECASE</code></td>
<td>Не различать заглавные и маленькие буквы.
Работает медленнее, но иногда удобно</td>
</tr>
<tr>
<td><code>re.MULTILINE</code></td>
<td>Специальные символы ^ и $ соответствуют
началу и концу каждой строки</td>
</tr>
<tr>
<td><code>re.DOTALL</code></td>
<td>По умолчанию символ \n конца строки не подходит под точку.
С этим флагом точка — вообще любой символ</td>
</tr>

In [7]:
import re 
print(re.findall(r'\d+', '12 + ٦٧')) 
# -> ['12', '٦٧'] 
print(re.findall(r'\w+', 'Hello, мир!')) 
# -> ['Hello', 'мир'] 
print(re.findall(r'\d+', '12 + ٦٧', flags=re.ASCII)) 
# -> ['12'] 
print(re.findall(r'\w+', 'Hello, мир!', flags=re.ASCII)) 
# -> ['Hello'] 
print(re.findall(r'[уеыаоэяию]+', 'ОООО ааааа ррррр ЫЫЫЫ яяяя')) 
# -> ['ааааа', 'яяяя'] 
print(re.findall(r'[уеыаоэяию]+', 'ОООО ааааа ррррр ЫЫЫЫ яяяя', flags=re.IGNORECASE)) 
# -> ['ОООО', 'ааааа', 'ЫЫЫЫ', 'яяяя'] 

text = r""" 
Торт 
с вишней1 
вишней2 
""" 
print(re.findall(r'Торт.с', text)) 
# -> [] 
print(re.findall(r'Торт.с', text, flags=re.DOTALL)) 
# -> ['Торт\nс'] 
print(re.findall(r'виш\w+', text, flags=re.MULTILINE)) 
# -> ['вишней1', 'вишней2'] 
print(re.findall(r'^виш\w+', text, flags=re.MULTILINE)) 
# -> ['вишней2'] 

['12', '٦٧']
['Hello', 'мир']
['12']
['Hello']
['ааааа', 'яяяя']
['ОООО', 'ааааа', 'ЫЫЫЫ', 'яяяя']
[]
[]
['вишней1', 'вишней2']
['вишней2']


# Tasks

### Регистрационные знаки транспортных средств

В России применяются регистрационные знаки нескольких видов.
Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы, имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.


У частных легковых автомобилях номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. У такси — две буквы, три цифры, затем две или три цифры с кодом региона. Есть также и другие виды, но в этой задаче они не понадобятся.


Вам потребуется определить, является ли последовательность букв корректным номером указанных двух типов, и если является, то каким.


На вход даются строки, которые претендуют на то, чтобы быть номером. Определите тип номера. Буквы в номерах — заглавные русские. Маленькие и английские для простоты можно игнорировать.

In [14]:
import re
numers = "С227НА777, КУ22777, Т22В7477, М227К19У9, С227НА777"
print('Private:', re.findall(r'\b[АВЕКМНОРСТУХ]\d{3}[АВЕКМНОРСТУХ]{2}\d{2,3}\b', numers)) 
print('Taxi:', re.findall(r'\b[АВЕКМНОРСТУХ]{2}\d{5,6}\b', numers))  
    

Private: ['С227НА777', 'С227НА777']
Taxi: ['КУ22777']


###  Количество слов

Слово — это последовательность из букв (русских или английских), внутри которой могут быть дефисы.
На вход даётся текст, посчитайте, сколько в нём слов.
PS. Задача решается в одну строчку. Никакие хитрые техники, не упомянутые выше, не требуются.

In [37]:
import re
row = r"""Он --- серо-буро-малиновая редиска!! 
>>>:-> 
А не кот. 
www.kot.ru"""
print(re.split(r'\W+', row)) 
print(len(re.split(r'\W+', row))) 

['Он', 'серо', 'буро', 'малиновая', 'редиска', 'А', 'не', 'кот', 'www', 'kot', 'ru']
11
