In [1]:
import re # библиотека регулярных выражений
from collections import Counter # библиотека для подсчёта значений

In [2]:
print (re.match (r'\d', '3 яблока в 3 корзинах')) # Ищет совпадение в начале строки
print (re.match (r'\d', 'яблока 3 в корзинах 3'))
print (re.search (r'\d', '3 яблока в 3 корзинах')) # Ищет первое совпадение в любом месте строки
print (re.search (r'\d', 'яблока 3 в корзинах 3'))
print (re.findall (r'\d', 'яблока 3 в корзинах 3')) # Ищет все совпадения в строке и возвращает список значений
print (re.findall (r'\d', '3 яблока в 3 корзинах'))
print (list (re.finditer (r'\d', '3 яблока в 3 корзинах'))) # Ищет совпадения в строке и возвращает список их позиций и значений
print (list (re.finditer (r'\d', 'яблока 3 в корзинах 3')))

<re.Match object; span=(0, 1), match='3'>
None
<re.Match object; span=(0, 1), match='3'>
<re.Match object; span=(7, 8), match='3'>
['3', '3']
['3', '3']
[<re.Match object; span=(0, 1), match='3'>, <re.Match object; span=(11, 12), match='3'>]
[<re.Match object; span=(7, 8), match='3'>, <re.Match object; span=(20, 21), match='3'>]


In [3]:
look = re.search (r'\d', '3 яблока в 3 корзинах')
print (look.start()) # начальная позиция
print (look.end()) # конечная позиция
print (look.group()) # значение

0
1
3


In [4]:
print (re.search (r'12 (\w (\d\w) \d) 24', '12 f 1d 3 24').group()) # всё выражение
print (re.search (r'12 (\w (\d\w) \d) 24', '12 f 1d 3 24').group(0)) # всё выражение
print (re.search (r'12 (\w (\d\w) \d) 24', '12 f 1d 3 24').group(1)) # первый уровень углубления, первые внешние групповые скобки
print (re.search (r'12 (\w (\d\w) \d) 24', '12 f 1d 3 24').group(2)) # второй уровень, самая маленькая группа в этом выражении
print (re.search (r'12 (\w (\d\w) \d) 24', '12 f 1d 3 24').group(3)) # ошибка, так как третьего уровня группировки здесь нет

12 f 1d 3 24
12 f 1d 3 24
f 1d 3
1d


IndexError: no such group

In [5]:
print (re.findall (r'(\d(\w\w)\d)', '3kk3'))
print (re.findall (r'(\d(?:\w\w)\d)', '3kk3')) # ?: позволяет не учитывать подгруппы как отдельные элементы
print (re.findall (r'(\d(\w\w)\d)', '3kk3 2aa2'))
print (re.findall (r'(\d(?:\w\w)\d)', '3kk3 2aa2')) 

[('3kk3', 'kk')]
['3kk3']
[('3kk3', 'kk'), ('2aa2', 'aa')]
['3kk3', '2aa2']


In [6]:
# Задача: поменять местами имя и фамилию

text = 'Меня зовут Даша Дашкина, тебя зовут Саша Сашкин.'
print (re.sub (r'([А-Я][а-я]+) ([А-Я][а-я]+)', r'\2 \1', text))

Меня зовут Дашкина Даша, тебя зовут Сашкин Саша.


In [7]:
print ('12  +  13*15   - 6'.split ('  ')) # обычный строчный сплит разделяет только по одному сепаратору
print ('12  +  13*15   - 6'.split (r'\s*[+*-]\s*')) # строчный сплит не работает с регулярными выражениями в качестве разделителя
print (re.split (r'\s*[+*-]\s*', '12  +  13*15   - 6')) # то же самое, что строчный сплит, но по регулярному выражению
print (re.split (r'\s*([+*-])\s*', '12  +  13*15   - 6')) # группировка позволяет выделять разделитель в отдельный элемент списка
print (re.split (r'\+|\*', '12  +  13*15   - 6')) # прямая разделительная черта позволяет разделить по нескольким сепараторам

['12', '+', '13*15', ' - 6']
['12  +  13*15   - 6']
['12', '13', '15', '6']
['12', '+', '13', '*', '15', '-', '6']
['12  ', '  13', '15   - 6']


In [8]:
# Задача: привести дату к формату 12.04.1961

months = {'января':'01', 'февраля':'02', 'марта':'03', 'апреля':'04',
              'мая':'05', 'июня':'06', 'июля':'07', 'августа':'08',
              'сентября':'09', 'октября':'10', 'ноября':'11', 'декабря':'12'}

text = '12 апреля 1961 года первый человек полетел в космос.'

print (re.search (r'\w*(?=\s\d{4})', text)) # ?= показывает, что дальше идёт это выражение, но включать в вывод его не нужно
print (re.search (r'((?<=\d{2}\s)|(?<=\d\s))\w*', text)) 
# ?<= показывает, что до нужного кусочка идёт это выражение, но включать в вывод его не нужно
# для просмотра назад нужно чёткое количество символов, 
# поэтому несколько вариантов прописываем в круглых скобках через вертикальную черту, а не внутренними квантификаторами

subvalue = re.sub(r'(?!=\d{1,2}\s)\w*(?=\s\d{4})', lambda m: months.get(m.group(0)), text)
print (subvalue) 
# Ссылаемся на словарь только через dict.get ()

final = re.sub(r'(?P<date>\d{1,2})\s(?P<month>\d{2})\s(?P<year>\d{4}) года', r'\g<date>.\g<month>.\g<year>', subvalue)
print (final)

# С помощью ?P<> называем группу
# С помощью \g<> ссылаемся на неё

<re.Match object; span=(3, 9), match='апреля'>
<re.Match object; span=(3, 9), match='апреля'>
12 04 1961 года первый человек полетел в космос.
12.04.1961 первый человек полетел в космос.
