https://habr.com/ru/post/349860/

# Основы синтаксиса

Любая строка 
(в которой нет символов .^$*+?{}[]\|() ) 

сама по себе является регулярным выражением. Так, выражению Хаха будет соответствовать строка “Хаха” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “хаха” (с маленькой буквы) уже не будет соответствовать выражению выше. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы .^$*+?{}[]\|(), которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \. Так же, как и в питоне, в регулярных выражениях выражение \n соответствует концу строки, а \t — табуляции.

In [1]:
TEXT = """Регулярные выражения представляют собой похожий, но гораздо более сильный инструмент 
для поиска строк, проверки их на соответствие какому-либо шаблону и другой подобной 
работы. Англоязычное название этого инструмента — Regular Expressions или просто RegExp. 
Строго говоря, регулярные выражения — специальный язык для описания шаблонов строк.

АААА аааа АаАаАаАа 123 123 12345 11223344
А1Б2В3 АА11 ББ22ВВ 33ГГ44

Тест!    Ещё!   Даёшь!   ЁЁЁёёё

QwertyЙцукен

+-,/[](), *** (***), a*(b+[c+d])*e/f+g-h

!!\"\"\"####$$$$$%%%%%&&&'''(((())***++++,,,,,-----..//:::;;;;<<<<<===>>>????
@@@@@[[[[\\\]]]]]^^^__`````{{{{|||||}}}}}~~~~~

<a href="#10">10: CamelCase -> under_score</a>;
<a href="#11">11: Удаление повторов</a>;
<a href="#12">12: Близкие слова</a>;
<a href="#13">13: Форматирование больших чисел</a>;
<a href="#14">14: Разделить текст на предложения</a>;
<a href="#15">15: Форматирование номера телефона</a>;
<a href="#16">16: Поиск e-mail'ов — 2</a>;
"""


1. Найдите все натуральные числа (возможно, окружённые буквами)

In [2]:
import re
pattern1 = r'\d+'

re.findall(pattern1, TEXT)


['123',
 '123',
 '12345',
 '11223344',
 '1',
 '2',
 '3',
 '11',
 '22',
 '33',
 '44',
 '10',
 '10',
 '11',
 '11',
 '12',
 '12',
 '13',
 '13',
 '14',
 '14',
 '15',
 '15',
 '16',
 '16',
 '2']

2. Найдите все «слова», написанные капсом (то есть строго заглавными), возможно внутри настоящих слов (аааБББввв);

In [3]:
pattern2 = r'[A-ZА-Я]+'

re.findall(pattern2, TEXT)


['Р',
 'А',
 'R',
 'E',
 'R',
 'E',
 'С',
 'АААА',
 'А',
 'А',
 'А',
 'А',
 'А',
 'Б',
 'В',
 'АА',
 'ББ',
 'ВВ',
 'ГГ',
 'Т',
 'Е',
 'Д',
 'Q',
 'Й',
 'C',
 'C',
 'У',
 'Б',
 'Ф',
 'Р',
 'Ф',
 'П']

3. Найдите слова, в которых есть русская буква, а когда-нибудь за ней цифра;


In [4]:
patter3 = r'[А-Яа-я]+\d?'

re.findall(patter3, TEXT)


['Регулярные',
 'выражения',
 'представляют',
 'собой',
 'похожий',
 'но',
 'гораздо',
 'более',
 'сильный',
 'инструмент',
 'для',
 'поиска',
 'строк',
 'проверки',
 'их',
 'на',
 'соответствие',
 'какому',
 'либо',
 'шаблону',
 'и',
 'другой',
 'подобной',
 'работы',
 'Англоязычное',
 'название',
 'этого',
 'инструмента',
 'или',
 'просто',
 'Строго',
 'говоря',
 'регулярные',
 'выражения',
 'специальный',
 'язык',
 'для',
 'описания',
 'шаблонов',
 'строк',
 'АААА',
 'аааа',
 'АаАаАаАа',
 'А1',
 'Б2',
 'В3',
 'АА1',
 'ББ2',
 'ВВ',
 'ГГ4',
 'Тест',
 'Ещ',
 'Да',
 'шь',
 'Йцукен',
 'Удаление',
 'повторов',
 'Близкие',
 'слова',
 'Форматирование',
 'больших',
 'чисел',
 'Разделить',
 'текст',
 'на',
 'предложения',
 'Форматирование',
 'номера',
 'телефона',
 'Поиск',
 'ов']

4. Найдите все слова, начинающиеся с русской или латинской большой буквы (\b — граница слова);

In [5]:
pattern4 = r'\b[A-ZА-Я]\w+'

re.findall(pattern4, TEXT)


['Регулярные',
 'Англоязычное',
 'Regular',
 'Expressions',
 'RegExp',
 'Строго',
 'АААА',
 'АаАаАаАа',
 'А1Б2В3',
 'АА11',
 'ББ22ВВ',
 'Тест',
 'Ещё',
 'Даёшь',
 'QwertyЙцукен',
 'CamelCase',
 'Удаление',
 'Близкие',
 'Форматирование',
 'Разделить',
 'Форматирование',
 'Поиск']

5. Найдите слова, которые начинаются на гласную (\b — граница слова);;

In [6]:
pattern5 = r'\b[АаЕеИиОоУуЭэЮюЯя]\w+'

re.findall(pattern5, TEXT)


['инструмент',
 'их',
 'Англоязычное',
 'этого',
 'инструмента',
 'или',
 'язык',
 'описания',
 'АААА',
 'аааа',
 'АаАаАаАа',
 'А1Б2В3',
 'АА11',
 'Ещё',
 'Удаление',
 'ов']

6. Найдите все натуральные числа, не находящиеся внутри или на границе слова;

In [7]:
pattern6 = r'[^\w<>#]\d+[^\w<>#]'

re.findall(pattern6, TEXT)


[' 123 ', ' 12345 ']

7. Найдите строчки, в которых есть символ * (. — это точно не конец строки!);

In [8]:
pattern7 = r'.+\*.+'
re.findall(pattern7, TEXT)


['+-,/[](), *** (***), a*(b+[c+d])*e/f+g-h',
 '!!"""####$$$$$%%%%%&&&\'\'\'(((())***++++,,,,,-----..//:::;;;;<<<<<===>>>????']

8. Найдите строчки, в которых есть открывающая и когда-нибудь потом закрывающая скобки;


In [9]:
pattenr8 = r'.+\(.+\).+\n'
re.findall(pattenr8, TEXT)


['+-,/[](), *** (***), a*(b+[c+d])*e/f+g-h\n',
 '!!"""####$$$$$%%%%%&&&\'\'\'(((())***++++,,,,,-----..//:::;;;;<<<<<===>>>????\n']

9. Выделите одним махом весь кусок оглавления (в конце примера, вместе с тегами);


In [10]:
pattenr9 = r'<a.+\n+'
re.findall(pattenr9, TEXT)


['<a href="#10">10: CamelCase -> under_score</a>;\n',
 '<a href="#11">11: Удаление повторов</a>;\n',
 '<a href="#12">12: Близкие слова</a>;\n',
 '<a href="#13">13: Форматирование больших чисел</a>;\n',
 '<a href="#14">14: Разделить текст на предложения</a>;\n',
 '<a href="#15">15: Форматирование номера телефона</a>;\n',
 '<a href="#16">16: Поиск e-mail\'ов — 2</a>;\n']

10. Выделите одним махом только текстовую часть оглавления, без тегов;


In [11]:
pattenr10 = r''
re.findall(pattenr10, TEXT)


['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',


11. Найдите пустые строчки;


In [12]:
pattenr10 = r''
re.findall(pattenr10, TEXT)


['',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',


# Пример использования всех основных функций

In [13]:
import re

match = re.search(r'\d\d\D\d\d', r'Телефон 123-12-12')
print(match[0] if match else 'Not found')
# -> 23-12
match = re.search(r'\d\d\D\d\d', r'Телефон 1231212')
print(match[0] if match else 'Not found')
# -> Not found

match = re.fullmatch(r'\d\d\D\d\d', r'12-12')
print('YES' if match else 'NO')
# -> YES
match = re.fullmatch(r'\d\d\D\d\d', r'Т. 12-12')
print('YES' if match else 'NO')
# -> NO

print(re.split(r'\W+', 'Где, скажите мне, мои очки??!'))
# -> ['Где', 'скажите', 'мне', 'мои', 'очки', '']

print(re.findall(r'\d\d\.\d\d\.\d{4}',
                 r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017'))
# -> ['19.01.2018', '01.09.2017']

for m in re.finditer(r'\d\d\.\d\d\.\d{4}', r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017'):
    print('Дата', m[0], 'начинается с позиции', m.start())
# -> Дата 19.01.2018 начинается с позиции 20
# -> Дата 01.09.2017 начинается с позиции 45

print(re.sub(r'\d\d\.\d\d\.\d{4}',
             r'DD.MM.YYYY',
             r'Эта строка написана 19.01.2018, а могла бы и 01.09.2017'))
# -> Эта строка написана DD.MM.YYYY, а могла бы и DD.MM.YYYY


23-12
Not found
YES
NO
['Где', 'скажите', 'мне', 'мои', 'очки', '']
['19.01.2018', '01.09.2017']
Дата 19.01.2018 начинается с позиции 20
Дата 01.09.2017 начинается с позиции 45
Эта строка написана DD.MM.YYYY, а могла бы и DD.MM.YYYY


## Использование дополнительных флагов в питоне

In [14]:
import re
print(re.findall(r'\d+', '12 + ٦٧'))
# -> ['12', '٦٧']

print(re.findall(r'\w+', 'Hello, мир!'))
# -> ['Hello', 'мир']

print(re.findall(r'\d+', '12 + ٦٧', flags=re.ASCII))
# -> ['12']

print(re.findall(r'\w+', 'Hello, мир!', flags=re.ASCII))
# -> ['Hello']

print(re.findall(r'[уеыаоэяию]+', 'ОООО ааааа ррррр ЫЫЫЫ яяяя'))
# -> ['ааааа', 'яяяя']

print(re.findall(r'[уеыаоэяию]+',
      'ОООО ааааа ррррр ЫЫЫЫ яяяя', flags=re.IGNORECASE))
# -> ['ОООО', 'ааааа', 'ЫЫЫЫ', 'яяяя']

text = r""" 
Торт
с вишней1
вишней2
"""
print(re.findall(r'Торт.с', text))
# -> []

print(re.findall(r'Торт.с', text, flags=re.DOTALL))
# -> ['Торт\nс']

print(re.findall(r'виш\w+', text, flags=re.MULTILINE))
# -> ['вишней1', 'вишней2']

print(re.findall(r'^виш\w+', text, flags=re.MULTILINE))
# -> ['вишней2']


['12', '٦٧']
['Hello', 'мир']
['12']
['Hello']
['ааааа', 'яяяя']
['ОООО', 'ааааа', 'ЫЫЫЫ', 'яяяя']
[]
['Торт\nс']
['вишней1', 'вишней2']
['вишней2']


## Задача 01. Регистрационные знаки транспортных средств

В России применяются регистрационные знаки нескольких видов.

Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы, имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.


* У частных легковых автомобилях номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. 
* У такси — две буквы, три цифры, затем две или три цифры с кодом региона. Есть также и другие виды, но в этой задаче они не понадобятся.


Вам потребуется определить, является ли последовательность букв корректным номером указанных двух типов, и если является, то каким.


На вход даются строки, которые претендуют на то, чтобы быть номером. Определите тип номера. Буквы в номерах — заглавные русские. Маленькие и английские для простоты можно игнорировать.

In [15]:
lines = ['С227НА777', 'КУ22777', 'Т22В7477', 'М227К19У9', 'С227НА777']

pattern_private = r'\w{2}\d{3}\w{2}\d{2,3}'
pattern_taxi = r'\w{2}\d{3}\d{2,3}'

for i in lines:
    if (bool(re.match(pattern_private, i))):
        print('Private')
    elif (bool(re.match(pattern_taxi, i))):
        print('Taxi')
    else:
        print('Fail')


Fail
Taxi
Fail
Fail
Fail


# Задача 02. Количество слов

Слово — это последовательность из букв (русских или английских), внутри которой могут быть дефисы.

На вход даётся текст, посчитайте, сколько в нём слов.

PS. Задача решается в одну строчку. Никакие хитрые техники, не упомянутые выше, не требуются.

In [16]:
text = """Он --- серо-буро-малиновая редиска!! 
>>>:-> 
А не кот. 
www.kot.ru"""

word_pattern = r'[А-Яа-яA-Za-z][а-яa-z-]*'


def count_words(text=text):
    return len(re.findall(word_pattern, text))


count_words(text) == 9


True

## Задача 03. Поиск e-mailов
Допустимый формат e-mail адреса регулируется стандартом RFC 5322.
Если говорить вкратце, то e-mail состоит из одного символа @ (at-символ или собака), текста до собаки (Local-part) и текста после собаки (Domain part). Вообще в адресе может быть всякий беспредел (вкратце можно прочитать о нём в википедии). Довольно странные штуки могут быть валидным адресом, например:
"very.(),:;<>[]\".VERY.\"very@\\ \"very\".unusual"@[IPv6:2001:db8::1]
"()<>[]:,;@\\\"!#$%&'-/=?^_`{}| ~.a"@(comment)exa-mple
Но большинство почтовых сервисов такой ад и вакханалию не допускают. И мы тоже не будем :)


* Будем рассматривать только адреса, имя которых состоит из не более, чем 64 латинских букв, цифр и символов '._+-, а домен — из не более, чем 255 латинских букв, цифр и символов .-. 
* Ни Local-part, ни Domain part не может начинаться или заканчиваться на .+-, а ещё в адресе не может быть более одной точки подряд.
* Кстати, полезно знать, что часть имени после символа + игнорируется, поэтому можно использовать синонимы своего адреса (например, shаshkоv+spam@179.ru и shаshkоv+vk@179.ru), для того, чтобы упростить себе сортировку почты. (Правда не все сайты позволяют использовать "+", увы)


На вход даётся текст. Необходимо вывести все e-mail адреса, которые в нём встречаются. В общем виде задача достаточно сложная, поэтому у нас будет 3 ограничения:
* две точки внутри адреса не встречаются;
* две собаки внутри адреса не встречаются;
* считаем, что e-mail может быть частью «слова», то есть в boo@ya_ru мы видим адрес boo@ya, а в foo№boo@ya.ru видим boo@ya.ru.


PS. Совсем не обязательно делать все проверки только регулярками. Регулярные выражения — это просто инструмент, который делает часть задач простыми. Не нужно делать их назад сложными :)

In [17]:
text = """Иван Иванович! 
Нужен ответ на письмо от ivanoff@ivan-chai.ru. 
Не забудьте поставить в копию 
serge'o-lupin@mail.ru- это важно.

NO: foo.@ya.ru, foo@.ya.ru 
PARTLY: boo@ya_ru, -boo@ya.ru-, foo№boo@ya.ru"""

ans_list = ['ivanoff@ivan-chai.ru', 'serge\'o-lupin@mail.ru',
            'boo@ya', 'boo@ya.ru', 'boo@ya.ru']

email_pattern = r'[^+-.,_№\s][a-z\'._+-]{,64}@{1}[a-z.-]{,256}[^-.,_№\s]'

email_list = re.findall(email_pattern, text)
email_list = list(filter(lambda x: x.count('.') < 2, email_list))

email_list == ans_list


True

# Задача 04. Замена времени
Вовочка подготовил одно очень важное письмо, но везде указал неправильное время.
Поэтому нужно заменить все вхождения времени на строку (TBD). Время — это строка вида HH:MM:SS или HH:MM, в которой HH — число от 00 до 23, а MM и SS — число от 00 до 59.

In [18]:
TEXT = """Уважаемые! Если вы к 09:00 не вернёте 
чемодан, то уже в 09:00:01 я за себя не отвечаю. 
PS. С отношением 25:50 всё нормально!"""

hh_pattern = r'(?:[0][0-9]|[1][0-9]|[2][0-3])'
mm_ss_pattern = r'(?:[0-5][0-9])'
    
time_pattern_list = []

# time_pattern_list.append(hh_pattern + ':' + mm_ss_pattern)

time1_pattern = hh_pattern + ':' + mm_ss_pattern
time2_pattern = hh_pattern + '(?::' + mm_ss_pattern + '){2}'

time_pattern = time2_pattern + '|' + time1_pattern

print(bool(re.match(hh_pattern, '00')))
print(not bool(re.match(hh_pattern, '24')))

print(bool(re.match(mm_ss_pattern, '00')))
print(not bool(re.match(mm_ss_pattern, '60')))

print(bool(re.match(time1_pattern, '20:59')))
print(bool(re.match(time2_pattern, '10:20:59')))

print(re.sub(time_pattern, 'TBD', TEXT))


True
True
True
True
True
True
Уважаемые! Если вы к TBD не вернёте 
чемодан, то уже в TBD я за себя не отвечаю. 
PS. С отношением 25:50 всё нормально!


# Задача 05. Действительные числа в паскале
Pascal requires that real constants have either a decimal point, or an exponent (starting with the letter e or E, and officially called a scale factor), or both, in addition to the usual collection of decimal digits. If a decimal point is included it must have at least one decimal digit on each side of it. As expected, a sign (+ or -) may precede the entire number, or the exponent, or both. Exponents may not include fractional digits. Blanks may precede or follow the real constant, but they may not be embedded within it. Note that the Pascal syntax rules for real constants make no assumptions about the range of real values, and neither does this problem. Your task in this problem is to identify legal Pascal real constants.

In [19]:
TEXT = """1.2 
  1. 
    1.0e-55  
      e-12   
  6.5E 
        1e-12  
  +4.1234567890E-99999           
  7.6e+12.5 
   99 """


dcm1_pattern = r'[+-]?[0-9]+(?:.?[0-9])'
dcm2_pattern = r'[+-]?[0-9]+.?[0-9]?(?:e|E)[-+]\d+'

# dcm_pattern_list = [dcm1_pattern, dcm2_pattern, dcm2_pattern]
dcm_pattern_list = [dcm1_pattern, dcm2_pattern]
dcm_pattern = '|'.join(dcm_pattern_list)

def is_decimal(dstr):
    return (voo)

print(bool(re.match(dcm_pattern, '1.2')))
print(not bool(re.match(dcm_pattern, '1')))
print(bool(re.match(dcm_pattern, '1.0e-55')))
print(not bool(re.match(dcm_pattern, 'e-12')))
print(bool(re.match(dcm_pattern, '6.5E')))
print(bool(re.match(dcm_pattern, '1e-12')))
print(bool(re.match(dcm_pattern, '7.6e+12.5')))
print(bool(re.match(dcm_pattern, '+4.1234567890E-99999')))
print(bool(re.match(dcm_pattern, '99')))


# for line in TEXT.splitlines():
#     print(line.strip())


True
True
True
True
True
True
True
True
True


# Задача 06. Аббревиатуры
Владимир устроился на работу в одно очень важное место. 

И в первом же документе он ничего не понял, там были сплошные ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК и т.п. Тогда он решил собрать все аббревиатуры, чтобы потом найти их расшифровки на http://sokr.ru/. Помогите ему.

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они
считаются одной аббревиатурой.

In [24]:
TEXT = """Это курс информатики соответствует ФГОС и ПООП, 
это подтверждено ФГУ ФНЦ НИИСИ РАН"""

abr1_pattern = r'(?:[А-Я]{2,})(?:\s[А-Я]{2,})*'

list_abr = re.findall(abr1_pattern, TEXT)
list_ans = ['ФГОС', 'ПООП', 'ФГУ ФНЦ НИИСИ РАН']

print(list_abr == list_ans)


True


## Группирующие скобки (...)

Если в шаблоне регулярного выражения встречаются скобки (...) без ?:, то они становятся группирующими. В match-объекте, который возвращают re.search, re.fullmatch и re.finditer, по каждой такой группе можно получить ту же информацию, что и по всему шаблону. А именно часть подстроки, которая соответствует (...), а также индексы начала и окончания в исходной строке. Достаточно часто это бывает полезно.

In [25]:
import re 
pattern = r'\s*([А-Яа-яЁё]+)(\d+)\s*' 
string = r'---   Опять45   ---' 
match = re.search(pattern, string) 
print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 
print(f'Группа букв >{match[1]}< с позиции {match.start(1)} до {match.end(1)}') 
print(f'Группа цифр >{match[2]}< с позиции {match.start(2)} до {match.end(2)}') 
### 
# -> Найдена подстрока >   Опять45   < с позиции 3 до 16 
# -> Группа букв >Опять< с позиции 6 до 11 
# -> Группа цифр >45< с позиции 11 до 13 

Найдена подстрока >   Опять45   < с позиции 3 до 16
Группа букв >Опять< с позиции 6 до 11
Группа цифр >45< с позиции 11 до 13


## Тонкости со скобками и нумерацией групп

In [26]:

import re 
pattern = r'((\d)(\d))((\d)(\d))' 
string = r'123456789' 
match = re.search(pattern, string) 
print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 
for i in range(1, 7): 
    print(f'Группа №{i} >{match[i]}< с позиции {match.start(i)} до {match.end(i)}') 


Найдена подстрока >1234< с позиции 0 до 4
Группа №1 >12< с позиции 0 до 2
Группа №2 >1< с позиции 0 до 1
Группа №3 >2< с позиции 1 до 2
Группа №4 >34< с позиции 2 до 4
Группа №5 >3< с позиции 2 до 3
Группа №6 >4< с позиции 3 до 4


In [27]:
import re 
print(re.findall(r'([a-z]+)(\d*)', r'foo3, im12, go, 24buz42')) 

[('foo', '3'), ('im', '12'), ('go', ''), ('buz', '42')]


### Группы и re.split

Если в шаблоне нет группирующих скобок, то re.split работает очень похожим образом на str.split. А вот если группирующие скобки в шаблоне есть, то между каждыми разрезанными строками будут все соответствия каждой из подгрупп.


In [28]:
import re 
print(re.split(r'(\s*)([+*/-])(\s*)', r'12  +  13*15   - 6')) 


['12', '  ', '+', '  ', '13', '', '*', '', '15', '   ', '-', ' ', '6']


В некоторых ситуация эта возможность бывает чрезвычайно удобна! Например, достаточно из предыдущего примера убрать лишние группы, и польза сразу станет очевидна!

In [29]:
import re 
print(re.split(r'\s*([+*/-])\s*', r'12  +  13*15   - 6')) 

['12', '+', '13', '*', '15', '-', '6']


### Использование групп при заменах

In [30]:
import re 
text = "We arrive on 03/25/2018. So you are welcome after 04/01/2018." 
print(re.sub(r'(\d\d)/(\d\d)/(\d{4})', r'\2.\1.\3', text))

We arrive on 25.03.2018. So you are welcome after 01.04.2018.


## Задача 07. Шифровка

Владимиру потребовалось срочно запутать финансовую документацию. Но так, чтобы это было обратимо.
Он не придумал ничего лучше, чем заменить каждое целое число (последовательность цифр) на его куб. Помогите ему.

In [31]:
TEXT = """Было закуплено 12 единиц техники 
по 410.37 рублей."""

from math import pow

def repl(m):
    val = int(m[0])
    return str(int(pow(val, 3)))

pattern_int = r'\d+'


print(bool(re.match(pattern_int, '42')))
print(re.sub(pattern_int, repl, TEXT))

True
Было закуплено 1728 единиц техники 
по 68921000.50653 рублей.


## Задача 08. То ли акростих, то ли акроним, то ли апроним
Акростих — осмысленный текст, сложенный из начальных букв каждой строки стихотворения.
Акроним — вид аббревиатуры, образованной начальными звуками (напр. НАТО, вуз, НАСА, ТАСС), которое можно произнести слитно (в отличие от аббревиатуры, которую произносят «по буквам», например: КГБ — «ка-гэ-бэ»).
На вход даётся текст. Выведите слитно первые буквы каждого слова. Буквы необходимо выводить заглавными.
Эту задачу можно решить в одну строчку.

In [32]:
TEXT = """Московский государственный институт  международных отношений"""

pattern_str = r'[а-яА-Я]+[\W]*'

print(re.sub(pattern_str, lambda x: str.upper(x[0][0]), TEXT))

TEXT = """микоян авиацию снабдил алкоголем., 
народ доволен работой авиаконструктора"""

print(re.sub(pattern_str, lambda x: str.upper(x[0][0]), TEXT))


МГИМО
МАСАНДРА


# Задача 09. Хайку
Хайку — жанр традиционной японской лирической поэзии века, известный с XIV века.
Оригинальное японское хайку состоит из 17 слогов, составляющих один столбец иероглифов. Особыми разделительными словами — кирэдзи — текст хайку делится на части из 5, 7 и снова 5 слогов. При переводе хайку на западные языки традиционно вместо разделительного слова использую разрыв строки и, таким образом, хайку записываются как трёхстишия.


Перед вами трёхстишия, которые претендуют на то, чтобы быть хайку. 
* В качестве разделителя строк используются символы / . Если разделители делят текст на строки, в которых 5/7/5 слогов, то выведите «Хайку!». 
* Если число строк не равно 3, то выведите строку «Не хайку. Должно быть 3 строки.» Иначе выведите строку вида «Не хайку. В i строке слогов не s, а j.», где строка i — самая ранняя, в которой количество слогов неправильное.


Для простоты будем считать, что слогов ровно столько же, сколько гласных, не задумываясь о тонкостях

In [33]:
import re
TEXT_LIST = ['Вечер за окном. / Еще один день прожит. / Жизнь скоротечна...', 'Просто текст', 'Как вишня расцвела! / Она с коня согнала / И князя-гордеца.', 'На голой ветке / Ворон сидит одиноко… / Осенний вечер!', 'Тихо, тихо ползи, / Улитка, по склону Фудзи, / Вверх, до самых высот!', 'Жизнь скоротечна… / Думает ли об этом / Маленький мальчик.']
ANS_LIST = ['Хайку!', 'Не хайку. Должно быть 3 строки.','Не хайку. В 1 строке слогов не 5, а 6.', 'Не хайку. В 2 строке слогов не 7, а 8.', 'Не хайку. В 1 строке слогов не 5, а 6.', 'Хайку!']

# hayku_pattern = r'(\w+)(/)(\w+)(/)(\w+)'
hayku_pattern = r'([^/]+)(/)([^/]+)(/)([^/]+)'
hayky_str_pattern = r'[аАеЕёЁиИоОуУЭэЮюЯя]'


def isHayku(str_example):
    match_hayku = re.match(hayku_pattern, str_example)
    if not match_hayku:
        return 'Не хайку. Должно быть 3 строки.'
    else:
        hayku_str_list = [match_hayku.groups()[i] for i in [0,2,4]] # list of sentence in ho
        hayku_str_num_list = [1, 2, 3]
        hayky_count_list = [5, 7, 5]
        hayky_str_res_list = list(map(lambda x, y: len(re.findall(hayky_str_pattern, x)) == y, hayku_str_list, hayky_count_list))
        # print(hayku_str_list, hayky_str_res_list)

        if (all(hayky_str_res_list)):
            return 'Хайку!'
        else:
            ind = hayky_str_res_list.index(0) # find the first False
            num_str = hayku_str_num_list[ind] # get number of string
            count = hayky_count_list[ind] 
            num_symb = len(re.findall(hayky_str_pattern, hayku_str_list[ind]))
            return 'Не хайку. В {} строке слогов не {}, а {}.'.format(num_str, count, num_symb)

ans = []

for i in TEXT_LIST:
    res = isHayku(i)
    print(res)
    ans.append(res)

print()
print('TEST', ANS_LIST == ans)

# print(match01.groups()[0])
# re.findall(r'[аАеЕёЁиИоОуУЭэЮюЯя]', match01.groups()[0])

Хайку!
Не хайку. Должно быть 3 строки.
Не хайку. В 1 строке слогов не 5, а 6.
Не хайку. В 2 строке слогов не 7, а 8.
Не хайку. В 1 строке слогов не 5, а 6.
Хайку!

TEST True


# Задачи — 4

## Задача 10. CamelCase -> under_score
Владимир написал свой открытый проект, именуя переменные в стиле «ВерблюжийРегистр».
И только после того, как написал о нём статью, он узнал, что в питоне для имён переменных принято использовать подчёркивания для разделения слов (under_score). Нужно срочно всё исправить, пока его не «закидали тапками».

Задача могла бы оказаться достаточно сложной, но, к счастью, Владимир совсем не использовал строковых констант и классов.
Поэтому любая последовательность букв и цифр, внутри которой есть заглавные, — это имя переменной, которое нужно поправить.



In [69]:
# TEXT = 'MyVar17 = OtherVar + YetAnother2Var'
TEXT1 = 'MyVar17 = OtherVar + YetAnother2Var '
TEXT2 = 'TheAnswerToLifeTheUniverseAndEverything = 42'
TEXT  = TEXT1 + TEXT2

var_pattern = r'[A-Z][a-z1-9]+(?=\s|[A-Z])'
# var_pattern = r'(?:\w+(?=[A-Z]))+'
# var_pattern = r'(?=[A-Z])'

def change_str(part:re.Match):
    match = part.group()
    match = match[0].lower() + match[1:] + '_'
    return match

print(re.match(var_pattern, 'MyVar17Ka'))
print(re.findall(var_pattern, TEXT))
match1 = re.search(var_pattern, TEXT)
# match1.group(), match1.groups()
print(re.sub(var_pattern, change_str, TEXT))

<re.Match object; span=(0, 2), match='My'>
['My', 'Var17', 'Other', 'Var', 'Yet', 'Another2', 'Var', 'The', 'Answer', 'To', 'Life', 'The', 'Universe', 'And', 'Everything']
my_var17_ = other_var_ + yet_another2_var_ the_answer_to_life_the_universe_and_everything_ = 42


In [35]:
match1.groups()

('Ka',)

In [65]:
import re
TEXT = 'AaaBbbCcc'

pattern1 = r'(?:([A-Z][a-z]+))+'

match1 = re.match(pattern1, TEXT)
print(match1, match1.group(), match1.groups())

<re.Match object; span=(0, 9), match='AaaBbbCcc'> AaaBbbCcc ('Ccc',)


In [20]:
str1 = 'TEST'

str1[0].lower()
str1

'TEST'

## Задача 11. Удаление повторов

Довольно распространённая ошибка ошибка — это повтор слова.
Вот в предыдущем предложении такая допущена. Необходимо исправить каждый такой повтор (слово, один или несколько пробельных символов, и снова то же слово).

In [101]:
TEXT = """Довольно распространённая ошибка ошибка — это лишний повтор повтор слова слова. Смешно, не не правда ли? Не нужно портить хор хоровод."""
TEXT_ANS = """Довольно распространённая ошибка — это лишний повтор слова. Смешно, не правда ли? Не нужно портить хор хоровод."""

ans = TEXT
split_text = re.split('\W+', TEXT)

for i in range(0, len(split_text) - 1):
    if (split_text[i] == split_text[i+1]):
        print(split_text[i])
        patter_word = r'' + split_text[i] + '\s+' + split_text[i]
        ans = re.sub(patter_word, split_text[i], ans)

print('TEST', ans == TEXT_ANS)
TEXT_ANS, ans

ошибка
повтор
слова
не
TEST True


('Довольно распространённая ошибка — это лишний повтор слова. Смешно, не правда ли? Не нужно портить хор хоровод.',
 'Довольно распространённая ошибка — это лишний повтор слова. Смешно, не правда ли? Не нужно портить хор хоровод.')

## Задача 12. Близкие слова
Для простоты будем считать словом любую последовательность букв, цифр и знаков _ (то есть символов \w).
Дан текст. Необходимо найти в нём любой фрагмент, где сначала идёт слово «олень», затем не более 5 слов, и после этого идёт слово «заяц».

In [125]:
TEXT1 = 'Да он олень, а не заяц!' # 2 слова между
ANS_TEXT1 = 'олень, а не заяц' 

TEXT2 = 'Да он олень, а нет, а да, он заяц!' # 5 слов между
ANS_TEXT2 = 'олень, а нет, а да, он заяц'

TEXT3 = 'Да он олень, а нет, а да, он он заяц!' # 6 слов между, результат д.б. None
ANS_TEXT3 = 'олень, а нет, а да, а нет, заяц'


pattern_sep = r'олень(?:(\W+)(\w+)(\W*)){,5}заяц'
print(re.search(pattern_sep, TEXT1))

print('TEST1', re.search(pattern_sep, TEXT1).group() == ANS_TEXT1)
print('TEST2', re.search(pattern_sep, TEXT2).group() == ANS_TEXT2)
print('TEXT3', re.search(pattern_sep, TEXT3) == None)


<re.Match object; span=(6, 22), match='олень, а не заяц'>
TEST1 True
TEST2 True
TEXT3 True


## Задача 13. Форматирование больших чисел
Большие целые числа удобно читать, когда цифры в них разделены на тройки запятыми.
Переформатируйте целые числа в тексте.



In [164]:
TEXT = """12 мало 
лучше 123 
1234 почти 
12354 хорошо 
стало 123456 
супер 1234567"""

TEXT_ANS = """12 мало 
лучше 123 
1,234 почти 
12,354 хорошо 
стало 123,456 
супер 1,234,567"""

pattern_digit = r'\d+'


def get_hum_number(m: re.Match):
    num = int(m.group())
    
    a1 = num // 1000
    a2 = num % 1000
    ans = str(a2)

    while (a1 > 0):
        num = num // 1000
        a1 = num // 1000
        a2 = num % 1000
        ans = str(a2) + ',' + ans

    return ans


# match = re.search(pattern_digit, '1231222')
# print(get_hum_number(match))

ans = re.sub(pattern_digit, get_hum_number, TEXT)
print(ans)
print()
print('TEST', ans == TEXT_ANS)


12 мало 
лучше 123 
1,234 почти 
12,354 хорошо 
стало 123,456 
супер 1,234,567

TEST True


In [128]:
123 % 1000

123