# regex: начало

In [1]:
import re

## Базовый синтаксис и метасимволы

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте

Иными словами, это такие строковые шаблоны, которые помогают найти подстроки определенного вида в строке

Для работы с регулярными выражениями в Python как правило используется встроенный модуль `re`(про альтернативы в конце)

Пример таких шаблонов:

| Регулярное выражение | Описание |
|----------------------|----------|
| simple text          | В точности текст «simple text» |
| \d{5}                | Последовательности из 5 цифр<br>\d означает любую цифру<br>{5} — ровно 5 раз |
| \d\d/\d\d/\d{4}      | Даты в формате ДД/ММ/ГГГГ<br>(и прочие куски, на них похожие, например, 98/76/5432) |
| \b\w{3}\b            | Слова в точности из трёх букв<br>\b означает границу слова (с одной стороны буква, а с другой — нет)<br>\w — любая буква,<br>{3} — ровно три раза |
| [-+]?\d+             | Целое число, например, 7, +17, -42, 0013 (возможны ведущие нули)<br>[-+]? — либо -, либо +, либо пусто<br>\d+ — последовательность из 1 или более цифр |


Давайте разбираться!

Будем рассматривать использование регулярных выражений (и в целом их синтаксис) на примере конструкции 
`re.search(<pattern>, <text>)`, где `<pattern>` - это регулярное выражение, а `<text>` - это текст, внутри которого мы ищем подстроки согласно нашему паттерну

Небольшая справка:


- Промежутки, заключенные в квадратные скобки, позволяют найти цифры или буквы разных алфавитов и разных регистров
    - [0-9] соответствует любой цифре
    - [A-Z] соответствует любой заглавной букве английского алфавита
    - [a-z] соответствует любой строчной букве английского алфавита
    - [А-Я] и [а-я] ‒ аналогично для букв русского алфавита (кроме буквы ё/Ё - ее нужно включать отдельно!)
- Для обозначения произвольного символа (кроме новой строки) используется точка ‒ .
- Для обозначения начала строки используется символ ^ (имеет другое значение внутри `[]`)
- Для обозначения конца строки используется символ $ 
- Для цифр есть специальный символ \d (от digit) ≈[0-9].. Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d.
- Для любого символа, кроме цифры тоже есть специальный символ \D (от digit)≈[^0-9] (заглавная буква здесь отвечает за отрицание). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву D.
- Для пробела тоже существует свой символ ‒ \s (от space) ≈[ \f\n\r\t\v]. Этот символ соответствует ровно одному пробельному символу в тексте (пробел, табуляция, перенос строки и т.д.).
- Любой непробельный символ, обозначается как \S (заглавная буква здесь отвечает за отрицание).
- Для букв тоже существует свой символ ‒ \w (от word) ≈ [0-9a-zA-Zа-яА-ЯёЁ_]. Любая буква (то, что может быть частью слова), а также цифры и _ .
- Любая не-буква, не-цифра и не подчёркивание, обозначается как \W (заглавная буква здесь отвечает за отрицание)

**Важное замечание**

- Синтаксис регулярных выражений чувствителен к регистру. Т.е. если где-либо в регулярном выражении используются заглавные/строчные буквы, это имеет причину
- Некоторые символы внутри регулярных выражений требуют экранирования (про это можно почитать в самом начале документации модуля `re` [здесь](https://docs.python.org/3/library/re.html)). Чтобы при экранировании не возникало конфликтов с синтаксисом экранирования Python, рекомендуется использовать raw strings, т.е. `r'pattern'`, для прописывания регулярных выражений

### Примеры по мотивам справки

In [363]:
text = "Here is some text to search inside"
pattern = "inside"

result = re.search(pattern, text)
print(result)
print(result.span())

<re.Match object; span=(28, 34), match='inside'>
(28, 34)


In [365]:
result = re.search("insidde", text)
print(result)
print(result.span())

None


AttributeError: 'NoneType' object has no attribute 'span'

Настоящая сила регулярных выражений раскрывается, когда в регулярном выражении (шаблоне) присутствуют **метасимволы**, т.е. символы, которые имеют особенное значение 

#### []

**Примечание** Внутри `[]` не нужно экранировать специальные символы (кроме  `^`, `-`, `]` и `\`)

Например, квадратные скобки `[]` используются для поиска множества символов:

In [375]:
text = "Я до сих пор слышу это в голове... 88005553535... Проще позвонить, чем у кого-то занимать..."

pattern = "[0-9]" # будет произведен поиск одной любой цифры
print(re.search(pattern, text))
# А что если мы хотим больше одной?

<re.Match object; span=(35, 36), match='8'>


In [369]:
pattern = "[0-9][0-9]" # будет произведен поиск двух любых цифр
print(re.search(pattern, text))

<re.Match object; span=(35, 37), match='88'>


А что если мы хотим искать числа произвольной длины?

Забегая вперёд, для этого есть специальный символ:
- `+` - для поиска одного и более повторений

In [374]:
pattern = "[0-9]+" # будет произведен поиск одной и более цифры
print(re.search(pattern, text))

<re.Match object; span=(35, 40), match='88005'>


Символы в скобках необязательно должны быть в формате какого-то диапазона, как `[0-9]` или `[A-z]`, например:

In [377]:
pattern = "[бес][бес]" # будет произведен поиск одного из символов (б, е, с) по порядку
text = "мракобесие"

print(re.search(pattern, text))

<re.Match object; span=(5, 7), match='бе'>


In [381]:
# более осмысленный пример:
pattern = "[Ии]ван"  # поиск текста `Иван` или `иван`
text = "Скажи-ка мне, Ванюша! Скажи-ка мне, Иван!"

print(re.search(pattern, text))

<re.Match object; span=(36, 40), match='Иван'>


#### . (точка)

Символ точки (`.`) соответствует одному любому символу в строке. Как вы думаете, какие из строк ниже соответствуют приведенному шаблону?

In [None]:
pattern = ".от"

texts = ["подушка", "Кот", "Живот", "крот", "от"]
for text in texts:
    result = re.search(pattern, text)
    if result is not None:
        print(f"Pattern {pattern} was found in {text}")
    else:
        print(f"Pattern {pattern} was not found in {text}")

#### ^ и $

Иногда нам хочется не просто найти какую-то подстроку внутри строки, но быть уверенными в том, что она находится:
- В самом начале слова (символ `^`)
- В самом конце слова (символ `$`). Символ `$` также позволит найти шаблон перед переносом строки (т.е. перед `\n`)
- Находится ровно между началом и концом (т.е. шаблон соответствует тексту целиком)


In [277]:
text = """
[Verse 1]
Buddy, you're a boy, make a big noise
Playing in the street
Gonna be a big man someday
You got mud on your face
You big disgrace
Kickin' your can all over the place, singing
""".strip()

pattern = "^\[Verse [0-9]\]"  # паттерн для поиска [Verse *цифра*] в начале строки 
re.search(pattern, text)

<re.Match object; span=(0, 9), match='[Verse 1]'>

In [280]:
text = """
[Chorus]
We will, we will rock you
We will, we will rock you
""".strip()

pattern = "you$"  # поиск you в самом конце строки [в некотором смысле похоже на str.rfind]
re.search(pattern, text)

<re.Match object; span=(57, 60), match='you'>

#### Синтаксис [^]

Символ `^` имеет другое значение, если внутри `[]`. Такая запись `[^...]` означает поиск такого символа, который не соответствует чему-либо внутри `[]` (то есть это по сути отрицание множества символов)

In [290]:
text = "Я уже совсем большой, мне 5 лет!"
pattern = "[^0-9]"  # поиск символа, который не соответствует никакой цифре

re.search(pattern, text)

<re.Match object; span=(0, 1), match='Я'>

#### Синтаксис \\*letter*

##### \\w и \\W

\w (от word) соответствует набору [0-9a-zA-Zа-яА-ЯёЁ_], т.е. это любая буква (то, что может быть частью слова), а также цифры и _ 

In [287]:
text = "Вы нас балуете, наша светлость"
pattern = "\w"

re.search(pattern, text)

<re.Match object; span=(0, 1), match='В'>

А какую подстроку мы найдем с помощью вот такого регулярного выражения?

In [None]:
text = "Вы нас балуете, наша светлость"
pattern = "\w+"


print(re.search(pattern, text))

\W (с большой буквы) - это противоположность \w (с маленькой)

\W эквивалентно [^0-9a-zA-Zа-яА-ЯёЁ_] -> т.е. поиск любого символа, который не является цифрой, буквой алфавита или символом "_"

In [295]:
pattern = "\W"
text = "То-то же, будешь знать!"

re.search(pattern, text)

<re.Match object; span=(2, 3), match='-'>

##### \d и \D

- \d - аналог [0-9]
- \D - аналог [^0-9]

In [296]:
text = "Я до сих пор слышу это в голове... 88005553535... Проще позвонить, чем у кого-то занимать..."

pattern = "\d" # будет произведен поиск одной любой цифры
print(re.search(pattern, text))

<re.Match object; span=(35, 36), match='8'>


In [297]:
text = "Я до сих пор слышу это в голове... 88005553535... Проще позвонить, чем у кого-то занимать..."

pattern = "\D" # будет произведен поиск одного нечислового символа
print(re.search(pattern, text))

<re.Match object; span=(0, 1), match='Я'>


##### \s и \S 

- \s используется для поиска пробельных символов
- \S используется для поиска любых символов, кроме пробельных

In [302]:
bad_str_8bit = "Hello\xa0World!" 
bad_str_unicode = "Hello\u2008World!"
good_str = "Hello World!"

pattern = "\s"

print(re.search(pattern, bad_str_8bit))
print(re.search(pattern, bad_str_unicode))
print(re.search(pattern, good_str))

<re.Match object; span=(5, 6), match='\xa0'>
<re.Match object; span=(5, 6), match='\u2008'>
<re.Match object; span=(5, 6), match=' '>


#### Якори

Якори - это категория специальных символов внутри регулярных выражений, которые отвечают за положение искомого шаблона
`^` и `$` - примеры таких якорей, отвечающих за начало и конец строки соответственно

Особенностью якорей является то, что сами по себе они не соответствуют какому-либо символу (т.е. это zero-width match)

In [303]:
text = "Какой-то текст"
pattern = "^"

re.search(pattern, text)

<re.Match object; span=(0, 0), match=''>

##### \b и \B

- \b - указатель на начало слова или его конец
- \B - противоположен ему, т.е. указывает на не-начало слова или не-конец слова

Слово - это \w (т.е. [a-zA-Z0-9_])

In [310]:
text = 'И он всё тщательно пережевывал: жевал, жевал...'
result = re.search(r'\bжев', text)
print(result)
l, r = result.span()
print(text[l-5:l+5])

<re.Match object; span=(32, 35), match='жев'>
вал: жевал


In [312]:
result = re.search(r'жев', text)
print(result)
l, r = result.span()
print(text[l-5:l+5])

<re.Match object; span=(23, 26), match='жев'>
 пережевыв


In [314]:
text = 'И он всё жевал, жевал...Да пережевывал'
result = re.search(r'\Bжев', text)
print(result)
l, r = result.span()
print(text[l-5:l+5])

<re.Match object; span=(31, 34), match='жев'>
 пережевыв


#### Квантификаторы

Квантификаторы - это категория специальных символов, используемая для обозначения количества повторений шаблона

- `*` - ноль или более повторений
- `+` - одно или больше повторений
- `?` - ноль или одно повторение

Квантификаторы должны стоять после какого-то шаблона. Например, следующее выражение `.?` означает "ноль или один любой символ"

In [317]:
text = "8800553535...проще позвонить..."
pattern = "[0-9]+"  # одна или более цифра

re.search(pattern, text)

<re.Match object; span=(0, 10), match='8800553535'>

In [318]:
text = "8800553535...проще позвонить..."
pattern = "[0-9]?"  # одна или 0 цифр

re.search(pattern, text)

<re.Match object; span=(0, 1), match='8'>

In [320]:
text = "8800553535...проще позвонить..."
pattern = "[0-9]*п"  # 0 или более цифр, после которых идет буква "п"

re.search(pattern, text)

<re.Match object; span=(13, 14), match='п'>

__Важно__

По умолчанию квантификаторы производят поиск самого длинного шаблона из возможных внутри строки (т.е. они работают жадно)

Как вы думаете, какой результат вернет поиск по шаблону ниже?

In [None]:
re.search('<.*>', '<div><span> <br> </span></div>')

Квантификаторы можно использовать в нежадном режиме, дописав к ним знак `?`:
- `*?`
- `+?`
- `??`

Тогда будет произведен поиск самого короткого шаблон:

In [None]:
re.search('<.*?>', '<div><span> <br> </span></div>')

#### {}

- `{m}` используется для поиска в точности `m` повторений шаблона (в этом смысле это гибче, чем `?`, `*` и `+`)
- `{m, n}` поиск любого числа повторений шаблона от `m` до `n` включительно
- `{m,}` поиск от `m` и больше включительно
- `{,n}` поиск меньше чем `n` включительно
- `{,}` поиск любого числа (т.е. это как `*`)

In [None]:
text = "88005553535"

re.search("8{,2}0{,2}5{3}3535", text)

Если внутри регулярного выражения `{}` стоят как есть (не соответствуя синтаксису выше), они не имеют особого смысла и используются просто как символ "фигурные скобки"

In [27]:
print(re.search('x{foo}y', 'x{foo}y'))

print(re.search('x{a:b}y', 'x{a:b}y'))

print(re.search('x{1,3,5}y', 'x{1,3,5}y'))

print(re.search('x{foo,bar}y', 'x{foo,bar}y'))

<re.Match object; span=(0, 7), match='x{foo}y'>
<re.Match object; span=(0, 7), match='x{a:b}y'>
<re.Match object; span=(0, 9), match='x{1,3,5}y'>
<re.Match object; span=(0, 11), match='x{foo,bar}y'>


Ещё есть синтаксис `{m,n}?`

- `{m,n}` - это жадный вариант (будет находить как можно больше повторений [m;n])
- `{m,n}?` - нежадный (lazy) вариант (будет находить как можно меньше повторений [m;n])

In [29]:
print(re.search('a{3,5}', 'aaaaaaaa'))  # как можно больше повторений из [3;5]
print(re.search('a{3,5}?', 'aaaaaaaa'))  # как можно меньше повторений из [3;5]

<re.Match object; span=(0, 5), match='aaaaa'>
<re.Match object; span=(0, 3), match='aaa'>


### Задача 1. Номера автомобилей

В России применяются регистрационные знаки нескольких видов.
Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы, имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.


У частных легковых автомобилях номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. У такси — две буквы, три цифры, затем две или три цифры с кодом региона. Есть также и другие виды, но в этой задаче они не понадобятся.


Вам потребуется определить, является ли последовательность букв корректным номером указанных двух типов, и если является, то каким.


На вход даются строки, которые претендуют на то, чтобы быть номером. Определите тип номера. Буквы в номерах — заглавные русские. Маленькие и английские для простоты можно игнорировать. 

**Примечание** Попробуйте решить сначала без `{}`, а потом с `{}`

In [None]:
privates_pattern = ...
taxi_pattern = ...

def get_car_type(plate, privates_pattern=privates_pattern, taxi_pattern=taxi_pattern):
    if re.search(privates_pattern, plate):
        return "private"
    elif re.search(taxi_pattern, plate):
        return "taxi"
    else:
        return "fail"


# для самопроверки
plates_list = ["С227НА777", "КУ22777", "Т22В7477", "М227К19У9", "С227НА777"]
answers = ["private", "taxi", "fail", "fail", "fail"]

for plate_num, answer in zip(plates_list, answers):
    assert get_car_type(plate_num) == answer

### Задача 2. Валидация e-mail

Email-адрес соответствует следующему формату: `Local-part@Domain`

Local-part:
- До `@` может содержать до 64 символов
- Разрешена латиница, цифры и символы `'._+-` (все)
- Не может начинаться или заканчиваться на `.+-` (ни один из символов)
- Две точки подряд запрещены

Domain:
- После `@` может содержать до 255 символов
- Разрешена латиница, цифры и `.-`
- Две точки подряд запрещены
- Доменная часть не может начинаться или заканчиваться на `.+-` (ни один из)

На вход даётся текст, из которого нужно достать email-адрес (или вернуть None, если его там нет)

In [75]:
pattern = ""

address = "мой email—example@mail.com"

re.search(pattern, address)

<re.Match object; span=(10, 26), match='example@mail.com'>

In [76]:
texts = ["Нужен ответ на письмо от ivanoff@ivan-chai.ru.",
         "Не забудьте поставить в копию serge'o-lupin@mail.ru- это важно.",
         "foo.@ya.ru", 
         "foo@.ya.ru", 
         "boo@ya_ru",
         "-boo@ya.ru-",
         "foo№boo@ya.ru"
        ]
for i in texts:
    print(re.search(pattern, i))

<re.Match object; span=(25, 45), match='ivanoff@ivan-chai.ru'>
<re.Match object; span=(30, 51), match="serge'o-lupin@mail.ru">
None
None
<re.Match object; span=(0, 6), match='boo@ya'>
<re.Match object; span=(1, 10), match='boo@ya.ru'>
<re.Match object; span=(4, 13), match='boo@ya.ru'>


## Группировка

Здесь нам важны два термина:

- **Группа (group)** - единая синтаксическая сущность. Например, если мы хотим искать строчки, в которых повторяется не просто символ, а конкретный набор символов, удобно работать с этим набором как с единой группой
- **Захват (capturing)** - некоторые группирующие конструкции "захватывают" ту часть строки, которая соответствует группе в используемом поисковом шаблоне. На деле это значит, что мы можем после применения регулярного выражения к строке доставать не только искомую(ые) подстроку(и) целиком, но и получать доступ к её частям (которые соответствуют группам)

__Группы__

Для того, чтобы сгруппировать набор символов, нужно поместить его в круглые скобки. Например, так: `(слово)`

In [31]:
print(re.search("(слово)", "В начале было слово, и слово было у Бога"))
print(re.search("слово", "В начале было слово, и слово было у Бога"))

<re.Match object; span=(14, 19), match='слово'>
<re.Match object; span=(14, 19), match='слово'>


In [34]:
# поиск слова "привет", за которым следует "-привет" 0 или 1 раз
print(re.search("(привет)(-привет)?", "Дорогой друг, привет-привет"))  
print(re.search("(привет)(-привет)?", "Это я, привет!"))  

<re.Match object; span=(14, 27), match='привет-привет'>
<re.Match object; span=(7, 13), match='привет'>


In [36]:
# без группировки квантификаторы будут применяться лишь к одному символу
print(re.search("([Дд]а)+", "Дададада, я Молния Маквин, самый быстрый из машин!"))
print(re.search("[Дд]а+", "Дададада, я Молния Маквин, самый быстрый из машин!"))

<re.Match object; span=(0, 8), match='Дададада'>
<re.Match object; span=(0, 2), match='Да'>


__Захват (capturing)__

Результатом применения `re.search` к строке и шаблону является объект `re.Match`. Кроме того, что мы можем достать какую-то информацию о нем через встроенные методы и атрибуты (пока мы видели только `span`, подробнее [тут](https://docs.python.org/3/library/re.html#match-objects)), можно получать доступ к подстрокам, которые соответствуют группам из шаблона

**Метод `.groups()`** вернет кортеж всех групп, которые подходят под регулярное выражение (сколько групп, столько элементов). Также важно, что `.groups()` будет захватывать последний соответствующий группе шаблон

In [59]:
# здесь была всего одна группа, поэтому кортеж

m = re.search("([Дд]а)+", "Дададада, я Молния Маквин, самый быстрый из машин!")
print(m)
print(m.groups()) 

<re.Match object; span=(0, 8), match='Дададада'>
('да',)


In [63]:
m = re.search("(Да)(да)-([Дд]а)+", "Дада-даДа, я Молния Маквин, самый быстрый из машин!")
print(m)
print(m.groups()) 

<re.Match object; span=(0, 9), match='Дада-даДа'>
('Да', 'да', 'Да')


**Метод .group(n)** вернёт n-тую группу (нумерация с единицы)

Если использовать `.group()` без передачи аргумента, это будет равносильно `.group(0)`, что значит вернуть **полностью** всю подстроку

In [68]:
m = re.search("(Да)(да)-([Дд]а)+", "Дада-даДа, я Молния Маквин, самый быстрый из машин!")
print(m)
print(m.groups())  # все группы
print(m.group(1))  # первая группа
print(m.group(2), end="\n\n")  # вторая группа

print("Варианты ниже эквивалентны:")
print(m.group(0))
print(m.group())

<re.Match object; span=(0, 9), match='Дада-даДа'>
('Да', 'да', 'Да')
Да
да

Варианты ниже эквивалентны:
Дада-даДа
Дада-даДа


Если нужен список конкретных групп, можно использовать синтаксис `.group(m, k, n, ...)`, который вернет группы по указанным номерам:

In [69]:
m = re.search("(Да)(да)-([Дд]а)+", "Дада-даДа, я Молния Маквин, самый быстрый из машин!")
print(m)
print(m.group(1, 3))  # группы 1 и 3

<re.Match object; span=(0, 9), match='Дада-даДа'>
('Да', 'Да')


Про [backreference](https://realpython.com/regex-python/#backreferences)

**Группы без захвата `(?:)` и перечисления `|`**

`(?:)` работает так же, как `()`, только не приводит к созданию группы, к которой можно получить доступ после выполнения поиска (non-capturing group)

Т.е. мы можем использовать `(?:something)`, когда нам просто важно сгруппировать символы, не очень нужно впоследствии иметь к ним доступ как к группе

In [78]:
m = re.search("(?:Да)(да)-([Дд]а)+", "Дада-даДа, я Молния Маквин, самый быстрый из машин!")
print(m)
print(m.groups())  # первая группа включена не будет
print(m.group())  # но на поиск в данном случае это влиять не будет

<re.Match object; span=(0, 9), match='Дада-даДа'>
('да', 'Да')
Дада-даДа


Символ `|` используется как "или" и нужен для поиска какого-то из шаблонов, стоящих слева или справа от него:
- `a|b` для поиска `a` или `b`
- `(лево|право)` для поиска `лево` или `право`

In [81]:
print(re.search("он (шёл|плыл)", "он шёл"))
print(re.search("он (шёл|плыл)", "он плыл"))
# здесь поиск равнозначен `(он шёл)|(плыл)`
print(re.search("он шёл|плыл", "он плыл"))

<re.Match object; span=(0, 6), match='он шёл'>
<re.Match object; span=(0, 7), match='он плыл'>
<re.Match object; span=(3, 7), match='плыл'>


А ещё группам можно давать имена:

`(?P<name>REGEX)` ведет к тому, что создается группа с именем `name`, которую впоследствии можно извлечь как `match_object.group("name")`

Про имена можно [почитать тут](https://realpython.com/regex-python/#other-grouping-constructs) (там ещё один пример)

### Задача 3. Количество слов

---
**Небольшое примечание**

Здесь будет использоваться функция `re.findall`. Мы поговорим про нее позже, но коротко - она нужна для поиска всех подстрок, которые соответствуют данному шаблону. Пример:

In [83]:
print(re.findall("[Пп]ривет", "- Привет, меня зовут Николя! - Привет, Николя, меня зовут Джульетта!"))
print(re.findall("[0-9]+", "Это номер: 8800553535. Это тоже номер: +71234567878"))

['Привет', 'Привет']
['8800553535', '71234567878']


С использованием группирующих скобок возникает проблема в случае использования `re.findall`

Если в шаблоне есть группирующие скобки `()` без `?:`, то:
- Если группа одна, будет возвращён список подстрок, которые соответствуют данной группе
- Если групп больше одной, будет возвращен список кортежей, где последовательно содержатся подстроки, соответствующие искомым группам

In [90]:
print(re.findall("(\+7|8)800", "Это число 88003535, это другое число +78005535, это третье число 8800"))
print(re.findall("(\+7|8)(800)", "Это число 88003535, это другое число +78005535, это третье число 8800"))
print(re.findall("(?:\+7|8)(?:800)", "Это число 88003535, это другое число +78005535, это третье число 8800"))

['8', '+7', '8']
[('8', '800'), ('+7', '800'), ('8', '800')]
['8800', '+7800', '8800']


Перейдём к задаче!

---
Слово — это последовательность из букв (русских или английских), внутри которой могут быть дефисы.
На вход даётся текст. Посчитайте, сколько в нём слов

In [None]:
text = """
Он --- серо-буро-малиновая редиска!! 
>>>:-> 
А не кот. 
www.kot.ru
"""



res = re.findall("", text)
print(res)
print(len(res))


## lookahead и lookbehind

**Lookahead (поиск спереди)** и **lookbehind (поиск сзади)** assertions - это служебные конструкции, которые нужно для определения того, что находится слева от текущего шаблона (lookbehind) или справа (lookbehind)

Эти конструкции ведут себя как якоря в том смысле, что они не соответствуют какому-то символу (zero-width assertions).\
__Выглядит это так:__
- `(?=something)` - положительный поиск спереди
- `(?!something)` - отрицательный поиск спереди
- `(?<=something)` - положительный поиск сзади
- `(?<!something)` - отрицательный поиск сзади

Несмотря на то, что данная конструкция включает в себя скобки, она ведет к образованию группы (ниже видно почему)

Положительный поиск спереди (positive lookahead):

In [117]:
# мэтч "Джимми" происходит, если справа от него стоит " Нейтрон"
# обратите внимание, " Нейтрон" здесь не входит в match (именно по этой причине наличие скобок не ведёт к появлению групп)
print(re.search("Джимми(?= Нейтрон)", "Джимми Нейтрон"))
print(re.search("Джимми(?= Нейтрон)", "Джимми Нейтрино"))

<re.Match object; span=(0, 6), match='Джимми'>
None


Отрицательный поиск спереди (negative lookahead):

In [114]:
# тут наоборот - мэтч "Джимми" НЕ происходит, если справа от него стоит " Нейтрон"
print(re.search("Джимми(?! Нейтрон)", "Джимми Нейтрон"))
print(re.search("Джимми(?! Нейтрон)", "Джимми Нейтрино"))

None
<re.Match object; span=(0, 6), match='Джимми'>


Положительный поиск сзади (positive lookbehind):

In [120]:
# мэтч "Фиона" происходит, если слева от него стоит "Шрек "
print(re.search("(?<=Шрек )Фиона", "Шрек Фиона Гаральд Осёл!"))
print(re.search("(?<=Шрек )Фиона", "Гаральд Фиона Осёл Шрек!"))

<re.Match object; span=(5, 10), match='Фиона'>
None


Отрицательный поиск сзади (negative lookbehind):

In [123]:
# мэтч "свежая строка" происходит, если слева от него НЕ стоит "32 коровы "
print(re.search("(?<!32 коровы )свежая строка", "33 коровы 33 коровы 33 коровы свежая строка"))
# мэтч "свежая строка" происходит, если слева от него НЕ стоит "33 коровы "
print(re.search("(?<!33 коровы )свежая строка", "33 коровы 33 коровы 33 коровы свежая строка"))

<re.Match object; span=(30, 43), match='свежая строка'>
None


Важная особенность (которой нет в third-party реализации модуля [`regex`](https://pypi.org/project/regex/)) поиска сзади в том, что выражение внутри lookbehind (positive/negative) должно быть фиксированной длины:

In [None]:
# попытка мэтча "и так далее", если слева стоит любое количество (1+) цифр, за которыми идет пробел
print(re.search("(?<=[0-9]+ )и так далее", "И так, сейчас я буду считать: 123456789101112 и так далее"))

In [126]:
# но при шаблоне фиксированной длины всё хорошо
print(re.search("(?<=[0-9]{5} )и так далее", "И так, сейчас я буду считать: 123456789101112 и так далее"))

<re.Match object; span=(46, 57), match='и так далее'>


In [None]:
# диапазоны тоже использовать нельзя
print(re.search("(?<=[0-9]{1,5} )и так далее", "И так, сейчас я буду считать: 123456789101112 и так далее"))

In [129]:
import regex 

# в реализации regex так можно
print(regex.search("(?<=[0-9]+ )и так далее", "И так, сейчас я буду считать: 123456789101112 и так далее"))

<regex.Match object; span=(46, 57), match='и так далее'>


### Задача 4. Близкие слова

Для простоты будем считать словом любую последовательность букв, цифр и знаков _ (то есть символов \w).
Дан текст. Необходимо найти в нём любой фрагмент, где сначала идёт слово «олень», затем не более 5 слов, и после этого идёт слово «заяц».

In [168]:
text = "Да он олень, а ни фига никакой не заяц!"

pattern = ...
print(re.search(pattern, text))

result = "олень, а не заяц"

<re.Match object; span=(6, 38), match='олень, а ни фига никакой не заяц'>


Как можно изменить это выражение с помощью lookahead/lookbehind, чтобы:
- Выполнялся поиск слова "олень", если после него идёт не более 5 слов, а затем слово "заяц"
- Выполнялся поиск слова "заяц", если до него идёт не более 5 слов олень, а перед ними слово "олень" 

## Популярные флаги

До сих пор мы использовали синтаксис `re.search(<pattern>, <text>)`, но поиск также поддерживает передачу флагов, т.е. общий синтаксис - `re.search(<pattern>, <text>, <flags>)`

Какие есть флаги, и чем они могут быть полезны?

| Короткое имя | Полное имя         | Эффект |
|-------------|--------------------|------------------------------------------------------------|
| `re.I`      | `re.IGNORECASE`    | Делает сопоставление алфавитных символов независимым от регистра |
| `re.M`      | `re.MULTILINE`     | Заставляет якоря начала `^` и конца `$` строки соответствовать вложенным переводам строк |
| `re.S`      | `re.DOTALL`        | Заставляет `.` (точку) дополнительно соответствовать символу перевода строки |
| `re.X`      | `re.VERBOSE`       | Позволяет включать пробелы и комментарии в регулярное выражение (может сильно улучшить читабельность)|
| `re.A`      | `re.ASCII`         |По умолчанию \w, \W, \b, \B, \d, \D, \s, \S соответствуют все юникодные символы с соответствующим качеством. <br>Например, \d соответствуют не только арабские цифры, но и вот такие: ٠١٢٣٤٥٦٧٨٩. <br>`re.ASCII` ускоряет работу, если все соответствия лежат внутри ASCII. [Подробнее](https://stackoverflow.com/questions/61200505/python-regex-pattern-with-re-ascii-can-still-match-unicode-characters)|


**`re.IGNORECASe`**

In [174]:
print(re.search("Иван", "вы чего, иван васильевич?"))
print(re.search("Иван", "вы чего, иван васильевич?", re.I))  # с флагом IGNORECASE
print(re.search("[А-Я]+", "вы чего, иван васильевич?", re.I))  # с флагом IGNORECASE

None
<re.Match object; span=(9, 13), match='иван'>
<re.Match object; span=(0, 2), match='вы'>


**`re.MULTILINE`**

In [176]:
text = """Rah, rah, ah-ah-ah
Roma, roma-ma
Gaga, ooh-la-la
Want your bad romance"""

pattern = "^Roma"

print(re.search(pattern, text)) 
print(re.search(pattern, text, re.MULTILINE))  # с флагом re.MULTILINE

None
<re.Match object; span=(19, 23), match='Roma'>


**`re.DOTALL`**

In [177]:
text = """Rah, rah, ah-ah-ah
Roma, roma-ma
Gaga, ooh-la-la
Want your bad romance"""

pattern = "ah-ah-ah.Roma"

print(re.search(pattern, text)) 
print(re.search(pattern, text, re.DOTALL))  # с флагом re.MULTILINE

None
<re.Match object; span=(10, 23), match='ah-ah-ah\nRoma'>


**`re.VERBOSE`** (подробнее про правила `re.VERBOSE` [в документации](https://docs.python.org/3/library/re.html#re.VERBOSE))

In [180]:
# регулярное выражение для поиска десятичного числа (float)

pattern_verbose = r"""\d +  # the integral part
            \.    # the decimal point
            \d *  # some fractional digits"""
pattern_short = r"\d+\.\d*"
text = "Какой-то текст с числом 3.14, а вот продолжение"

print(re.search(pattern_short, text))
print(re.search(pattern_verbose, text, re.X))

<re.Match object; span=(24, 28), match='3.14'>
<re.Match object; span=(24, 28), match='3.14'>


**`re.ASCII`**

In [188]:
print(re.search(r'\w+', 'Планета, greet me!!') )
print(re.search(r'\w+', 'Планета, greet me!!', re.ASCII))  # с флагом re.ASCII

<re.Match object; span=(0, 7), match='Планета'>
<re.Match object; span=(9, 14), match='greet'>


# regex: продолжение

## Функции для поиска

| Функция         | Описание |
|----------------|----------------------------------------------------|
| `re.search()`   | Ищет первое совпадение с регулярным выражением в строке |
| `re.match()`    | Проверяет, совпадает ли начало строки с шаблоном |
| `re.fullmatch()` | Проверяет, совпадает ли вся строка с шаблоном |
| `re.findall()`  | Возвращает список всех совпадений с шаблоном в строке |
| `re.finditer()` | Возвращает итератор, который генерирует совпадения в строке |


Суть (и интерфейс) первых трех функций похожи:
- `re.search(<regex>, <string>, flags=0)`
- `re.match(<regex>, <string>, flags=0)`
- `re.fullmatch(<regex>, <string>, flags=0)`

Однако:
- `re.search` выполняет поиск в любом месте строки
- `re.match` выполняет поиск только в начале
- `re.fullmatch` выполняет поиск по всей строки (т.е. шаблон должен соответствовать строке полностью) 

In [189]:
print(re.search(r'\d+', '123foobar'))
print(re.search(r'\d+', 'foo123bar'))

<re.Match object; span=(0, 3), match='123'>
<re.Match object; span=(3, 6), match='123'>


In [190]:
print(re.match(r'\d+', '123foobar'))
print(re.match(r'\d+', 'foo123bar'))

<re.Match object; span=(0, 3), match='123'>
None


In [197]:
print(re.fullmatch(r'\d+', '123foobar'))
print(re.fullmatch(r'\d+', 'foo123bar'))

print(re.fullmatch(r'\d+\w+', '123foobar'))
print(re.fullmatch(r'\w+\d+\w+', 'foo123bar'))

None
None
<re.Match object; span=(0, 9), match='123foobar'>
<re.Match object; span=(0, 9), match='foo123bar'>


## Ищем подстроки по шаблону

`findall` и `finditer` также похожи между собой. Оба метода используются для поиска всех подстрок, которые соответствуюю заданному шаблону, но:
- `re.findall(<regex>, <string>, flags=0)` возвращает список всех соответствующих шаблону подстрок
- `re.finditer(<regex>, <string>, flags=0)`возвращает итератор, который содержит все **match-объекты**, соответствующие шаблону подстрок 

In [198]:
pattern = r'\d\d\.\d\d\.\d{4}'  # паттерн для поиск даты в формате XX.XX.XXXX, где X - числа
text = 'Эта строка написана 19.01.2018, а могла бы и 01.09.2017'

print(re.findall(pattern, text)) 

['19.01.2018', '01.09.2017']


In [201]:
pattern = r'\d\d\.\d\d\.\d{4}'  # паттерн для поиск даты в формате XX.XX.XXXX, где X - числа
text = 'Эта строка написана 19.01.2018, а могла бы и 01.09.2017'

it = re.finditer(pattern, text)
for match_obj in it:
    print(match_obj)

<re.Match object; span=(20, 30), match='19.01.2018'>
<re.Match object; span=(45, 55), match='01.09.2017'>


Возвращаясь к комментарию о том, что синтаксис захватывающих групп работает для `re.findall` особенно (что не является большой проблемой для `re.finditer`):

In [202]:
print(re.findall("(\+7|8)(800)", "Это число 88003535, это другое число +78005535, это третье число 8800"))

[('8', '800'), ('+7', '800'), ('8', '800')]


In [203]:
it = re.finditer("(\+7|8)(800)", "Это число 88003535, это другое число +78005535, это третье число 8800")
for match_obj in it:
    print(match_obj)

<re.Match object; span=(10, 14), match='8800'>
<re.Match object; span=(37, 42), match='+7800'>
<re.Match object; span=(65, 69), match='8800'>


### Задача 5. Замена времени в письме

Вовочка подготовил одно очень важное письмо, но везде указал неправильное время.

Вам нужно найти все вхождения времени (в оригинальной формулировке нужно заменить, но про это - в следующей задаче)\
Время — это строка вида `HH:MM:SS` или `HH:MM`, в которой:
- `HH` — число от 00 до 23
- `MM` и `SS` — число от 00 до 59

In [204]:
text = """Уважаемые! Если вы к 09:00 не вернёте 
чемодан, то уже в 09:00:01 я за себя не отвечаю. 
PS. С отношением 25:50 всё нормально!"""

result = ["09:00", "09:00:01"]  # 25:50 не соответствует заданному формату

## Функции для замены

Иногда задача сводится не только к тому, чтобы найти подстроки в строке, а к тому, чтобы заменить эти подстроки

Для этого в модуле `re` есть два метода:
- `re.sub(<regex>, <repl>, <string>, count=0, flags=0)` ищет подстроки, которые соответствуют заданному шаблону `<regex>`, заменяет найденные шаблоны, используя `<repl>` и возвращает результат
- `re.subn(<regex>, <repl>, <string>, count=0, flags=0)` делает всё то же, что `re.sub`, только возвращает кортеж из двух аргументов, где первый - исправленная строка, а второй - количество произведенных в процессе замен

Для обоих методов есть два режима (в зависимости от того, что такое `<repl>`):
- замена строкой
- замена с использованием функции

__Замена строкой__

In [209]:
text = """Уважаемые! Если вы к 09:00 не вернёте 
чемодан, то уже в 09:00:01 я за себя не отвечаю. 
PS. С отношением 25:50 всё нормально!"""
repl = "(TBD)"
pattern = ""

re.sub(pattern, repl, text)

'Уважаемые! Если вы к (TBD) не вернёте \nчемодан, то уже в (TBD) я за себя не отвечаю. \nPS. С отношением 25:50 всё нормально!'

In [210]:
# TODO: добавить замену с backreferences

__Замена функцией__

In [211]:
def f(match_obj):
    """
    Заменяет все числа X на X*10, а слова переводит в верхний регистр
    """
    s = match_obj.group(0)  # The matching string

    # s.isdigit() returns True if all characters in s are digits
    if s.isdigit():
        return str(int(s) * 10)
    else:
        return s.upper()

result = re.sub(r'\w+', f, 'foo.10.bar.20.baz.30')
print(result)  # 'FOO.100.BAR.200.BAZ.300'


FOO.100.BAR.200.BAZ.300


## Заменяем подстроки по шаблону

### Задача 6. То ли акростих, то ли акроним, то ли апроним

Акростих — осмысленный текст, сложенный из начальных букв каждой строки стихотворения.\
Акроним — вид аббревиатуры, образованной начальными звуками (напр. НАТО, вуз, НАСА, ТАСС), которое можно произнести слитно (в отличие от аббревиатуры, которую произносят «по буквам», например: КГБ — «ка-гэ-бэ»).

На вход даётся текст. Выведите слитно первые буквы каждого слова. Буквы необходимо выводить заглавными.

__Примеры:__

Ввод: Московский государственный институт международных отношений
Вывод: МГИМО

Ввод: микоян авиацию снабдил алкоголем, народ доволен работой авиаконструктора
Вывод: МАСАНДРА

### Задача 7. Шифровка

Владимиру потребовалось срочно запутать финансовую документацию. Но так, чтобы это было обратимо.
Он не придумал ничего лучше, чем заменить каждое целое число (последовательность цифр) на его куб. Помогите ему. 

In [None]:
text = "Было закуплено 12 единиц техники по 410.37 рублей."
result = "Было закуплено 1728 единиц техники по 68921000.50653 рублей."

## Вспомогательный функционал

- `re.split(<regex>, <string>, maxsplit=0, flags=0)` - функция для разделения строки по шаблону в регулярном выражении (полезно, когда простого разделителя недостаточно)
- `re.escape()` - функция для экранирования символов, имеющих особенное значение в синтаксисе регулярных выражений

In [216]:
text = "This,is;some data, separated|by different,delimiters"
pattern = r",|;|\|"
for i in re.split(pattern, text):
    print(i)

This
is
some data
 separated
by different
delimiters


### Задача 8. Разбить текст на части

Ниже представлен текст песни "Radioactive" (by Imagine Dragons).\
Разбейте его на части, используя обозначения типа [Intro], [Verse 1] и т.д. как разделители

**Важно** Не используйте `r'\[\]'` как паттерн :) В данной задаче это работает, но такие вещи могут подводить

In [None]:
lyrics = """
[Intro]
Woah, oh-oh
Woah, oh-oh
Woah, oh-oh
Woah

[Verse 1]
I'm waking up to ash and dust
I wipe my brow and I sweat my rust
I'm breathing in the chemicals

[Pre-Chorus]
I'm breaking in, shaping up
Then checking out on the prison bus
This is it, the apocalypse
Woah

[Chorus]
I'm waking up, I feel it in my bones
Enough to make my system blow
Welcome to the new age, to the new age
Welcome to the new age, to the new age

[Post-Chorus]
Woah-oh, woah
I'm radioactive, radioactive
Woah-oh, woah
I'm radioactive, radioactive

[Verse 2]
I raise my flags, dye my clothes
It's a revolution, I suppose
We're painted red to fit right in
Woah

[Pre-Chorus]
I'm breaking in, shaping up
Then checking out on the prison bus
This is it, the apocalypse
Woah

[Chorus]
I'm waking up, I feel it in my bones
Enough to make my system blow
Welcome to the new age, to the new age
Welcome to the new age, to the new age

[Post-Chorus]
Woah-oh, woah
I'm radioactive, radioactive
Woah-oh, woah
I'm radioactive, radioactive

[Bridge]
All systems go, the sun hasn't died
Deep in my bones, straight from inside

[Chorus]
I'm waking up, I feel it in my bones
Enough to make my system blow
Welcome to the new age, to the new age
Welcome to the new age, to the new age

[Post-Chorus]
Woah-oh, woah
I'm radioactive, radioactive
Woah-oh, woah
I'm radioactive, radioactive""".strip()

pattern = ...
for i in re.split(pattern, lyrics):
    print(i, end="\n------")

## Компиляция регулярных выражений

Модуль `re` позволяет прекомпилировать регулярные выражения в особый объект, используя метод `re.compile(<regex>, flags=0)`

Зачем и как?

In [225]:
print(re.search(r'(\d+)', 'foo123bar'))

re_obj = re.compile(r'(\d+)')
print(re_obj)
print(re.search(re_obj, 'foo123bar'))

print(re_obj.search('foo123bar'))

<re.Match object; span=(3, 6), match='123'>
re.compile('(\\d+)')
<re.Match object; span=(3, 6), match='123'>
<re.Match object; span=(3, 6), match='123'>
