<a href="https://colab.research.google.com/github/MichaelPanikovskiy/d/blob/main/RegExp_solved.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

> *Когда некоторые люди сталкиваются с проблемой, думают «Я знаю, я решу её с помощью регулярных выражений.» Теперь у них две проблемы*

## Регулярные выражения

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте. Одному шаблону может соответствовать много разных строчек.

Термин «Регулярные выражения» является переводом английского словосочетания «Regular expressions». Перевод не очень точно отражает смысл, правильнее было бы «шаблонные выражения». Регулярное выражение, или коротко «регулярка», состоит из обычных символов и специальных командных последовательностей. Например, `\d` задаёт любую цифру, а `\d*` — задает любую последовательность из нуля или более цифр

### Начнем с простых текстовых шаблонов

В Python поиску по шаблону обучно используется функция `search` из библиотеки `re`:
````
match = re.search(pattern, string)
````

In [None]:
import re

Метод `re.search()` принимает шаблон `pattern` и строку `string`, а затем ищет этот шаблон в строке.

Если поиск успешен, `search()` возвращает подстроку, которая удовлетворяет поиску, в противном случае - `None.


Давайте с помощью этого метода попробуем найти в строке котов:

In [None]:
string = 'Я люблю котиков кот и мятные пряники'
match = re.search(r'кот\w*', string)
if match:
    print('Нашёл слово:', match.group())
else:
    print('В этом тексте нет котов :(')

Нашёл слово: котиков


Код `match = re.search(r'кот\w*', str)` сохраняет результат поиска в переменную с именем `match`. Если поиск завершился успешно, то `match.group()` является совпадающим текстом (в нашем случае содержит слова "котиков", так это "кот" плюс некоторое количество или ноль букв в конце).



## Основные спецсимволы

Для задания шаблонов в регулярных выражениях используются спецсимволы.

Давайте посмотрим основные из них:

**.**   Один любой символ, кроме новой строки

**\d**	Любая цифра

**\D**	Любой символ, кроме цифры

**\s**	Любой пробельный символ (пробел, табуляция, конец строки и т.п.)

**\S**	Любой непробельный символ	(не пробел, не табуляция, не конец строки и т.п.)

**\w**	Любая буква (то, что может быть частью слова), а также цифры и _

**\W**	Любая не-буква, не-цифра и не подчёркивание

**[..]**	Один из символов в скобках в рамках диапазона, то есть:

**\d** равносильно выражению `[0-9]`

**\D** равносильно выражению `[^0-9]`, так как символ ^ означает любой символ, кроме перечисленных

**\w** равносильно выражению `[0-9a-zA-Z]`, эта запись сочетает в себе последовательность из любых цифр, букв в обоих регистрах

**\s** равносильно `[\f\n\r\t]` (тут надо постараться, чтобы вспомнить что есть что!)

**\b** Начало или конец слова (слева пусто или не-буква и справа буква, или наоборот). В отличие от предыдущих соответствует позиции, а не символу.

**^ и $**	тоже обозначение начало и конца строки соответственно

Кстати, любая строка, в которой нет символов, сама по себе является регулярным выражением. Так, выражению "привет" будет соответствовать строка “привет” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “ПрИвЕт” уже не подойдёт. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `**.^$*+?{}[]\|()**`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \

Например, если вы хотите найти выражение в скобках, то надо написать `\(\w*\)`.

### Посмотрим на примеры!

In [None]:
# зададим шаблон: любой символ (точка) + окончание "ом" и посмотрим, какие примеры подойдут
all_strings = ['дом', 'комом', 'космодром', '5ом', '666ом', '_ом', 'ом']
for element in all_strings:
    match_ = re.search(r'.ом', element)
    if match_:
        print(match_.group(), end = ', ')

дом, ком, ром, 5ом, 6ом, _ом, 

In [None]:
# проверим есть ли в строке вопросительный знак
string = 'Как дела?'
result = re.search(r'\?', string)
if result:
    print('В строке есть вопросительный знак.')
    print(result.group(0))
else:
    print('В строке нет вопросительно знака.')

В строке есть вопросительный знак.
?


### Вернёмся к теории

Как в регулярном выражении объяснить, сколько раз нам нужно то или иное вхождение символов?

**{n}**	 Ровно n повторений

**{m,n}**	От m до n повторений включительно

**{m,}**	Не менее m повторений

**{,n}**	Не более n повторений

**?**	Ноль или одно вхождение, аналогично {0,1}

**\***	Ноль или более вхождений, аналогично {0,}

**\+**	Одно или более вхождений, аналогично {1,}

**|** логический оператор или

In [None]:
# в фигурных скобках количество повторений заданного символа, в этом случае мы ищем 3 числа после слова БЖУР
string = 'Самые умные студенты учатся в группе ML09'

match_ = re.search(r'ML\d{2}', string)
if match_:
    print(match_.group(), end = ', ')

ML09, 

In [None]:
# обратим внимание, что первые три строки не прошли проверку (т.к. в них меньше 4х чисел)
# а дальше выводились первые 4 цифры оставшихся строк
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4}', element)
    if match:
        print(match.group(), end = ', ')

1234, 1234, 1234, 

In [None]:
# убрали ограничение на количество цифр
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4,}', element)
    if match:
        print(match.group(), end = ', ')

1234, 12345, 123456, 

In [None]:
# если нам надо найти последовательности ТОЛЬКО из 4х чисел, то нуно добавить знак $ в конеч строки
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'^\d{4}$', element)
    if match:
        print(match.group(), end = ', ')

1234, 

In [None]:
# зададим условие для поиска правильных Брэд Питтов
# Брэдд Питт не обижается, если его имя пишут с маленькой буквы
# но ему неприятно, если между именем и фамилией нет символа табуляции
all_strings = ['Брэд Питт', 'брэд Питт', 'брэд питт', 'брэд_питт', 'Брэд666Питт']
for element in all_strings:
    match = re.search(r'[Бб]рэд\s[Пп]итт', element)
    if match:
        print(match.group(), end = ', ')

Брэд Питт, брэд Питт, брэд питт, 

#### Работа с заглавными буквами

In [None]:
# загадочная буква ё, на которой всё ломается
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(re.search(r'[А-Яа-я\s]+',st).group(0))

у любви у нашей села батарейка ОООООО


In [None]:
#как исправить? не забыть добавить Ё после а-я!
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(re.search(r'[А-Яа-яЁё\s]+',st).group(0))

у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


Кстати, для обозначения заглавных букв нередко употребляют жаргонизм *капитализация* от английского слова capital (letter). Не пугайтесь, эта капитализация не имеет ничего общего с финансами, а просто поясняет, какими буквами написано слово.

Для того, чтобы привести все буквы к нижнему регистру используется метод `string.lower()`, а к верхнему - `string.upper()`.

In [None]:
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(st.lower())
print(st.upper())

у любви у нашей села батарейка ооооооёёёёиияяяяяиииёёёёёёёё батарейка
У ЛЮБВИ У НАШЕЙ СЕЛА БАТАРЕЙКА ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


#### Примеры посложнее

In [None]:
## найдём в слове столько i, сколько возможно
string = 'piiiiiig'
match = re.search(r'pi+', string)
print(match.group())

piiiiii


In [None]:
## сталкиваемся с особенностью метода search - метод search ищет только самое первое (самое левое) вхождение
string = 'piigiiiiii'
match = re.search(r'i+', string)
print(match.group())

ii


In [None]:
#теперь попробуем найти не только свиней, но и мопсов (pug - мопс)
all_strings = ['pig', 'pog', 'pug', 'piug', 'pigpugpig', 'pig_pug']
for element in all_strings:
    match = re.search(r'(p[iu]g_*)+', element)
    if match:
        print(match.group(), end = ', ')

pig, pug, pigpugpig, pig_pug, 

In [None]:
# посмеялись и хватит, давайте найдём строки где не больше 5и смешков
# с условием, что кто-то смеётся с дефисом, а кто-то без
all_strings = ['ха-ха', 'ха-хаха-ха-хаха-ха','хо-хоха-хахо-хохах-ах', 'хахоха']
for element in all_strings:
    match = re.search(r'(х[ао]-*){,5}', element)
    if match:
        print(match.group(), end = ', ')

хо, ха-хаха-ха-ха, хо-хоха-хахо-, хахоха, 

### Попробуем найти все e-mail'ы в строке

In [None]:
# как бы мы делали раньше
import re
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'\w+@\w+\.\w{2,3}', string) # что-то, потом @, потом ещё что-то
if match:
    print(match.group())

b@google


В этом случае поиск не дает полного адреса электронной почты, потому что `\w` не соответствует дефису или точке в адресе. Исправим это, используя функции регулярных выражений ниже. Коды `\w`, `\s` и другие работают точно так же внутри квадратных скобок. Исключение - точка (.), которая внутри скобок означает просто буквальную точку.

**Итак, собираем регулярное выражение:**

1) `[\w.-]` всё, что может находиться в адресе электронной почты

2) `[\w.-]+` добавим плюс, так как там может быть сколько угодно символов

3) `[\w.-]+@[\w.-]+` посередине знак @, готово!
Замечание: будем считать, что в домене не бывает нижнего подчеркивания.

In [None]:
# как мы будем делать, зная регулярные выражения
import re
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'[\w.-]+@[\w.-]+', string)
if match:
    print(match.group())

alice-b@google.com


In [None]:
# ТРЕНИРУЕМСЯ

In [None]:
# Вернуть первое слово из строки «Регулярные выражения в Python».
import re
string = "Регулярные выражения в Python"
result = re.findall(, string)
print(result)

In [None]:
# Вернуть последнее слово из строки «Регулярные выражения в Python».
import re
string = "Регулярные выражения в Python"
result = re.findall(, string)
print(result)

In [None]:
# Проверить формат телефонного номера. Номер должен состоять из 11 знаков и начинаться с 7 или 8. На вход подается список телефонных номеров.
phone_numbers = ['89154167654', '38764356622', '79853452190', '891678645432', '8916657b589']
for number in phone_numbers:
    if re.match(r'[78][0-9]{10}', number) and len(number) == 11:
        print('Correct')
    else:
        print('Incorrect')


### Группировка

Функция "группировки" регулярного выражения позволяет вам выделять части совпадающего текста. Предположим, что для проблемы электронной почты мы хотим извлечь имя пользователя и хост отдельно. Для этого добавьте круглые скобки () вокруг имени пользователя и хоста в шаблоне. В этом случае круглые скобки не меняют то, чему будет соответствовать шаблон, вместо этого они создают логические «группы» внутри текста соответствия. При успешном поиске `match.group(1)` - это текст совпадения, соответствующий 1-й левой круглой скобке, а `match.group(2)` - текст, соответствующий 2-й левой скобке. Обычный `match.group()`, как обычно, по-прежнему представляет собой весь текст соответствия.

In [None]:
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search('([\w.-]+)@([\w.-]+)', string)
if match:
    print(match.group())   ## 'alice-b@google.com' (полное совпадение)
    print(match.group(1))  ## 'alice-b' (юзернейм)
    print(match.group(2))  ## 'google.com' (домен электронной почты)

alice-b@google.com
alice-b
google.com


### Функции кроме search()

`re.split(pattern, string, maxsplit=0)`	Аналог `str.split()`, только разделение происходит по подстрокам, подходящим под шаблон pattern;



In [None]:
# по умолчанию метод split делит строку по пробелам
'itsy, bitsy, teenie, weenie'.split()

['itsy,', 'bitsy,', 'teenie,', 'weenie']

In [None]:
#но можно добавить выражение, по которому мы делим
'itsy, bitsy, teenie, weenie'.split(', ')

['itsy', 'bitsy', 'teenie', 'weenie']

In [None]:
# тоже самов с  re
string = 'itsy, bitsy, teenie, weenie'
result = re.split(',', string)
print(result)

['itsy', ' bitsy', ' teenie', ' weenie']


In [None]:
# можно указать максимальное количество разбиений
string = 'itsy, bitsy, teenie, weenie'
result = re.split(',', string, maxsplit = 2)
print(result)

['itsy', ' bitsy', ' teenie, weenie']


In [None]:
# разобьем строку, состоящую из нескольких предложений, по точкам, но не более чем на 3 предложения.
string = 'He woke up. He cooked berakfast. He drank coffee. He left home. He entered subway.'
result = re.split('\.', string, maxsplit = 2)
[x.strip() for x in result]

['He woke up',
 'He cooked berakfast',
 'He drank coffee. He left home. He entered subway.']

In [None]:
# тестируем функцию split, которая поделит строку на две части по дефису, окружённому знаками табуляции (пробелами)
string = 'В моём сердце дырка\t- мне нужна таблетка'
print(re.split(r'\s-\s', string))

['В моём сердце дырка', 'мне нужна таблетка']


`re.findall(pattern, string)`	 ищет в строке `string` **все** непересекающиеся шаблоны `pattern`



In [None]:
# найдем всех котов
string = 'я люблю котиков, кошечек, котят и котов.'
result = re.findall(r'кот\w*', string)
print(result)

['котиков', 'котят', 'котов']


In [None]:
## Теперь найдем все email
string = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

## re.findall() возвращает список со всеми вхождениями шаблона
emails = re.findall(r'[\w\.-]+@[\w\.-]+', string)
for email in emails:
    print(email)

alice@google.com
bob@abc.com


`re.finditer(pattern, string)`	Итератор по всем непересекающимся шаблонам `pattern` в строке `string` (выдаются match-объекты)



In [None]:
# Обратим внимание, как записаны даты: день(1-2 числа) - месяц (строго 2 числа) - год (строго 4 числа)
# match.start() индекс в исходной строке, начиная с которого идёт найденная подстрока
string = 'Первый локдаун начался 27.03.2020, а последний - 1.11.2021'
for match in re.finditer(r'\d{1,2}\.\d{2}\.\d{4}', string):
    print('Дата', match.group(), 'начинается с позиции', match.start())

Дата 27.03.2020 начинается с позиции 23
Дата 1.11.2021 начинается с позиции 49


`re.match(pattern, string)`	ищет входения шаблона в НАЧАЛЕ строки

In [None]:
# найдем котов
string = 'я люблю котиков, кошечек, котят и котов.'
result = re.match(r'кот\w*', string)
print(result)

None


In [None]:
# найдем котов
string = 'котик сидел на коврике'
result = re.match(r'кот\w*', string)
print(result.group(0))

котик


`re.sub(pattern, repl, string, count=0)`	заменяет в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

In [None]:
# заменим А на Б
string = 'Мама мыла раму.'
result = re.sub('а', 'о', string)
print(result)

Момо мыло рому.


In [None]:
# можно установить ограничение на количество замен, по умолчанию его нет
string = 'Мама мыла раму.'
result = re.sub('а', 'о', string, count = 3)
print(result)

Момо мыло раму.


In [None]:
# Пример посложнее
print(re.sub(r'Аль\-\w+|Талиб\w+',
             r'запрещенная в россии террористическая организация'.upper(),
             r'Недавно Аль-Каида совместо с Аль-Джихадом признала себя виновной в совершении тяжких преступлений, в отношении Талибов так же будут приняты ответные меры'))

Недавно ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ совместо с ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ признала себя виновной в совершении тяжких преступлений, в отношении ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ так же будут приняты ответные меры


`re.compile` компелирует регулярное выражение в отдельный объект

In [None]:
# построим всех слов строки
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile(r'[А-Яа-яёЁ\-]+')
prog.findall(string)

['Слова', 'Да', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']

In [None]:
# для выбранной строки постройте список слов, которые длиннее трех символов
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile('[А-Яа-яёЁ\-]{3,}')
prog.findall(string)

['Слова', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']

In [None]:
# найти первое слово в строке
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile('[А-Яа-яёЁ\-]+')
prog.match(string).group(0)

'Слова'



`re.IGNORECASE` позволяет не различать заглавные и маленькие буквы. Работает медленнее, но иногда удобно.

In [None]:
# последнии пример, игнорирование регистра в регулярных выражениях
string = 'ОООО ааааа оооо ММММ мМммМММм'
print(re.findall(r'[оам]+', string, flags=re.IGNORECASE))

['ОООО', 'ааааа', 'оооо', 'ММММ', 'мМммМММм']


### Где потренироваться в регулярных выражениях?

* [https://pythex.org/](https://pythex.org/)

* [https://regex101.com/r/F8dY80/3](https://regex101.com/r/F8dY80/3)

### Cамостоятельные задачки


**Задача №1**

Владимир устроился на работу в одно очень важное место. И в первом же документе он ничего не понял,
там были сплошные ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК и т.п. Тогда он решил собрать все аббревиатуры, чтобы потом найти их расшифровки на [http://sokr.ru/](http://sokr.ru/). Помогите ему.

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они считаются одной аббревиатурой.

**Задача №2**

Найти дату в строке. В отличие от прошлого примера год может записыватьс двумя способами - 2007 или 07, то есть 4 или 2 символа, вывести месяц.

**Задача №3**

Найти все имена собственные в тексте. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

В данном случае, будем считать что имя собственное - слово, начинающеся с большой буквы. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

In [None]:
# В России для регистрации машин используют принятый стандарт регистрационных знаков. Для частных автомобилей он состоит из серии, самого номера и кода региона регистрации. Запись автомобильного номера выглядит так: С065МК777. На вход программы подается список автомобильных номеров. Надо проверить соответствие их записи с государственным стандартом.
#
# В443РХ777
# АА545Р750
# Е454АЕ150
# М709РО96
# В45РАВ77
# У822НО02



YES — В443РХ777
NO — АА545Р750
YES — Е454АЕ150
YES — М709РО96
NO — В45РАВ77
YES — У822НО02
