> *Когда некоторые люди сталкиваются с проблемой, думают «Я знаю, я решу её с помощью регулярных выражений.» Теперь у них две проблемы*

## Регулярные выражения

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте. Одному шаблону может соответствовать много разных строчек.

Термин «Регулярные выражения» является переводом английского словосочетания «Regular expressions». Перевод не очень точно отражает смысл, правильнее было бы «шаблонные выражения». Регулярное выражение, или коротко «регулярка», состоит из обычных символов и специальных командных последовательностей. Например, `\d` задаёт любую цифру, а `\d*` — задает любую последовательность из нуля или более цифр

### Начнем с простых текстовых шаблонов

В Python поиску по шаблону обучно используется функция `search` из библиотеки `re`:
````
match = re.search(pattern, string)
````

In [1]:
import re

Метод `re.search()` принимает шаблон `pattern` и строку `string`, а затем ищет этот шаблон в строке.

Если поиск успешен, `search()` возвращает подстроку, которая удовлетворяет поиску, в противном случае - `None.


Давайте с помощью этого метода попробуем найти в строке котов:

## Основные спецсимволы

Для задания шаблонов в регулярных выражениях используются спецсимволы.

Давайте посмотрим основные из них:

**.**   Один любой символ, кроме новой строки

**\d**	Любая цифра

**\D**	Любой символ, кроме цифры

**\s**	Любой пробельный символ (пробел, табуляция, конец строки и т.п.)

**\S**	Любой непробельный символ	(не пробел, не табуляция, не конец строки и т.п.)

**\w**	Любая буква (то, что может быть частью слова), а также цифры и _

**\W**	Любая не-буква, не-цифра и не подчёркивание

**[..]**	Один из символов в скобках в рамках диапазона, то есть:

**\d** равносильно выражению `[0-9]`

**\D** равносильно выражению `[^0-9]`, так как символ ^ означает любой символ, кроме перечисленных

**\w** равносильно выражению `[0-9a-zA-Z]`, эта запись сочетает в себе последовательность из любых цифр, букв в обоих регистрах

**\s** равносильно `[\f\n\r\t]` (тут надо постараться, чтобы вспомнить что есть что!)

**\b** Начало или конец слова (слева пусто или не-буква и справа буква, или наоборот). В отличие от предыдущих соответствует позиции, а не символу.

**^ и $**	тоже обозначение начало и конца строки соответственно

Кстати, любая строка, в которой нет символов, сама по себе является регулярным выражением. Так, выражению "привет" будет соответствовать строка “привет” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “ПрИвЕт” уже не подойдёт. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `**.^$*+?{}[]\|()**`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \

Например, если вы хотите найти выражение в скобках, то надо написать `\(\w*\)`.



Как в регулярном выражении объяснить, сколько раз нам нужно то или иное вхождение символов?

**{n}**	 Ровно n повторений

**{m,n}**	От m до n повторений включительно

**{m,}**	Не менее m повторений

**{,n}**	Не более n повторений

**?**	Ноль или одно вхождение, аналогично {0,1}

**\***	Ноль или более вхождений, аналогично {0,}

**\+**	Одно или более вхождений, аналогично {1,}

**|** логический оператор или

ПОМНИ ПРО Ё [А-ЯЁа-я-ё\s] 

### SEARCH

In [56]:
# обратим внимание, что первые три строки не прошли проверку (т.к. в них меньше 4х чисел)
# а дальше выводились первые 4 цифры оставшихся строк
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search( r'\d{4}',element)
    if match:
        print(match.group(), end = ', ')

1234, 1234, 1234, 


### Группировка

Функция "группировки" регулярного выражения позволяет вам выделять части совпадающего текста. Предположим, что для проблемы электронной почты мы хотим извлечь имя пользователя и хост отдельно. Для этого добавьте круглые скобки () вокруг имени пользователя и хоста в шаблоне. В этом случае круглые скобки не меняют то, чему будет соответствовать шаблон, вместо этого они создают логические «группы» внутри текста соответствия. При успешном поиске `match.group(1)` - это текст совпадения, соответствующий 1-й левой круглой скобке, а `match.group(2)` - текст, соответствующий 2-й левой скобке. Обычный `match.group()`, как обычно, по-прежнему представляет собой весь текст соответствия.

In [57]:
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search('([\w.-]+)@([\w.-]+)', string)
if match:
    print(match.group())   ## 'alice-b@google.com' (полное совпадение)
    print(match.group(1))  ## 'alice-b' (юзернейм)
    print(match.group(2))  ## 'google.com' (домен электронной почты)

alice-b@google.com
alice-b
google.com


### FINDALL

In [48]:
## Найдем все email
string = 'purple alice7_@google.com, blah monkey bob-1@abc.com blah dishwasher'
match = re.findall(r"[\w_-]+@\w*.com",string)
match

['alice7_@google.com', 'bob-1@abc.com']

In [49]:
string = 'Еда, еды, еду, едА'
match = re.findall(r'[а-яА-Я]д[а-яА-Я]',string)
match

['Еда', 'еды', 'еду', 'едА']

In [50]:
string = 'Еда, еды, еду, едА, 8 985 385'
match = re.findall(r'[^, а-яА-Я][0-9]*',string)
match

['8', '985', '385']

#### Квантификаторы
- Щ{2,5} берет подстроки, где  Щ повторяется от 2 до 5 раз
- Щ{2,5}? минорный класс 
- {1,} повторение от 1 и более
- Щ{,3} берет подстроки, где  Щ повторяется не более 3 раз

In [54]:
string = 'стеклянный, стекляный'
match = re.findall(r'стеклянн?ый',string)
match

['стеклянный', 'стекляный']

In [52]:
string = '+79457855596'
match = re.findall(r'\+*[78]\d{10}',string)
match

['+79457855596']

In [53]:
string = 'google, Gooogle, Goooooogle'
match = re.findall(r'[gG]o{,4}gle',string)
match

['google', 'Gooogle']

In [55]:
string = "<p> Картинка <img scr='bg.img'> в тексте </p>"
match = re.findall(r'<img.*?>',string)
print(match)

match = re.findall(r'<img[^>]*>',string)
print(match)


["<img scr='bg.img'>"]
["<img scr='bg.img'>"]


### SUP

In [18]:
text = """Москва
Казань
Тверь
Самара
Уфа"""

list = re.sub(r"\s*(\w+)\s*", r"<option>\1<option>\n",text)
print(list)

<option>Москва<option>
<option>Казань<option>
<option>Тверь<option>
<option>Самара<option>
<option>Уфа<option>



In [33]:
# можно установить ограничение на количество замен, по умолчанию его нет
string = 'Мама мыла раму.'
result = re.sub('(а|м)','б',string, count =2)
print(result)

Мбба мыла раму.


In [34]:
# Пример посложнее
print(re.sub(r'Аль\-\w+|Талиб\w+',
             r'запрещенная в россии террористическая организация'.upper(),
             r'Недавно Аль-Каида совместо с Аль-Джихадом признала себя виновной в совершении тяжких преступлений, в отношении Талибов так же будут приняты ответные меры'))

Недавно ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ совместо с ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ признала себя виновной в совершении тяжких преступлений, в отношении ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ так же будут приняты ответные меры


In [20]:
count = 0 
def replFind(m):
    global count
    count +=1
    return f"<option value'{count}'>{m.group(1)}</option>\n"

list = re.sub(r"\s*(\w+)\s*", replFind,text)
print(list)

<option value'1'>Москва</option>
<option value'2'>Казань</option>
<option value'3'>Тверь</option>
<option value'4'>Самара</option>
<option value'5'>Уфа</option>



### COMPILE

##### Заранее компилируем шаблон если мы его часто используем. Нужно для того чтобы не прописывать его постоянно.

In [25]:
# можно использовать функцию
text = """Москва Казань Тверь Самара Уфа"""

count = 0 
rx = re.compile(r"\s*(\w+)\s*")
lst = rx.sub(replFind,text)
print (lst)

<option value'1'>Москва</option>
<option value'2'>Казань</option>
<option value'3'>Тверь</option>
<option value'4'>Самара</option>
<option value'5'>Уфа</option>



In [32]:
# для выбранной строки постройте список слов, которые длиннее трех символов
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile('[А-Яа-яЁё-]{3,}')
prog.findall(string)

['Слова', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']

### SPLIT

re.split(pattern, string, maxsplit=0) Аналог str.split(), только разделение происходит по подстрокам, подходящим под шаблон pattern;

In [38]:
# разобьем строку, состоящую из нескольких предложений, по точкам, но не более чем на 3 предложения.
string = 'He woke up. He cooked berakfast. He drank coffee. He left home. He entered subway.'
result = re.split(r'\.', string, maxsplit = 2)
[x.strip() for x in result]

['He woke up',
 'He cooked berakfast',
 'He drank coffee. He left home. He entered subway.']

In [37]:
text = "One, two; three,, four;; five"
re.split(r"[\n;,]+", text)

['One', ' two', ' three', ' four', ' five']

### Где потренироваться в регулярных выражениях?

* [https://pythex.org/](https://pythex.org/)

* [https://regex101.com/r/F8dY80/3](https://regex101.com/r/F8dY80/3)

**Задача №1**

Владимир устроился на работу в одно очень важное место. И в первом же документе он ничего не понял,
там были сплошные ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК и т.п. Тогда он решил собрать все аббревиатуры, чтобы потом найти их расшифровки на [http://sokr.ru/](http://sokr.ru/). Помогите ему.

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они считаются одной аббревиатурой.

In [59]:
string = "ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК, апк ЗФР, ПРКгр, ПР, АФК групп"
pattern_corrected = r'\b[А-Я]{2,}(?:\s[А-Я]*)*\b'

# Повторный поиск с исправленным паттерном
result_corrected = re.findall(pattern_corrected, string)

result_corrected

['ФГУП НИЦ ГИДГЕО', 'ФГОУ ЧШУ АПК', 'ЗФР', 'ПР', 'АФК ']

**Задача №2**

Найти дату в строке. В отличие от прошлого примера год может записыватьс двумя способами - 2007 или 07, то есть 4 или 2 символа, вывести месяц.

In [65]:
string = 'Первый локдаун начался 27.03.2020, а последний - 1.11.2021, спад пошел с 19.04.22'
match  =  re.findall(r'\d{1,2}\.\d{2}\.(?:\d{4}|\d{2})',string)
match

['27.03.2020', '1.11.2021', '19.04.22']

**Задача №3**

Найти все имена собственные в тексте. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

В данном случае, будем считать что имя собственное - слово, начинающеся с большой буквы. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

In [67]:
Text = "Зимой Лена Смирнова гостила у бабушки. Бабушка Галя  живёт в деревне Чудино. Рядом  речка  Вертушинка. Днём  Лена  каталась  на коньках. Вечером  она  кормила  сеном  корову  Бусинку. Дома  ждали собака Чапа и кот Рыжик"
outlier = re.findall(r"[.]\s[А-Я]\w+", Text)
outlier = [i[2:] for i in outlier]

match = re.findall(r"\s[А-Я]\w+", Text)
match = [i[1:] for i in match]

match =set(match)- set(outlier)
match

{'Бусинку',
 'Вертушинка',
 'Галя',
 'Лена',
 'Рыжик',
 'Смирнова',
 'Чапа',
 'Чудино'}