# Регулярные выражения

Регулярные выражения — это такие строки, которые задают шаблон для поиска фрагмента в строке, например имейла. С ними вы уже сталкивались, когда удаляли из текста все неслова.

Чтобы приступить к работе с регулярными выражениями, необходимо импортировать специальную библиотеку.

In [1]:
import re

Возьмем любую строку.

In [2]:
text = "Банкиры ребрендили-ребрендили-ребрендили, но не выребрендировали"

## Полезные методы

### Как проверить начало строки?

Воспользуемся методом `re.match()`.

Проверим, начинается ли наша строка со слова `Банкиры`.

In [3]:
re.match(r"Банкиры",text)

<re.Match object; span=(0, 7), match='Банкиры'>

Да, это слово занимает срез от 0 до 7 (`span=(0,7)`). Немного изменим наш запрос.

In [4]:
re.match(r"банкиры", text)

Ничего не нашлось.😞 <p>
Дело в том, что регулярные выражения чувствительны к регистру. Чтобы его игнорировать нужно прописать `re.IGNORECASE` после запроса. Попробуйте!

In [5]:
# напишите код

А теперь напишем код, который проверит, начинается ли строка со слова, введенного с клавиатуры.

In [6]:
a = input()

if re.match(a, text, re.IGNORECASE):
  print("Да, строка начинается с этого слова")
else:
  print("Нет, строка с этого слова не начинается")

да
Нет, строка с этого слова не начинается


### Немного практики

Напишите код, который выведет номер предложения, которое начинается со слова `Мне`.

In [7]:
a = ['Я в моменте.', 'И пролетел который день, я не заметил.', 'На своих двух, и мне навстречу только ветер.', 'Мне светит солнце, хоть и говорили все тут, что мне ниче не светит.']

In [8]:
# напишите код

## Как проверить, есть ли в строке нужное слово?

Воспользуемся методом `re.search()`. <p>

Посмотрим, есть ли в  предложении `Банкиры ребрендили-ребрендили, но не выребрендировали` фрагмент `ре`.

In [9]:
re.search(r'ре', text)

<re.Match object; span=(8, 10), match='ре'>

Есть, и несколько. Но программа вывела только одно совпадение, первое.

Если нужно найти **все** совпадения, нужно использовать метод `re.findall()`.

In [10]:
re.findall(r'ре', text)

['ре', 'ре', 'ре', 'ре', 'ре', 'ре', 'ре', 'ре']

А чтобы узнать точное количество, напишем вот так:

In [11]:
len(re.findall(r'ре', text))

8

### Небольшая практика

Сколько раз в песне Инстасамки встречается выражение `за деньги — да`?

In [11]:
b = '''Я вообще делаю, что хочу.
Хочу импланты — звоню врачу.
Кто меня не любит — я вас не слышу.
Вы просто мне завидуете — я молчу.

Я не молчу, когда я хочу.
Я не продаюсь, но за деньги — да.
Мой продюсер говорит: «Ты поп-звезда».
И, кстати, мой продюсер — это мой муж, да.

Я не скажу в ответ ничего на хейт.
Я не скажу «привет», если бабок нет.
Слышу любимый звук — это звон монет.
Они тянут сотни рук, это мой концерт.

Не завожу подруг, но за деньги — да.
Я не делаю фиты даже за деньги, да.
И я подумаю потом, но скажу сразу «да».
За деньги — да, за деньги — да.
За деньги — да.
За деньги — да.
За деньги — да.
За деньги — да.

Это я в Дубае, я ща отдыхаю.
Да, я так богата, и я это не скрываю.
Все мои подруги за собой не замечают,
Они видят мои шмотки и тупо повторяют.

Пусть не забывают, кто тут королева:
Я раскидываю бабки направо и налево.
Это моя манера: жена миллионера,
Мне платят за концерты, я читаю под фанеру.

Эту сумку мне муж купил,
Эти Rolex'ы муж купил,
Кольцо с бриллиантом мне муж купил,
Муж купил, мне муж купил.

Не завожу подруг, но за деньги — да.
Я не делаю фиты даже за деньги, да.
И я подумаю потом, но скажу сразу «да».
За деньги — да, за деньги — да.
За деньги — да.
За деньги — да.
За деньги — да.
За деньги — да.'''

In [12]:
# напишите код

## Как найти и заменить фрагмент текста?

Для этого используем метод `re.sub()`. Сначала пишем, что нужно найти, потом — на что заменить и где. Например:

In [12]:
text = "Тридцать три коровы"

Меняем *три* на *две*.

In [13]:
text = re.sub(r'три', 'две', text)
text

'Тридцать две коровы'

### Немного практики

Найдите и замените в тексте `Лондон` на `Коломну`.

In [15]:
c = '''Я уеду жить в Лондон.
Я уеду жить в Лондон.
Я уеду туда, где большая вода,
Может быть, навсегда.

Я уеду жить в Лондон.
Мне Москва будет сниться.
Но проблема одна: в направлении том
Из Москвы никогда не идут поезда.
Я уеду жить в Лондон'''

In [None]:
# напишите код

## Специальные обозначения

До сих пор мы рассматривали поиск определенной последовательности символов. 😞 А что делать, если у нас нет определенного шаблона, но нужно вернуть набор символов из строки, отвечающих определеннным правилам?

Для этого понадобятся специальные обозначения. Их очень много, и все они [здесь](https://docs.python.org/3.8/library/re.html).

Выпишу только **самые нужные**:
<br>
<br>

*  `.` — один любой символ, кроме новой строки.
*  `?` — 0 или 1 вхождение шаблона слева.
*  `+` — 1 и более вхождений шаблона слева.
*  `*` — 0 и более вхождений щаблона слева.

<br>

*  `\w` — любая цифра или буква. (`\W` — все, кроме буквы или цифры).
*  `\d` — любая цифра (`\D` — все, кроме цифр).
*  `\s` — любой пробельный символ (`\S` — любой непробельный символ).
*  `\b` — граница слова.

<br>

*  `[...]` — один из символов в скобках (`[^...]` — любой символ, кроме тех, что в скобках).
*  `\` — экранирование специальных символов. (`\.` — это точка).
*  `^` и `$` — начало и конец строки соответственно.
*  `{n,m}` — от n до m вхождений.
*  `a|b` — соответствует a или b.

Возьмем рандомный текст.

In [14]:
text = 'А мы тут регулярные выражения учим'

Попросим выписать из него все символы с помощью `.`.

In [15]:
print(re.findall(r'.', text))

['А', ' ', 'м', 'ы', ' ', 'т', 'у', 'т', ' ', 'р', 'е', 'г', 'у', 'л', 'я', 'р', 'н', 'ы', 'е', ' ', 'в', 'ы', 'р', 'а', 'ж', 'е', 'н', 'и', 'я', ' ', 'у', 'ч', 'и', 'м']


Зачем это? — так мы можем узнать количество символов в строке (включая пробелы).

In [16]:
len(re.findall(r'.', text))

34

А чтобы исключить пробелы, можем оставить только буквы и цифры с помощью `\w`.

In [17]:
len(re.findall(r'\w', text))

29

А сможете посчитать количество пробелов? Что для этого нужно? <p>
Если затрудняетесь, посмотрите условные обозначения. ☝

In [25]:
# напишите код

Выведем только слова. (За слово считаем набор символов от пробела до пробела).

In [18]:
print(re.findall(r'\w+', text))

['А', 'мы', 'тут', 'регулярные', 'выражения', 'учим']


Посчитаем их.

In [19]:
len(re.findall(r'\w+', text))

6

Если бы в нашем предложении были еще цифры, то этот код вывел бы и их. <p>

Давайте проверим.🤟

In [20]:
text = 'Я учу регулярные выражения с 1997 года'
print(re.findall(r'\w+', text))

['Я', 'учу', 'регулярные', 'выражения', 'с', '1997', 'года']


Исправим наш код.

In [21]:
print(re.findall(r'[а-яА-Я]+', text)) # буквы в диапозоне от а до я и от А до Я

['Я', 'учу', 'регулярные', 'выражения', 'с', 'года']


Попробуем проверить этот код на предложении `Ёжик ёжился`.

In [22]:
text_new = 'Ёжик ёжился'
print(re.findall(r'[а-яА-Я]+', text_new))

['жик', 'жился']


Упс, все сломалось. Как вы думаете, в чем проблема?

In [23]:
print(re.findall(r'[а-яА-ЯёЁ]+', text_new)) # да, нужно отдельно прописать букву Ё

['Ёжик', 'ёжился']


Вернемся к нашему тексту и выведем только первое слово.

In [24]:
text = 'А мы тут регулярные выражения учим'
print(re.findall(r'^\w+', text))

['А']


А теперь последнее.

In [25]:
print(re.findall(r'\w+$', text))

['учим']


А сейчас извлечем домены из списка e-mail адресов.

In [28]:
emails = 'pochta@gmail.com, piton@yandex.ru, sponge_bob@rambler.ru'

print(re.findall(r'@\w+', emails))

['@gmail', '@yandex', '@rambler']


Код вывел все до точки, потому что точка не является ни буквой, ни цифрой. Исправим это.

Можно так:

In [29]:
print(re.findall(r'@\w+.\w+', emails))

['@gmail.com', '@yandex.ru', '@rambler.ru']


А можно и вот так:

In [30]:
print(re.findall(r'@\w+\.\w+', emails))

['@gmail.com', '@yandex.ru', '@rambler.ru']


В чем разница?

А теперь выведем домены верхнего уровня, используя группировку `()`.

In [32]:
re.findall(r'@\w+.(\w+)', emails)

['com', 'ru', 'ru']

Напишите код, который, наоборот, выведет все, кроме домена.

In [40]:
# напишите код

Осталось научиться извлекать даты из текста.

In [33]:
text = '06.12.1997 родился очень важный человек'
print(re.findall(r'\d{2}\.\d{2}\.\d{4}', text)) # прописываем количество повторений

['06.12.1997']


## Практика

1. Найдите в тексте `Вчера Анна и Сергей гуляли по Арбату` все слова, начинающиеся с большой буквы.

In [45]:
# напишите код

2. Найдите в тексте `В магазине цены: хлеб — 45, молоко — 82, сыр — 320` только цифры.

In [49]:
# напишите код

3. Найдите в тексте `Кошка ловит мышь, а собака — кошку` все слова длинной 5 букв.

In [51]:
# напишите код

4. Напишите код, который проверить номер телефона, введенный с клавиатуры.

In [53]:
# напишите код

5. Найдите все html-теги.

```
<html><body><h1>Заголовок</h1><p>Текст</p></body></html>
```



In [63]:
# напишите код

6. Напишите программу, которая проверяет пароль, введенный с клавиатуры. <p>

Условия:
* Пароль должен состоять только из букв *латинского* алфавита.
* В начале или в конце пароля должна быть хотя бы одна цифра.
* Длина пароля должна превышать 10 символов.

In [104]:
# напишите код

7. Найди слова с суффиксом -*ств*-.

```
Государство заботится о качестве образования и мастерстве специалистов.
```



In [106]:
# напишите код