# Регулярные выражения в Python

<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/Регулярные_выражения_в_pandas.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

> Отрывок из прекрасной книги *Дейтел Пол, Дейтел Харви. Python: Искусственный интеллект, большие данные и облачные вычисления*.

Строка с регулярным выражением описывает шаблон для поиска совпадений в других строках.

На веб-сайтах:
- https://regex101.com
- http://www.regexlib.com
- https://www.regular-expressions.info

имеются репозитории готовых регулярных выражений.

> см. официальный документ [Regular Expression HOWTO](https://docs.python.org/3/howto/regex.html#regex-howto)

In [None]:
# импортируем модуль для работы с регулярными выражениями: https://docs.python.org/3/library/re.html
import re

Одна из простейших функций регулярных выражений [`fullmatch`](https://docs.python.org/3/library/re.html#re.fullmatch) проверяет, совпадает ли шаблон, заданный первым аргументом, со всей строкой, заданной вторым аргументом.

Начнем с проверки совпадений для литеральных символов, то есть символов, которые совпадают сами с собой:

In [None]:
pattern = '02215'

In [None]:
# тернарный if
'Match' if re.fullmatch(pattern, '02215') else 'No match'

In [None]:
'Match' if re.fullmatch(pattern, '51220') else 'No match'

Первым аргументом функции является регулярное выражение — шаблон, для которого проверяется совпадение в строке. Любая строка может быть регулярным выражением. Значение переменной `pattern` `'02215'` состоит из цифровых литералов, которые совпадают только сами с собой в заданном порядке. Во втором аргументе передается строка, с которой должен полностью совпасть шаблон.

Если шаблон из первого аргумента совпадает со строкой из второго аргумента, `fullmatch` возвращает объект с текстом совпадения, который интерпретируется как `True`.

Во фрагменте второй аргумент содержит те же цифры, но эти цифры следуют в другом порядке. Таким образом, совпадения нет, а `fullmatch` возвращает `None`, что интерпретируется как `False`.

---
### Задание

Напишите функцию, которая принимает на вход имя на русском языке, фамилию на русском языке и логин на латинице и проверяет, что логин в точности равен первая буква имени + фамилия. Пользуйтесь регулярными выражениями и модулем `transliterate`

Примеры

```
>>> check_login(name="Василий", surname="Пупкин", login="vpupkin")
>>> True

>>> check_login(name="Алла", surname="Пугачева", login="allapugacheva")
>>> False
```
---

Регулярные выражения обычно содержат различные специальные символы, которые называются метасимволами:

`[] {} () \ * + ^ $ ? . |`

С метасимвола `\` начинается каждый из предварительно определенных *символьных классов*, каждый из которых совпадает с символом из конкретного набора.

Проверим, что почтовый код состоит из пяти цифр:

In [None]:
'Valid' if re.fullmatch(r'\d{5}', '02215') else 'Invalid'

In [None]:
'Valid' if re.fullmatch(r'\d{5}', '9876') else 'Invalid'

В регулярном выражении `\d{5}` `\d` является символьным классом, представляющим цифру `(0–9)`.

*Символьный класс* — служебная последовательность в регулярном выражении, совпадающая с одним символом. Чтобы совпадение могло состоять из нескольких символов, за символьным классом следует указать *квантификатор*.

Квантификатор `{5}` повторяет `\d` пять раз, как если бы мы использовали запись `\d\d\d\d\d` для совпадения с пятью последовательными цифрами.

Во фрагменте `fullmatch` возвращает `None`, потому что `'9876'` совпадает только с четырьмя последовательными цифровыми символами.

Ниже перечислены некоторые предопределенные символьные классы и группы символов, с которыми они совпадают.

- `\d` Любая цифра `(0–9)`
- `\D` Любой символ, кроме цифр
- `\s` Любой символ-пропуск (пробелы, табуляции, новые строки)
- `\S` Любой символ, кроме пропусков
- `\w` Любой символ слова (также называемый алфавитно-цифровым символом) — то есть любая буква верхнего или нижнего регистра, любая цифра или символ подчеркивания
- `\W` Любой символ, кроме символов слов

Чтобы любой метасимвол совпадал со своим литеральным значением, поставьте перед ним символ `\` (обратный слеш). Например, `\\` совпадает с обратным слешем `( \ )`, а `\$` совпадает со знаком `$`.

---

### Задача: Проверка телефонного номера
Напишите программу, которая проверяет, является ли заданная строка корректным номером телефона состоящим из 10 цифр. Используйте регулярное выражение и функцию fullmatch. Пример правильного ввода: "1234567890".

Ожидаемый результат:
- Ввод: "1234567890" → Вывод: "Valid"
- Ввод: "12345" → Вывод: "Invalid"

### Задача: Проверка идентификатора
Создайте программу, которая принимает строку и проверяет, является ли она корректным идентификатором. Идентификатор должен начинаться с буквы, за которой следуют цифры, а общая длина должна составлять от 5 до 10 символов.

Ожидаемый результат:
- Ввод: "a1234" → Вывод: "Valid"
- Ввод: "1abc2" → Вывод: "Invalid"

---

Квадратные скобки `[]` определяют *пользовательский символьный класс*, совпадающий с одним символом. Так, `[aeiou]` совпадает с гласной буквой нижнего регистра, `[A-Z]` — с буквой верхнего регистра, `[a-z]` — с буквой нижнего регистра и `[a-zA-Z]` — с любой буквой нижнего (верхнего) регистра.

Выполним простую проверку имени — последовательности букв без пробелов или знаков препинания. Проверим, что последовательность начинается с буквы верхнего регистра `( A–Z )`, а за ней следует *произвольное количество* букв нижнего регистра `( a–z )`:

In [None]:
'Valid' if re.fullmatch('[A-Z][a-z]*', 'Wally') else 'Invalid'

In [None]:
'Valid' if re.fullmatch('[A-Z][a-z]*', 'eva') else 'Invalid'

---

### Задача: Проверка русскости
Напишите программу, которая проверяет, что строка написана на русском языке, то есть состоит только из русских букв, цифр, пробелов и знаков препинания

Ожидаемый результат:
- Ввод: "Матушка земля, белая березонька!" → Вывод: "Valid"
- Ввод: "52! Санкт-Петербург!" → Вывод: "Valid"
- Ввод: "Смотря какой fabric, смотря откуда приходит fabric, смотря сколько details в этом пиджаке" → Вывод: "Invalid"

---

Имя может содержать неизвестное заранее количество букв.

Квантификатор `*` совпадает с *нулем и более вхождениями* подвыражения, находящегося слева (в данном случае `[a-z]`). Таким образом, `[A-Z][a-z]*` совпадает с буквой верхнего регистра, за которой следует нуль и более букв нижнего регистра (например, `'Amanda'` , `'Bo'` и даже `'E'`).

Если пользовательский символьный класс начинается с символа `^` (крышка), то класс совпадает с любым символом, который не подходит под определение из класса. Таким образом, `[^a-z]` совпадает с любым символом, который не является буквой нижнего регистра:

In [None]:
'Match' if re.fullmatch('[^a-z]', 'A') else 'No match'

In [None]:
'Match' if re.fullmatch('[^a-z]', 'a') else 'No match'

---

### Задача: Проверка нерусскости
Напишите программу, которая проверяет, что строка написана НЕ на русском языке, то есть в ней нет русских букв. 
Используйте результаты предыдущей работы

Ожидаемый результат:
- Ввод: "Матушка земля, белая березонька!" → Вывод: "Inalid"
- Ввод: "52! Санкт-Петербург!" → Вывод: "Invalid"
- Ввод: "Смотря какой fabric, смотря откуда приходит fabric, смотря сколько details в этом пиджаке" → Вывод: "Invalid"
- Ввод: "It takes so long, it takes so long for you to call back!" → Вывод: "Valid"

---

Метасимволы в пользовательском символьном классе интерпретируются как литеральные символы, то есть как сами символы, не имеющие специального смысла.

Таким образом, символьный класс `[*+$]` совпадает с одним из символов `*` , `+` или `$`:

In [None]:
'Match' if re.fullmatch('[*+$]', '*') else 'No match'

In [None]:
'Match' if re.fullmatch('[*+$]', '!') else 'No match'

Для того чтобы имя содержало хотя бы одну букву нижнего регистра, квантификатор `*` во фрагменте можно заменить знаком `+`, который совпадает по крайней мере с одним вхождением подвыражения:

In [None]:
'Valid' if re.fullmatch('[A-Z][a-z]+', 'Wally') else 'Invalid'

In [None]:
'Valid' if re.fullmatch('[A-Z][a-z]+', 'E') else 'Invalid'

Квантификаторы `*` и `+` являются максимальными (*"жадными"*) — они совпадают с максимально возможным количеством символов.

Таким образом, регулярные выражения `[A-Z][a-z]+` совпадают с именами `'Al'` , `'Eva'` , `'Samantha'` , `'Benjamin'` и любыми другими словами, начинающимися с буквы верхнего регистра, за которой следует хотя бы одна буква нижнего регистра.

---
### Задача: ABCDEFU
Иногда так бывает, что всякие неприятные выражения или информация, которую хотят скрыть, заменяются звездочками.
Вам на вход подается строка, где слова разделены пробелами. Нужно вывести все позиции таких слов в предложении



Ожидаемый результат:
- Ввод: "Матушка земля белая *********" → Вывод: 4
- Ввод: "В городе ***** было обнаружено ****** кг *** сообщает Комсомольская правда" → Вывод: 3, 6, 8
- Ввод: "Красиво жить не запретишь!" → Вывод: 
---

Квантификатор `?` совпадает *с нулем или одним вхождением* подвыражения:

In [None]:
'Match' if re.fullmatch('labell?ed', 'labelled') else 'No match'

In [None]:
'Match' if re.fullmatch('labell?ed', 'labeled') else 'No match'

In [None]:
'Match' if re.fullmatch('labell?ed', 'labellled') else 'No match'

Регулярное выражение `labell?ed` совпадает со словами `labelled` и `labeled` , но не с ошибочно написанным словом `labellled`. В каждом из приведенных выше фрагментов первые пять литеральных символов регулярного выражения `( label )` совпадают с первыми пятью символами второго аргумента. Часть `l?` означает, что оставшимся литеральным символам `ed` может предшествовать нуль или один символ `l` .

---

### Задача: Проверка формата телефонного номера

Напишите программу, которая проверяет, соответствует ли строка формату телефонного номера. Номер может начинаться с плюса, который обозначается знаком плюс и одной-двумя цифрами.

Правила:
- Номер может начинаться с кода страны: "+" и одна или две цифры.
- Далее следуют 10 цифр.

Ожидаемый результат:
- Ввод: "+11234567890" → Вывод: "Match"
- Ввод: "1234567890" → Вывод: "Match"
- Ввод: "+12 34567890" → Вывод: "No match"
- Ввод: "+123456789" → Вывод: "No match"

---


Квантификатор `{n,}` совпадает *не менее чем* с `n` вхождениями подвыражения. Следующее регулярное выражение совпадает со строками, содержащими не менее трех цифр:

In [None]:
'Match' if re.fullmatch(r'\d{3,}', '123') else 'No match'

In [None]:
'Match' if re.fullmatch(r'\d{3,}', '1234567890') else 'No match'

In [None]:
'Match' if re.fullmatch(r'\d{3,}', '12') else 'No match'

Чтобы совпадение включало от `n` до `m` (включительно) вхождений, используйте квантификатор `{n,m}`. Следующее регулярное выражение совпадает со строками, содержащими от `3` до `6` цифр:

In [None]:
'Match' if re.fullmatch(r'\d{3,6}', '123') else 'No match'

In [None]:
'Match' if re.fullmatch(r'\d{3,6}', '123456') else 'No match'

In [None]:
'Match' if re.fullmatch(r'\d{3,6}', '1234567') else 'No match'

In [None]:
'Match' if re.fullmatch(r'\d{3,6}', '12') else 'No match'

---
### Задача: Проверка формата даты

Напишите программу, которая проверяет, соответствует ли строка формату даты в виде "дд/мм/гггг". День и месяц могут содержать одну или две цифры, год — обязательно четыре цифры.

Правила:
- День и месяц могут быть записаны с одной или двумя цифрами.
- Год состоит ровно из четырех цифр.
- Разделитель между элементами — слеш "/".

Ожидаемый результат:
- Ввод: "3/7/2023" → Вывод: "Match"
- Ввод: "12/12/2022" → Вывод: "Match"
- Ввод: "31/09/21" → Вывод: "No match"
- Ввод: "01/1/2022" → Вывод: "Match"
---

Модуль `re` предоставляет функцию [`sub`](https://docs.python.org/3/library/re.html#re.sub) для замены совпадений шаблона в строке, а также функцию [`split`](https://docs.python.org/3/library/re.html#re.Pattern.split) для разбиения строки на фрагменты на основании шаблонов.

По умолчанию функция `sub` модуля `re` заменяет все вхождения шаблона заданным текстом.

Преобразуем строку, разделенную табуляциями, в формат с разделением запятыми:

In [None]:
import re

In [None]:
re.sub(r'\t', ', ', '1\t2\t3\t4')

Функция `sub` получает три обязательных аргумента:

- шаблон для поиска (символ табуляции `'\t'`);
- текст замены ( `', '` );
- строка, в которой ведется поиск ( `'1\t2\t3\t4'` ),

и возвращает новую строку.

Ключевой аргумент `count` может использоваться для определения максимального количества замен:

In [None]:
re.sub(r'\t', ', ', '1\t2\t3\t4', count=2)

---
### Задача: Замена пробелов на тире

Напишите программу, которая заменяет все пробелы в строке на тире, но только дважды.

Пример:

- Ввод: "Hello world this is a test"
- Вывод: "Hello-world-this is a test"

### Задача: Переименование файлов

У вас есть список имён файлов, разделённых точкой. Напишите программу, которая заменяет все точки в строке на подчеркивания, кроме последней, которая является разделителем расширения.

Пример:

- Ввод: "my.file.name.txt"
- Вывод: "my_file_name.txt"
---

Функция `split` разбивает строку на лексемы, используя регулярное выражение для определения ограничителя, и возвращает список строк.

Разобьем строку по запятым, за которыми следует `0` или более пропусков — для обозначения пропусков используется символьный класс `\s` , а `*` обозначает `0` и более вхождений предшествующего подвыражения:

In [None]:
re.split(r',\s*', '1, 2, 3,4,        5,6,7,8')

Ключевой аргумент `maxsplit` задает максимальное количество разбиений:

In [None]:
re.split(r',\s*', '1,   2, 3,4,            5,6,7,8', maxsplit=3)

В данном случае после трех разбиений четвертая строка содержит остаток исходной строки.

---
### Задача: Разбиение строки с фиксированным числом элементов

Напишите программу, которая разбивает строку на элементы по точкам с учётом того, что после последней точки могут следовать пробелы. Разбивать нужно не больше трех раз.

Пример:

- Ввод: "python.is.cool. .language."
- Вывод: ['python', 'is', 'cool', ' .language.']

### Задача: Разбиение строки с учётом ведущих и замыкающих пробелов

Напишите программу, которая разбивает строку на элементы по запятым с учётом, что до или после запятой могут быть пробелы. Учитывайте ведущие и замыкающие пробелы в результате.

Пример:

- Ввод: "  one , two ,three,  four,five "
- Вывод: ['one', 'two', 'three', 'four', 'five']
---

Ранее мы использовали функцию `fullmatch` для определения того, совпала ли вся строка с регулярным выражением. Но существует и ряд других функций поиска совпадений.

Функция [`search`](https://docs.python.org/3/library/re.html#re.Pattern.search) ищет в строке *первое вхождение подстроки*, совпадающей с регулярным выражением, и *возвращает объект совпадения* (типа [`SRE_Match`](https://docs.python.org/3/library/re.html#match-objects)), содержащий подстроку с совпадением.

Метод [`group`](https://docs.python.org/3/library/re.html#re.Match.group) объекта совпадения возвращает эту подстроку:

In [3]:
import re

In [4]:
result = re.search('Python', 'Python is fun')

In [5]:
result.group() if result else 'not found'

'Python'

Функция [`match`](https://docs.python.org/3/library/re.html#re.Pattern.match) ищет совпадение только от начала строки.

Метасимвол `^` в начале регулярного выражения (и не в квадратных скобках) — якорь, указывающий, что *выражение совпадает только от начала строки*:

In [None]:
result = re.search('^Python', 'Python is fun')

In [None]:
result.group() if result else 'not found'

In [None]:
result = re.search('^fun', 'Python is fun')

In [None]:
result.group() if result else 'not found'

Аналогичным образом символ `$` в конце регулярного выражения является якорем, указывающим, что *выражение совпадает только в конце строки*:

In [None]:
result = re.search('Python$', 'Python is fun')

In [None]:
result.group() if result else 'not found'

In [None]:
result = re.search('fun$', 'Python is fun')

In [None]:
result.group() if result else 'not found'

---
### Задача: Проверка слова в начале строки

**Описание:**  
Определите, начинается ли строка с заданного слова.

```
>>>check_start("Python is amazing", "Python")
>>>True

>>>check_start("The one is the most popular programming language is Python", "Python")
>>>False

>>>check_start("Я начал учить Python в 8 классе", "Python")
>>>False
```
---

Функция [`findall`](https://docs.python.org/3/library/re.html#re.Pattern.findall) находит все совпадающие подстроки и возвращает список совпадений.

Для примера извлечем все телефонные номера в строке, полагая, что телефонные номера записываются в форме `###-###-####` :

In [None]:
contact = 'Wally White, Home: 555-555-1234, Work: 555-555-4321'

In [None]:
re.findall(r'\d{3}-\d{3}-\d{4}', contact)

Функция [`finditer`](https://docs.python.org/3/library/re.html#re.finditer) работает аналогично `findall` , но возвращает итерируемый объект, содержащий объекты совпадений, с отложенным вычислением.

При большом количестве совпадений использование `finditer` позволит сэкономить память, потому что она возвращает по одному совпадению, тогда как `findall` возвращает все совпадения сразу:

In [None]:
for phone in re.finditer(r'\d{3}-\d{3}-\d{4}', contact):
    print(phone.group())

---
### Задача: 20 век
Нужно написать регулярное выражение, которое извлекает все года, принадлежащие 20 веку из строки

```
Ввод:
s = 'Это было в 2000 году, она родилась в 1964 году, предпосылки революции в 1861, кризис Европы 1323 года, перестройка 1985 года, 1932'

Вывод:
2000, 1964, 1985, 1932
```
---

Метасимволы `(` и `)` (круглые скобки) используются *для сохранения подстрок в совпадениях*.

Для примера сохраним отдельно имя и адрес электронной почты в тексте строки:

In [None]:
text = 'Charlie Cyan, e-mail: demo1@deitel.com'

In [None]:
pattern = r'([A-Z][a-z]+ [A-Z][a-z]+), e-mail: (\w+@\w+\.\w{3})'

In [None]:
result = re.search(pattern, text)

Регулярное выражение задает две *сохраняемые подстроки*, заключенные в метасимволы `(` и `)` . Эти метасимволы не влияют на то, в каком месте текста строки будет найдено совпадение шаблона, — функция `match` возвращает объект совпадения только в том случае, если совпадение всего шаблона будет найдено в тексте строки.

Рассмотрим регулярное выражение по частям:

- `'([A-Z][a-z]+ [A-Z][a-z]+)'` совпадает с двумя словами, разделенными пробелом. Каждое слово должно начинаться с буквы верхнего регистра.
-  `', e-mail: '` содержит литеральные символы, которые совпадают сами с собой.
-  `(\w+@\w+\.\w{3})` совпадает с простым адресом электронной почты, состоящим из одного или нескольких алфавитно-цифровых символов ( `\w+` ), символа `@` , одного или нескольких алфавитно-цифровых символов ( `\w+` ), точки ( `\.` ) и трех алфавитно-цифровых символов ( `\w{3}` ). Перед точкой ставится символ `\` , потому что точка ( `.` ) в регулярных выражениях является метасимволом, совпадающим с одним символом.

Метод `groups` объекта совпадения возвращает кортеж совпавших подстрок:

In [None]:
result.groups()

Вы можете обратиться к каждой сохраненной строке, передав целое число методу `group` .

Нумерация сохраненных подстрок начинается с `1` (в отличие от индексов списков, которые начинаются с `0`):

In [None]:
result.group(1)

In [None]:
result.group(2)

---
### Задача: Извлечение доменных имен из e-mail

**Описание:**  
Извлеките доменное имя из заданного e-mail адреса.

**Вход:**
- "user@example.com"
- "admin@website.org"

**Выход:**
- "example.com"
- "website.org"


### Задача: Проверка формата даты

**Описание:**  
Проверьте, соответствует ли строка формату даты dd-mm-yyyy.

**Вход:**
- "25-12-2023"
- "2023-12-25"

**Выход:**
- True
- False


### Задача: Удаление лишних пробелов

Удалите повторяющиеся пробелы между словами в строке.

**Вход:**
- "This   is   a   test."

**Выход:**
- "This is a test."

### Задача: извлечь все названия сайтов из текста

Суть в названии =)

```
text = """His next class is art. www.google.com
He draws on paper with crayons and pencils and sometimes uses a ruler.
Lucas likes art. It is his favorite class.
His third class https://colab.research.google.com is science.
This class is very hard for Lucas to figure out, but he gets to work with his classmates a lot, which he likes to do.
His friend http://ok.ru , Kyle, works with Lucas in science class, and they have fun.
Then Lucas gets his break for lunch. He sits with Kyle while he eats.
The principal, or the headmaster as some call him, likes to walk instagram.com around and talk to students during lunch to check that they are all behaving.
"""
```

### Задача: Извлечение всех хэштегов из текста

**Описание:**  
Извлеките все хэштеги из текста.

**Вход:**
- "Loving this #sunny day at the #beach!"

**Выход:**
- ['#sunny', '#beach']

---
