# Python для анализа данных

## Регулярные выражения (Regular Expressions)

[RegEx CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)

## Упражения

In [1]:
import re

### 1. Достать из строки имена-фамилии на русском языке

In [104]:
users = 'Василий Зайцев, Erwin König, Людмила Павличенко, Josef Allerberger, Matthäus Hetzenauer, Александр Башлачёв'

In [21]:
# ваш код

### 2. Выделить из строки email'ы 

'iawpghnube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!'

In [8]:
x = 'iawpgh-----nube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!'

Определяем паттерн, который ищем, в нашем случае это `\S` – любой непробельный символ. НО это только один символ, попадающий в эту маску. Для того чтобы получить неограниченную длинной последовательность, мы добавим + к квадратным скобкам.

In [7]:
re.findall(r'\b[\S]+', x)

['iawpgh-----nube1206@gmail.com',
 '79151489999',
 'telegram',
 'vasiiesal)',
 'test.tewst2@subsubdomain.subdomain.domain.ru.!']

`@` показывает нам, что далее нужно найти 1 символ `@`. 

In [11]:
re.findall(r'\b[\S]+@', x)

['iawpgh-----nube1206@', 'test.tewst2@']

После `@` всегда идет домен. Как говорилось выше он может иметь несколько уровней. Поэтому мы снова ищем последовательность из букв, цифр и спец знаков, причем данная последовательность встречается от 1 и более раз `{1,}`. Можно использовать `+`.

In [10]:
re.findall(r'\b[\S]+@[\S]{1,}', x)

['iawpgh-----nube1206@gmail.com',
 'test.tewst2@subsubdomain.subdomain.domain.ru.!']

Все выглядит хорошо, кроме того что мы захватили с собой лишние знаки. Однако мы знаем, что почта всегда заканчивается точкой и доменной зоной. Попробуем, это учесть. Укажем, что мы хотим ровно одну точку `\.` и неограниченное количество букв `\w+`.В данном случае мы прямо указываем на то что должны быть только буквы. Цифры и спецсимволы не могу быть в доменной зоне.

In [94]:
re.findall(r'\b[\w\d\S]+@[\w\d\S]{1,}\.\w+', x)

['iawpgh-----nube1206@gmail.com',
 'test.tewst2@subsubdomain.subdomain.domain.ru']

### Заключение
Сегодня мы познакомились с функциями из модуля `re`. Дополнительно про них можно почитать в официальной [документации](https://docs.python.org/3/library/re.html). Кроме того, есть очень хороший ресурс [regex101.com](https://regex101.com), который позволяет скопировать нужный текст и в интерактивном режиме следить, какие совпадения находятся при изменении регулярного выражения, введенного в отдельном окне (не забудьте поставить галочку Python в разделе FLAVOR слева).

## Самостоятельная работа

### Сопоставление даты

Предположим, у нас есть строка, содержащая дату в формате `dd/mm/yyyy`. Мы хотим извлечь дату из строки и проверить, является ли она действительной (вдруг там 95/32/2930).

Напишите функцию `extract_date(text)`, которая принимает на вход строку `text` и возвращает строку, содержащую извлеченную дату в формате `yyyy-mm-dd`, если дата действительна, или пустую строку, если дата не найдена или не действительна.


Используйте функцию `re.search()` для поиска шаблона, который соответствует дате в строке.<br>
Используйте функцию `datetime.datetime.strptime()` для преобразования извлеченной строки даты в объект datetime.<br>
Используйте функцию `datetime.datetime.strftime()`, чтобы преобразовать объект даты обратно в строку в нужном формате.

In [28]:
# ваш код

### Извлечение URL-адресов

Предположим, у нас есть строка, содержащая один или несколько URL-адресов. Мы хотим извлечь URL-адреса из строки и сохранить их в списке.

Напишите функцию `extract_urls(text)`, которая принимает на вход строку `text` и возвращает список строк, содержащих извлеченные URL.

Используйте функцию `re.findall()` для поиска всех вхождений шаблона, который соответствует URL в строке.<br>
Используйте regex-шаблон, который соответствует URL в различных форматах, например http://example.com, https://www.example.com и www.example.com.

In [31]:
# ваш код

In [30]:
text = "Посетите мой веб-сайт: http://www.example.com, а также https://google.com и www.learnonline.hse.ru"
extract_urls(text)

['http://www.example.com,', 'https://google.com', 'www.learnonline.hse.ru']