# Алгоритмы и структуры данных в Python

## Занятие 8: Регулярные выражения

Язык регулярных выражений позволяет находить подстроки по "паттернам", а также разбивать строки, заменять текст, и так далее.

Пример: e-mail адреса ```ieliseev@yandex.ru``` ```john.doe@gmail.com``` ```eddie@somehost.com```.
Между ними определенно есть что-то общее.

Нужен был некоторый простой язык, который позволял бы задавать паттерны (шаблоны), по которым будет вестись поиск подстрок, которые им соответствуют. Самый простой пример (не имеющий отношения к регулярным выражениям) - поиск по имени файлов в операционной системе:
```
> dir *.txt
file1.txt
file2.txt
filen.txt
```
    
В результате был придуман язык регулярных выражений, который примерно одинаков на всех платформах (C/C++, JavaScript, SQL, и конечно, Python). В Python есть некоторые особенности реализации регуляных выражений, мы их рассмотрим.

Продолжим с примером про e-mail адреса, вот простое регулярное выражение для их поиска:
```
str_reg_email = r"[a-z0-9\.\_\-]+\@[\w\_\-]+\.[a-z]{2,6}"
```

Спецсимволы, которые используются в регулярных выражениях:
 - ```[``` и ```]``` - внутри таких скобок заключается множество значений, которые может принимать __один символ__. Можно перечислять единичные значения ```[abcde]```, можно множества ```[a-e]```, а можно классы символов:
     - наиболее часто использются:
        - ```\s``` - соответствуют всем пробелам, символам переноса строки и знакам табуляции,
        - ```\S``` - всем символам, которые таковыми не являются,
        - ```\d``` - цифрам от 0 до 9,
        - ```\D``` - всем не-цифрам,
        - ```\w``` - всем печатным символам, за исключением знаков препинания, символов подчеркивания, дефиса и пр.
        - ```\W``` - соответственно, наоборот.
        
 спецсимвол ```^```, включенный в такие скобки, будет отрицать принадлежность паттерна к множеству символов, следующих за ним.
 
 
     
 - ```.``` - соответствует любому символу
 - ```(``` и ```)``` - в круглых скобках можно размещать __группу последовательно идущих символов__. В них же можно размещать несколько групп, разделенных спецсимволом ```|```. Пример: ```(com|org|ru)``` - будет соответствовать и "org", и "com", и "ru". Также найденное соответствие паттерну, заключенному в скобках, можно извлекать из текста.
 - ```+```, ```*``` и конструкции в ```{n,m}``` - квантификаторы, задающие количество повторов заданного символа или группы символов. Перечисленные квантификаторы задают:  
     - ```*``` - любое количество повторов, 
     - ```+``` - как минимум один повтор, 
     - ```{n,m}``` - количество повторов от n до m включительно\
     Пример: ```[0-9]{2,4}``` будет соответствовать подстрокам, содержащим от 2-х до 4-х цифр\
 - если после квантификатора поставить знак вопроса ```?``` - это будет так называемый "ограничитель жадности", который потребует искать как можно меньшее количество соответствий для данного квантификатора
 - ```^``` и ```\$``` - начало и конец строки. Пример регулярного выражения, проверяющего, что строка содержит только латинские буквы - ```^[a-z]+$```
 - ```\``` - обратный слэш служит для обозначения спецсимволов (например, ```\t```, ```\n```), символов, записанных в шестнадцатиричных кодах, а самое главное - для экранирования управляющих символов регулярных выражений.
 
В Python для работы с регулярными выражениями используется модуль ```re```. Алгоритм работы сводится к следующим действиям:\
    - задать регулярное выражение\
    - скомпилировать его\
    - использовать его для работы с текстом.


In [None]:
import re

# создаем строку с регулярным выражением
str_reg_email = r"[a-z0-9\.\_\-]+\@[\w\-]+\.[a-z]{2,6}"

# компилируем регулярное выражение
reg_email = re.compile(str_reg_email)

# проверим список на соответствие
mails = ['ieliseev@yandex.ru', 'john.doe@gmail.com', 'notmail$haha.org', 'eddie@somehost.com']
for mail in mails:
    if reg_email.search(mail):
        print(f"{mail} is e-mail address")
    else:
        print(f"{mail} is NOT e-mail address")



In [None]:
# примеры простых регулярных выражений
print( re.search("o", "dog") ) # <re.Match object; span=(1, 2), match='o'>

print( re.search("^[A-Z0-9]*$", "Python") ) # None, search чувствителен к регистру

print( re.search("^[A-Z0-9]*$", "Python", re.IGNORECASE) ) # <re.Match object; span=(0, 6), match='Python'>

print( re.search("^[\w\s]*$", "Python123") ) # \w - соответствует всем печатным символам

print( re.search("^[\w]*$", "Python-123") ) # не сработает, так как содержит дефис

print( re.search("^[\S]*$", "Python-123") ) # \S - все "не пробелы"


In [None]:
# десятичное число
pattern = re.compile(r"^[0-9]+$") # регулярное выражение для чисел
print(pattern.search("10")) # <re.Match object; span=(0, 2), match='10'>
print(pattern.search("-10")) # None, мы не учли знак

pattern = re.compile(r"^[\+\-]{0,1}[0-9]+$")
print(pattern.search("-10")) # <re.Match object; span=(0, 3), match='-10'>

# натуральное десятичное число, добавим дробную часть(\.[0-9]+)?
pattern = re.compile(r"^[\+\-]{0,1}[0-9]+(\.[0-9]+)?$")
print(pattern.search("10.05")) # <re.Match object; span=(0, 5), match='10.05'>



#### __ПРАКТИКА__

Пользователь вводит дату в формате ДД.ММ.ГГГГ. Проверьте ее на корректность с помощью регулярного выражения.

In [None]:
str_date = input("Введите дату в формате ДД.ММ.ГГГГ: ")

# ваш код здесь



### Извлечение данных из текста с помощью регулярных выражений

Извлекаем данные из полученного объекта ```match()```. Наиболее часто используют методы ```match.group()```, ```match.groups()``` и ```match.groupdict()```.

In [None]:
# снова натуральное десятичное число, посмотрим что у нас в group()
pattern = re.compile(r"^[\+\-]{0,1}[0-9]+(\.[0-9]+)?$")
match = pattern.search("100.500")
print(match.group(0)) # здесь всегда полное соответствие паттерну
print(match.group(1)) # здесь соответствие первым "скобкам"
#print(match.group(2)) # здесь соответствие вторым "скобкам", но у нас их нет - так что None

# Можно извлечь избранные группы в виде кортежа
(num, fraction) = match.group(0,1)
print(f"Number: {num}, fraction: {fraction}")

# Методом groups() можно извлечь группы, начиная с 1-й, в виде кортежа
fraction_, = match.groups()
print(f"Fraction is : {fraction_}")

# "Скобкам" можно дать имя
pattern = re.compile(r"^(?P<sign>[\+\-]{0,1})(?P<int>[0-9]+)(?P<fraction>\.[0-9]+)?$")
match = pattern.search("+100.500")
print(match.group(0)) # полное соответствие паттерну
print(match.group('sign')) # здесь соответствие "скобкам" sign, +
print(match.group('int')) # здесь соответствие "скобкам" int, 100
print(match.group('fraction')) # здесь соответствие "скобкам" int, .500

# с помощью метода groupdict() можно извлечь группы в виде словаря
dict_match = match.groupdict()
print(dict_match)


#### __ПРАКТИКА__

Для предыдущей задачи реализуйте создание объекта datetime.date, который содержал бы введенную пользователем дату.
При попытке ввода некорректной даты нужно выводить дружественное сообщение об ошибке.

In [None]:
str_date = input("Введите дату в формате ДД.ММ.ГГГГ: ")

# ваш код здесь



### Поиск текста по паттернам

Для поиска всех соответствий паттерну в тексте используют функцию ```findall()```. Она возвращает список кортежей найденных соответствий.

Чтобы работать с соответствиями как со словарями, используйте ```finditer()```, эта функция возвращает итерируемый объект, который на каждую итерацию возвращает объект ```match```.

In [None]:
# найдем все интернет-адреса с помощью регулярного выражения:
re_url = re.compile(r'(?P<url>https?\:\/\/(www\.)?(?P<domain>[\w\-]+\.(com|ru)))')

text = """
Первой поисковой системой в Рунете была http://www.ru, затем появились Рамблер https://rambler.ru и 
Яндекс https://yandex.ru.
"""

# findall()
urls = re_url.findall(text)
print(urls)

# finditer()
for match_url in re_url.finditer(text):
    dict_groups = match_url.groupdict()
    print(dict_groups)

#### __ПРАКТИКА__

Верните список всех хештегов, упомянутых в тексте.

In [None]:
text = """
Этот #пост создан для того, чтобы его #лайк'али. 
Посмотрите, какая красивая фотография #котик'а. 
Какой он #Мягкий_и_Пушистый!
Пройдите #опрос, он у нас посвящен #кот'ам.
Всем #чао! ###
"""

re_tag = re.compile(r"\#[\w]+")
# ваш код здесь



### Замена с помощью регулярных выражений

Для замены используется функция ```re.sub( pattern, repl, string )```. В строке ```string``` все соответсвия ```pattern``` заменяются на ```repl```. Если ```repl``` - функция, ей передается match-объект, из которого можно извлечь группы, и тогда совпадения по паттерну будут заменены тем, что возвращает функция.


In [None]:
rex_ooo = re.compile(r"(o{3}|w{3})", re.IGNORECASE)
string = "mooo mooooo mOOOO awww Awwww awww"
str__ = re.sub(rex_ooo, 'xxx', string)
print(str__)   # mxxx mxxxoo mxxxO

str__1 = re.sub(rex_ooo, lambda match: match.group(1)[0], string)
print(str__1)

#### __ПРАКТИКА__

Замените все e-mail адрес в строке строкой "<e-mail адрес скрыт>". А потом замените строкой, которая состоит из части адреса до "собаки", и вышеозначенной фразы. 

In [None]:
str_ = "Пишет пользователь ieliseev@specialist.ru в ответ на письмо пользователя john.doe@camel.com"

# ваш код здесь