# Регулярные выражения

Полезные ссылки:

https://habr.com/ru/post/349860/

https://uneex.org/HSE/ProgrammingOS/15_Regexp
    
https://regexone.com/    
    
https://ravesli.com/regulyarnye-vyrazheniya-osnovy/
    
https://regex101.com/

Pattern matching / searching:
- Pattern -- это некоторая строка из спецсимволов, которая описывает, что мы хотим найти
- Matching -- определение, соответствует ли строка заданному паттерну
- Searching -- поиск подстрок, соответствующих паттерну, в тексте

### Основные правила:

#### Общее
- любой неспециальный символ матчит себя
- "." матчит любой символ
- "[abc]" матчит любой символ внутри множества
- "[A-z]", "[0-9]" и прочие сокращения (множества символов подряд в таблице ascii)
- "a*" -- звездочка означает 0 или больше указанных символов подряд
- "a+" -- + означает 1 или более указанных символов подряд
- "a{2,}" -- N или больше символов подряд
- "a?" -- один или ни одного
- "a{1, 5}" -- в фигурных скобках можно указать точное количество. Левая цифра означает минимальное, правая -- максимальное
- "^regexp" -- только подстроки в начале строки
- "rgexp$" -- только подстроки, находящиеся в конце строки

#### Специальные обобщающие символы
`\{small_letter}` -- специальный символ
`\{big_letter}` -- любой символ кроме специального символа 

- \s -- пробельные символы
- \d -- цифра
- \w -- буква или _

#### Lookarounds
- "(?=...)" -- positive lookahead
- "(?<=...)" -- positive lookbehind
- "(?!...)" -- negative lookahead
- "(?<!...)" -- negative loookbehind

и прочее и прочее...


**Дисклеймер**: Написать регулярку может быть гораздо сложнее, чем потом прочитать! 

### Разберем несколько примеров

In [2]:
import re

In [13]:
sample_string = 'Hello, world!'

In [15]:
pattern = re.compile('[hH]ello')
pattern.match(sample_string)

<re.Match object; span=(0, 5), match='Hello'>

In [18]:
pattern.findall(sample_string)

['Hello']

In [23]:
m = re.match(r'[hH]ello,? [a-z]*[.!]?$', sample_string)

In [33]:
sample_string[m.start():m.end()]

'Hello, world!'

In [34]:
m.group()

'Hello, world!'

In [45]:
grouped_match = re.match(r'([hH]ello,?) [a-z]*[.!]?$', sample_string)

In [51]:
grouped_match.group()

'Hello, world!'

In [54]:
grouped_match.groups()

('Hello,',)

In [69]:
re.search(r'\d{1,3}', 'rfhe97346fevbv78')

<re.Match object; span=(4, 7), match='973'>

In [70]:
re.findall(r'\d{1,3}', 'rfhe97346fevbv78')

['973', '46', '78']

In [74]:
re.sub(r'\d{3,5}', 'цифры', 'rfhe97346fevbv78')

'rfheцифрыfevbv78'

Как можно закодировать время в формате `dd:dd`?

**Lookarounds**

In [214]:
er_words = 'math teacher physics teacher scheduler funny monster creepy monster'

In [220]:
for m in re.finditer('\w+ (?=teacher)', er_words):
    print(er_words[m.start():m.end()])

math 
physics 


In [221]:
re.findall('\w+ (?=teacher)', er_words)

['math ', 'physics ']

In [224]:
for m in re.finditer('(?<!math) teacher', er_words):
    print(m.start(), m.end(), er_words[m.start():m.end()])

20 28  teacher


## Fun regexp tasks

Пример с логом apache

`cat error.log.14 | grep -P '[A-Z0-9]+: .*restart'`

### E-mails

Вы увидели, что у соседнего курса в открытом доступе выложены личные данные лекторов, семинаристов и ассистентов! Как хорошие программисты, вы конечно же забеспокоились о приватности данных незадачливых коллег и решили тайком  удалить все их личные почты из общего файла. При этом, вы хотите, чтобы с ними можно было связаться, поэтому университетские почты вы в файле оставляете.

**Задача:** 
- Прочитать данные из файла
- Вывести все e-mail'ы из файла
- Модифицировать файл таким образом, чтобы все почты не относящиеся к доменам @hse.ru или @edu.hse.ru были заменены на фразу "Pr1v@cY REstorED"


PS Если вы умеете работать с командной строчкой в linux или mac os, попробуйте решить задачку в терминале. Вам можешь помочь команда `ssed`

### Погенерируем пароли

Вы наконец-то обеспокоились своей безопасностью в сети и решили обновить все свои пароли. Однако придумывать все самим для всех ваших сайтов вам, конечно, лень. Поэтому вы решили написать программу, которая это сделает за вас!

Сгенерируйте случайный пароль длины N. Убедитесь, что получившийся пароль на самом деле хороший. В нашем случае это:
1. Содержит хотя бы две заглавные буквы подряд
2. Содержит хотя бы две строчные буквы подряд
3. Не содержит пробельные спецсимволы (\t, \n и подобные)
4. Не содержит трех цифр подряд
5. Содержит и русские, и английские буквы 

Ваш код должен генерировать пароли, пока они не удовлетворят заданным условиям.