# Regular Expressions
* Документация здесь: https://docs.python.org/3/library/re.html
* Удобная штука для проверки регулярок:  https://regex101.com/
* потренироваться в изучении удобно здесь: https://alf.nu/RegexGolf

### Основы использования в питоне

In [None]:
import re

In [None]:
# raw-строки не экранируют "/", начинаются c "r"
print("hello\tworld")
print(r"hello\tworld")

In [None]:
simple_re_str = r"(\d+)"
simple_re = re.compile(r"(\d+)")

In [None]:
# Делает одно и то же, только первый вариант дополнительно компилирует RE перед поиском
re.match(simple_re_str, "123 ko ko ko")
re.match(simple_re,     "123 ko ko ko")
simple_re.match("123 ko ko ko")

In [None]:
# re.match проверяет с начала строки
assert re.match("\d+", " 123") is None 
assert re.match("\d+", "123 ") is not None

# re.fullmatch проверяет всю строку
assert re.fullmatch("\d+", "123 ") is None
assert re.fullmatch("\d+", "123") is not None

# re.search - находит где угодно в строке
assert re.search("\d+", "bla 123 bla") is not None

In [None]:
# объект match:
m = re.search("(\d+)", "bla 123 bla 456")

In [None]:
assert <your code> == 4

In [None]:
# фрагмент какого-то файла с одного из ctf'ов =)
text='''
[qexecute]
10.118.101.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.102.13 ansible_user=root ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.103.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.104.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.105.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.106.13 ansible_user=root ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.107.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.108.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.109.13 ansible_user=root ansible_become=true ansible_python_interpreter=/usr/bin/python3
10.118.110.13 ansible_user=ctfcup ansible_become=true ansible_python_interpreter=/usr/bin/python3
'''

# Здесь ip адреса не очень аккуратно парсятся,
# например 300.1.1.1 не является корректным ip-адресом, но подойдёт по регулярное выражение
# Можно делать более аккуратную регулярку, но иногда лучше вытащить всё,
# и дополнительно проверить постфактум
INVENTORY_ITEM_RE = re.compile(r"(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s+ansible_user=(\w+)")

In [None]:
INVENTORY_ITEM_RE.findall(text)

In [None]:
machines_with_root = []

for match in INVENTORY_ITEM_RE.finditer(text):
    assert isinstance(match, re.Match)
    # your code here
    
assert machines_with_root == ["10.118.102.13", "10.118.106.13", "10.118.109.13"]

In [None]:
print(INVENTORY_ITEM_RE.sub(r"\1 ssh_user=\2", text))

# Задание на пару:

Не забывайте про https://regex101.com/

In [None]:
# 1. Распознать mac-адрес.
# Адрес состоит из 6-ти чисел, записанных в шестнадцатеричной системе счисления от 0 до FF и разделенных символом «:».

# 2. Проверить пароль на надёжность: 
# Пароль считается надежным, если он состоит из 8 или более символов.
# Где символом может быть английская буква, цифра и знак подчеркивания.
# Пароль должен содержать хотя бы одну заглавную букву, одну маленькую букву и одну цифру. 
# Подсказка: нужно использовать заглядывание вперёд (?=...)

# 3. Найти букву, которая повторяется ровно 10 раз подряд
# Подсказка: ссылка на предущую группу скорее всего поможет

# 4. Нахождение слова, встречающегося не менее 3-х раз

# 5. Выдернуть последнее слово из строки
# Подсказка: anchors

# 6. Выдернуть строку в двойных кавычках, игнорируя двойные кавычки внутри неё
# example: 'before was "some "quote" text", although...' -> '"some "quote" text"'
# Подсказка: жадность

# 7. Парсинг телефонного номера (с кодом)

# Почему regex - не всегда хорошая идея

* https://blog.codinghorror.com/regex-use-vs-regex-abuse/
* https://blog.codinghorror.com/parsing-html-the-cthulhu-way/
* http://www.ex-parrot.com/~pdw/Mail-RFC822-Address.html
* https://davidcel.is/posts/stop-validating-email-addresses-with-regex/

# Advanced features

In [None]:
# re.split (подробнее см. документацию, она классная)
text = '''
aba
ddd

dfdfd

dfdfd
'''
lines = re.split("\n+", text.strip()) # игнорируем пустые строки
# Но так ли оно полезно?)

In [None]:
# Использование функций при заменах

def replace_host(match):
    ip = match.group(1).split(".")
    return f'10.118.{int(ip[2])-100}.3'
    
print(INVENTORY_ITEM_RE.sub(replace_host, text))

* Опции, `re.MULTILINE`, `re.DOTALL`, `re.VERBOSE`

* Заглядывание вперёд-назад

* `(?(id/name)yes-pattern|no-pattern)`

* [Объединяем простые регулярные выражения в одно сложное](https://docs.python.org/3/library/re.html#writing-a-tokenizer)