# Лекция. Регулярные выражения

### Язык регулярных выражений

Регулярные выражения - последовательность символов и метасимволов, используемых для поиcка искомой последовательности - паттерна (pattern) в строке.

Язык регулярных выражений - формальный язык поиска, используемый для составления регулярных выражений.

В языке Python  регулярные выражения и работа с ними представлена модулем re.

### Краткий пример использования регулярных выражений 

In [None]:
import re

pattern = r"\b[o]\w+"  # все слова, начинающиеся на o

string = "And blood-black nothingness began to spin a system of cells interlinked within, cells interlinked within, " \
         "cells interlinked within one stem. "
print(re.findall(pattern, string))

Как легко заметить - язык регулярных выражений довольно сложен. Далее рассмотрим подробно синтаксис составления шаблонов поиска и наиболее часто используемые методы модуля re. 

Официальную документацию можно найти здесь:

https://docs.python.org/3/library/re.html 

https://github.com/python/cpython/blob/3.9/Lib/re.py

### Синтаксис составления шаблона поиска (pattern) для re

#### Специальные символы

'.' - по умолчанию соответствует любому символу, за исключением начала новой строки.

'^' - соответствует началу строки.

'\\$' - соответствует концу строки.

'*' - соответствует 0 или более повторений предшествующего регулярного выражения (regex).

In [None]:
print(re.findall(r'.a..a', " alfa, beta, gamma, delta "))
print(re.findall(r'^a..a', "alfa, beta, gamma, delta"))
print(re.findall(r' .*a$', "alfa, beta, gamma, delta"))

'+' - соответствует 1 или более повторений предшествующего regex.

'?' - соответствует 0 или 1 повторению предыдущего регулярного выражения. Например, r'ab?' будет соответствовать либо «a», либо «ab».

In [None]:
print(re.findall(r'\d?1+', "11 121 2211 21 333 341 345"))
# число состоящее из любой первой цифры и далее произовльного числа '1'

'{м}' - указывает, что должно быть сопоставлено ровно m копий предыдущего regex; меньшее количество совпадений приводит к несоответствию всего RE. Например, 'a{6}' будет соответствовать точно шести символам "a", но не пяти.

'{м, n}' - указывает, что должно быть сопоставлено от m до n копий regex.

In [None]:
print(re.findall(r'[a, b]{2,3}\s', " ac abcaa aaa abcba aa ccc a")) # последовательности символов 'a' и 'b' длинны 2-3

'\\' - либо экранирует специальные символы (позволяя вам сопоставлять символы, такие как '*', '?' и т.д.), либо сигнализирует о специальной последовательности.

'[]' - используется для обозначения последовательности символов. Пример:

In [None]:
print(re.findall(r'[bc]+', 'abbbbcebbbcccqbcgbcbc')) # последовательности, содержащие только произвольное число 'b' и 'c'

'A | B' - где A и B могут быть произвольными regex, создает регулярное выражение, которое будет соответствовать либо A, либо B. Произвольное количество regex может быть разделено знаком '|' этим способом.

'(...)' - соответствует любому regex внутри круглых скобок и указывает начало и конец группы.

Для более подробной информации о работе с группами см.: https://docs.python.org/3/library/re.html 

#### Специальные последовательности символов 

'\number' - cоответствует содержимому группы с таким же номером. Группы нумеруются, начиная с 1. Например, (. +) \ 1 соответствует 'the the' или '55 55 ', но не' thethe '(обратите внимание на пробел после группы).

'\A' - соответствует только началу строки.

'\b' - соответсвует пустой строке, но только в начале или в конце слова. Пример:

In [None]:
print(re.findall(r'\bfoo\b', 'Foo foo barFoo foo bar fFoof', re.I)) # re.I - игнорировать регистр при поиске

'\B' - соответствует пустой строке, но только не в конце слова. Пример:

In [None]:
print(re.findall(r'foo\B', 'Foof barfoobar Foo bar ffoo', re.I)) # re.I - игнорировать регистр при поиске

'\d' - соответствует десятичным числам.

'\D' - соответствует любым символам, не являющимся десятичными символами (аналогично [^0-9]).

In [None]:
print(re.findall(r'\d+', "i choose numbers 19 and 11!")) # последовательности только из цифр
print(re.findall(r'\D+', "i choose numbers 19 and 11!")) # все последовательности не из цифр

'\s' - соответствует пробельным символам.

'\S' - соответствует любым непробельным символам.

'\w' - соответствует словесному символу ([a-z, A-Z, 0-9]).

In [None]:
print(re.findall(r'\w+', "I see a red door and I want it painted black")) # все последовательности словесных символов

'\W' - соответсвует любым не словесным символам, противоположный '\w'.

'\Z' - соответствует концу строки.

#### Флаги 

A, ASCII - выставляется чтобы \ w, \ W, \ b, \ B, \ d, \ D, \ s и \ S выполняли сопоставление только согласно ASCII вместо полного сопоставления по Unicode.

U, UNICODE - установлен по умолчанию, устарел, используется для обратной совместимости. Аналогичен предыдущему.

I, IGNORECASE - сделает выполнение сопоставления без учета регистра.

L, LOCALE - сделает соответствие \ w, \ W, \ b, \ B и нечувствительность к регистру зависимыми от текущей локали.

M, MULTILINE - если выставлен, символ шаблона '^' соответствует началу строки и началу каждой строки (сразу после каждой новой строки); а символ шаблона '\\$' соответствует концу строки и концу каждой строки (непосредственно перед каждой новой строкой). По умолчанию '^' соответствует только началу строки, а '\\$' только концу строки и непосредственно перед новой строкой (если есть) в конце строки. Пример:

In [None]:
text = '''So, take me back to Constantinople
No, you can't go back to Constantinople
Been a long time gone, Constantinople
Why did Constantinople get the works?
That's nobody's business but the Turks
'''

pattern = r'^\w+' # слово из словесных символов в начале строки

print(re.findall(pattern, text)) # найдет только слово из 1й строки, так как для остальных символ '^' не переопределен
print(re.findall(pattern, text, re.MULTILINE)) # найдет слово в начале всех строк

S, DOTALL - сделает специальный символ '.' соответствующим любому символу, включая символ начала строки.

X, VERBOSE - позволяет писать визуально понятные регулярные выражения, оставляя комментарии. Пример:

In [None]:
a = re.compile(r'''\d +  # the integral part
                   \.    # the decimal point
                   \d *  # some fractional digits''', re.X)
b = re.compile(r"\d+\.\d*")
# a == b

Можно комбинировать несколько флагов, записывая их через '|'. Пример:

In [None]:
pattern = r"i see a red door.*"

string = '''
I see a red door and I want it painted black
No colors anymore, I want them to turn black
I see the girls walk by dressed in their summer clothes
I have to turn my head until my darkness goes 
'''

print(re.search(pattern, string)) # без group() так как None нельзя группировать, иначе придется ловить исключение
print(re.search(pattern, string, re.IGNORECASE | re.DOTALL).group(0)) 
# игнорировать регистр и '.' считается также и началом строки

#### Прекомпилированные паттерны

В модуле re присутствует возможность скомпилировать паттерн в regular expression object, что позволит экономить время выполнения программы, при неоднократном использовании данного паттерна, так как будет использоваться уже скомпилированный объект, без компиляции при вызове метода из re. Пример:

In [None]:
pattern = re.compile('\A[\w]+', re.I)

print(re.findall(pattern, "Alfa beta gamma"))
print(re.findall(pattern, "Beta gamma delta"))

### Основные методы модуля re

re.search(pattern, string, flags=0) - сканирует строку до первого сопадения подстроки с паттерном, возвращает совпадение как match_object, иначе None.

In [None]:
text = "Wise men speak because they have something to say; fools because they have to say something."

match = re.search(r'they',text)

print(match)
print(match.group(0))
print(match.start())
print(match.end())

re.match(pattern, string, flags=0) - если ноль или более символов в начале строки соответствуют шаблону регулярного выражения, вернет соответствующий match_object, иначе None.

re.fullmatch(pattern, string, flags=0)

re.split(pattern, string, maxsplit=0, flags=0)

re.findall(pattern, string, flags=0)

re.finditer(pattern, string, flags=0)

re.sub(pattern, repl, string, count=0, flags=0)