В этой тетрадке очень коротко разобраны основы регулярных выражений. 

Подробнее можно почитать в документации питона - https://docs.python.org/3/howto/regex.html

In [1]:
# встроенная питоновская библиотека для работы с регулярными выражениями
import re

У re несколько основных функций:  
    **re.findall** (возвращает все совпадения списком),   
    **re.match** (сравнивает паттерн с началом строки),  
    **re.search** (ищет во всей строке совпадения с паттерном),  
    **re.sub** (заменяет совпадения с паттерном на что-то еще),  
    **re.split** (делит строку по совпадению с паттерном)
    
Паттерн - это само регулярное выражение. В нем описывается то, что мы хотим найти в строке. Понятнее будет на примерах.

In [69]:
# возьмем любой текст (обычно он будет большой и глазами нельзя просмотреть)
text = "Отличается от предыдущей возможностью отслеживания 100 000 посещений, 50 страниц."

Самый простой паттерн - подстрока, которую мы хотим найти.

In [5]:
# например "О" (регистр важен!)
re.findall('О', text)

['О']

In [7]:
# а теперь "о" (регистр важен!)
re.findall('о', text)

['о', 'о', 'о', 'о', 'о', 'о']

In [8]:
# заменим все о на а
re.sub('о', 'а', text)

'Отличается ат предыдущей вазмажнастью атслеживания 100 000 пасещений, 50 страниц.'

In [70]:
# заменим все о на а
re.split(' ', text)

['Отличается',
 'от',
 'предыдущей',
 'возможностью',
 'отслеживания',
 '100',
 '000',
 'посещений,',
 '50',
 'страниц.']

In [9]:
# подстрока подлинее
re.search('возможностью', text)

<_sre.SRE_Match object; span=(25, 37), match='возможностью'>

In [11]:
# подстрока которой нет (вернется None)
re.search('возможности', text)

In [14]:
# если вариантов несколько, то можно сопоставить их через | - это значит или
re.findall('посещений|страниц', text)

['посещений', 'страниц']

Но регулярные выражения полезны, когда перечислять все подстроки слишком сложно или даже невозможно. Для таких случаев есть операторы, которые позволяют описывать все варианты подстроки.

In [17]:
# \w - матчит любую букву или цифру (если заменить останутся только пробелы и знаки препинания)
re.sub('\w', '', text)

'       ,  .'

In [160]:
# \W - матчит любую не букву и не цифру (если заменить останутся только буквы и цифры)
re.sub('\W', '', text)

'Отличаетсяотпредыдущейвозможностьюотслеживания10000000000посещений50страниц'

In [161]:
# \d - матчит любую цифру 
re.findall('\d', text)

['1', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '5', '0']

In [165]:
# \D - матчит любую не цифру 
re.sub('\D', '_', text)

'___________________________________________________100_000_00_000____________50_________'

In [26]:
# \s - матчит любой пробельный символ
re.sub("\s",'', text)

'Отличаетсяотпредыдущейвозможностьюотслеживания100000посещений,50страниц.'

In [27]:
# . - матчит любой символ
re.sub(".", '', text)

''

In [19]:
# [] в квадратных скобках перечисляются варианты отдельных символов
re.findall("[Оо]", text) # матчим и большую и маленькую

['О', 'о', 'о', 'о', 'о', 'о', 'о']

In [21]:
# [а-я] если нужно много букв, например весь алфавит, то можно указать интервал
# Основные интервалы:
# [а-яА-ЯЁё] - все русские буквы (заглавные и маленькие)
# [a-zА-Z] - все английские буквы (заглавные и маленькие)
# [0-9] все цифры

# !!! [A-я] (от английского A до русского я) - лучше никогда не писать, ошибки не будет, 
# но в интервал попадет много лишнего, т.к интервалы считаются по таблице юникода https://unicode-table.com/ru/
# и между английскими буквами и русскими есть еще другие символы

re.sub("[а-я]", '', text) # остались заглавные, пробелы и цифры

'О     100 000 , 50 .'

In [24]:
# [^а-я] - символ ^ внутри скобок означает отрицание
re.findall('[^а-я]', text) # матчим все кроме маленьких русских букв

['О',
 ' ',
 ' ',
 ' ',
 ' ',
 ' ',
 '1',
 '0',
 '0',
 ' ',
 '0',
 '0',
 '0',
 ' ',
 ',',
 ' ',
 '5',
 '0',
 ' ',
 '.']

Чтобы повторить один и тот же символ можно поставить после него + (1 и больше повторений) или \* (0 и больше повторений).

In [29]:
re.findall('\w+', text) # все последовательности букв и цифр

['Отличается',
 'от',
 'предыдущей',
 'возможностью',
 'отслеживания',
 '100',
 '000',
 'посещений',
 '50',
 'страниц']

In [31]:
re.findall('\w*', text) # все последовательности букв и цифр (и пустое место тк \w не обязательный с *)

['Отличается',
 '',
 'от',
 '',
 'предыдущей',
 '',
 'возможностью',
 '',
 'отслеживания',
 '',
 '100',
 '',
 '000',
 '',
 'посещений',
 '',
 '',
 '50',
 '',
 'страниц',
 '',
 '']

Если символ не обязательный, то можно поставить знак вопроса.

In [34]:
# запятая обязательна
re.findall('\w+,', text)

['посещений,']

In [35]:
# необязательна
re.findall('\w+,?', text)

['Отличается',
 'от',
 'предыдущей',
 'возможностью',
 'отслеживания',
 '100',
 '000',
 'посещений,',
 '50',
 'страниц']

Вопрос можно совместить с +, чтобы сматчить минимально возможный паттерн.

In [39]:
# возьмем другой текст
text = "<Отличается> <от предыдущей возможностью> <отслеживания 100 000 посещений, 50 страниц.>"

In [40]:
re.findall('<.+>', text) # матчит все от первой < до последней >

['<Отличается> <от предыдущей возможностью> <отслеживания 100 000 посещений, 50 страниц.>']

In [41]:
re.findall('<.+?>', text) # матчит до первого >

['<Отличается>',
 '<от предыдущей возможностью>',
 '<отслеживания 100 000 посещений, 50 страниц.>']

Если нужно указать точное число повторений, можно указать его в фигурных скобках {min, max}

In [93]:
# возьмем другой текст
text = "+79121231232 +79991238899 +7923111112222211"

In [98]:
re.findall('\+79\d{1,9}[^\d]', text) # [^\d] нужно чтобы последний номер не матчился совсем

['+79121231232 ', '+79991238899 ']

Если нужно выбрать только часть из паттерна, то эту часть можно заключить в скобки

In [99]:
text = "<Отличается> <от предыдущей возможностью> <отслеживания 100 000 посещений, 50 страниц.>"

In [100]:
re.findall('<(.+?)>', text) # матчится по тэгам, но выбирается только то, что внутри тэга

['Отличается',
 'от предыдущей возможностью',
 'отслеживания 100 000 посещений, 50 страниц.']

In [85]:
m = re.search('<(.+)>', text) # в search вот так можно достать то что попало в скобки
m.group(1)

'Отличается> <от предыдущей возможностью> <отслеживания 100 000 посещений, 50 страниц.'

Иногда эти скобки могут пригодится для того, чтобы объединить последвательность в паттерне. Если поставить в начале скобочек ?: то они не будут влиять на выбор части из паттерна. Сравните:

In [49]:
re.findall('[Оо]т(личается|слеживания)?', text) # выбирается то что в скобках

['личается', '', 'слеживания']

In [50]:
re.findall('[Оо]т(?:личается|слеживания)?', text) # выбирается все

['Отличается', 'от', 'отслеживания']

Регулярные выражения матчат по строкам (до символа \n). Поэтому .+ не сматчит все строчки текста целиком. Нужно либо указать \n как вариант, либо использовать флаг re.DOTALL

In [71]:
# возьмем другой текст
text = "Первая строка\n\
        Вторая строка"

In [72]:
re.findall('.+', text) # выбирается все

['Первая строка', '        Вторая строка']

In [73]:
re.findall('[\w\d\s\n]+', text) # . не работает внутри фигурных

['Первая строка\n        Вторая строка']

In [74]:
re.findall('.+', text, re.DOTALL) # выбирается все

['Первая строка\n        Вторая строка']

Все вышеперечисленное можно комбинировать!

In [149]:
text = "Отличается от предыдущей возможностью отслеживания 100 000 00 000 посещений, 50 страниц."

In [156]:
re.findall('[Оо](?:т|тс)л[еи][^\d\s]+', text) # матчим слова Отличается и отслеживания

['Отличается', 'отслеживания']

In [157]:
re.findall('[0-9]+(?:\s[0-9]+)*', text) # матчим все последовательности цифр даже через пробел

['100 000 00 000', '50']