##Регулярные выражения (Regular Expressions)

In [1]:
import re

In [2]:
# Промежутки, заключенные в квадратные скобки, позволяют найти цифры или буквы разных алфавитов и разных регистров.
# [0-9] соответствует любой цифре.
# [A-Z] соответствует любой заглавной букве английского алфавита.
# [a-z] соответствует любой строчной букве английского алфавита.
# [А-Я] и [а-я] ‒ аналогично для букв русского алфавита (кроме буквы ё/Ё - ее нужно включать отдельно!).
# Для обозначения произвольного символа (кроме новой строки) используется точка.
# Для цифр есть специальный символ \d (от digit) ≈[0-9] . Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d.
# Для любого символа, кроме цифры тоже есть специальный символ \D (от digit)≈[^0-9] (заглавная буква здесь отвечает за отрицание). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d.
# Для пробела тоже существует свой символ \s (от space) ≈[ \f\n\r\t\v]. Этот символ соответствует ровно одному пробельному символу в тексте (пробел, табуляция, перенос строки и т.д.)
# Любой непробельный символ, обозначается как \S (заглавная буква здесь отвечает за отрицание).
# Для букв тоже существует свой символ \w (от word) ≈ [0-9a-zA-Zа-яА-ЯёЁ]. Любая буква (то, что может быть частью слова), а также цифры и _ .
# Любая не-буква, не-цифра и не подчёркивание, обозначается как \W (заглавная буква здесь отвечает за отрицание).

In [3]:
# Знак . соответствует одному любому символу в строке.
# Знак + соответствует одному или более вхождению символа(ов), который стоит слева от +.
# Знак * соответствует нулю или более вхождениям символа, который стоит слева от *.
# Знак ? соответствует нулю или одному вхождению символа, который стоит слева от ?. 
# \b Граница слова
# [..] Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
# \ Экранирование специальных символов (. означает точку или + — знак «плюс»)
# ^ и $ Начало и конец строки соответственно
# {n,m} От n до m вхождений ({,m} — от 0 до m)
# a|b Соответствует a или b
# () Группирует выражение и возвращает найденный текст
# \t, \n, \r Символ табуляции, новой строки и возврата каретки соответственно

## re.match(pattern, string)

In [4]:
#Этот метод ищет по заданному шаблону в начале строки.

In [5]:
string1 = '''Белая берёза
Под моим окном
Принакрылась снегом,
Точно серебром.

На пушистых ветках
Снежною каймой
Распустились кисти
Белой бахромой.

И стоит береза
В сонной тишине,
И горят снежинки
В золотом огне.

А заря, лениво
Обходя кругом,
обсыпает ветки
Новым серебром.'''

In [6]:
# Игнорируем регистр
result = re.match('белая',string1,re.I)
print(result)

<re.Match object; span=(0, 5), match='Белая'>


In [7]:
result = re.match('берёза',string1,re.I)
print(result)

None


##re.search(pattern, string)

In [8]:
#Метод похож на match(), но ищет не только в начале строки. Метод search() ищет по всей строке, но возвращает только первое найденное совпадение.

In [9]:
result = re.search('берёза',string1,re.I)
print(result)

<re.Match object; span=(6, 12), match='берёза'>


##re.findall(pattern, string)

In [10]:
#Возвращает список всех найденных совпадений. У метода findall() нет ограничений на поиск в начале или конце строки.

In [11]:
result = re.findall('бер[е|ё]за',string1,re.I)
print(result)

['берёза', 'береза']


In [12]:
#Получить все слова
result = re.findall(r'\w+',string1,re.I)
print(result)

['Белая', 'берёза', 'Под', 'моим', 'окном', 'Принакрылась', 'снегом', 'Точно', 'серебром', 'На', 'пушистых', 'ветках', 'Снежною', 'каймой', 'Распустились', 'кисти', 'Белой', 'бахромой', 'И', 'стоит', 'береза', 'В', 'сонной', 'тишине', 'И', 'горят', 'снежинки', 'В', 'золотом', 'огне', 'А', 'заря', 'лениво', 'Обходя', 'кругом', 'обсыпает', 'ветки', 'Новым', 'серебром']


In [13]:
#Получить первое слово
result = re.findall('^\w+',string1,re.I)
print(result)

['Белая']


In [14]:
#Получить последнее слово
result = re.findall('(\w+)\W+$',string1,re.I)
print(result)

['серебром']


In [15]:
#Извлечение даты
string2 = '''Сергей Есенин родился 3 октября 1895 года в селе Константинове Рязанской губернии.'''

In [16]:
result = re.findall('\d{4}', string2)
print(result)

['1895']


In [17]:
#Возвратить слова, начинающиеся на E
result = re.findall('[Е]\w+', string2)
print(result)

['Есенин']


##re.split(pattern, string, [maxsplit=0])

In [18]:
#Этот метод разделяет строку по заданному шаблону.

In [19]:
result = re.split('\s', string1)
print(result)

['Белая', 'берёза', 'Под', 'моим', 'окном', 'Принакрылась', 'снегом,', 'Точно', 'серебром.', '', 'На', 'пушистых', 'ветках', 'Снежною', 'каймой', 'Распустились', 'кисти', 'Белой', 'бахромой.', '', 'И', 'стоит', 'береза', 'В', 'сонной', 'тишине,', 'И', 'горят', 'снежинки', 'В', 'золотом', 'огне.', '', 'А', 'заря,', 'лениво', 'Обходя', 'кругом,', 'обсыпает', 'ветки', 'Новым', 'серебром.']


In [20]:
result = re.split('\n', string1)
print(result)

['Белая берёза', 'Под моим окном', 'Принакрылась снегом,', 'Точно серебром.', '', 'На пушистых ветках', 'Снежною каймой', 'Распустились кисти', 'Белой бахромой.', '', 'И стоит береза', 'В сонной тишине,', 'И горят снежинки', 'В золотом огне.', '', 'А заря, лениво', 'Обходя кругом,', 'обсыпает ветки', 'Новым серебром.']


##re.sub(pattern, repl, string)

In [21]:
#Ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [22]:
result = re.sub('берёза', 'береза',string1)
print(result)

Белая береза
Под моим окном
Принакрылась снегом,
Точно серебром.

На пушистых ветках
Снежною каймой
Распустились кисти
Белой бахромой.

И стоит береза
В сонной тишине,
И горят снежинки
В золотом огне.

А заря, лениво
Обходя кругом,
обсыпает ветки
Новым серебром.


##re.compile(pattern, repl, string)

In [23]:
#Мы можем собрать регулярное выражение в отдельный объект, который может быть использован для поиска. Это также избавляет от переписывания одного и того же выражения.

In [24]:
pattern = re.compile('бер[е|ё]за',re.I)

In [25]:
result = pattern.findall('Белая береза')
print(result)

['береза']


In [26]:
result = pattern.findall(string1)
print(result)

['берёза', 'береза']
