# Python для исследователей

На основе блокнота *Аллы Тамбовцевой, НИУ ВШЭ*

Дополнения: *Татьяна Рогович

# Регулярные выражения

### Введение в регулярные выражения

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке. Еще о регулярных выражениях можно думать как о шаблонах, в которые мы можем подставлять текст, и этот текст либо соответствует шаблону, либо нет. В самом простом случае в качестве регулярного выражения может использоваться обычная строка. 

In [2]:
# библиотека регулярных выражений в Python
import re

Возьмем две первых строки из известной считалки Агаты Кристи и попытаемся найти в них слово "обедать". 
Для этого можно воспользоваться оператором in. Он проверяет точное вхождение одной строки в другую и возвращает логическое значение: True, если вхождение есть, и False в противном случае.

In [2]:
string = 'Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'
# слово "обедать" маленькими буквами есть в строке
'обедать' in string

True

In [3]:
# а если мы попытаемся поискать слово "Обедать" с большой буквы, то оператор вернет False
'Обедать' in string

False

Видно, что слово *Один* начинается с большой буквы. Что, если мы хотим найти в некоторой строке слово *Один* вне зависимости от регистра, то есть все слова типа *Один, один, ОДИН* и т.д.? Эту задачу все еще можно решить без регулярных выражений: привести всю строку к нижнему регистру и искать слово *один*. 
А что, если у нас будет текст подлиннее (например, полный текст считалки), и в нем необходимо найти все числительные от одного до десяти во всех падежах (один/одного/двое/двоим и т.д.)? В такой ситуации удобнее написать некоторый шаблон, чтобы не создавать длинный список слов с разными формами слов. Тут на помощь придут регулярные выражения. 

## Символы и наборы символов

* Для обозначения произвольного символа (кроме новой строки) используется  точка ‒ `.`


* `[..]` Один из символов в скобках (`[^..]` — любой символ, кроме тех, что в скобках). Если мы хотим, чтобы одним из этих символов был дефис (минус) нужно указать его первым или последним символом в скобках.


* В квадратные скобки можно включать интервалы:
    
    `[0-9]` соответствует любой цифре
    `[A-Z]` соответствует любой заглавной букве английского алфавита  
    `[a-z]` соответствует любой строчной букве английского алфавита  
    `[А-Я]` и `[а-я]` ‒ аналогично для букв русского алфавита (кроме буквы ё/Ё - ее нужно включать отдельно!)
    

* Для цифр есть специальный символ `\d` (от *digit*) ≈`[0-9]` . Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 


* Для любого символа, кроме цифры тоже есть специальный символ `\D` (от *digit*)≈`[^0-9]` (заглавная буква здесь отвечает за отрицание). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 


* Для пробела тоже существует свой символ ‒ `\s` (от *space*) ≈`[ \f\n\r\t\v]`. Этот символ соответствует ровно одному пробельному символу в тексте (пробел, табуляция, перенос строки и т.д.).


* Любой непробельный символ, обозначается как `\S` (заглавная буква здесь отвечает за отрицание).


* Для букв тоже существует свой символ ‒ `\w` (от *word*) ≈ `[0-9a-zA-Zа-яА-ЯёЁ_]`. Любая буква (то, что может быть частью слова), а также цифры и _ .


* Любая не-буква, не-цифра и не подчёркивание, обозначается как `\W` (заглавная буква здесь отвечает за отрицание).


* `\b` позволяет найти нам границу слова  начало или конец слова (слева пусто или не-буква, справа буква и наоборот). В отличие от предыдущих соответствует позиции, а не символу. `\B` - не граница слова: либо и слева, и справа буквы, либо и слева, и справа НЕ буквы.


* `\` Экранирование специальных символов (\. означает точку или \+ — знак «плюс»). Это нужно, когда нам нужно отловить настоящую точку, а не точку - любой символ.

* `^` и `$` начало и конец строки соответственно.


* `a|b`	Соответствует a или b


* `\t`, `\n`, `\r`	Символ табуляции, новой строки и возврата каретки соответственно


**Квантификаторы** 
* *{n,m}* 	От n до m вхождений ({,m} — от 0 до m)


* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+` (аналог `{1,}`)


* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*` `{,}`


* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?` `{0,1}`

In [69]:
twister = '''Two toads, terribly tired, trotted along the road.\nSaid toad number 1 to the toad number Two:\n'I'm tired, and I'm carrying the load.'''

print(twister)
print(re.findall(r'.+', twister))
print(re.findall(r'\d+', twister))
print(re.findall(r'[0-9]+', twister))
print(re.findall(r'\D+', twister))
print(re.findall(r'\s+', twister))
print(re.findall(r'\S+', twister))
print(re.findall(r'[lrt]oad', twister))
print(re.findall(r'[^rt]oad', twister))
print(re.findall(r'toad', twister))
print(re.findall(r'toad\b', twister))
print(re.findall(r'Two', twister))
print(re.findall(r'^Two', twister))
print(re.findall(r'\.', twister))
print(re.findall(r'\.$', twister))

Two toads, terribly tired, trotted along the road.
Said toad number 1 to the toad number Two:
'I'm tired, and I'm carrying the load.
['Two toads, terribly tired, trotted along the road.', 'Said toad number 1 to the toad number Two:', "'I'm tired, and I'm carrying the load."]
['1']
['1']
['Two toads, terribly tired, trotted along the road.\nSaid toad number ', " to the toad number Two:\n'I'm tired, and I'm carrying the load."]
[' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ']
['Two', 'toads,', 'terribly', 'tired,', 'trotted', 'along', 'the', 'road.', 'Said', 'toad', 'number', '1', 'to', 'the', 'toad', 'number', 'Two:', "'I'm", 'tired,', 'and', "I'm", 'carrying', 'the', 'load.']
['toad', 'road', 'toad', 'toad', 'load']
['load']
['toad', 'toad', 'toad']
['toad', 'toad']
['Two', 'Two']
['Two']
['.', '.']
['.']


Давайте посмотрим на пару примеров на других строках.

In [3]:
st = 'ёёёёёёёёабв'
re.findall(r'[а-я]+',st) # ищем последовательность, которая входит в последовательность от а до я

['абв']

Здесь нашлось абв, потому что в диапазон а-я буква ё не входит!

In [5]:
st = 'Революция произошла в 1917 году'
re.findall(r'\d+',st) # ищем последовательность цифр

['1917']

In [6]:
st = 'Революция произошла в 1917 году'
re.findall(r'\D+',st) # ищем все последовательности без цифр

['Революция произошла в ', ' году']

In [7]:
st = 'Революция произошла в 1917 году'
re.findall(r'\S+',st) # ищем все, что не пробельные символы

['Революция', 'произошла', 'в', '1917', 'году']

Для разбора дальнейших символов в регулярных выражениях, создадим небольшой набор слов (не очень осмысленный, но удобный):

     хи, хех, хааа, хаха

* Знак `.` соответствует одному любому символу в строке. Так, регулярное выражение `x.x` "поймает" слова *хах* и *хех*.
* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+`. Выражение `xa+` "поймает" слова *xa* и *хаааа*.
* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*`.  Выражение `xaх*`  "поймает" слова *xa* и *хах*.
* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?`.  Выражение `xa?`  "поймает" все последовательности *xa* и буквы *x*.

In [5]:
st = "хи, хех, хааа, хаха"
re.findall(r'х.х',st)

['хех', 'хах']

In [6]:
re.findall(r'ха+',st)

['хааа', 'ха', 'ха']

In [10]:
# квантификатор + может быть выражен интервалом {1,}
re.findall(r'ха{1,}',st)

['хааа', 'ха', 'ха']

In [7]:
re.findall(r'хах*',st) # ха из хаааа, т.к * говорит нам что слева должно быть ха и справа 0 или бесконечно число х

['ха', 'хах']

In [13]:
# квантификатор * может быть выражен интервалом {,}
re.findall(r'хах{,}',st)

['ха', 'хах']

In [8]:
re.findall(r'ха?',st) #? говорит нам, что слева должен быть один х, а справа 0 или 1 а. 
# Соответственно ха и х из хах; х и х из хех; и ха из хааа; ха ха из хаха

['х', 'х', 'х', 'ха', 'ха', 'ха']

In [70]:
# квантификатор ? может быть выражен интервалом {0,1}
re.findall(r'ха{0,1}',st)

['х', 'х', 'х', 'ха', 'ха', 'ха']

В регулярных выражениях также можно использовать условие *или*. Например, возвращаясь к нашей "смеющейся" строке, если мы напишем выражение `x[а|е]х`,  оно поймает слова *хах* и *хех*, а вот вдруг появившийся *хох* не поймает.



In [15]:
re.findall(r'х[а|е]х',st)

['хех', 'хах']

Но обычно "или" нам нужно для более сложных случаев, например, когда мы хотим отловить однокоренные слова с меняющейся гласной, потому что с этим примером справится и простое перечисление в скобках.

In [16]:
re.findall(r'х[ае]х',st)

['хех', 'хах']

Как быть, если с помощью регулярного выражения нужно найти подстроку, содержащую знаки препинания? Те же точки, вопросительные знаки, скобки? Нужно их экранировать ‒ ставить перед ними `\`, например, `\.`, `\,`, `\?`. Это символ будет сообщать Python, что нам нужен именно конкретный символ (точка, запятая, знак вопроса и др.). Внутри квадратных скобок, где мы перечисляем последовательности экранирование не нужно.

В регулярных выражениях можно явно задавать число повторений символов. Если мы знаем точное число символов, то его можно указать в фигурных скобках. Так, выражение `а{4}` будет соответствовать четырем буквам `a` подряд. Если точное число повторений нам неизвестно, можно задать диапазон, указав начало и конец отрезка через запятую. Например, такое выражение позволит найти от двух до четырех букв `a` подряд: `a{2,4}`. Если известен только левый или правый конец отрезка, то второй конец можно опустить: `a{2,}` (не менее двух) или `a{,4}` (не более 4).

Мы работали с функцией `findall`, но в модуле `re` есть и другие полезные функции. Вот наиболее часто используемые из них:

- `re.match()`
- `re.search()`
- `re.findall()`
- `re.split()`
- `re.sub()`
- `re.compile()`

Рассмотрим их подробнее.

### re.match(pattern, string):
Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод `match()` на строке «Сидоров Иван Иванович» с шаблоном «Сидоров», то он завершится успешно. Однако если мы будем искать «Иван», то результат будет отрицательный. Давайте посмотрим на его работу:

In [29]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result)

<_sre.SRE_Match object; span=(0, 7), match='Сидоров'>


Искомая подстрока найдена. Чтобы вывести ее содержимое, используем метод `group()`. (Мы используем «r» перед строкой шаблона, чтобы показать, что это «сырая» строка в Python).

In [30]:
result.group(0)

'Сидоров'

Теперь попробуем найти «Иван» в данной строке. Поскольку строка начинается с фамилии, метод вернет `None`:

In [31]:
result = re.match(r'Иван', 'Сидоров Иван Петрович')
print(result)

None


Также есть методы `start()` и `end()` для того, чтобы узнать начальную и конечную позицию найденной строки.

In [32]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result.start())
print(result.end())

0
7


Эти методы иногда очень полезны для работы со строками.

### re.search(pattern, string):
Этот метод похож на `match()`, но он ищет не только в начале строки. В отличие от предыдущего, `search()` вернет объект, если мы попытаемся найти «Иван».

In [33]:
result = re.search(r'Иван', 'Сидоров Иван Петрович')
result.group(0)

'Иван'

Метод `search()` ищет по всей строке, но возвращает только первое найденное совпадение.

In [34]:
result = re.search(r'Иван', 'Сидоров Иван Иванович')
result.group(0)

'Иван'

### re.split(pattern, string, [maxsplit=0]):
Этот метод разделяет строку по заданному шаблону.

In [35]:
result = re.split(r' ', 'Сидоров Иван Петрович')
result

['Сидоров', 'Иван', 'Петрович']

В примере мы разделили нашу строку по пробелам. Метод `split()` принимает также аргумент `maxsplit` со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз. Давайте посмотрим на примеры:

In [36]:
result = re.split(r' ', 'Сидоров Иван Петрович',maxsplit=1)
result

['Сидоров', 'Иван Петрович']

Мы установили параметр `maxsplit` равным 1, и в результате строка была разделена на две части вместо трех.

### re.compile(pattern):
Компилирует объект регулярного выражения.для последующего использования.

In [38]:
text = 'hfjklhgadsfk_7fjhsdkl867589065,bhjk4\n \
        5jfnkld45'
digitRegex = re.compile(r'[0-9]+') # Не менее 1 цифры

''' Сейчас мы их проверим...'''
digitRegex.findall(text)

['7', '867589065', '4', '5', '45']

### re.sub(pattern, repl, string):
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [39]:
result = re.sub(r'[;,]', ' ', 'Сидоров;Иван,Петрович')
result

'Сидоров Иван Петрович'

### Группирующие скобки для уточнения условия

Нужно в тексте найти все однокоренные слова. Будем выполнять на данной скороговорке:

Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.

In [56]:
pig = "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла."
pig

'Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.'

Корень может быть как в начале слова, так и где-то в середине. Поэтому учтем это. Сначала у нас могут быть буквы `[а-яА-Я]` длиной от 0 до бесконечности `*`

In [57]:
re.findall(r'[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла',
 '',
 'свинья',
 '',
 'белорыла',
 '',
 '',
 'тупорыла',
 '',
 '',
 'полдвора',
 '',
 'рылом',
 '',
 'изрыла',
 '',
 '',
 'вырыла',
 '',
 '',
 'подрыла',
 '',
 '']

Нам попались все слова и пробелы, так как `*`. Далее будем искать наш корень. Нам нужно точное совпадение с `рыл` или `Рыл` для случая с началом предложения `(?:рыл|Рыл)`. `|` говорит нам о выборе между `рыл` и `Рыл`, т.е. подойдет любой из них.

Что делает `(?:)` ? Этот символ помогает нам вернуть последовательность полностью. Выше мы уже видели, что, то, что последовательность в скобках соответствует формату вывода. В этом случае `(?:)` это меняет: если последовательность символов подходит ВСЕМУ шаблону, то оно и будет возвращено функцией findall.

Но если мы уберем ?:, то любая последовательность подходящая под внутренний паттерн скобок будет выведена. Сравните два примера ниже.

In [58]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)', pig)

['Рыл', 'белорыл', 'тупорыл', 'рыл', 'изрыл', 'вырыл', 'подрыл']

In [59]:
re.findall(r'[а-яА-Я]*(рыл|Рыл)', pig)

['Рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл']

Есть начало слова и его корень. Осталось добавить окончание. Все аналогично началу слова:

In [60]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)[а-яА-Я]*', pig)

['Рыла', 'белорыла', 'тупорыла', 'рылом', 'изрыла', 'вырыла', 'подрыла']

### Заключение
Сегодня мы познакомились с функциями из модуля `re`. Дополнительно про них можно почитать в официальной [документации](https://docs.python.org/3/library/re.html). Кроме того, есть очень хороший ресурс [regex101.com](https://regex101.com), который позволяет скопировать нужный текст и в интерактивном режиме следить, какие совпадения находятся при изменении регулярного выражения, введенного в отдельном окне (не забудьте поставить галочку Python в разделе FLAVOR слева).

Хорошие статьи по регулярным выражениям:  
[Раз](https://tproger.ru/articles/regexp-for-beginners/)  
[Два](https://habr.com/ru/post/349860/)  