# Регулярные выражения

Один из самых удобных инструментов текстового поиска и работы с информацией – **регулярные выражения** (часто их называют *регулярки* или *regex*), они используются во всех языках программирования и помогают во многих задачах.

Если говорить просто, то **регулярное выражение** - это строка из символов, которая каким-то образом характеризует набор строк. То есть, задав регулярное выражение и выполнив поиск по тексту, мы получим набор строк, которые соответствуют шаблону, описанному нами при помощи regex.

Зачем нам это в NLP?

- Сбор данных
- Поиск по корпусу (например, когда нам нужно найти все глоссы в тексте)
- Токенизация
- "Чистка" текста (например, когда из текста нужно удалить все хэштеги)
- Замена текста (например, когда нужно заменить все даты на одно слово)

## Базовые паттерны

Существует несколько базовых паттернов написания регулярных выражений, используя которые, вы сможете составить свои первые регулярки.

### Конкатенация

Самый простой вид регулярок - последовательность простых символов, который называется **конкатенацией**. Суть заключается в том, что регулярка вернет ту последовательность, которую мы в ней написали.  

RegEx: *computer*  
Текст: *I have a new computer.*  
Вывод: *computer*  

Не стоит забывать, что регулярные выражения чувствительны к регистру, поэтому *computer* и *Сomputer* - это разное. Второе выражение в нашем примере не найдет совпадений.  

Как это будет выглядеть в коде, можно посмотреть ниже, но позже мы подробнее разберем реализацию регулярок в python.

In [1]:
import re

text = 'I have a new computer.'
result = re.findall(r'computer', text)

print(result)

['computer']


### Дизъюнкция

Если же у нас есть еще одно предложение вдобавок к предыдущему: *She says: “A Computer!”*. И мы хотим, чтобы оба слова *computer* вернулись после применения регулярного выражения, то пора познакомиться с **дизъюнкцией**. Для этого нам понадобятся квадратные скобки **[ ]**. Ко всему, что написано внутри них, будет применена дизъюнкция, а это значит, что будут искаться совпадения с каждым из элементов в скобках.  

RegEx: *[Cc]omputer*  
Текст: *I have a new computer. She says: “A Computer!”.*  
Вывод: *computer, Computer*

In [2]:
import re

text = 'I have a new computer. She says: “A Computer!”'
result = re.findall(r'[Cc]omputer', text)

print(result)

['computer', 'Computer']


❓Попробуйте написать регулярное выражение, которое найдет все формы имени Миша, которые есть в этих предложениях, используя дизъюнкцию.

In [None]:
import re

text = 'Миша изучает nlp, у Миши уже есть опыт в написании регулярных выражений, друзья хвалят Мишу за упорство.'
result = re.findall(r'#здесь ваша регулярка#', text)

print(result)

In [8]:
# решение

import re

text = 'Миша изучает nlp, у Миши уже есть опыт в написании регулярных выражений, друзья хвалят Мишу за упорство.'
result = re.findall(r'Миш[аиу]', text)

print(result)

['Миша', 'Миши', 'Мишу']


### Диапазоны

По принципу дизъюнкции работают **диапазоны**, но только они облегчают написание регулярного выражения. Допустим, нам нужно найти в тексте все употребления цифр. Используя дизъюнкцию, мы могли бы написать вот такую регулярку: *[0123456789]*, но зачем нам перечислять все цифры, если можно сказать, что нам нужны цифры в промежутке от 0 до 9? Тогда можем записать так: *[0-9]*.  

RegEx: *[0-9]*  
Текст: *I am the number 1.*  
Вывод: *1*

In [3]:
import re

text = 'I am the number 1.'
result = re.findall(r'[0-9]', text)

print(result)

['1']


В диапазоны можно включать всё, что угодно.  

❓Попробуйте написать регулярное выражение, которое найдет все заглавные буквы английского алфавита кроме A и B, используя диапазон.

In [None]:
import re

text = 'I have a new computer. She says: “A Computer!”'
result = re.findall(r'#здесь ваша регулярка#', text)

print(result)

In [4]:
# решение

import re

text = 'I have a new computer. She says: “A Computer!”'
result = re.findall(r'[C-Z]', text)

print(result)

['I', 'S', 'C']


### Отрицание

У квадратных скобок есть еще одна функция: в сочетании с символом ^ они могут работать как **отрицание**. Если ^ является первым символом после открытой квадратной скобки ([) , то результирующий шаблон аннулируется. Выражение *[^d]* найдет любой одиночный символ, кроме d.  

Такое выражение найдет все одиночные символы, кроме пробела.

RegEx: *[^ ]*  
Текст: *I have it.*  
Вывод: *I, h, a, v, e, i, t, .*

In [11]:
import re

text = 'I have a new computer. She says: “A Computer!”'
result = re.findall(r'[^ ]', text)

print(result)

['I', 'h', 'a', 'v', 'e', 'a', 'n', 'e', 'w', 'c', 'o', 'm', 'p', 'u', 't', 'e', 'r', '.', 'S', 'h', 'e', 's', 'a', 'y', 's', ':', '“', 'A', 'C', 'o', 'm', 'p', 'u', 't', 'e', 'r', '!', '”']


### Квантификаторы и .

Есть еще несколько базовых символов, позволяющих применять регулярки для более сложного поиска. Мы кратко рассмотрим каждый из них.  

Знак **'?'** говорит о том, что символ может встретиться один раз или не встретиться вообще. Выражение *Мама?* найдет в тексте "Мама! Мам!" как последовательность *Мам*, так и последовательность *Мама*.  

Знак **'+'** говорит о том, что символ может встретиться один и более раз. Выражение *a+* найдет последовательности букв *а* длиной 1, 2, 3 и т.д.  

Знак **'\*'** говорит о том, что символ может встретиться любое количество раз или не встретиться вообще. Выражение *мa\** найдет как последовательности "ма", "маа", "мааа" и т.д., так и просто "м".  

Знак **.** обозначает любой символ, то есть регулярка *к.т* найдет последовательности, в которых между буквами *к* и *т* стоит любой другой символ. Часто точку сочетают со звездочкой и тогда выражение *.\** означает повторение любого символа ноль или более раз.

In [15]:
import re

text = 'Call me: +7-913-888-99-11'
result = re.findall(r'\d+', text)

print(result)

['7', '913', '888', '99', '11']


Эта регулярка найдет все встретившиеся числа.

❓Попробуйте написать регулярное выражение, которое в любом случае найдет слово "деревянный", даже если оно написано с ошибкой.

In [None]:
import re

text = 'Он все никак не мог понять, как писать правильно: деревянный или деревяный...'
result = re.findall(r'#здесь ваша регулярка#', text)

print(result)

In [17]:
# решение

import re

text = 'Он все никак не мог понять, как писать правильно: деревянный или деревяный...'
result = re.findall(r'деревянн?ый', text)

print(result)

['деревянный', 'деревяный']


## Жадный и нежадный поиск

Квантификаторы делятся на жадные и нежадные (или ленивые).  
**Жадный** квантфиикатор возвращает результат **максимально** возможной длины.  
**Нежадный** квантификатор возвращает результат **минимально** возможной длины.  

К жадным относятся: 
- *
- +
- {n,}

К нежадным относятся:
- *?
- +?
- {n,}?

Помните, что ленивые квантификаторы иногда могут стать слишком ленивыми и вернуть пустую строку, поэтому применять их нужно аккуратно.

## Шпаргалка

Остальные символы и операторы, которые могут понадобиться при работе с регулярными выражениями, мы собрали в большой шпаргалке. Там они сгруппированы по нескольким спискам и имеют краткое описание своего значения.  
Шпаргалку можно посмотреть здесь: https://www.notion.so/0bd7376d13a14957970583ad9170d063?pvs=4

## Приоритет знаков

Если в одном регулярном выражении используется несколько знаков, то какие-то из них имеют приоритет над другими, так же, как и в арифметических выражениях. Важно понимать иерархию знаков, чтобы правильно формулировать регулярки.  

1. Скобки: ()
2. Квантификаторы: ? + * {}
3. Конкатенации и якоря: $ 
4. Дизъюнкция: |