## Регулярные выражения в Python

Для работы с регулярными выражениями в питоне есть встроенная библиотека `re` (документацию можно почитать [вот здесь](https://docs.python.org/3/library/re.html)). Для работы нужно сначала ее импортировать, как и любую другую библиотеку. Рассмотрим наиболее часто используемые методы:

* re.match()
* re.search()
* re.findall()
* re.sub()
* re.compile()

### re.match()

Этот метод ищет по заданному шаблону **только** в начале строки. Например, если мы вызовем метод `match()` на строке "the cat is on the mat" с шаблоном "the", то он найдет первое "the" в строке и завершится успешно. Однако если поискать "cat", то результат будет отрицательный. У этого метода два аргумента:

* что найти (шаблон)
* где найти (строка)

In [4]:
import re

re.match('the', 'the cat is on the mat')

<_sre.SRE_Match object; span=(0, 3), match='the'>


In [3]:
print(re.match('cat', 'the cat is on the mat'))

None


### re.search()

Этот метод, в отличие от предыдущего, ищет заданный шаблон в **любом** месте строки, но возвращает только первое найденное совпадение. Аргументы те же.

In [7]:
re.search('the', 'the cat is on the mat')

<_sre.SRE_Match object; span=(0, 3), match='the'>

In [9]:
re.search('cat', 'the cat is on the mat')

<_sre.SRE_Match object; span=(4, 7), match='cat'>

А как вывести не объект, а саму строку, которая нашлась по шаблону? Для естьго есть метод `group()`, который в качестве аргумента принимает номер группы. В случае `match()` и `search()` возвращается только одна группа под номером 0. Здесь, как и в случае с индексами, нумерация начинается с 0.

In [12]:
re.search('cat', 'the cat is on the mat').group(0)

'cat'

### re.findall()

Этот метод возвращает список **всех** найденных совпадений в любом месте строки. Аргументы у него те же,  что и у предыдущих двух методов, а возвращает он список совпадений.

In [14]:
re.findall('the', 'the cat is on the mat')

['the', 'the']

In [16]:
re.findall('the', 'the cat is on the mat')[1]

'the'

### re.sub()

Этот метод ищет шаблон в строке и заменяет его на указанную подстрок. Если шаблон не найден, строка остается неизменной. Соответствено, в отличие от предыдущих методов, у него 3 аргумента:
* что заменить
* на что заменить
* где заменить

Заменяются все подстроки, которые нашлись по шаблону.

In [17]:
re.sub('the', 'my', 'the cat is on the mat')

'my cat is on my mat'

###  re.compile()

Мы можем собрать регулярное выражение в отдельный объект. Это полезно, когда нам нужно много раз использовать один и тот же паттерн: во-первых, не придется каждый раз переписывать одну и ту же регулярку, а во вторых, так программа будет гораздо быстрее! 

In [22]:
# компилируем регулярку для поиска котиков
cats = re.compile('cat')

# а теперь можно использовать эту переменную вместо re с любым из методов
# но во всех будет на один аргумент ("что искать/заменять") меньше 
print(cats.search('the cat is on the mat').group(0))
print(cats.findall('my cat is black, my cat is fat, my cat likes rats, rats are gray and fat'))
print(cats.sub('dog', 'the cat is on the mat'))

cat
['cat', 'cat', 'cat']
the dog is on the mat


In [3]:
# это для выравнивания таблицы, не обращайте внимания

%%html
<style>
table {float:left}
</style>

### Еще раз о синтаксисе регулярных выражений

Повторим основные элементы (подробнее -- [в предыдущем семинаре](https://github.com/ancatmara/python-for-dh/blob/master/Classes/9-10/Regex.md)).

Символ|Значение
------|--------
.	| Один любой символ, кроме новой строки \n.
?	| 0 или 1 вхождение шаблона слева
+	| 1 и более вхождений шаблона слева
\*	| 0 и более вхождений шаблона слева
\w	| Любая цифра или буква (\W — все, кроме буквы или цифры)
\d	| Любая цифра [0-9] (\D — все, кроме цифры)
\s	| Любой пробельный символ (\S — любой непробельнй символ)
\b	| Граница слова
[..]| Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
\	|Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
^ и $ |	Начало и конец строки соответственно
{n,m}| От n до m вхождений ({,m} — от 0 до m)
a&#124;b |Соответствует a или b
()	| Группирует выражение и возвращает найденный текст
\t, \n, \r	| Символ табуляции, новой строки и возврата каретки соответственно