# Регулярные выражения в Python

Для работы с регулярными выражениями в языке Python определен модуль `re`, который входит в стандартный пакет модулей.

Для работы с ним его нужно импортировать:

In [1]:
import re

##  Raw strings
Для экранирования символов в регулярных выражениях используется обратный слеш `\`  
Для экранирования символов в языке Python тоже используется символ `\`  
Не чувствуете проблемы?

Давайте попробуем написать шаблон регулярного выражения для поиска следующей строки: `\stop`

`\s` на языке регулярных выражений – это токен, следовательно, его надо экранировать: `\\stop`.  

Теперь записываем это в строку в Python. Каждый `\` будет пытаться экранировать следующий символ, следовательно, его самого тоже нужно экранировать.
Получаем 
```python
pattern = '\\\\stop'  # паттерн для поиска
```  

Отвратительно, не правда ли?

Для решения этой проблемы в Python введен флаг `r`, который указывается перед открывающей кавычкой и говорит, что следующая за ним строка – литеральная, т.е. символ `\` ничего не экранирует и является просто символом.

Таким образом наша запись должна выглядеть следующим образом: 
```python
pattern = r'\\stop'
```

## Методы модуля `re`
Каждый метод модуля возвращает объект `match`, в котором:
- при приведении к Boolean возвращается `True`, если есть хоть одно совпадение и `False`, если нет. 
```python
print(bool(match))
```
- можно обращаться по индексу, если в шаблоне были неименованные группы
```python
print(match[0], match[1])
```
- можно обращаться по ключевым словам, если в шаблоне были именованные группы
```python
print(match['domain_name'])
```

---
Также у объекта `match` доступны следующие методы
- `group()` - возвращает совпадение по шаблону
- `start()` - возвращает начальную позицию совпадения по шаблону
- `end()` - возвращает конечную позицию совпадения по шаблону
- `span()` - возвращает кортеж содержащий начальное и конечное положение

---
### match
Метод `re.match(pattern, string)` принимает два позиционых аргумента - шаблон для поиска и строку. 

Проверяет, подходит ли начало строки под определенный шаблон.  
Если да – возвращается объект `match` (не путать с методом `re.match`!!), иначе `None`.

In [2]:
string = "My test string"
pattern = r'My'

print(re.match(pattern, string))  # объект match
print(re.match(pattern, string)[0])  # 'My' - результат поиска по нулевому индексу

<_sre.SRE_Match object; span=(0, 2), match='My'>
My


In [3]:
result = re.match(pattern, string)
if result is not None:
    print(result[0])
    print(result.group())
    

My
My


In [4]:
string = "My test string"
pattern = r'test'

print(re.match(pattern, string))  # None, так как строка не начинается со слова test

None


---
### fullmatch
Метод `re.fullmatch(pattern, string)` принимает два позиционых аргумента - шаблон для поиска и строку. 

Проверяет, подходит ли вся строка под шаблон.  
Если да – возвращается объект `match`, иначе `None`.

In [5]:
string = "My test string"
pattern = r'(\w+\s*)+'

print(re.fullmatch(pattern, string))  # полное совпадение строки

<_sre.SRE_Match object; span=(0, 14), match='My test string'>


In [6]:
string = "My test string!!!"
pattern = r'(\w+\s*)+'

print(re.fullmatch(pattern, string))  # Нет полного совпадения, поэтому None

None


In [7]:
string = """My test string
Second string
"""
pattern = r'(\w+\s*)+'

print(re.fullmatch(pattern, string))  # полное совпадение строки

<_sre.SRE_Match object; span=(0, 29), match='My test string\nSecond string\n'>


---
### search
Метод `re.search(pattern, string)` принимает два позиционых аргумента - шаблон для поиска и строку, в которой нужно производить поиск. 

Метод `search` находит **первое** вхождение шаблона в строку.   
Если найдено – возвращается объект `match`, иначе `None`.

In [8]:
string = "My test string. test"
pattern = r'test'

match = re.search(pattern, string)
print(match)  # находит только первое вхождение
print(match[0])  # test

<_sre.SRE_Match object; span=(3, 7), match='test'>
test


In [9]:
print(match.span())  # (3, 7)
print(string[match.start():match.end()])  # test

(3, 7)
test


---
### findall
Метод `re.findall(pattern, string)` принимает два позиционых аргумента - шаблон для поиска и строку, в которой нужно производить поиск. 

Метод `findall` находит **все** вхождения шаблона в строку и возвращает список всех совпадений, иначе пустой список.

In [10]:
string = "My test 123 string. And 456, 789. Not found test_123"
pattern = r'\b\d{3}\b'  # трехзначные трехзначные числа

print(re.findall(pattern, string))  # ['123', '456', '789']
print(re.findall(r'\b\d{4}\b', string))  # []

['123', '456', '789']
[]


In [11]:
result = re.findall(pattern, string)
for r in result:
    print(r)

123
456
789


---
### finditer 
Метод `re.finditer` аналогичен `re.findall` только возвращает итератор. 

Итератор позволяет получить больше информации обо всех совпадениях шаблона, поскольку он предоставляет объекты совпадений вместо строк.

In [12]:
string = "My test 123 string. And 456, 789. Not found test_123"
for item in re.finditer(r'\b\d{3}\b', string):
    print(f"position: {item.start():02d}-{item.end():02d} | {item.group()}")

position: 08-11 | 123
position: 24-27 | 456
position: 29-32 | 789


---
### split
Метод `re.split` аналогичен методу `split` строки `"some string".split()`, но производит разбиение по шаблону, а не по строке-разделителю.

In [13]:
string = "Разбить строку, содержащую несколько предложений, на слова. Разбивать по-любому не буквенному разделителю"
print(re.split(r"\W+", string))  # список слов

['Разбить', 'строку', 'содержащую', 'несколько', 'предложений', 'на', 'слова', 'Разбивать', 'по', 'любому', 'не', 'буквенному', 'разделителю']


---
### sub
Метод `re.sub(pattern, repl, string)` заменяющий все непересекающиеся шаблоны в тексте на константную строку.  

Принимает три аргумента: паттерн для поиска, константную строку, на которую будет производиться замена, строка, в которой будет поиск. 

In [14]:
a = re.sub(r'\d\d', '00', 'Это стоит 35 рублей 48 копеек')
print(a)  # Это стоит 00 рублей 00 копеек

Это стоит 00 рублей 00 копеек


В языке python вместо строки для замены можно передать функцию, принимающую один аргумент-строку и возвращающую строку.

In [15]:
a = re.sub(r'\d\d', lambda x: x[0] + ".00", 'Это стоит 35 рублей 48 копеек')
a = re.sub(r'\d\d', lambda x: x.group() + ".00", 'Это стоит 35 рублей 48 копеек')

print(a)  # Это стоит 35.00 рублей 48.00 копеек

Это стоит 35.00 рублей 48.00 копеек


---
### compile
`re.compile` – особый метод, которая принимает на вход шаблон регулярного выражения и возвращает объект, соответствующий данному выражению.  

Далее этот объект можно использовать вместо шаблона, вызывая соответствующие методы от него и не указывая шаблон.
- `match` - Проверяет **начало строки** на соответствие шаблону
- `fullmatch` - Проверяет **всю строку** на соответствие шаблону
- `search` - Ищет **первое** вхождение шаблона
- `findall` - Ищет все вхождения и возвращет **список строк**
- `finditer` - Ищет все вхождения и возвращет **итератор**, содержащий расширенную информацию о совпадениях
- `split` - Разделяет строку, используя шаблон как разделитель
- `sub` - Заменяет все вхождения шаблона на строку

Ускоряет работу при частом использовани одного и того же шаблона

Для скомпилированных выражений доступны следующие флаги, которые позволяют добавить различное поведение поведение:
- `re.DOTALL`, `re.S` - Сделать соответствие `.` любому символу, включая переводы строки `\n`.
- `re.IGNORECASE`, `re.I` Делает совпадения нечувствительными к регистру.
- `re.MULTILINE`, `re.M` Многострочное сопоставление, "якоря" начала строки `^` и конца строки `$` применяются для каждой новой строки, а не к всему тексту.
- `re.VERBOSE`, `re.X` Позволяет включать комментарии при составлении шаблона делая их более понятными.

---
Попробуйте угадать, что будет выведено в следующих ячейках

In [16]:
p = re.compile(r'(?P<word>\b\w+\b)')  # паттерн для поиска слова

m = p.search( '(((( Lots of punctuation )))' )  # ???
print(m.group('word'))

Lots


In [17]:
m = p.match( '(((( Lots of punctuation )))' )  # ???
print(m)

None


In [18]:
m = p.findall( '(((( Lots of punctuation )))' )  # ???
print(m)

['Lots', 'of', 'punctuation']


---
## Квантификаторы

In [19]:
# квантификаторы
for i in range(1, 6):
    s = f"x{'-' * i}x"
    print(f'{i}  {s:10}', re.search('x-{2,4}x', s))

1  x-x        None
2  x--x       <_sre.SRE_Match object; span=(0, 4), match='x--x'>
3  x---x      <_sre.SRE_Match object; span=(0, 5), match='x---x'>
4  x----x     <_sre.SRE_Match object; span=(0, 6), match='x----x'>
5  x-----x    None


### Жадный захват
Предположим дан HTML файл, нужно распарсить его и выбрать все теги из него.  
HTML-теги — основа языка HTML. Теги используются для разграничения начала и конца элементов в разметке.

In [20]:
s = """
    <html>
        <head>
            <title>Title</title>
        </head>
    </html>
"""
print(len(s))  # длина строки

88


In [21]:
tag_pattern_greedy = re.compile(r'<.+>', re.DOTALL)  # включить \n в множество любых символов
result = tag_pattern_greedy.search(s)
print(result)  # Жадный захват
print(result.group())

<_sre.SRE_Match object; span=(5, 87), match='<html>\n        <head>\n            <title>Title<>
<html>
        <head>
            <title>Title</title>
        </head>
    </html>


In [22]:
print(tag_pattern_greedy.findall(s))  # тоже жадный захват

['<html>\n        <head>\n            <title>Title</title>\n        </head>\n    </html>']


---
Без флага DOTALL

In [23]:
tag_pattern_greedy = re.compile(r'<.+>')
result = tag_pattern_greedy.search(s)
print(result)  # Жадный захват
print(result.group())

<_sre.SRE_Match object; span=(5, 11), match='<html>'>
<html>


In [24]:
print(tag_pattern_greedy.findall(s))  # тоже жадный захват

['<html>', '<head>', '<title>Title</title>', '</head>', '</html>']


Жадный захват зависит не от используемого метода, а от самой регулярки. Составим "ленивую" регулярку, сделав квантификатор нежадным.  
Все квантификаторы по умолчанию являются жадными, чтобы сделать их нежадными, то после квантификатора нужно поставить знак вопроса `?`

In [25]:
tag_pattern_non_greedy = re.compile(r'<.*?>', re.DOTALL)
result = tag_pattern_non_greedy.search(s)
print(result)  # Нежадный захват
print(result.group())

<_sre.SRE_Match object; span=(5, 11), match='<html>'>
<html>


In [26]:
print(tag_pattern_non_greedy.findall(s))

['<html>', '<head>', '<title>', '</title>', '</head>', '</html>']


Здесь в качестве учебно примера приведен парсинг HTML страниц с помощью регулярных выражений. 

Для поиска каких-то отдельных выражений можно использовать регулярные выражения.  
Для серьезной работы используйте специализированные библиотеки для парсинга HTML страниц ! ! !

---
## Скобочные группы
Если в шаблоне есть группирующие скобки, то вместо списка найденных подстрок будет возвращён список кортежей, в каждом из которых только соответствие каждой группе.

In [27]:
m = re.search('(\w+),(\w+),(\w+)', 'foo,bar,baz')
print(m.groups())

('foo', 'bar', 'baz')


In [28]:
print(m.group())

foo,bar,baz


In [29]:
m = re.findall('(\w+),(\w+),(\w+)', 'foo,bar,baz')
print(m)

[('foo', 'bar', 'baz')]


Это не всегда происходит по плану, поэтому обычно нужно использовать негруппирующие скобки `(?:...)`.

In [30]:
m = re.findall('(?:\w+),(?:\w+),(?:\w+)', 'foo,bar,baz')
print(m)

['foo,bar,baz']


### Именованные группы
Именнованные группы позволяют обращаться к захваченным группам не по индексу, а по имени. То есть не нужно считать скобочки, не нужно знать в каком порядке они идут.  

Именнованные группы обозначаются следующим синтаксисом: `(?P<name>...)`

Используя [часть](https://raw.githubusercontent.com/elastic/examples/master/Common%20Data%20Formats/apache_logs/apache_logs) логов web сервера apache, попробуем их распарсить

In [31]:
log_dump = """
66.249.73.185 - - [17/May/2015:11:15:58 +0000] "GET /presentations/logstash-1/ HTTP/1.1" 304 - "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
74.125.176.81 - - [17/May/2015:12:23:28 +0000] "GET /?flav=rss20 HTTP/1.1" 200 29941 "-" "FeedBurner/1.0 (http://www.FeedBurner.com)"
66.249.73.135 - - [17/May/2015:15:31:14 +0000] "GET /blog/geekery/xdotool-2.20110530.html HTTP/1.1" 200 11936 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
187.45.193.158 - - [17/May/2015:18:47:54 +0000] "GET /presentations/logstash-1/file/about-me/tequila-face.jpg HTTP/1.1" 200 196054 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 2.0.50727; InfoPath.1)"
90.220.199.149 - - [17/May/2015:21:55:18 +0000] "GET /blog/geekery/puppet-manage-homedirectory-contents.html HTTP/1.1" 200 10001 "https://www.google.co.uk/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36"
"""

In [32]:
# Составим регулярку, которая позволить захватывать из записей лога дату и время доступа
datetime = re.compile(r"\[(?P<day>\d\d)\/(?P<month>\w+)\/(?P<year>\d{4}):(?P<hour>\d\d):(?P<minute>\d\d):(?P<second>\d\d) \+\d\d\d\d\]")
for index, item in enumerate(datetime.finditer(log_dump), 1):
    print(f"access {index}: {item['day']}/{item['month']}/{item['year']}")

access 1: 17/May/2015
access 2: 17/May/2015
access 3: 17/May/2015
access 4: 17/May/2015
access 5: 17/May/2015


### Незапоминающие группы
Не всегда необходимо запоминать захваченные группы. Как минимум это требует дополнительной памяти, поэтому не ленитесь делать группы не запоминающими, если нет потребности в обратном.  

Создадим регулярку для поиска ip адресов

In [33]:
ip = re.compile(r"""
    (?:(?:[25[0-5]]|  # 250-255
    2[0-4][0-9]|      # 200-249
    [01]?[0-9]?[0-9])  # 0-199
    \.){3}            # three octet
    (?:[25[0-5]]|2[0-4][0-9]|[01]?[0-9]?[0-9])  # fourth octet
    """, re.VERBOSE)

print(ip.findall(log_dump))

['66.249.73.185', '74.125.176.81', '66.249.73.135', '187.45.193.158', '90.220.199.149']
