# Регулярные выражения

В Python регулярные выражения представляют собой специальную библиотеку. Для использования регулярных выражений в Python обычно пишется специальный шаблон, а потом уже работаем с ним.

Т.к. многие регулярные выражения используют обладный слеш, то для написания строки с ними следует использовать "сырые" строки 

In [1]:
s = r"Hello\nWorld" #row
print(s) # сырая строка выводится как есть, не учитывая специальные символы типа \n

Hello\nWorld


re - библиотека для работы с регулярными выражениями

In [2]:
import re

# Основные функции для работы с регулярками
print(re.match)
print(re.search)
print(re.findall)
print(re.sub)

<function match at 0x7f90849552f0>
<function search at 0x7f9084970378>
<function findall at 0x7f9084970598>
<function sub at 0x7f9084970400>


#### Функция match берет шаблон и строку и проверяет подходит ли начало данной строки под данный шаблон

In [12]:
import re

pattern = r"abc"
string = "abcdasdasd"
match_object = re.match(pattern, string)
print(match_object)

<_sre.SRE_Match object; span=(0, 3), match='abc'>


Функция match пробегает всю строку слева направо до тех пор пока строка подходит под регулярное выражение. А как только такая подстрока найдется, то она сразу вернутся в объект типа Match.

От сюда следует, что если нужная подстрока не встрелась в тексте, то функция ничего не вернет, а точнее вернется None.

#### Функция serch берет строку и находит первую подстроку, которая совпадает с шаблоном

In [16]:
import re

pattern = r"abc"
string = "babc"
match_object = re.search(pattern, string)
print(match_object)

<_sre.SRE_Match object; span=(1, 4), match='abc'>


Как и в случае функции match, функция search вернет None если искомая подстрока не встретилась.

#### Функция findall находит все подстроки строки, которые совпадают с шаблоном

#### Функция sub позволяет заменить все подстроки, которые совпадают с шаблоном на что-то другое

### Метасимволы

#### [] - множество всех подходящих символов

In [24]:
import re

# [] -- можно указать множество подходящих символов

pattern = r"a[abc]c"

# Возвращает объект в случае успешного поиска
string = "accfjfyf"
match_object = re.match(pattern, string)
print(match_object)

# Возращает список значений 
string = "abc, acc, aac"
all_inclusions = re.findall(pattern, string)
print(all_inclusions)

# Возвращает строку с заменой всех найденых подстрок дргой подстрокой
fixed_typos = re.sub(pattern, "abc", string) # Замена в строке string все подсрок поподающих под шаблон pattern 
                                             # на подстроку abc
print(fixed_typos)

<_sre.SRE_Match object; span=(0, 3), match='acc'>
['abc', 'acc', 'aac']
abc, abc, abc


#### Некоторые  сокращенные обозначения для множества подъодящих символов

\d ~ [0-9] -- цифры

\D ~ [^0-9] -- не цифры

\s ~ [ \t\n\r\f\v] -- пробельные символы

\S ~ [^ \t\n\r\f\v]

\w ~ [a-zA-Z0-9_] -- буквы + цифры + _

\W ~ [^a-zA-Z0-9_]

#### . -- любой символ, кроме переноса строки

#### * -- любое количество символов (в том числе 0)

In [25]:
import re

pattern = r"ab*a"
string = "aa, aba, abba"
all_inclusions = re.findall(pattern, string)
print(all_inclusions)

['aa', 'aba', 'abba']


#### + -- положительно число вхождений символа (> 0)

In [26]:
import re

pattern = r"ab+a"
string = "aa, aba, abba"
all_inclusions = re.findall(pattern, string)
print(all_inclusions)

['aba', 'abba']


#### ? -- ноль или одно вхождение символа

In [27]:
import re

pattern = r"ab?a"
string = "aa, aba, abba"
all_inclusions = re.findall(pattern, string)
print(all_inclusions)

['aa', 'aba']


#### {n} -- n вхождений символа

In [28]:
import re

pattern = r"ab{3}a"
string = "aa, aba, abba, abbba, abbbba"
all_inclusions = re.findall(pattern, string)
print(all_inclusions)

['abbba']


#### {n, m} -- от n до m вхождений сивола

In [29]:
import re

pattern = r"ab{2,4}a"
string = "aa, aba, abba, abbba, abbbba"
all_inclusions = re.findall(pattern, string)
print(all_inclusions)

['abba', 'abbba', 'abbbba']


#### По умолчанию символы повтора (вроде * или +) являются "жадными." Это значит, что они пытаюсь вообрать в себя как можно больше символов.

In [31]:
import re

pattern = r'a[ab]+a'
string = 'abaaba'
print(re.match(pattern, string)) # Функция match "заберет" всю строку целиком, 
                                # не смотря на более короткие варианты ответа
print(re.findall(pattern, string))

<_sre.SRE_Match object; span=(0, 6), match='abaaba'>
['abaaba']


#### Для того, чтобы символы постора перестали быть "жадными" и стали ориентироваться на минимальное количество символов, необходимо поставить знак ? после метасимвола.

In [33]:
import re 

pattern = r"a[ab]+?a"
string = "abaaba"
print(re.match(pattern, string))
print(re.findall(pattern, string))

<_sre.SRE_Match object; span=(0, 3), match='aba'>
['aba', 'aba']


#### Регулярные выражения можно группировать с помощью круглых скобок

#### Внутри скобок часто бывает удобно указать логическое "или" с помощью символа |

In [40]:
import re

pattern = r"(test|text)*"
string = "testtesttext"
print(re.match(pattern, string))

<_sre.SRE_Match object; span=(0, 12), match='testtesttext'>


##### Метосимвол или ( | ) обладает наименьшем приоритетом в регулярных выражениях

In [42]:
import re

pattern = r"((abc)|(test|text)*)"
string = "testtext"
match = re.match(pattern, string)
print(match)
print(match.groups()) # совпадения в groups() перечисленны в том же порядке, что и открывающиеся скобки

<_sre.SRE_Match object; span=(0, 8), match='testtext'>
('testtext', None, 'text')


###### Можно явно указать группу, которую мы хотим проверить на совпадение

In [45]:
import re

pattern = r"Hello (abc|test)"
string = "Hello abc"
match = re.match(pattern, string)
print(match)
print(match.group(0))
print(match.group(1))

<_sre.SRE_Match object; span=(0, 9), match='Hello abc'>
Hello abc
abc


#### Можно использовать результат группировки прямо внутри регулярного выражения, для этого используется метосимвол обращения к группе \n, где n - номер группы.

In [46]:
import re

pattern = r"(\w+)-\1" # метосимвол \1 является обращением к первой группе 
string = "test-test"
match = re.match(pattern, string)
print(match)

<_sre.SRE_Match object; span=(0, 9), match='test-test'>


#### Можно даже переиспользовать эту группу, в том числе в методе sub

In [48]:
import re

pattern = r"(\w+)-\1" # Регулярное выражения для всех одинаковых слов, соединенных тире
string = "test-test chow-chow" # Тут у нас два раза встречается такое безобразие
duplicates = re.sub(pattern, r"\1", string) # Заменяем все одинаковые слова с тире на одно слово
print(duplicates)

test chow


#### При работе с группами надо быть осторожным с функцией findall, т.к. если раньше она возвращала целиком подстроку, которая подходила под шаблон, теперь она будет возвращать кортеж групп.

##### Пример, который демонтрирует работу findall с одногой группой. В этом случае функция возвращет список совпадений

In [49]:
import re

pattern = r"(\w+)-\1"
string = "test-test chow-chow"
duplicates = re.findall(pattern, string)
print(duplicates)

['test', 'chow']


##### Однако, в случае, если мы работаем с несколькими группами функция findall возвращает список картежей

In [53]:
import re

pattern = r"((\w+)-\2)"
strind = "test=test chow-chow"
duplicates = re.findall(pattern, string)
print(duplicates)

[('test-test', 'test'), ('chow-chow', 'chow')]


## Так же, вместе с регулярными выражениями используются специальные флаги для того, чтобы определенить парметры поиска

### Для того, чтобы включить игнорирование регистров используется флаг IGNORECASE

In [1]:
import re

print(re.match(r"text", "TEXT", re.IGNORECASE))


<_sre.SRE_Match object; span=(0, 4), match='TEXT'>


### Для получения инфомации о регулярном выражении используется флаг DEBUG

Для того, чтобы выставить сразу несколько флагов используется логическое или

In [5]:
import re
print(re.match(r"(te)*xt", "TEXT", re.IGNORECASE | re.DEBUG))

MAX_REPEAT 0 MAXREPEAT
  SUBPATTERN 1
    LITERAL 116
    LITERAL 101
LITERAL 120
LITERAL 116
<_sre.SRE_Match object; span=(0, 4), match='TEXT'>


## Задачи

### Задача 1

Вам дана последовательность строк.
Выведите строки, содержащие "cat" в качестве подстроки хотя бы два раза.

In [6]:
import re
import sys

pattern = r"cat.*cat"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line) is not None:
        print(line)

### Задача 2

In [None]:
Вам дана последовательность строк.
Выведите строки, содержащие "cat" в качестве слова.

In [None]:
import re
import sys

# \b указыает на конец или начало слова
pattern = r"\bcat\b"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line) is not None:
        print(line)

### Задача 3

Вам дана последовательность строк.
Выведите строки, содержащие две буквы "z﻿", между которыми ровно три символа.

In [None]:
import re
import sys

pattern = r"z.{3}z"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line) is not None:
        print(line)

### Задача 4

Вам дана последовательность строк.
Выведите строки, содержащие обратный слеш "\﻿".

In [None]:
import re
import sys

pattern = r"\\"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line) is not None:
        print(line)

### Задача 5

In [None]:
Вам дана последовательность строк.
Выведите строки, содержащие слово, состоящее из двух одинаковых частей (тандемный повтор).

In [None]:
import re
import sys

pattern = r"\b(\w+)\1\b"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line) is not None:
        print(line)

### Здача 6

Вам дана последовательность строк.
В каждой строке замените все вхождения подстроки "human" на подстроку "computer"﻿ и выведите полученные строки.

In [None]:
import re
import sys

# pattern = r"\b(\w+)\1\b"
for line in sys.stdin:
    line = line.rstrip()
    if re.search(r"human", line) is not None:
        line = re.sub(r"human", "computer", line)
    print(line)

### Задача 7

Вам дана последовательность строк.
В каждой строке замените первое вхождение слова, состоящего только из латинских букв "a" (регистр не важен), на слово "argh".

In [None]:
import re
import sys

pattern = r"\b[a]+\b"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line, re.IGNORECASE) is not None:
        line = re.sub(pattern, "argh", line, flags=re.IGNORECASE, count=1)
    print(line)

### Задача 8

Вам дана последовательность строк.
В каждой строке поменяйте местами две первых буквы в каждом слове, состоящем хотя бы из двух букв.
Буквой считается символ из группы \w.

In [None]:
import re
import sys

pattern = r"\b(\w)(\w)(\w*)\b"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line, re.IGNORECASE) is not None:
        line = re.sub(pattern, r"\2\1\3", line, flags=re.IGNORECASE,)
    print(line)

### Задача 9

Вам дана последовательность строк.
В каждой строке замените все вхождения нескольких одинаковых букв на одну букву.
Буквой считается символ из группы \w.

In [None]:
import re
import sys

pattern = r"(\w)\1+"

for line in sys.stdin:
    line = line.rstrip()
    if re.search(pattern, line) is not None:
        line = re.sub(pattern, r"\1", line)
    print(line)