# 3.2 Регулярные выражения в Python

In [2]:
import re

In [3]:
# проверка некоторой строки подходит ли под она наш шаблон
print(re.match)

<function match at 0x0000014125BA3AC0>


In [4]:
# находит первое вхождение шаблона в строке
print(re.search)

<function search at 0x0000014125BD03A0>


In [5]:
# находит все
print(re.findall)

<function findall at 0x0000014125BD05E0>


In [6]:
# заменяте чем-то другим
print(re.sub)

<function sub at 0x0000014125BD0430>


## Пример

In [32]:
pattern = r'abc'

In [29]:
string = 'daqcd'

In [21]:
match_obj = re.match(pattern, string)

In [23]:
print(match_obj)

None


In [24]:
re.search(pattern, string)

<re.Match object; span=(1, 4), match='abc'>

In [None]:
[] - в квадратных скобках указывается множество подходящих символов

In [47]:
# здесь например вторым символом может быть любой из qwe:
pattern = r'a[qwebc]c'

In [44]:
re.search(pattern, string)

<re.Match object; span=(0, 3), match='abc'>

In [48]:
# допустим есть стока в которой присутствуют опечатки (правильная последовательность 'abc'):

string = 'abc abc abb awc abs'

In [57]:
# какие возможно ошибки:
pattern = r'a[bw][cbs]'

In [58]:
re.findall(pattern, string)

['abc', 'abc', 'abb', 'awc', 'abs']

In [59]:
# re.sub на месте заменяет найденные по шаблону подстроки на нужную 'abc'
re.sub(pattern, 'abc', string)

'abc abc abc abc abc'

## Пример

In [None]:
# метасимволы надо экранировать обратным слешем \

In [60]:
string = 'Do you speak english?'

In [62]:
pattern_1 = r'english?'

In [63]:
pattern_2 = r'english\?'

In [64]:
# не ищет неэкранированный метасимвол ?
re.search(pattern_1, string)

<re.Match object; span=(13, 20), match='english'>

In [65]:
re.search(pattern_2, string)

<re.Match object; span=(13, 21), match='english?'>

## Метасимволы

In [None]:
# . ^ $ * + ? {} [] \ | ()

In [66]:
# в квадратных скобках можно указать диапазон подходящих символов:
pattern = r'a[b-f]c'

In [76]:
string = 'aac abc acc adc aec afc agc'

In [70]:
re.findall(pattern, string)

['abc', 'acc', 'adc', 'aec', 'afc']

In [79]:
# чтобы перечислить все буквы латинского алфавита:
pattern = r'a[a-zA-Z]c'

In [80]:
re.findall(pattern, string)

['aac', 'abc', 'acc', 'adc', 'aec', 'afc', 'agc']

In [102]:
# метасимвол циркумфлекс ^ говорит о том, что нам не подходит (исключает символы):
pattern = r'a[^A-Z]c'

In [103]:
string = 'abc azc aBc aZc'

In [104]:
re.findall(pattern, string)

['abc', 'azc']

In [None]:
\d ~ [0-9] — цифры

\D ~ [^0-9]

\s ~ [ \t\n\r\f\v] — пробельные символы

\S ~ [^ \t\n\r\f\v]

\w ~ [a-zA-Z0-9_] — буквы + цифры + _

\W ~ [^a-zA-Z0-9_]

In [105]:
# чтобы найти например последовательность из цифр и букв:

pattern = r'a[\w]c'

In [108]:
string = 'abc azc aBc aZc a1c a.c a9c'

In [109]:
re.findall(pattern, string)

['abc', 'azc', 'aBc', 'aZc', 'a1c', 'a9c']

In [110]:
# Чтобы найти их и еще и точку по центру:
pattern = r'a[\w.]c'

In [111]:
re.findall(pattern, string)

['abc', 'azc', 'aBc', 'aZc', 'a1c', 'a.c', 'a9c']

In [112]:
# Сам же метасивол точки . говорит о любом символе в этом месте:

pattern = r'a.c'

In [113]:
re.findall(pattern, string)

['abc', 'azc', 'aBc', 'aZc', 'a1c', 'a.c', 'a9c']

In [121]:
# Метасимвол звездочка * говорит о любом количестве символа после которого он стоит (даже и нулевое кол-во):
pattern = r'a9*c'

In [122]:
string = 'a9c a999c ac'

In [123]:
re.findall(pattern, string)

['a9c', 'a999c', 'ac']

In [124]:
# Если использовать метасимвол плюс + это будет говорить о том, что нулевое кол-во вхождений не устроит:
pattern = r'a9+c'

In [125]:
string = 'a9c a999c ac'

In [126]:
re.findall(pattern, string)

['a9c', 'a999c']

In [127]:
# Метасимвол знак вопроса ? наоборот ищет ноль или одно вхождение символа:
pattern = r'a9?c'

In [128]:
string = 'a9c a999c ac'

In [129]:
re.findall(pattern, string)

['a9c', 'ac']

In [147]:
# Если нужно заданное количество таких символов то используем фигурные скобки {}

# точное количество вхождений символа:
pattern = r'a9{3}c'

# диапазон от ... до ...:
pattern = r'a9{2,4}c'

In [148]:
string = 'a9c a999c ac'

In [149]:
re.findall(pattern, string)

['a999c']

In [157]:
# По умолчанию регулярные выражения действуют жадно
# то есть выбирают максимально возможный паттерн из строки:

pattern = r'a[a-b]+a'

# подходят например aba или aaa
string = 'aaa'

# но алгоритм по умолчанию выберет максимальный вариант:
string = 'aaabbbbbbbbaaaaaaaabbba'

In [158]:
re.match(pattern, string)

<re.Match object; span=(0, 23), match='aaabbbbbbbbaaaaaaaabbba'>

In [159]:
# чтобы изменить жадность и искать наименьшее возможное вхождение - добавляем ?
pattern = r'a[a-b]+?a'
string = 'aaabbbbbbbbaaaaaaaabbba'

In [160]:
re.match(pattern, string)

<re.Match object; span=(0, 3), match='aaa'>

In [167]:
# Группировка символов выполняется круглыми скобками ():

pattern = r'(test)*'

In [168]:
string = 'test'

In [169]:
re.match(pattern, string)

<re.Match object; span=(0, 4), match='test'>

In [170]:
# Также можно использовать | что будет означать 'или данную группу символов'
pattern = r'(test|text)'

In [173]:
string = 'text'

In [174]:
re.match(pattern, string)

<re.Match object; span=(0, 4), match='text'>

## Флажки

In [175]:
# Флажок re.IGNORECASE - игнорировать заглавные или строчные это буквы это есть:

pattern = r'text'
string = 'TEXT text'

In [176]:
re.findall(pattern, string, re.IGNORECASE)

['TEXT', 'text']

In [177]:
# Флажок re.DEBUG объясняет регулярное выражение:
pattern = r'(te)*xt'
string = 'TEXT text'

In [180]:
re.findall(pattern, string, re.IGNORECASE | re.DEBUG)

MAX_REPEAT 0 MAXREPEAT
  SUBPATTERN 1 0 0
    LITERAL 116
    LITERAL 101
LITERAL 120
LITERAL 116

 0. INFO 4 0b0 2 MAXREPEAT (to 5)
 5: REPEAT 11 0 MAXREPEAT (to 17)
 9.   MARK 0
11.   LITERAL_UNI_IGNORE 0x74 ('t')
13.   LITERAL_UNI_IGNORE 0x65 ('e')
15.   MARK 1
17: MAX_UNTIL
18. LITERAL_UNI_IGNORE 0x78 ('x')
20. LITERAL_UNI_IGNORE 0x74 ('t')
22. SUCCESS


['TE', 'te']

# Задача

In [None]:
Вам дана последовательность строк.
Выведите строки, содержащие "cat" в качестве подстроки хотя бы два раза.

Примечание:
Считать все строки по одной из стандартного потока ввода вы можете, например, так

import sys

for line in sys.stdin:
    line = line.rstrip()
    # process line

In [183]:
import sys

for line in sys.stdin:
    line = line.rstrip()
#     process line

In [251]:
pattern = r'cat[\w ]*cat'

In [261]:
pattern = r'.*cat.*cat.*'

In [262]:
string = 'ccatcat'

In [263]:
print(re.search(pattern, string))

<re.Match object; span=(0, 7), match='ccatcat'>
