# Регулярные выражения (Regular expressions)

In [23]:
import re

In [29]:
with open('Винокуров Железные рыцари-6.txt', encoding='utf-8') as f:
    text = f.read()

### FINDALL
ищет все совпадения во всем тексте

In [37]:
re.findall('угроза', text)

['угроза', 'угроза']

In [39]:
re.findall('угроза', text, re.IGNORECASE)

['Угроза', 'Угроза', 'Угроза', 'Угроза', 'Угроза', 'угроза', 'угроза']

In [41]:
re.findall('угроза', text, re.I | re.M)

['Угроза', 'Угроза', 'Угроза', 'Угроза', 'Угроза', 'угроза', 'угроза']

In [53]:
re.findall('[Уу]гроза', text)

['Угроза', 'Угроза', 'Угроза', 'Угроза', 'Угроза', 'угроза', 'угроза']

In [49]:
re.findall('[Уу]+гроза', 'Уугроза')

['Уугроза']

In [67]:
re.findall(r'\s[Уу]гроза\s', text)

[' Угроза\n', ' Угроза\n', ' Угроза ', ' Угроза ', ' угроза ', ' угроза ']

In [71]:
re.findall(r'\s[Уу]гроза[^\n]', text)

[' Угроза ', ' Угроза ', ' Угроза,', ' угроза ', ' угроза ']

In [89]:
re.findall(r'[^\.]+\sугроза[^\.\n]+\.', text, re.I)

[' И, казалось бы, Ультимативная Угроза Империи, всеобщее военное положение и всё такое… если бы не ряд «но».',
 '\n\nВ общем — Угроза выходила Ультимативной.',
 ' А это — та самая Ультимативная Угроза, потому что использование гиперпространства — основа Империи.',
 ' Хотя, учитывая время нашего отсутствия — это скорее как угроза выходила, хех.',
 ' То угроза жизни и будущему — прекрасно «сработала».']

In [91]:
re.findall('^[А-Я].{25}', text, re.M)[:3]

['Железные Рыцари: Ультимати',
 'И вот как-то, что-то, немн',
 'Офигевать, впрочем — дело ']

In [93]:
re.findall('.{25}[а-я]$', text, re.M)[:3]

['цари: Ультимативная Угроза',
 ' Искусствоведческий диспут',
 ' Консульская благодарность']

In [99]:
re.findall(r'[([][\w\s]+[)\]]', text, re.I)[:4]

['(или пииты)',
 '(хоть и обиженно)',
 '(а на это есть немало указаний)',
 '(и всякие непричёмистые киборги)']

### MATCH
ищет вхождение с начала текста

In [101]:
source = 'Алина Редькина'

In [105]:
match = re.match(r'\w+\sРедькина?', source)
match

<re.Match object; span=(0, 14), match='Алина Редькина'>

In [107]:
match.string, match.group(), match.span(), match.endpos

('Алина Редькина', 'Алина Редькина', (0, 14), 14)

In [81]:
match = re.match('\w+\sРедькин', source)
match

<re.Match object; span=(0, 13), match='Алина Редькин'>

In [111]:
match = re.match(r'\w+\sРедькин$', source)
if match is None:
    print('not found')
else:
    pass

not found


### FULLMATCH
ищет полное совпадение

In [92]:
match = re.fullmatch('\w+\sРедькин', source)
match

In [93]:
match = re.fullmatch('\w+\sРедькина', source)
match

<re.Match object; span=(0, 14), match='Алина Редькина'>

In [95]:
match = re.fullmatch('\w+\sРедькин', source[1:])
match is None

True

In [143]:
a = ['123asd', '456fhg', 'dff123']
regex = re.compile(r'\d{3}[a-z]{3}', re.I)

[i for i in a if regex.fullmatch(i)]

['123asd', '456fhg']

### SEARCH
ищет первое вхождение во всем тексте

In [117]:
source1 = f'{source}\nАлександр Редькин'
source1

'Алина Редькина\nАлександр Редькин'

In [121]:
match = re.search(r'\w+\sРедькин', source1)
match, match.span(), match[0], match.group(), match.groups()

(<re.Match object; span=(0, 13), match='Алина Редькин'>,
 (0, 13),
 'Алина Редькин',
 'Алина Редькин',
 ())

In [108]:
match = re.search('(\w+\sРедькин)', source1)
match, match.group(), match.groups()

(<re.Match object; span=(0, 13), match='Алина Редькин'>,
 'Алина Редькин',
 ('Алина Редькин',))

In [182]:
text1 = "SPAM <foo>Here we can <foo>find</foo> OH, NO MATCH HERE!</foo> SPAM" 
re.search(r'<(\w+?)>.*?</\1>', text1)[0]

'<foo>Here we can <foo>find</foo>'

### SPLIT
разбиение строки

In [129]:
re.split(r'\s', source1, maxsplit=1)

['Алина', 'Редькина\nАлександр Редькин']

In [131]:
re.split(r'\W+', 'Words, words, words.', maxsplit=1)

['Words', 'words, words.']

### SUB
замена

In [139]:
re.sub(r'(\d)?(\d{3})', r'\1.\2', 'это 1000000 рублей')

'это 1.000.000 рублей'

In [132]:
re.sub(r'\sAND\s', ' & ', 'Baked Beans And Spam', flags=re.IGNORECASE)

'Baked Beans & Spam'

In [141]:
def repl(m): 
    return '>censored(' + str(len(m[0])) + ')<' 
    
text = "Некоторые хорошие слова подозрительны: хор, хоровод, хороводоводовед." 
print(re.sub(r'\b[хХxX]\w*', repl, text)) 

Некоторые >censored(7)< слова подозрительны: >censored(3)<, >censored(7)<, >censored(15)<.


### COMPILE
компиляция регекса


In [135]:
compiled = re.compile('(\w+\sРедькин)', re.I)

In [136]:
compiled.search(source)

<re.Match object; span=(0, 13), match='Алина Редькин'>

### ГРУППЫ  ()

In [177]:
pattern = r'\s*([А-Яа-яЁё]+)(\d+)\s*' 
string = r'---   Опять45   ---' 
match = re.search(pattern, string) 
print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 
print(f'Группа букв >{match[1]}< с позиции {match.start(1)} до {match.end(1)}') 
print(f'Группа цифр >{match[2]}< с позиции {match.start(2)} до {match.end(2)}') 

Найдена подстрока >   Опять45   < с позиции 3 до 16
Группа букв >Опять< с позиции 6 до 11
Группа цифр >45< с позиции 11 до 13


In [178]:
pattern = r'((\d)(\d))((\d)(\d))' 
string = r'123456789' 
match = re.search(pattern, string) 
print(f'Найдена подстрока >{match[0]}< с позиции {match.start(0)} до {match.end(0)}') 
for i in range(1, 7): 
    print(f'Группа №{i} >{match[i]}< с позиции {match.start(i)} до {match.end(i)}')

Найдена подстрока >1234< с позиции 0 до 4
Группа №1 >12< с позиции 0 до 2
Группа №2 >1< с позиции 0 до 1
Группа №3 >2< с позиции 1 до 2
Группа №4 >34< с позиции 2 до 4
Группа №5 >3< с позиции 2 до 3
Группа №6 >4< с позиции 3 до 4


In [179]:
print(re.findall(r'([a-z]+)(\d*)', r'foo3, im12, go, 24buz42')) 

[('foo', '3'), ('im', '12'), ('go', ''), ('buz', '42')]


In [180]:
text1 = "We arrive on 03/25/2018. So you are welcome after 04/01/2018." 
print(re.sub(r'(\d\d)/(\d\d)/(\d{4})', r'\2.\1.\3', text1)) 

We arrive on 25.03.2018. So you are welcome after 01.04.2018.


### Сложные шаблоны, соответствующие позиции (lookaround и Co)

In [138]:
sample = 'Isaac Asimov, Isaac other'

In [153]:
# lookahead assertion
re.search(r'Isaac (?=Asimov)', sample, re.A | re.I | re.M)

<re.Match object; span=(0, 6), match='Isaac '>

In [152]:
# negative lookahead assertion
re.search('Isaac (?!Asimov)', sample)

<re.Match object; span=(14, 20), match='Isaac '>

In [171]:
# negative lookahead assertion
re.search('Isaac (?!other)', sample)

<re.Match object; span=(0, 6), match='Isaac '>

In [173]:
# positive lookbehind assertion
re.search('(?<=abc)def', 'abcdef, bcdef')

<re.Match object; span=(3, 6), match='def'>

In [174]:
# negative lookbehind assertion,
re.search('(?<!abc)def', 'abcdef, bcdef')

<re.Match object; span=(10, 13), match='def'>

### Типичные задачи

#### 1. Email validation

In [185]:
email_validate_pattern = r"^\S+@\S+\.\S+$"
re.match(email_validate_pattern, "hello@uibakery.io")

<re.Match object; span=(0, 17), match='hello@uibakery.io'>

In [186]:
extract_email_pattern = r"\S+@\S+\.\S+"
re.findall(extract_email_pattern, 'You can reach me out at hello@uibakery.io and contact@uibakery.io')

['hello@uibakery.io', 'contact@uibakery.io']

In [187]:
pattern = r"^[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?$"
print(re.match(pattern, 'hello@uibakery.io.'))
print(re.match(pattern, 'hello@192.168.0.1'))

None
<re.Match object; span=(0, 17), match='hello@192.168.0.1'>


#### 2. Парсинг HTML, xml

In [190]:
pattern = re.compile(r'<.*?>')

html = '<a href="foo.com" class="bar">I Want This <b>text!</b></a>'
pattern.sub('', html)

'I Want This text!'

#### 3. Цензура

In [None]:
pattern = re.compile(r'<.*?>')

html = '<a href="foo.com" class="bar">I Want This <b>text!</b></a>'
pattern.sub('', html)