In [1]:
import re

line = 'asdf fjdk; afed, fjek,asdf,   foo'
print(re.split(r'[;,\s]\s*', line))

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']


In [2]:
from fnmatch import fnmatch, fnmatchcase

names = ['Dat1.csv', 'Dat2.csv', 'config.ini', 'foo.py']
print([name for name in names if fnmatch(name, 'Dat*.csv')])

addresses = [
    '5412 N CLARK ST',
    '1060 W ADDISON ST',
    '1039 W GRANVILLE AVE',
    '2122 N CLARK ST',
    '4802 N BROADWAY',
]

print([addr for addr in addresses if fnmatchcase(addr, '* ST')])
print([addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-9] *CLARK*')])

['Dat1.csv', 'Dat2.csv']
['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST']
['5412 N CLARK ST']


In [3]:
from calendar import month_abbr

text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepat = re.compile(r'\d+/\d+/\d+')
print(datepat.findall(text))
print(re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text))

def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return f'{m.group(2)}, {mon_name}, {m.group(3)}'

datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
print(datepat.sub(change_date, text))

['11/27/2012', '3/13/2013']
Today is 2012-11-27. PyCon starts 2013-3-13.
Today is 27, Nov, 2012. PyCon starts 13, Mar, 2013.


In [4]:
text = 'UPPER PYTHON, lower python, Mixed Python'
print(re.findall('python', text, flags=re.IGNORECASE))
print(re.sub('python', 'snake', text, flags=re.IGNORECASE))

def matchcase(word):
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

print(re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE))

['PYTHON', 'python', 'Python']
UPPER snake, lower snake, Mixed snake
UPPER SNAKE, lower snake, Mixed Snake


In [5]:
text1 = 'Computer says "no."'
text2 = 'Computer says "no." Phone says "yes."'

str_pat = re.compile(r'\"(.*)\"')
print(str_pat.findall(text1))
print(str_pat.findall(text2))

str_pat2 = re.compile(r'\"(.*?)\"')
print(str_pat2.findall(text2))

['no.']
['no." Phone says "yes.']
['no.', 'yes.']


In [10]:
text1 = '/* this is a comment */'
text2 = ''''/* this is a
 multiline comment */
'''
comment = re.compile(r'/\*(.*?)\*/')
print(comment.findall(text1))
print(comment.findall(text2))

comment2 = re.compile(r'/\*((?:.|\n)*?)\*/')
print(comment2.findall(text2))

comment3 = re.compile(r'/\*(.*?)\*/', re.DOTALL)
print(comment3.findall(text2))

[' this is a comment ']
[]
[' this is a\n multiline comment ']
[' this is a\n multiline comment ']


In [11]:
import re

# Игнорируем регистр
р = re.compile(r"^[a-z]+$", re.I)
print("Найдено" if р.search("ABC") else "Not found")

# Регистр символов не игнорируется
р = re.compile(r"^[a-z]+$")
print("Найдено" if р.search("ABC") else "Not found")

# Находит либой символ, кроме \n
p = re.compile (r"^.$")
print("Найдено" if p.search("\n") else "He найдено")

Найдено
Not found
He найдено


In [15]:
import re

dt = "01.01.2021"
р = re.compile(r"^[0-3][0-9].[01][0-9].[12][09][0-9][0-9]$")
if р.search (dt):
    print("+")

+


In [20]:
import re 

p = re.compile(r"^[0-9]+$", re.S)

num = "123"
snum = "s123"

if p.search(num):
    print("Число")
else:
    print("Строка")
    
if p.search(snum):
    print("Число")
else:
    print("Строка")

Число
Строка


In [22]:
import re 

s = "<i>Один</i><i>Два</i><i>Три</i>"
p = re.compile(r"<i>.*</i>", re.S)
print(p.findall(s))

p = re.compile(r"<i>.*?</i>", re.S)
print(p.findall(s))

['<i>Один</i><i>Два</i><i>Три</i>']
['<i>Один</i>', '<i>Два</i>', '<i>Три</i>']


In [27]:
import re 

p = re.compile(r"[0-9]+")
print("Найдено" if p.match("123s") else "Не найдено")
print("Найдено" if p.match("s123") else "Не найдено")
print("Найдено" if p.search("s123") else "Не найдено")
print("Найдено" if p.search("s123") else "Не найдено")

Найдено
Не найдено
Найдено
Найдено


In [31]:
import re 

email = "mark@sales.example.com"

pattern = r"^([a-z0-9_.-]+)@(([a-z0-9-]+\.)+[a-z]{2,6})$"
p = re.compile(pattern, re.I | re.S)

m = p.search(email)

if m:
    print("Совпадения найдены!")
else:
    print("Нет совпадений!")

Совпадения найдены!


In [35]:
import re 

p = re.compile(r"[a-z]+")
print(p.findall("abc, bca, 123, dsf"))

['abc', 'bca', 'dsf']


In [47]:
import re 

def mult(m):
    x = int(m.group(0))
    x *= 2
    return f"{x}"

p = re.compile(r"[0-9]+")
# умножаем все числа на 2
print(p.sub(mult, "2, 3, 4, 5, 6, 7"))
# умножаем первые три числа
print(p.sub(mult, "2, 3, 4, 5, 6, 7", 3))

4, 6, 8, 10, 12, 14
4, 6, 8, 5, 6, 7


In [50]:
import re 

line = "asdf fjdk; afed, fjek,asdf, foo"
print(re.split(r"[;,\s]\s*", line))

fields = re.split(r"(;|,|\s)\s*", line)
print(fields)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']


In [63]:
from fnmatch import fnmatch, fnmatchcase

print(fnmatch("report.txt", "*.TXT"))
print(fnmatch ('rep.txt' , '?oo.txt'))
print(fnmatch('Data45.csv', 'Data[0-9]*'))

names = ['Datl.csv', 'Dat2.csv', 'config.ini', 'rep.py']
print([name for name in names if fnmatch(name, 'Dat*.csv')])

print(fnmatchcase('rep.txt' , '*.TXT'))

True
False
True
['Datl.csv', 'Dat2.csv']
False


In [66]:
import re

text1 = '03/19/2021'
text2 = 'Mar 19, 2021'

# Простое соответствие: \d+ означает соответствие 1 или более цифрам
if re.match(r'\d+/\d+/\d+', text1):
    print('да')
else:
    print('нет')
    
datepat = re.compile(r'\d+/\d+/\d+')
if datepat.match(text1):
    print('да')
else:
    print('нет')
    
text = 'Сегодня 19/12/2021. Завтра 20/12/2021.'
print(datepat.findall(text))

да
да
['19/12/2021', '20/12/2021']


In [71]:
import re

datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
m = datepat.match('12/19/2021')
print(m.group())
print(m.group(0))
print(m.group(1))
print(m.groups())

12/19/2021
12/19/2021
12
('12', '19', '2021')


In [74]:
'''Поиск и замена текста'''
import re 

text = 'Сегодня 11/27/2021. Завтра 3/13/2021.'
new_text = re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text)
print(new_text)

# Если вы собираетесь выполнить повторные замены с тем же образцом, 
# задумайтесь о его компиляции для лучшей производительности.
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
new_text = datepat.sub(r'\3-\1-\2', text)
print(new_text)

Сегодня 2021-11-27. Завтра 2021-3-13.
Сегодня 2021-11-27. Завтра 2021-3-13.


In [80]:
# Для более сложных замен можно использовать callback-функцию замены
from calendar import month_abbr
import re

def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return f"{m.group(2)} {mon_name} {m.group(3)}"

text = 'Сегодня 11/27/2021. Завтра 3/13/2021.'
result = datepat.sub(change_date, text)
print(result)

# Если вы знаете, сколько замен было сделано в дополнение к получению текста замены,
# используйте вместо этого re.subn()
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
newtext, n = datepat.subn(r'\3-\1-\2', text)
print(newtext)
print(n)

Сегодня 27 Nov 2021. Завтра 13 Mar 2021.
Сегодня 2021-11-27. Завтра 2021-3-13.
2


In [78]:
# Для выполнения нечувствительных к регистру операций над текстом
import re

text = 'UPPER PYTHON, lower python, Mixed Python'
print(re.findall('python', text, flags=re . IGNORECASE))
print(re.sub('python', 'snake', text, flags=re.IGNORECASE))

['PYTHON', 'python', 'Python']
UPPER snake, lower snake, Mixed snake


In [79]:
def matchcase(word):
    '''Сохраняет регистр слова в тексте при замене (re.sub)'''
    def replace(m):
        text = m.group()
        if text.isupper():
            return word.upper()
        elif text.islower():
            return word.lower()
        elif text[0].isupper():
            return word.capitalize()
        else:
            return word
    return replace

text = 'UPPER PYTHON, lower python, Mixed Python'

re.sub('python', matchcase('snake'), text, flags=re.IGNORECASE)

'UPPER SNAKE, lower snake, Mixed Snake'

In [86]:
'''Удаление нежелательных символов из строки'''
import re 

# Обрезаем пробельные символы
s = ' привет мир \n'
print(s.strip())

# Удаляем заданные символы
t = '--------- привет====='
print(t.lstrip('-'))
print(t.strip('-='))

# Убираем пробел в середине строки
print(re.sub('\s+', '', s))

привет мир
 привет=====
 привет
приветмир


In [1]:
# Удаляем пробелы в текстовом файле с использованием генератора
with open('splitter.txt', 'r', encoding='utf-8') as f:
    lines = (line.strip() for line in f)
    for line in lines:
        print(line)

привет мир\n\n
привет мир\n\n


In [7]:
'''Точное совпадение с помощью функции match()'''
import re

source = 'Young Frankenstein'

# функция начинает работать с начала источника
m = re.match('You', source) 
if m: 
    print(m.group())

# якорь в начале строки делает то же самое   
m = re.match('^You', source) 
if m: 
    print(m.group())
    
# функция search() ищет шаблон в любом месте источника
m = re.search('Frank', source)
if m: 
    print(m.group())
    
# .*Frank: 'Young Frank'
m = re.match('.*Frank', source)
if m: 
    print(m.group()) 

You
You
Frank
Young Frank


In [3]:
'''Ищем все совпадения с помощью функции findall()'''
import re 

source = 'Young Frankenstein'

# Все n в строке
m = re.findall('n', source)
print(m)

# Все n в строке + следующий символ
m = re.findall('n.', source)
print(m)

# Символ n является опциональным
m = re.findall('n.?', source)
print(m)

['n', 'n', 'n', 'n']
['ng', 'nk', 'ns']
['ng', 'nk', 'ns', 'n']


In [5]:
'''Разбиваем совпадения с помощью функции split()'''
import re

source = 'Young Frankenstein'

m = re.split('n', source)
print(m)

['You', 'g Fra', 'ke', 'stei', '']


In [6]:
'''Заменяем совпадения с помощью функции sub()'''
import re

source = 'Young Frankenstein'

m = re.sub('n', '?', source)
print(m)

You?g Fra?ke?stei?


In [11]:
import string, re

printable = string.printable
print(len(printable))
print(printable)

print('-' * 100)

# Цифры printable
print(re.findall('\d', printable))

# Цифры, буквы, нижнее подчеркивание printable
print(re.findall('\w', printable))

# Пробелы printable
print(re.findall('\s', printable))

100
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	

----------------------------------------------------------------------------------------------------
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']
[' ', '\t', '\n', '\r', '\x0b', '\x0c']


In [12]:
import re

x = 'abc' + '-/*' + '\u00ea' + '\u0115'
print(re.findall('\w', x))

['a', 'b', 'c', 'ê', 'ĕ']


In [25]:
import re 

source = '''I wish I may, I wish I might
... Have a dish of fish tonight.'''

# Все wish в строке
print(re.findall('wish', source))

# Все wish или fish в строке
print(re.findall('wish|fish', source))

# Строка wish в начале текста
print(re.findall('^wish', source))

# Строка I wish в начале текста
print(re.findall('^I wish', source))

# Строка fish в конце текста
print(re.findall('fish$', source))

# Строка fish tonight в конце текста
print(re.findall('fish tonight.$', source))
print(re.findall('fish tonight\.$', source))

# Поиск символов w или f, за которым следует буквосочетание ish
print(re.findall('[wf]ish', source))

# Одно или несколько сочетаний символов w, s и h
print(re.findall('[wsh]+', source))

# Сочетание ght, за которым следует любой символ,
# кроме буквенного или цифрового символа или знака подчеркивания
print(re.findall('ght\W', source))

# Символ I, за которым следует сочетание wish
print(re.findall('I (?=wish)', source))

# Сочетание wish, перед которым находится I
print(re.findall('(?<=I) wish', source))

['wish', 'wish']
['wish', 'wish', 'fish']
[]
['I wish']
[]
['fish tonight.']
['fish tonight.']
['wish', 'wish', 'fish']
['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']
['ght\n', 'ght.']
['I ', 'I ']
[' wish', ' wish']


In [29]:
'''Шаблоны: указываем способ вывода совпадения'''
import re

source = '''I wish I may, I wish I might
... Have a dish of fish tonight.'''

m = re.search(r'(. dish\b).*(\bfish)', source)
print(m.group()) 
print(m.groups())

print('-' * 50)

m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source)
print(m.group()) 
print(m.groups())
print(m.group('DISH'))
print(m.group('FISH'))

a dish of fish
('a dish', 'fish')
--------------------------------------------------
a dish of fish
('a dish', 'fish')
a dish
fish


In [11]:
mammoth = '''
We have seen thee, queen of cheese,
Lying quietly at your ease,
Gently fanned by evening breeze,
Thy fair form no flies dare seize.
All gaily dressed soon you'll go
To the great Provincial show,
To be admired by many a beau
In the city of Toronto.
Cows numerous as a swarm of bees,
Or as the leaves upon the trees,
It did require to make thee please,
And stand unrivalled, queen of cheese.
May you not receive a scar as
We have heard that Mr. Harris
Intends to send you off as far as
The great world's show at Paris.
Of the youth beware of these,
For some of them might rudely squeeze
And bite your cheek, then songs or glees
We could not sing, oh! queen of cheese.
We'rt thou suspended from balloon,
You'd cast a shade even at noon,
Folks would think it was the moon
About to fall and crush them soon.
'''

import re 

# Все слова в тексте которые начинаются на c
print(re.findall(r'\bc\w*', mammoth))

# Все 4-х буквенные слова которые начинаются на c
print(re.findall(r'\bc\w{3}\b', mammoth))

# Все слова которые заканчиваются на r
print(re.findall(r'\b\w*r\b', mammoth))

# Все слова которые имеют три гласные подряд
print(re.findall(r'\b\w*[aeiou]{3}[^aeiou\s]*\w*\b', mammoth))

['cheese', 'city', 'cheese', 'cheek', 'could', 'cheese', 'cast', 'crush']
['city', 'cast']
['your', 'fair', 'Or', 'scar', 'Mr', 'far', 'For', 'your', 'or']
['queen', 'quietly', 'beau', 'queen', 'squeeze', 'queen']
