In [6]:
import re

In [7]:
txt = "is simply dummy text of the printing and typesetting industry.\
Lorem Ipsum has been the industry's standard dummy text ever since the 1500s"

In [8]:
print(txt)

is simply dummy text of the printing and typesetting industry.Lorem Ipsum has been the industry's standard dummy text ever since the 1500s


In [9]:
# А вот наиболее популярные методы, которые предоставляет модуль:
# re.match()
# re.search()
# re.findall()
# re.split()
# re.sub()
# re.compile()

In [10]:
# re.match(pattern, string)

# Этот метод ищет по заданному шаблону в начале строки.
# Например, если мы вызовем метод match() на строке «AV Analytics AV» с шаблоном «AV»,
# то он завершится успешно. Но если мы будем искать «Analytics», то результат будет отрицательный:

result = re.match(r'is simply', txt)
print(result)

<re.Match object; span=(0, 9), match='is simply'>


In [12]:
# Искомая подстрока найдена. Чтобы вывести её содержимое, применим метод group()
# (мы используем «r» перед строкой шаблона, чтобы показать, что это «сырая» строка в Python):

result = re.match(r'is simply', txt)
print(result.group(0))

is simply


In [14]:
# Также есть методы start() и end() для того,
# чтобы узнать начальную и конечную позицию найденной строки.

result = re.match(r"is simply dummy text of the printing", txt)
print(result.start())
print(result.end())

0
36


In [15]:
# re.search(pattern, string)
# Метод похож на match(), но ищет не только в начале строки.
# В отличие от предыдущего, search() вернёт объект, если мы попытаемся найти

result = re.search(r'Lorem Ipsum has',txt)
print(result.group(0))

Lorem Ipsum has


In [16]:
# re.findall(pattern, string)
# Возвращает список всех найденных совпадений.
# У метода findall() нет ограничений на поиск в начале или конце строки.
# Если мы будем искать «AV» в нашей строке, он вернет все вхождения «AV».
# Для поиска рекомендуется использовать именно findall(),
# так как он может работать и как re.search(), и как re.match().

result = re.findall(r'\w+in\w+', txt)
print(result)

['printing', 'typesetting', 'since']


In [17]:
# re.split(pattern, string, [maxsplit=0])
# Этот метод разделяет строку по заданному шаблону.

result = re.split(r'y', txt)
print(result)

['is simpl', ' dumm', ' text of the printing and t', 'pesetting industr', '.Lorem Ipsum has been the industr', "'s standard dumm", ' text ever since the 1500s']


In [18]:
# В примере мы разделили слово «Analytics» по букве «y». Метод split() принимает также аргумент maxsplit
# со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно,
# но если указать этот аргумент, то разделение будет произведено не более указанного количества раз.
# Давайте посмотрим на примеры Python RegEx:

result = re.split(r'y',txt,maxsplit=2)
print(result)
print(len(result))

# Мы установили параметр maxsplit равным 1, и в результате строка была разделена на две части вместо трех.

['is simpl', ' dumm', " text of the printing and typesetting industry.Lorem Ipsum has been the industry's standard dummy text ever since the 1500s"]
3


In [19]:
# re.sub(pattern, repl, string)
# Ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.
result = re.sub(r"[,.']", '', txt)
print(result)

is simply dummy text of the printing and typesetting industryLorem Ipsum has been the industrys standard dummy text ever since the 1500s


In [20]:
# re.compile(pattern, repl, string)
# Мы можем собрать регулярное выражение в отдельный объект, который может быть использован для поиска.
# Это также избавляет от переписывания одного и того же выражения.
pattern = re.compile('text')
result = pattern.findall(txt)
print(result)
result2 = pattern.findall(txt)
print(result2)

['text', 'text']
['text', 'text']


In [21]:
# Оператор	Описание
# .	Один любой символ, кроме новой строки \n.
# ?	0 или 1 вхождение шаблона слева
# +	1 и более вхождений шаблона слева
# *	0 и более вхождений шаблона слева
# \w	Любая цифра или буква (\W — все, кроме буквы или цифры)
# \d	Любая цифра [0-9] (\D — все, кроме цифры)
# \s	Любой пробельный символ (\S — любой непробельный символ)
# \b	Граница слова
# [..]	Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
# \	Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
# ^ и $	Начало и конец строки соответственно
# {n,m}	От n до m вхождений ({,m} — от 0 до m)
# a|b	Соответствует a или b
# ()	Группирует выражение и возвращает найденный текст
# \t, \n, \r	Символ табуляции, новой строки и возврата каретки соответственно

In [22]:
txt_q = "is simply dummy text of the printing and typesetting industry.\
Lorem Ipsum has been the industry's standard dummy text ever since the 1500s"


In [23]:
# # Задачи
# # Вернуть первое слово из строки
# # Сначала попробуем вытащить каждый символ (используя .)
# Для того, чтобы в конечный результат не попал пробел,
# используем вместо . \w.

result = re.findall('\w',txt_q)
print(result)

['i', 's', 's', 'i', 'm', 'p', 'l', 'y', 'd', 'u', 'm', 'm', 'y', 't', 'e', 'x', 't', 'o', 'f', 't', 'h', 'e', 'p', 'r', 'i', 'n', 't', 'i', 'n', 'g', 'a', 'n', 'd', 't', 'y', 'p', 'e', 's', 'e', 't', 't', 'i', 'n', 'g', 'i', 'n', 'd', 'u', 's', 't', 'r', 'y', 'L', 'o', 'r', 'e', 'm', 'I', 'p', 's', 'u', 'm', 'h', 'a', 's', 'b', 'e', 'e', 'n', 't', 'h', 'e', 'i', 'n', 'd', 'u', 's', 't', 'r', 'y', 's', 's', 't', 'a', 'n', 'd', 'a', 'r', 'd', 'd', 'u', 'm', 'm', 'y', 't', 'e', 'x', 't', 'e', 'v', 'e', 'r', 's', 'i', 'n', 'c', 'e', 't', 'h', 'e', '1', '5', '0', '0', 's']


In [24]:
#Теперь попробуем достать каждое слово (используя * или +)

result = re.findall(r'\w*',txt_q)
print(result)

# И снова в результат попали пробелы,
# так как * означает «ноль или более символов».
# Для того, чтобы их убрать, используем +:

['is', '', 'simply', '', 'dummy', '', 'text', '', 'of', '', 'the', '', 'printing', '', 'and', '', 'typesetting', '', 'industry', '', 'Lorem', '', 'Ipsum', '', 'has', '', 'been', '', 'the', '', 'industry', '', 's', '', 'standard', '', 'dummy', '', 'text', '', 'ever', '', 'since', '', 'the', '', '1500s', '']


In [18]:
result = re.findall(r'\w+',txt_q)
print(result)

['is', 'simply', 'dummy', 'text', 'of', 'the', 'printing', 'and', 'typesetting', 'industry', 'Lorem', 'Ipsum', 'has', 'been', 'the', 'industry', 's', 'standard', 'dummy', 'text', 'ever', 'since', 'the', '1500s']


In [25]:
#Теперь вытащим первое слово, используя

result = re.findall(r'^\w+',txt_q)
print(result)

['is']


In [26]:
# Если мы используем $ вместо ^,
# то мы получим последнее слово, а не первое:

result = re.findall(r'\w+$',txt_q)
print(result)

['1500s']


In [27]:
# Вернуть первые два символа каждого слова
# Вариант 1:
# используя \w, вытащить два последовательных символа,
# кроме пробельных, из каждого слова:

result = re.findall(r'\w\w', txt_q)
print(result)

['is', 'si', 'mp', 'ly', 'du', 'mm', 'te', 'xt', 'of', 'th', 'pr', 'in', 'ti', 'ng', 'an', 'ty', 'pe', 'se', 'tt', 'in', 'in', 'du', 'st', 'ry', 'Lo', 're', 'Ip', 'su', 'ha', 'be', 'en', 'th', 'in', 'du', 'st', 'ry', 'st', 'an', 'da', 'rd', 'du', 'mm', 'te', 'xt', 'ev', 'er', 'si', 'nc', 'th', '15', '00']


In [28]:
# Вариант 2: вытащить два последовательных символа,
# используя символ границы слова (\b):

result = re.findall(r'\b\w.', txt_q)
print(result)

['is', 'si', 'du', 'te', 'of', 'th', 'pr', 'an', 'ty', 'in', 'Lo', 'Ip', 'ha', 'be', 'th', 'in', 's ', 'st', 'du', 'te', 'ev', 'si', 'th', '15']


In [29]:
# Вернуть домены из списка email-адресов
# Сначала вернём все символы после «@»:

domain_list = "abc.test@gmail.com, xyz@test.in"
result = re.findall(r'@\w+',domain_list)
print(result)

['@gmail', '@test']


In [30]:
# Как видим, части «.com», «.in» и т. д. не попали в результат.
# Изменим наш код:

result = re.findall(r'@\w+.\w+',domain_list)
print(result)

['@gmail.com', '@test.in']


In [31]:
# Второй вариант — вытащить только домен верхнего уровня,
# используя группировку — ( ):

result = re.findall(r'@\w+.(\w+)',domain_list)
print(result)

['com', 'in']


In [26]:
# Извлечь дату из строки
# Используем \d для извлечения цифр.

date = 'Amit 34-3456 12-05-1234, XYZ 56-4532 11-11-2345, ABC 67-8945 12-01-3333'
result = re.findall(r'\d{1}-\d{2}-(\d{4})',date )
print(result)

['1234', '2345', '3333']


In [32]:
# только те, которые начинаются на
# определенные буквы (используя []):

txt_qq = " is  simply  dummy text  of the printing and typesetting industry.\
Lorem Ipsum has been the industry's standard dummy text ever since the  1500s"
result = re.findall(r'[isdt]\w+',txt_qq)
print(result)

['is', 'simply', 'dummy', 'text', 'the', 'inting', 'typesetting', 'industry', 'sum', 'the', 'industry', 'standard', 'dummy', 'text', 'since', 'the']


In [33]:
# Выше мы видим обрезанные слова «argest» и «ommunity».
# Для того, чтобы убрать их, используем \b для обозначения границы
# слова:

result = re.findall(r'\b[isdt]\w+',txt_qq)
print(result)

['is', 'simply', 'dummy', 'text', 'the', 'typesetting', 'industry', 'the', 'industry', 'standard', 'dummy', 'text', 'since', 'the']


In [34]:
# В результат попали слова, «начинающиеся» с пробела.
# Уберем их, включив пробел в диапазон в квадратных скобках:

result = re.findall(r'\b[^isdt ]\w+',txt_qq)
print(result)

['of', 'printing', 'and', '.Lorem', 'Ipsum', 'has', 'been', "'s", 'ever', '1500s']


In [35]:
# Проверить формат телефонного номера
# Номер должен быть длиной 10 знаков и начинаться с 8 или 9.
# Есть список телефонных номеров, и нужно проверить их,
# используя регулярки в Python:
li = ['9999999999', '999999-999', '99999x9999']

for val in li:
    if re.match(r'[8-9]{1}[0-9]{9}', val) and len(val) == 10:
        print(f"{val}: валидный")
    else:
        print(f"{val}: невалидный")

9999999999: валидный
999999-999: невалидный
99999x9999: невалидный


In [36]:
# Разбить строку по нескольким разделителям

line = 'asdf fjdk;afed,fjek,asdf,foo' 
# String has multiple delimiters (";",","," ").
result = re.split(r'[;,\s]', line)
print(result)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']


In [32]:
# Также мы можем использовать метод re.sub()
# для замены всех разделителей пробелами:
line = 'asdf fjdk;afed,fjek,asdf,foo'
result = re.sub(r'[;,\s]',' ', line)
print(result)

asdf fjdk afed fjek asdf foo
