# Продвинутый Python
## Тема 4: Регулярные выражения и основы синтаксического разбора

Регулярные выражения - это шаблоны, которые используют для сопоставления последовательностей символов в строках

In [2]:
'знать' in 'каждый охотник желает знать где сидит фазан'

True

In [5]:
'каждый охотник желает знать где сидит фазан'.find('охотник')

7

In [1]:
import re

In [61]:
# Найдем идентификаторы пользователей в тексте

# (сначала идет строка 'id' + одна или несколько цифр)

msg = 'В розыгрыше победили: id1234563, id4563, id325, id'
print(re.findall('id\d+', msg))

['id1234563', 'id4563', 'id325']


In [60]:
# Найдем хэштэги в твите

# (сначала идет # + одна или несколько букв)

tweet = 'когда #ливень, то бери #зонтик #4четыре'
re.findall('#\w+', tweet)

['#ливень', '#зонтик', '#4четыре']

In [31]:
# Разбить на слова и сравнить с методом split
text = 'Дорогие студенты, приветствуем вас на курсе \
«Продвинутый Python»!'

In [32]:
re.findall('\w+', text)

['Дорогие',
 'студенты',
 'приветствуем',
 'вас',
 'на',
 'курсе',
 'Продвинутый',
 'Python']

In [56]:
re.split('\W+', text)

['Дорогие',
 'студенты',
 'приветствуем',
 'вас',
 'на',
 'курсе',
 'Продвинутый',
 'Python',
 '']

In [33]:
# При таком способе знаки препинания тоже включаются в слова (плохо)
text.split(' ')

['Дорогие',
 'студенты,',
 'приветствуем',
 'вас',
 'на',
 'курсе',
 '«Продвинутый',
 'Python»!']

In [35]:
text.find('Python')

57

In [36]:
re.search('P\w+', text)

<re.Match object; span=(57, 63), match='Python'>

In [53]:
re.match('\w+', text)

<re.Match object; span=(0, 7), match='Дорогие'>

In [66]:
# Вытащить условные даты из строки
registration = 'Date of start: 4-12. Date of registration: 20-11'
print(re.findall('\d+', registration))
print(re.findall('\d{1,4}', registration))
print(re.findall('\d{1,2}-\d{1,2}', registration))

['4', '12', '20', '11']
['4', '12', '20', '11']
['4-12', '20-11']


In [72]:
# Вытащить номера телефонов из строки
phone_numbers = 'Мария: 8-495-342-23-32, Александр: +7-323-423-23-67'
re.findall('\d-\d{3}-\d{3}-\d{2}-\d{2}|\+7-\d{3}-\d{3}-\d{2}-\d{2}', 
           phone_numbers)

['8-495-342-23-32', '+7-323-423-23-67']

In [96]:
# Валидация даты
date = 'some text 1 september 2019 07:25 some text'
date_string = re.findall('\d{1,2} \w+ \d{4} \d{2}:\d{2}', date)
print(date_string)
from datetime import datetime
try:
    validate_date = datetime.strptime(re.findall(
        '\d{1,2} \w+ \d{4} \d{2}:\d{2}', 
        date)[0], '%d %B %Y %H:%M')
except:
    print(date_string, "can't convert in datetime")
print(validate_date)

['1 september 2019 07:25']
2019-09-01 07:25:00


In [97]:
# Поиск в начале или конце строки
history_comment = "20 век был более опасным, чем 19 век"
re.findall('\d{2} век', history_comment)

['20 век', '19 век']

In [99]:
# Поиск в начале строки (строка начинается на...)
re.findall('^\d{2} век', history_comment)

['20 век']

In [100]:
# Поиск в конце строки (строка заканчивается на...)
re.findall('\d{2} век$', history_comment)
# Может быть полезно при определении (проверке) расширений файлов

['19 век']

In [104]:
# или
market_search = 'Что лучше, ноутбук или компьютер?'
re.findall('ноутбук|компьютер', market_search)

['ноутбук', 'компьютер']

In [131]:
# Замена символов/слов
censored = 'хуu, жуй, жулик, хорек, хек'
re.sub(r'\b[хХ]\w{2}\b', 'censored', censored)


'censored, жуй, жулик, хорек, censored'

In [145]:
# Посчитать количество лайков, репостов и тд
message = ['Опять дождь! Лайков: 2', 
           'Концерт в Москве! Лайков: 28, Репостов: 22']
res = re.search('Лайков: (\d+)', message[0])
print(res.group(0))
print(res.group(1))

Лайков: 2
2


In [144]:
result = re.search('(\w+)@((\w+)\.(\w+))', 
                   'Пользователь 1 - user@yandex.ru')
print(result.group(0))
print(result.group(1))
print(result.group(2))
print(result.group(3))
print(result.group(4))

user@yandex.ru
user
yandex.ru
yandex
ru


In [261]:
# Решение задачи 1
car_id = ['A222CC96', 'АБ22ВВ193']
cor_let = ['A', 'B', 'C', 'E', 'K', 'M', 'H',
           'O', 'P', 'C', 'T', 'Y', 'X']
for item in car_id:
    if re.search('\w\d{3}\w{2}\d{2,3}', item):
        res = re.search('(\w)\d{3}(\w{2})(\d{2,3})', item)
        if res.group(1) in cor_let and res.group(2)[0] in cor_let and res.group(2)[1] in cor_let:
            print(f'Номер {item} валиден. Регион: {res.group(3)}.')
        else:
            print(f'Номер {item} не валиден.')
    else:
        print(f'Номер {item} не валиден.')


Номер A222CC96 валиден. Регион: 96.
Номер АБ22ВВ193 не валиден.
