# Python-1, лекция 9

Лектор: Петров Тимур

# Регулярные выражения

## Что такое регулярные выражения?

Регулярное выражение - это строка, которая задает некоторый паттерн (шаблон) для поиска внутри строки. С его помощью можно находить в тексте необходимые части (например, все города внутри текста, слова на русском и так далее), а также проверять строки на правильность (например, проверка e-mail, телефона и тому подобное)

Это очень удобная и сильная вещь, но палка о двух концах (об этом будет далее). Итак, приступим:

## Где потренироваться и проверять регулярку

Ответ очевиден - в Питоне с помощью библиотеки re 🐍

[Ссылка на документацию](https://docs.python.org/3/library/re.html) (осторожно, english)

Но если лень писать код, или хочется видеть результат в режиме онлайн, то существует множество сайтов, где можно это посмотреть, например, [вот здесь](https://https://regex101.com/) (не забудьте слева выбрать Flavor Python, потому что реализация различается, хоть и не сильно)

## Основы и квантификаторы

Допустим, вам нужно найти просто все вхождения слова внутри текста. Тогда регулярное выражение не будет иметь в себе никаких сложностей и будет состоять из самого слова:

In [None]:
import re # библиотека для регулярок в Питоне

# re.search(pattern, text) - поиск первого паттерна вида pattern внутри строки text.

match = re.search(r'ah', r'ahahah aha') # r перед строкой - считываем строку как есть (raw)
print(match)
print(match.group(0))

# re.findall(pattern, text) - поиск всех паттернов вида pattern внутри строки text. Возвращает список всех совпадений

match = re.findall(r'aha', r'ahahah aha') # r перед строкой - считываем строку как есть (raw)
print(match)

# re.compile(pattern, flags) - запись паттерна, который можно использовать в дальнейшем. Flags дает дополнительные фичи

pattern = re.compile(r'aha', flags = re.A)
print(pattern)
match = re.findall(pattern, r'ahahah aha')
print(match)

<re.Match object; span=(0, 2), match='ah'>
ah
['aha', 'aha']
re.compile('aha', re.ASCII)
['aha', 'aha']


Усложним задачу. Допустим, что мы ищем слово цвет на английском, которое может записываться как color (Ам), так и colour (Бр)

Для этого есть квантификаторы, которые могут учитывать, сколько раз может встречаться та или иная буква:

*   {a} - встречается ровно a раз
*   {a,b} - встречается от a до b раз
*   {,b} - максимум b раз
*   {a,} - минимум a раз

Квантификатор будет ставится после буквы (или простого шаблона), для которого он нужен.

В нашем случае это будет выглядеть так:



In [None]:
pattern = re.compile(r'colou{,1}r') # color, colour - будет засчитано
s = 'color, colour'
match = re.findall(pattern, s)
print(match)

['color', 'colour']


Некоторые квантификаторы используется достаточно часто, поэтому для них есть особенные символы:

*   $?$ = {0,1} - встречается 0 или 1 раз
*   $*$ = {0,} - встречается от 0 раз и больше
*   $+$ = {1,} - встречается от 1 раза и больше

Можем упростить наше выражение:

In [None]:
pattern = re.compile(r'c?o?l?o?u?r')
s = 'color, colour, olur'
match = re.findall(pattern, s)
print(match)

pattern = re.compile(r'colou*r')
s = 'color, colour colouuuuuuuuuuuuuuuuuur'
match = re.findall(pattern, s)
print(match)

pattern = re.compile(r'colo.*r')
s = 'color, colour colouuuuuuuuuuuuuuuuuur'
match = re.findall(pattern, s)
print(match)

['color', 'colour', 'olur']
['color', 'colour', 'colouuuuuuuuuuuuuuuuuur']
['color, colour colouuuuuuuuuuuuuuuuuur']


## Особые символы

Для того, чтобы сделать поиск уникальным, нам теперь надо добавить дополнительные символы, с помощью которых можно осуществлять поиск. Среди таких:

*   $.$ - любой символ, кроме начала строки
*   $[]$ - набор символов (символы можно перечислять через -, например [A-Z] = все заглавные символы английского алфавита)
*   [^] - отрицание набора символов (то есть [^A-Z] = все, кроме заглавных букв английского алфавита)
*   ^ - начало текста
*   $ - конец текста

Отдельные символы для букв, цифр и символов:

*   \d - цифра
*   \D - все, кроме цифры
*   \w - любая буква, цифра, а также нижнее подчеркивание (буква - это все, что считается буквой в Unicode, то есть и русские буквы, и так далее)
*   \W - все, кроме букв, цифр и нижнего подчеркивания
*   \s - пробельные символы (пробел, табуляция, перенос строки и так далее)
*   \S - все, кроме пробельного символа
*   \b - начало слова (слева \W, справа \w) - ставится по позиции, а не по символу
*   \B - не начало слова

И есть еще один отдельный символ: \ - символ экранирования. Экранирование дает прочесть символ как символ, а не как шаблон (например, точку). Внутри набора экранируют только символы ] и \\.


In [None]:
# Хотим найти все слова на английском

pattern = re.compile(r'[a-zA-Z]+')
s = 'color, colour, sfasdas, lfosdlf5lsfl..'
match = re.findall(pattern, s)
print(match)

# Хотим найти даты вида дд.мм.гггг

pattern = re.compile(r'\d{2}\.\d{2}\.\d{4}')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012'
match = re.findall(pattern, s)
print(match)

# Хотим найти все слова на английском, перед которыми нет ничего

pattern = re.compile(r'\b[a-zA-Z]+')
s = 'color, colour, 4sfasdas, lfosdlf5lsfl'
match = re.findall(pattern, s)
print(match)

['color', 'colour', 'sfasdas', 'lfosdlf', 'lsfl']
['19.04.2012']
['color', 'colour', 'lfosdlf']


## Группировки

Допустим, что наш шаблон нужно повторить несколько раз. Например, нам нужно найти MAC-адрес в тексте (MAC-адрес - это физический адрес устройства в Интернете). Он представляет из себя 6 групп из чисел в шестнадцатеричной системе, которая разделена - или : (пример: 01-23-45-67-89-ab)

Если писать, как есть, то это будет выглядеть как:

[0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}

Громоздко и некрасиво, читать сложно. Но здесь есть повторяющийся паттерн [0-9a-fA-F]{2}[:-]

Паттерны можно группировать с помощью скобок:

*   (?:) - внутри указывается паттерн

К ней уже можно применять те же самые квантификаторы. И тогда у нас будет:

In [None]:
pattern = re.compile(r'[0-9a-fA-F]{2}(?:[:-][0-9a-fA-F]{2}){5}')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012 01:89:14:16:a1:a2'
match = re.findall(pattern, s)
print(match)

['01:89:14:16:a1:a2']


Кроме того, внутри группировки можно использовать перечисление (логическое OR). Делается это с помощью |

Например, пусть часть адреса зашифрована с помощью комбинации xx. Тогда, чтобы найти адрес, надо сделать вот так:

In [None]:
pattern = re.compile(r'(?:[0-9a-fA-F]{2}|[Xx]{2})(?:[:-][0-9a-fA-F]{2}|[:-][Xx]{2}){5}')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012 01:22:14:16:a1:a2 xx:-2:14:XX:a1:a2'
match = re.findall(pattern, s)
print(match)

['01:12:14:16:a1:a2', 'xx:-2:14:XX:a1:a2']


Группировки могут также использоваться для различных проверок. Скажем, если нам нужно проверить, что перед нужным текстом находятся что-то нужное (например, ищем, когда у нас встречается II только перед именем Николай). Для этого есть так называемые условия lookaround:

*   (?=) - проверить, встречается ли этот паттерн после нужного паттерна
*   (?!) - проверить, не встречается ли этот паттерн после нужного паттерна
*   (?<=) - проверить, встречается ли этот паттерн до нужного паттерна (но только фиксированной длины паттерн)
*   (?<!) - проверить, не встречается ли этот паттерн до нужного паттерна

Пример:

In [None]:
pattern = re.compile(r'(?<=Николай) ?II')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012 01:12:14:16:a1:a2 xx:12:14:xx:a1:a2 Николай II Александр II НиколайII'
match = re.findall(pattern, s)
print(match)

[' II', 'II']


## А теперь про библиотеку re

Помимо того, что мы использовали, в библиотеке есть еще куча полезных фич:

*   re.sub(pattern, s, text) - заменить все паттерны pattern на строку s. Если не найдет, то вернет исходную строку
*   re.split(pattern, text) - разрезать text по pattern. Работает, по сути, как split, только теперь вместо конкретной подстроки паттерн (ура!)
*   re.search(pattern, text) - находит первое вхождение pattern в строке и выводит его
*   re.match(pattern, text) - проверяет с начала строки, есть ли pattern в text
*   re.fullmatch(pattern, text) - проверяет, подходит ли текст под pattern. Если нет, выводит None, иначе объект match

Внимательные обратили внимание в начале, что у re.compile есть параметр flags. Данный параметр позволяет облегчить работу с паттерном или же добавить условия. На самом деле их несколько, но я приведу только самые частые:

*   re.A (или re.ASCII) - для всех особых символов букв-цифр считает только значения по ASCII. Стоит использовать, если не нужно остальное (ускоряет работу)
*   re.I (или re.IGNORECASE) - сопоставление без учета регистра (строчные=заглавным)
*   re.M (или re.MULTILINE) - символы ^ и $ применяются не только для начала/конца текста, но и для начала/конца строки

# Collections

Collections - полезная библиотека, в которой содержится несколько дополнительных структур из коробки, с помощью которых можно эффективнее решать задачи. Очень часто бывают нужны и полезны (так что лучше это знать)

Что есть в collections?

* Counter - счетчик, можно использовать как словарь-счетчик или мультимножество

* deque - двусторонняя очередь (из которой можно сделать и стек, и очередь)

* defaultdict - словарь, в котором можно задать дефолтное значение (то есть не надо мучаться с проверкой ключей)

## Counter

Подкласс dict, используется как счетчик. Встроено очень удобное взаимодействие

In [None]:
from collections import Counter

s = ['ab', 'ab', 'bc', 'cd', 'ab']
c = Counter(s)

print(c)

Counter({'ab': 3, 'bc': 1, 'cd': 1})


In [None]:
# обращение к существующему ключу

print('ab:', c['ab'])

# обращение к несуществующему ключу

print('cc:', c['cc'])

# вывести все элементы (выводит в порядке, как заносилось, уменьшает тоже в порядке)

c['cc'] = 5
c['ab'] -= 1
print(list(c.elements()))
print('-' * 30)
# Вывести i самых частых элементов

i = 3
print(c.most_common(i))
print('-' * 30)
# Арифметические операции с Counter

d = Counter(ab=5, bc=8, dd=1) # можно и так инициализировать, еще можно запихнуть словарь-счетчик
print(c)
print(d)
print(c + d)
print(c - d)
print(c & d) # минимум по элементам
print(c | d) # максимум по элементам
print('-' * 30)
# получение ключей и значений

print(list(c))
print(list(c.items()))
print(list(c.values()))

ab: 3
cc: 0
['ab', 'ab', 'bc', 'cd', 'cc', 'cc', 'cc', 'cc', 'cc']
------------------------------
[('cc', 5), ('ab', 2), ('bc', 1)]
------------------------------
Counter({'cc': 5, 'ab': 2, 'bc': 1, 'cd': 1})
Counter({'bc': 8, 'ab': 5, 'dd': 1})
Counter({'bc': 9, 'ab': 7, 'cc': 5, 'cd': 1, 'dd': 1})
Counter({'cc': 5, 'cd': 1})
Counter({'ab': 2, 'bc': 1})
Counter({'bc': 8, 'ab': 5, 'cc': 5, 'cd': 1, 'dd': 1})
------------------------------
['ab', 'bc', 'cd', 'cc']
[('ab', 2), ('bc', 1), ('cd', 1), ('cc', 5)]
[2, 1, 1, 5]


## Deque

Двусторонняя очередь. Казалось бы, зачем этим пользоваться, если просто есть список? Экономия по времени для операций вставки и удаления элемента!


* Stack - LIFO (last in first out) - гора тарелок

* Queue - FIFO (first in first out) - очередь в банке

* Priority Queue - очередь с приоритетами (value, priority) (1) вначале по приоритету, (2) по вхождению. Реализуется с помощью куч

* Deque - Двусторонняя очередь (можно добавлять и забирать как с конца, так и с начала)

In [None]:
a = [1, 2, 3] #Stack ok

#a.append() - O(1)
#a.pop() - O(1)

a = [1, 2, 3] #Queue not ok

#a.append() - O(1)
#a.remove(0) - O(n) - плохо

In [None]:
from collections import deque

s = ['ab', 'ab', 'bc', 'cd', 'ab']
d = deque(s)
print(d)

print('-' * 30)

for elem in d:
    print(elem)

print('-' * 30)

# Добавление элементов

d.append('aa')
d.appendleft('dd')
d.extend(['hh', 'pp'])
d.extendleft(['hh', 'pp'])
print(d)

print('-' * 30)

# Удаление элементов

print(d.pop())
print(d.popleft())
print(d)

print('-' * 30)

# Обращение к элементам

print(d[0])
print(d[-2])
print(d.count('hh'))

print('-' * 30)

# Смещение очереди влево-вправо

d.rotate(1) # влево
# 1-2-3-4-5 -> rotate(1) -> 2-3-4-5-1
print(d)
d.rotate(-2) # вправо
# 1-2-3-4-5 -> rotate(-2) -> 4-5-1-2-3
print(d)
d.reverse() # перевернуть очередь
print(d)

print('-' * 30)

# вставка и удаление

d.insert(1, 'x')
print(d)
print(d.index('x'))
d.remove('x')
print(d)

deque(['ab', 'ab', 'bc', 'cd', 'ab'])
------------------------------
ab
ab
bc
cd
ab
------------------------------
deque(['pp', 'hh', 'dd', 'ab', 'ab', 'bc', 'cd', 'ab', 'aa', 'hh', 'pp'])
------------------------------
pp
pp
deque(['hh', 'dd', 'ab', 'ab', 'bc', 'cd', 'ab', 'aa', 'hh'])
------------------------------
hh
aa
2
------------------------------
deque(['hh', 'hh', 'dd', 'ab', 'ab', 'bc', 'cd', 'ab', 'aa'])
deque(['dd', 'ab', 'ab', 'bc', 'cd', 'ab', 'aa', 'hh', 'hh'])
deque(['hh', 'hh', 'aa', 'ab', 'cd', 'bc', 'ab', 'ab', 'dd'])
------------------------------
deque(['hh', 'x', 'hh', 'aa', 'ab', 'cd', 'bc', 'ab', 'ab', 'dd'])
1
deque(['hh', 'hh', 'aa', 'ab', 'cd', 'bc', 'ab', 'ab', 'dd'])


## Defaultdict

Словарь, где можно задать дефолтное значение для ключей, которых пока нет в словаре. При добавлении не надо использовать get или же проверять, есть ли ключ в словаре

Работает полностью как словарь

In [None]:
from collections import defaultdict

d = defaultdict(int) # задаем тип значения по дефолту (если int - то это 0)
s = ['ab', 'ab', 'bc', 'cd', 'ab']
for elem in s:
    d[elem] += 1
print(d)

print('-' * 30)

d = defaultdict(list) # задаем тип значения по дефолту (если int - то это 0)
s = ['ab', 'ab', 'bc', 'cd', 'ab']
for elem in s:
    d[elem].append(elem)
print(d)

print('-' * 30)

d = defaultdict(lambda: '') # в качестве значения по дефолту можно использовать функцию
s = ['ab', 'ab', 'bc', 'cd', 'ab']
for elem in s:
    d[elem] += elem
print(d)

defaultdict(<class 'int'>, {'ab': 3, 'bc': 1, 'cd': 1})
------------------------------
defaultdict(<class 'list'>, {'ab': ['ab', 'ab', 'ab'], 'bc': ['bc'], 'cd': ['cd']})
------------------------------
defaultdict(<function <lambda> at 0x7ff35d14e830>, {'ab': 'ababab', 'bc': 'bc', 'cd': 'cd'})


# Itertools

Itertools - библиотека с некоторыми полезными реализованными итераторами. Полезно при генерации последовательностей, создании комбинаций, перестановок, произведений

In [None]:
from itertools import count, cycle, repeat

# Арифметическая прогрессия

i = count(10, 2)
print(next(i))
print(next(i))
print(next(i))
print(next(i))

print('-' * 30)

# Цикл

i = cycle('ABC')
print(next(i))
print(next(i))
print(next(i))
print(next(i))
print(next(i))
print(next(i))
print(next(i))
print(next(i))

print('-' * 30)

# Повтор

i = repeat('ABC', 5)
print(next(i))
print(next(i))
print(next(i))
print(next(i))
print(next(i))

10
12
14
16
------------------------------
A
B
C
A
B
C
A
B
------------------------------
ABC
ABC
ABC
ABC
ABC


In [None]:
from itertools import zip_longest, accumulate

z = zip_longest('ABCD', 'xy', fillvalue='-')

for a, b in z:
    print(a, b)

print('-' * 30)

a = accumulate([1, 2, 3, 4])
print(next(a))
print(next(a))
print(next(a))
print(next(a))


A x
B y
C -
D -
------------------------------
1
3
6
10


Но самое интересное - это комбинаторные итераторы:

* product(iter, repeat) - repeat число декартово произведение элементов iter
* permutations(iter, r) - все перестановки длины r из iter
* combinations(iter, r) - все комбинации длины r из iter (упорядоченные)
* combinations_with_replacement(iter, r) - все комбинации с повторениями длины r (упорядоченные)

In [None]:
from itertools import product, permutations, combinations, combinations_with_replacement

a = product('ABCD', repeat=3)
print(next(a))
print(next(a))
print(next(a))
print(next(a))

print('-' * 30)

a = permutations([1, 2, 3], r=3)
print(next(a))
print(next(a))
print(next(a))
print(next(a))
print(next(a))
print(next(a))

print('-' * 30)

a = combinations('ABACD', r=3)
print(next(a))
print(next(a))
print(next(a))
print(next(a))

print('-' * 30)

a = combinations_with_replacement('ABCD', r=3)
print(next(a))
print(next(a))
print(next(a))
print(next(a))

print('-' * 30)

('A', 'A', 'A')
('A', 'A', 'B')
('A', 'A', 'C')
('A', 'A', 'D')
------------------------------
(1, 2, 3)
(1, 3, 2)
(2, 1, 3)
(2, 3, 1)
(3, 1, 2)
(3, 2, 1)
------------------------------
('A', 'B', 'A')
('A', 'B', 'C')
('A', 'B', 'D')
('A', 'A', 'C')
------------------------------
('A', 'A', 'A')
('A', 'A', 'B')
('A', 'A', 'C')
('A', 'A', 'D')
------------------------------


# Попугай дня

![Жако](https://petshop-vrn.ru/wp-content/uploads/6/c/a/6ca4dd99334ae553c70fbc4ed4165506.jpeg)

А это Жако, или серый попугай. Считаются самыми умными попугаями в мире, потому что они способны не просто на подражание звуков (как это делают многие попугаи)

В 1980-х годах ученая Ирэн Пепперберг проводила исследования по языковому мышлению различных животных, и одним из подопытных был серый попугай по имени Алекс. По результатам эксперимента Алекс мог произносить очень много слов, причем он верно отвечал на вопросы и в целом коммуницировал исходя не из подражания, а из логики. В целом было показано, что у него было мышление, как у шестилетнего ребенка, что стало полным открытием для ученых.

Хотя, на самом деле, сравнивать мышление попугаев и людей сложно, потому что мышление животных и не должно быть похожим на человеческое