Модуль itertools

Встроенный модуль itertools включает в себя множество функций, предназначенных для создания итераторов. Как мы уже знаем, код, основанный на итераторах, обеспечивает лучшие характеристики использования памяти, чем код, основанный на использовании списков.

Кроме функций, определенных в модуле itertools, в примерах данного урока используются уже изученные нами встроенные функции, предназначенные для работы c итераторами (map(), filter(), zip(), enumerate() и т.д.).

Прообразом генераторных функций модуля itertools послужили аналогичные функции из таких языков функционального программирования, как Clojure, Haskell, APL и SML.

Функции модуля itertools можно разделить на следующие категории:

порождающие данные
фильтрующие данные
преобразующие данные
группирующие данные
объединяющие или разделяющие данные
порождающие комбинаторные данные

В этом уроке речь пойдет о функциях, порождающих новые данные.

Функции, порождающие данные

К этой категории относятся следующие функции:

count()
cycle()
repeat()
Все функции данной категории по умолчанию порождают бесконечные итераторы.

Функция count()

Функция count() возвращает итератор, генерирующий бесконечную последовательность чисел.

Аргументы функции:

start — начало отсчета, по умолчанию имеет значение 0
step — шаг, по умолчанию имеет значение 1
В отличие от встроенной функции range(), в функции count() аргумент для задания верхней границы не предусмотрен.

In [1]:
from itertools import count

count1 = count()

print(next(count1))
print(next(count1), next(count1), next(count1))

count2 = count(69, 10)

print(next(count2))
print(next(count2))
print(next(count2), next(count2), next(count2))

for i in zip(count(10), ['a', 'b', 'c']):
    print(i)

0
1 2 3
69
79
89 99 109
(10, 'a')
(11, 'b')
(12, 'c')


Обратите внимание на то, что мы не можем создать список на основе итератора, который возвращает функция count(), поскольку он является бесконечным.

Аргументами start и step функции count() могут быть любые числовые значения, допускающие операцию сложения.

In [2]:
from itertools import count
from fractions import Fraction

for index, number in enumerate(count(1.0, 0.5)):
    if index < 6:
        print(number)
    else:
        break

frac_iter = count(1, Fraction(1, 2))
print(next(frac_iter), next(frac_iter), next(frac_iter), next(frac_iter), next(frac_iter))

1.0
1.5
2.0
2.5
3.0
3.5
1 3/2 2 5/2 3


Функция count() примерно эквивалентна следующему коду:

In [3]:
def count(start=0, step=1):
    n = start
    while True:
        yield n
        n += step

Функция cycle()

Функция cycle() возвращает итератор, циклично генерирующий последовательность элементов переданного итерируемого объекта.

Аргументы функции:

iterable — итерируемый объект

Обратите внимание на то, что функция cycle() сохраняет копию каждого элемента из iterable. Когда итерируемый объект iterable исчерпан, функция начинает возвращать элементы из сохраненной копии.

In [4]:
from itertools import cycle

for index, char in enumerate(cycle('abcd')):
    if index < 7:
        print(char)
    else:
        break

cycle_iter = cycle([0, 1])
print(next(cycle_iter), next(cycle_iter), next(cycle_iter), next(cycle_iter), next(cycle_iter))

for i in zip(range(7), cycle(['a', 'b', 'c'])):
    print(i)

a
b
c
d
a
b
c
0 1 0 1 0
(0, 'a')
(1, 'b')
(2, 'c')
(3, 'a')
(4, 'b')
(5, 'c')
(6, 'a')


Для выполнения функции cycle() может потребоваться значительное количество дополнительной памяти в зависимости от длины iterable.

Функция cycle() примерно эквивалентна следующему коду:

In [None]:
def cycle(iterable):
    saved = []
    for element in iterable:
        yield element
        saved.append(element)
    while saved:
        for element in saved:
            yield element

Функция repeat()

Функция repeat() возвращает итератор, бесконечно генерирующий единственное значение, переданное в качестве аргумента. Количество генераций можно ограничить с помощью необязательного аргумента times.

Аргументы функции:

obj — любой Python объект
times — количество повторений, по умолчанию имеет значение None

In [5]:
from itertools import repeat

for i in repeat('bee-and-geek', 5):
    print(i)

repeat_iter = repeat([1, 2, 3])

print(next(repeat_iter))
print(next(repeat_iter))
print(next(repeat_iter))

bee-and-geek
bee-and-geek
bee-and-geek
bee-and-geek
bee-and-geek
[1, 2, 3]
[1, 2, 3]
[1, 2, 3]


 Функция repeat() является ленивой, она использует только память, необходимую для хранения одного элемента.

Функцию repeat() удобно использовать совместно c функциями zip() и map(), если со значениями, генерируемыми другими итераторами, должно сочетаться некое постоянное значение.

Приведенный ниже код объединяет значения 0, 1, 2, 3, 4, ... со строкой bee-and-geek, возвращаемой функцией repeat():

In [6]:
from itertools import count, repeat

for i, s in zip(count(), repeat('bee-and-geek', 5)):
    print(i, s)

0 bee-and-geek
1 bee-and-geek
2 bee-and-geek
3 bee-and-geek
4 bee-and-geek


Приведенный ниже код использует встроенную функцию map() для умножения на 2 чисел в диапазоне от 0 до 5.

In [7]:
from itertools import repeat

for a, b, c in map(lambda x, у: (x, у, x * у), repeat(2), range(6)):
    print(f'{a} * {b} = {c}')
# x (из repeat(2)) всегда 2
# y (из range(6)) принимает значения 0, 1, 2, 3, 4, 5
# результатом lambda является кортеж (2, y, 2 * y)

2 * 0 = 0
2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
2 * 4 = 8
2 * 5 = 10


В данном случае итератор, возвращаемый функцией repeat(), не нуждается в явном ограничении числа генераций, поскольку обработка c помощью функции map() прекращается сразу же, как только исчерпывается любой из ее входных итерируемых объектов, а функция range() возвращает только шесть элементов.

Функция repeat() примерно эквивалентна следующему коду:

In [None]:
def repeat(object, times=None):
    if times is None:
        while True:
            yield object
    else:
        for i in range(times):
            yield object

Функция starmap()

Функция starmap() возвращает итератор, элементами которого являются элементы переданного итерируемого объекта iterable, к которым была применена функция func.

Аргументы функции:

func — произвольная функция
iterable — итерируемый объект, элементами которого являются итерируемые объекты

Функция starmap() используется вместо map() в том случае, когда элементами итерируемого объекта являются другие итерируемые объекты, скажем, кортежи, и каждый элемент этих кортежей должен быть передан в функцию function в качестве самостоятельного аргумента.

In [8]:
from itertools import starmap

persons = [('Timur', 'Guev'), ('Arthur', 'Kharisov')]
pairs = [(1, 3), (2, 5), (6, 4)]
points = [(1, 1, 1), (1, 1, 2), (2, 2, 3)]

full_names = list(starmap(lambda name, surname: f'{name} {surname}', persons))

print(full_names)
print(*starmap(lambda a, b: a + b, pairs))
print(*starmap(lambda x, y, z: x * y * z, points))

['Timur Guev', 'Arthur Kharisov']
4 7 10
1 2 12


Разница между функциями map() и starmap() заключается в способе передачи аргументов вызываемой функции function и аналогична разнице между function(a, b) и function(*c).

Функция starmap() примерно эквивалентна следующему коду:

In [None]:
def starmap(function, iterable):
    for args in iterable:
        yield function(*args)

# Эта функция принимает:
# 
# function — функцию, которую надо применить.
# iterable — последовательность кортежей (или других итерируемых объектов).
# На каждой итерации достаёт args из iterable и разворачивает (*args) его в function.

Функция accumulate()

Функция accumulate() возвращает итератор, элементами которого являются накопленные суммы или накопленные результаты функции func.

Аргументы функции:

iterable — итерируемый объект
func — функция, принимающая два аргумента, по умолчанию используется функция сложения operator.add
initial — начальное значение, по умолчанию имеет значение None

Функция работает аналогично функции reduce() за тем исключением, что функция accumulate() генерирует все промежуточные результаты, а не только конечный.

In [9]:
from itertools import accumulate
import operator

data = [3, 4, 6, 2, 1, 9, 0, 7, 5, 8]

print(list(accumulate(data)))
print(list(accumulate(data, operator.mul)))
print(list(accumulate(data, max)))
print(list(accumulate(data, min)))

[3, 7, 13, 15, 16, 25, 25, 32, 37, 45]
[3, 12, 72, 144, 144, 1296, 0, 0, 0, 0]
[3, 4, 6, 6, 6, 9, 9, 9, 9, 9]
[3, 3, 3, 2, 1, 1, 0, 0, 0, 0]


Обычно количество элементов результирующего итератора совпадает с количеством элементов итерируемого объекта. Однако, если задано значение аргумента initial, то накопление начинается с начального значения initial, и в этом случае результирующий итератор будет иметь один дополнительный элемент.

In [10]:
from itertools import accumulate

print(list(accumulate([1, 2, 3, 4, 5], initial=100)))

[100, 101, 103, 106, 110, 115]


Функция accumulate() примерно эквивалентна следующему коду:

In [None]:
import operator


def accumulate(iterable, func=operator.add, *, initial=None):
    it = iter(iterable)
    total = initial
    if initial is None:
        try:
            total = next(it)
        except StopIteration:
            return
    yield total
    for element in it:
        total = func(total, element)
        yield total

Примечание

Примечание 1. При импортировании модуля itertools полностью его обычно называют it:

In [None]:
import itertools as it

Примечание 2. Запустите приведенный ниже код у себя в IDE 😉.

In [11]:
import itertools as it
import time

symbols = ['.', '-', "'", '"', "'", '-', '.', '_']

for c in it.cycle(symbols):
    print(c, end='')
    time.sleep(0.05)

.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'"'-._.-'

KeyboardInterrupt: 

In [12]:
import time

symbols = ['.', '-', "'", '"', "'", '-', '.', '_']

while True:
    symbols = '\r' + symbols.pop() + ''.join(symbols)
    print(symbols, end='')
    symbols = list(symbols)[1:]
    time.sleep(0.1)

"'-._.-'

KeyboardInterrupt: 

In [16]:
import itertools as it
import time
import sys

dicso = ['🟥', '🟥', '🟧', '🟧', '🟨', '🟨', '🟧', '🟧',
         '🟥', '🟥', '🟧', '🟧', '🟨', '🟨', '🟧', '🟧',
         '🟩', '🟩', '🟦', '🟦', '🟪', '🟪', '🟦', '🟦',
         '🟩', '🟩', '🟦', '🟦', '🟪', '🟪', '🟦', '🟦', ]

dance = [r'__(ツ)__', r'\_(ツ)__', r'¯\(ツ)__', r'¯¯(ツ)__', r'/¯(ツ)\_',
         r'_/(ツ)¯\\', r'__(ツ)¯¯', r'__(ツ)/¯', r'__(ツ)_/', r'__(ツ)__',
         r'__(ツ)__', r'__(ツ)_/', r'__(ツ)/¯', r'__(ツ)¯¯', r'_/(ツ)¯\\',
         r'/¯(ツ)\_', r'¯¯(ツ)__', r'¯\(ツ)__', r'\_(ツ)__', r'__(ツ)__']

dance = ['__(ツ)__', '\\_(ツ)__', '¯\\(ツ)__', '¯¯(ツ)__', '/¯(ツ)\\_',
         '_/(ツ)¯\\\\', '__(ツ)¯¯', '__(ツ)/¯', '__(ツ)_/', '__(ツ)__',
         '__(ツ)__', '__(ツ)_/', '__(ツ)/¯', '__(ツ)¯¯', '_/(ツ)¯\\\\',
         '/¯(ツ)\\_', '¯¯(ツ)__', '¯\\(ツ)__', '\\_(ツ)__', '__(ツ)__']

# Количество шагов (сколько раз будет меняться анимация)
steps = 100

for i, (light, move) in enumerate(zip(it.cycle(dicso), it.cycle(dance))):
    text = f'{light} {move} {light}'
    sys.stdout.write("\r" + text + " " * 10)  # Очищаем хвост
    sys.stdout.flush()
    time.sleep(0.075)

    if i >= steps:
        break  # Останавливаем анимацию через `steps` итераций

print("\n💃 Танец окончен! 🕺")  # Завершающее сообщение


🟨 __(ツ)__ 🟨           
💃 Танец окончен! 🕺


Функция tabulate()
Реализуйте функцию tabulate(), которая принимает один аргумент:

func — произвольная функция
Функция tabulate() должна возвращать итератор, генерирующий бесконечную последовательность возвращаемых значений функции func сначала с аргументом 1, затем 2, затем 3, и так далее.

In [34]:
from itertools import count


def tabulate(func):
    counter = count(1)
    result = (func(number) for number in counter)
    yield from result


def tabulate(func):
    return map(func, count(1))


def tabulate(func):
    for i in count(1):
        yield func(i)


def tabulate(func):
    counter = count(1)
    while True:
        yield func(next(counter))


def tabulate(func):
    counter = count(1)
    return iter(lambda: func(next(counter)), None)


func = lambda x: x
values = tabulate(func)
print(next(values))
print(next(values))

1
2


Функция factorials()
Реализуйте функцию factorials() с использованием функции accumulate(), которая принимает один аргумент:

n — натуральное число
Функция должна возвращать итератор, генерирующий последовательность из n чисел, каждое из которых является факториалом очередного натурального числа.

In [50]:
from itertools import accumulate
import operator

def factorials(n: int):
    sequence = (i for i in range(1, n + 1))
    result = accumulate(sequence, lambda x, y: x * y)
    yield from result

def factorials(n):
    sequence = (i for i in range(1, n + 1))
    return accumulate(sequence, operator.mul)

numbers = factorials(6)
print(*numbers)

numbers = factorials(2)
print(next(numbers))
print(next(numbers))

1 2 6 24 120 720
1
2


Функция alnum_sequence()
Реализуйте функцию alnum_sequence(), которая не принимает никаких аргументов.

Функция должна возвращать итератор, циклично генерирующий бесконечную последовательность натуральных чисел и заглавных латинских букв:
1,A,2,B,3,C,..,X,25,Y,26,Z

In [14]:
import string
from itertools import count, cycle

def alnum_sequence():
    numbers = cycle(range(1, 27))
    letters = cycle(string.ascii_uppercase)
    for num, letter in zip(numbers, letters):
        yield str(num)
        yield letter
    
alnum = alnum_sequence() 
print(*(next(alnum) for _ in range(55)))

alnum = alnum_sequence()
print(*(next(alnum) for _ in range(100)))

1 A 2 B 3 C 4 D 5 E 6 F 7 G 8 H 9 I 10 J 11 K 12 L 13 M 14 N 15 O 16 P 17 Q 18 R 19 S 20 T 21 U 22 V 23 W 24 X 25 Y 26 Z 1 A 2
1 A 2 B 3 C 4 D 5 E 6 F 7 G 8 H 9 I 10 J 11 K 12 L 13 M 14 N 15 O 16 P 17 Q 18 R 19 S 20 T 21 U 22 V 23 W 24 X 25 Y 26 Z 1 A 2 B 3 C 4 D 5 E 6 F 7 G 8 H 9 I 10 J 11 K 12 L 13 M 14 N 15 O 16 P 17 Q 18 R 19 S 20 T 21 U 22 V 23 W 24 X


Функция roundrobin() 🌶️
Реализуйте функцию roundrobin(), которая принимает произвольное количество позиционных аргументов, каждый из которых является итерируемым объектом.

Функция должна возвращать итератор, генерирующий последовательность из элементов всех переданных итерируемых объектов: сначала первый элемент первого итерируемого объекта, затем первый элемент второго итерируемого объекта, и так далее; после второй элемент первого итерируемого объекта, затем второй элемент второго итерируемого объекта, и так далее.

Примечание 1. Элементы итерируемых объектов в возвращаемом функцией итераторе должны располагаться в своем исходном порядке.

Примечание 2. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [54]:
from itertools import zip_longest

def roundrobin(*args):
    if not args:
        return
    for group in zip_longest(*args, fillvalue=''):
        for item in group:
            if item != '':
                yield item

# Просто по очереди опустошаем итераторы, а если все пустые, то останавливаем цикл while
def roundrobin(*args):
    iters = tuple(iter(a) for a in args)    # Преобразуем все аргументы в итераторы
    while True:
        err_counter = 0
        # цикл, который проходит по всем итераторам из iters. Каждый итератор по очереди будет возвращать элементы.
        for i in iters:
            try: res = next(i)
            except: err_counter += 1        # Если итератор завершён, увеличиваем счётчик ошибок
            else: yield res
        if err_counter == len(iters):       # Если все итераторы завершены (ошибок столько же, сколько итераторов) 
            break
            
print(*roundrobin('abc', 'd', 'ef'))
print(list(roundrobin()))
numbers = [1, 2, 3]
letters = iter('beegeek')
print(*roundrobin(numbers, letters))

a d e b f c
[]
1 b 2 e 3 e g e e k
