# itertools: функции-итераторы

Модуль __itertools__ включает ряд функций, предназначенных для обработки последовательностей. Их прообразом послужили аналогичные средства таких языков функционального программирования, как ___Clojure, Haskell, APL и SML___.

Указанные функции предназначены для повышения эффективности использования памяти и ускорения выполнения операций. Их также можно использовать совместно для создания более сложных итерационных алгоритмов. Основанный на итераторах код обеспечивает лучшие характеристики использования памяти, чем код, основанный на использовании списков. Поскольку итератор не возвращает данные до тех пор, пока они не потребуются, отпадает
необходимость в хранении всего набора данных в памяти. Такая модель отложенной обработки сглаживает отрицательное влияние подкачки и других побочных эффектов, связанных c обработкой больших объемов данных, на производительность.

## Объединение и разделение итераторов

Функция __chain()__ получает несколько итераторов в качестве аргументов и создает итератор, который поочередно обрабатывает все входные итерируемые объекты, возвращая их элементы, как если бы они принадлежали одному входному итератору.

Эта функция упрощает обработку нескольких последовательностей, не требуя предварительного конструирования объединенного списка.

In [28]:
from itertools import *

for i in chain([1, 2, 3], ['a', 'b', 'c']):
    print(i, end=' ') 

1 2 3 a b c 

В тех случаях, когда объединяемые итерируемые объекты неизвестны заранее или должны определяться в режиме отложенных вычислений, для конструирования цепочки итераторов можно использовать функцию __chain.from_iterable()__.

In [8]:
from itertools import *


def make_iterables_to_chain():
    yield [1, 2, 3]
    yield ['a', 'b', 'c']


for i in chain.from_iterable(make_iterables_to_chain()):
    print(i, end=' ') 

1 2 3 a b c 


Встроенная функция __zip()__ возвращает итератор, объединяющий элементы нескольких итераторов в кортежи.

In [30]:
for i in zip([1, 2, 3,436,436347], ['a', 'b', 'c', 'fdh']):
    print(i)

(1, 'a')
(2, 'b')
(3, 'c')
(436, 'fdh')


Как и в случае других функций, входящих в состав этого модуля, возвращаемое значение представляет собой итерируемый объект, выдающий значения по одному за раз.

Функция __zip()__ прекращает работу, как только исчерпывается один из входных итераторов. Чтобы обеспечить обработку всех входных элементов даже в тех случаях, когда итераторы вырабатывают разное количество значений, используйте функцию __zip_longest()__.

In [32]:
from itertools import *

r1 = range(3)
r2 = range(2)

print('zip stops early:')
print(list(zip(r1, r2)))

r1 = range(3)
r2 = range(2)

print('\nzip_longest processes all of the values:')
print(list(zip_longest(r1, r2,fillvalue=0)))

zip stops early:
[(0, 0), (1, 1)]

zip_longest processes all of the values:
[(0, 0), (1, 1), (2, 0)]


По умолчанию функция __zip_longest()__ подставляет значение None вместо отсутствующих значений. Чтобы определить другое подстановочное значение, используйте аргумент __fillvalue__.

Функция __islice()__ создает итератор, который возвращает итератор, выдающий входные элементы в соответствии c заданными индексами.

In [10]:
from itertools import *

print('Stop at 5:')
for i in islice(range(100), 5):
    print(i, end=' ')
print('\n')

print('Start at 5, Stop at 10:')
for i in islice(range(100), 5, 10):
    print(i, end=' ')
print('\n')

print('By tens to 100:')
for i in islice(range(100), 0, 100, 10):
    print(i, end=' ')
print('\n')

Stop at 5:
0 1 2 3 4 

Start at 5, Stop at 10:
5 6 7 8 9 

By tens to 100:
0 10 20 30 40 50 60 70 80 90 



Функция __islice()__ имеет те же аргументы, что и оператор взятия среза списка: __start, stop__ и __step__. Аргументы __start__ и __step__ — необязательные.

Функция __tee()__ позволяет создать несколько независимых итераторов (по умолчанию — 2) на основе одного и того же итерируемого объекта.

In [11]:
from itertools import *

r = islice(count(), 5)
i1, i2 = tee(r)

print('i1:', list(i1))
print('i2:', list(i2))

i1: [0, 1, 2, 3, 4]
i2: [0, 1, 2, 3, 4]


Семантика функции __tee()__ аналогична семантике утилиты __tee__ в ___Unix___, которая повторяет значения, читаемые из входного потока, и записывает их в именованный файл или стандартный вывод. Итераторы, возвращаемые функцией __tee()__, могут быть использованы c целью передачи одного и того же набора данных нескольким алгоритмам для их параллельной обработки.

Новые итераторы, созданные функцией __tee()__, разделяют данные c исходным итератором, и поэтому после их создания исходный итератор использоваться не должен.

In [12]:
from itertools import *

r = islice(count(), 5)
i1, i2 = tee(r)

print('r:', end=' ')
for i in r:
    print(i, end=' ')
    if i > 1:
        break
print()

print('i1:', list(i1))
print('i2:', list(i2))

r: 0 1 2 
i1: [3, 4]
i2: [3, 4]


Значения, обработанные ранее исходным итератором, не будут возвращаться вновь созданными итераторами.

## Преобразование входных данных

Встроенная функция __map()__ создает итератор, который вызывает заданную преобразующую функцию c аргументами, определяемыми значениями входных
итераторов, и возвращает результаты. Этот процесс прекращается после исчерпания значений любого из входных итераторов.

In [33]:
def times_two(x):
    return 2 * x


def multiply(x, y):
    return (x, y, x * y)


print('Doubles:')
for i in map(times_two, range(5)):
    print(i)

print('\nMultiples:')
r1 = range(5)
r2 = range(5, 10)
for i in map(multiply, r1, r2):
    print('{:d} * {:d} = {:d}'.format(*i))

print('\nStopping:')
r1 = range(5)
r2 = range(5)
for i in map(multiply, r1, r2):
    print(i)

Doubles:
0
2
4
6
8

Multiples:
0 * 5 = 0
1 * 6 = 6
2 * 7 = 14
3 * 8 = 24
4 * 9 = 36

Stopping:
(0, 0, 0)
(1, 1, 1)
(2, 2, 4)
(3, 3, 9)
(4, 4, 16)


В первом примере лямбда-функция умножает входные значения на 2. Во втором примере лямбда-функция перемножает пару аргументов, получаемых из независимых итераторов, и возвращает кортеж, включающий исходные аргументы и вычисленное значение. Выполнение третьего примера прекращается после создания двух кортежей ввиду исчерпания второго диапазона.

Функция __starmap()__ аналогична функции __map()__, но имеет всего два аргумента: лямбда-функцию и последовательность кортежей, задаваемую c помощью синтаксиса __*__, в которой каждый кортеж предоставляет аргументы лямбда-функции.

In [23]:
from itertools import *

values = [(0, 5), (1, 6), (2, 7), (3, 8), (4, 9)]

for i in starmap(lambda x, y: (x, y, x * y), values):
    print('{} * {} = {}'.format(*i))

0 * 5 = 0
1 * 6 = 6
2 * 7 = 14
3 * 8 = 24
4 * 9 = 36


Если преобразующая функция, передаваемая функции __map()__, вызывается как
__f(i1, i2)__, то преобразующая функция, передаваемая функции __starmap()__, вызывается как __f(*i)__.

## Создание новых значений

Функция __count()__ создает итератор, вырабатывающий бесконечную последовательность целых чисел. Начальное значение может быть указано в качестве аргумента (по умолчанию — 0). Аргумент для задания верхней границы не предусмотрен (более полный контроль над результирующим набором значений обеспечивает встроенная функция __range()__).

In [24]:
from itertools import *

for i in zip(count(1), ['a', 'b', 'c']):
    print(i)

(1, 'a')
(2, 'b')
(3, 'c')


Выполнение примера прекращается по исчерпании элементов списка, заданного в качестве аргумента.

Аргументами __start__ и __step__ функции __count()__ могут быть любые числовые значения, допускающие операцию сложения.

In [25]:
import fractions
from itertools import *

start = fractions.Fraction(1, 3)
step = fractions.Fraction(1, 3)

for i in zip(count(start, step), ['a', 'b', 'c']):
    print('{}: {}'.format(*i))

1/3: a
2/3: b
1: c


В этом примере начальное значение и шаг представлены объектами __Fraction__ из модуля __fraction__.

Функция __cycle()__ создает итератор, повторяющий содержимое аргументов бесконечное количество раз. Поскольку эта функция должна запоминать все содержимое входного итератора, она может потреблять много памяти в случае длинных входных последовательностей.

In [35]:
from itertools import *

for i in zip(range(10), cycle(['a', 'b', 'c'])):
    print(i)

(0, 'a')
(1, 'b')
(2, 'c')
(3, 'a')
(4, 'b')
(5, 'c')
(6, 'a')
(7, 'b')
(8, 'c')
(9, 'a')


В этом примере выполнение цикла прерывается по исчерпании значений счетчика.

Функция __repeat()__ создает итератор, возвращающий одно и то же значение при каждом обращении к нему.

In [37]:
from itertools import *

for i in repeat('over-and-over', 10):
    print(i)

over-and-over
over-and-over
over-and-over
over-and-over
over-and-over
over-and-over
over-and-over
over-and-over
over-and-over
over-and-over


Итератор, созданный функцией __repeat()__, может возвращать данные бесконечное число раз, однако количество повторений можно ограничить c помощью необязательного аргумента __times__.

Функцию __repeat()__ удобно использовать совместно c функциями __zip()__ и __map()__, если со значениями, возвращаемыми другими итераторами, должно сочетаться некое инвариантное значение

In [1]:
from itertools import *

for i, s in zip(count(), repeat('over-and-over', 5)):
    print(i, s)

0 over-and-over
1 over-and-over
2 over-and-over
3 over-and-over
4 over-and-over


В этом примере значение счетчика объединяется c константой, возвращаемой
функцией __repeat()__.

В следующем примере функция __map()__ используется для умножения на 2 чисел в диапазоне 0-4.


In [13]:
from itertools import *

for i in map(lambda x, y: (x, y, x * y), repeat(2), range(5)):
    print('{:d} * {:d} = {:d}'.format(*i))

2 * 0 = 0
2 * 1 = 2
2 * 2 = 4
2 * 3 = 6
2 * 4 = 8


В данном случае итератор, возвращаемый функцией __repeat()__, не нуждается в явном ограничении числа повторений, поскольку обработка c помощью функции __map()__ прекращается сразу же, как только исчерпывается любой из ее входных итераторов, а функция __range()__ возвращает только пять элементов.

## Фильтрация

Функция __dropwhile()__ создает итератор, который начинает воспроизводить
элементы входного итератора сразу же после того, как для заданного условия будет получено ложное значение.

In [3]:
from itertools import *


def should_drop(x):
    print('Testing:', x)
    return x < 1


for i in dropwhile(should_drop, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)

Testing: -1
Testing: 0
Testing: 1
Yielding: 1
Yielding: 2
Yielding: -2


Функция __dropwhile()__ не тестирует все элементы входной последовательности. Как только условие принимает ложное значение, она начинает возвращать все оставшиеся элементы.

Действия функции __takewhile()__ противоположны действиям функции __dropwhile()__. Она создает итератор, который выдает элементы из входного итератора, пока тестирующая функция возвращает истинное значение.

In [4]:
from itertools import *


def should_take(x):
    print('Testing:', x)
    return x < 2


for i in takewhile(should_take, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)

Testing: -1
Yielding: -1
Testing: 0
Yielding: 0
Testing: 1
Yielding: 1
Testing: 2


Как только функция __should_take()__ возвращает ложное значение, функция __takewhile()__ прекращает обработку входной последовательности.

Встроенная функция __filter()__ создает итератор, включающий только те элементы, для которых тестирующая функция возвращает истинное значение.


In [38]:
from itertools import *


def check_item(x):
    print('Testing:', x)
    return x < 1


for i in filterfalse(check_item, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)

Testing: -1
Testing: 0
Testing: 1
Yielding: 1
Testing: 2
Yielding: 2
Testing: -2


Функция __filter()__ отличается от функций __dropwhile()__ и __takewhile()__ тем,
что тестирует каждый элемент входной последовательности, прежде чем вернуть его.

Функция __filterfalse()__ создает итератор, включающий лишь те элементы,
для которых тестирующая функция возвращает ложное значение.

Тестовое выражение в __check_item()__ осталось прежним, поэтому результаты,
полученные в данном примере c использованием функции __filterfalse()__, противоположны тем, которые были получены в предыдущем примере.

Функция __compress()__ предлагает другой способ фильтрации содержимого итерируемого объекта. Вместо того чтобы вызывать функцию, она использует значения другого итерируемого объекта для индикации того, следует ли принять значение или игнорировать его.

In [39]:
from itertools import *

every_third = cycle([False, True, True])
data = range(1, 10)

for i in compress(data, every_third):
    print(i, end=' ')
print()

2 3 5 6 8 9 


Первый аргумент — это итерируемые данные, подлежащие обработке. Второй
аргумент — это итерируемый селектор, который предоставляет значения, указывающие на то, какие входные значения следует принимать (истинному значению соответствует воспроизведение входных значений, ложному — их игнорирование).

## Группирование данных

Функция __groupby()__ возвращает итератор, который создает наборы значений,
группируемые в соответствии c общим признаком. В следующем примере продемонстрировано группирование родственных значений на основании значений
атрибута.

In [16]:
import functools
from itertools import *
import operator
import pprint


@functools.total_ordering
class Point:

    def __init__(self, x, y):
        self.x = x
        self.y = y

    def __repr__(self):
        return '({}, {})'.format(self.x, self.y)

    def __eq__(self, other):
        return (self.x, self.y) == (other.x, other.y)

    def __gt__(self, other):
        return (self.x, self.y) > (other.x, other.y)


# Create a dataset of Point instances
data = list(map(Point,
                cycle(islice(count(), 3)),
                islice(count(), 7)))
print('Data:')
pprint.pprint(data, width=35)
print()

# Try to group the unsorted data based on X values
print('Grouped, unsorted:')
for k, g in groupby(data, operator.attrgetter('x')):
    print(k, list(g))
print()

# Sort the data
data.sort()
print('Sorted:')
pprint.pprint(data, width=35)
print()

# Group the sorted data based on X values
print('Grouped, sorted:')
for k, g in groupby(data, operator.attrgetter('x')):
    print(k, list(g))
print()

Data:
[(0, 0),
 (1, 1),
 (2, 2),
 (0, 3),
 (1, 4),
 (2, 5),
 (0, 6)]

Grouped, unsorted:
0 [(0, 0)]
1 [(1, 1)]
2 [(2, 2)]
0 [(0, 3)]
1 [(1, 4)]
2 [(2, 5)]
0 [(0, 6)]

Sorted:
[(0, 0),
 (0, 3),
 (0, 6),
 (1, 1),
 (1, 4),
 (2, 2),
 (2, 5)]

Grouped, sorted:
0 [(0, 0), (0, 3), (0, 6)]
1 [(1, 1), (1, 4)]
2 [(2, 2), (2, 5)]



Чтобы группирование работало так, как ожидается, входная последовательность должна быть отсортирована по ключу.

## Комбинирование входных данных

Функция __accumulate()__ обрабатывает входные итерируемые объекты, передавая n-й и (n+1)-й элементы функции и возвращая получаемый c помощью этой функции результат вместо входных значений. Функция по умолчанию суммирует два значения, поэтому функцию __accumulate()__ можно использовать для получения накопительной суммы входных данных.

In [20]:
from itertools import *

print(list(accumulate(range(5))))
print(list(accumulate('abcde')))

[0, 1, 3, 6, 10]
['a', 'ab', 'abc', 'abcd', 'abcde']


В случае применения этой функции к значениям, не являющимся целыми числами, результат зависит от смысла операции “сложения”, объединяющей оба элемента. Как показывает второй из приведенных в этом сценарии примеров, при
передаче функции __accumulate()__ строки она возвращает c каждым разом все более удлиняющийся префикс этой строки.

Функцию __accumulate()__ можно использовать в сочетании c любой другой функцией, принимающей два входных значения, для получения других результатов.

In [21]:
from itertools import *


def f(a, b):
    print(a, b)
    return b + a + b


print(list(accumulate('abcde', f)))

a b
bab c
cbabc d
dcbabcd e
['a', 'bab', 'cbabc', 'dcbabcd', 'edcbabcde']


В этом примере в результате комбинирования строк образуется серия палиндромов (не несущих в себе никакого смысла). Каждый раз, когда вызывается функция __f()__, она выводит входные значения, переданные ей функцией __accumulate()__.

Вместо вложенных циклов, выполняющих итерации по нескольким последовательностям, часто можно использовать функцию __product()__, возвращающую
итерируемый объект, значениями которого являются декартовы произведения входных значений.

In [22]:
from itertools import *
import pprint

FACE_CARDS = ('J', 'Q', 'K', 'A')
SUITS = ('H', 'D', 'C', 'S')

DECK = list(
    product(
        chain(range(2, 11), FACE_CARDS),
        SUITS,
    )
)

for card in DECK:
    print('{:>2}{}'.format(*card), end=' ')
    if card[1] == SUITS[-1]:
        print()

 2H  2D  2C  2S 
 3H  3D  3C  3S 
 4H  4D  4C  4S 
 5H  5D  5C  5S 
 6H  6D  6C  6S 
 7H  7D  7C  7S 
 8H  8D  8C  8S 
 9H  9D  9C  9S 
10H 10D 10C 10S 
 JH  JD  JC  JS 
 QH  QD  QC  QS 
 KH  KD  KC  KS 
 AH  AD  AC  AS 


Значения, возвращаемые функцией __product()__, представляют собой кортежи, элементы которых берутся из каждого итерируемого объекта, переданного данной функции в качестве аргумента, в том порядке, в котором они передавались.
Первый кортеж включает первое значение из каждого итерируемого объекта.
Последний итерируемый объект, переданный функции __product()__, обрабатывается первым, затем обрабатывается предпоследний итерируемый объект и т.д. В результате этого порядок расположения возвращаемых значений основывается сначала на первом итерируемом объекте, затем на следующем и т.д.
В этом примере карты упорядочиваются сначала по старшинству, а затем по масти.

Порядок следования карт можно изменить, поменяв порядок передачи аргументов функции __product()__.

In [23]:
from itertools import *
import pprint

FACE_CARDS = ('J', 'Q', 'K', 'A')
SUITS = ('H', 'D', 'C', 'S')

DECK = list(
    product(
        SUITS,
        chain(range(2, 11), FACE_CARDS),
    )
)

for card in DECK:
    print('{:>2}{}'.format(card[1], card[0]), end=' ')
    if card[1] == FACE_CARDS[-1]:
        print()

 2H  3H  4H  5H  6H  7H  8H  9H 10H  JH  QH  KH  AH 
 2D  3D  4D  5D  6D  7D  8D  9D 10D  JD  QD  KD  AD 
 2C  3C  4C  5C  6C  7C  8C  9C 10C  JC  QC  KC  AC 
 2S  3S  4S  5S  6S  7S  8S  9S 10S  JS  QS  KS  AS 


В этом примере ожидается появление туза, а не пиковой масти, после чего добавляется символ перевода строки и выводится следующая строка.

Чтобы вычислить произведение последовательности на саму себя, следует указать количество повторений.

In [24]:
from itertools import *


def show(iterable):
    for i, item in enumerate(iterable, 1):
        print(item, end=' ')
        if (i % 3) == 0:
            print()
    print()


print('Repeat 2:\n')
show(list(product(range(3), repeat=2)))

print('Repeat 3:\n')
show(list(product(range(3), repeat=3)))

Repeat 2:

(0, 0) (0, 1) (0, 2) 
(1, 0) (1, 1) (1, 2) 
(2, 0) (2, 1) (2, 2) 

Repeat 3:

(0, 0, 0) (0, 0, 1) (0, 0, 2) 
(0, 1, 0) (0, 1, 1) (0, 1, 2) 
(0, 2, 0) (0, 2, 1) (0, 2, 2) 
(1, 0, 0) (1, 0, 1) (1, 0, 2) 
(1, 1, 0) (1, 1, 1) (1, 1, 2) 
(1, 2, 0) (1, 2, 1) (1, 2, 2) 
(2, 0, 0) (2, 0, 1) (2, 0, 2) 
(2, 1, 0) (2, 1, 1) (2, 1, 2) 
(2, 2, 0) (2, 2, 1) (2, 2, 2) 



Поскольку повторение одиночного итерируемого объекта определенное количество раз равносильно передаче того же количества одинаковых итерируемых объектов, количество элементов в каждом кортеже, создаваемом функцией
__product()__, будет равно счетчику повторений.

Функция __permutations()__ создает итератор, который возвращает все возможные перестановки заданной длины, образуемые из элементов входного итерируемого объекта.

In [25]:
from itertools import *


def show(iterable):
    first = None
    for i, item in enumerate(iterable, 1):
        if first != item[0]:
            if first is not None:
                print()
            first = item[0]
        print(''.join(item), end=' ')
    print()


print('All permutations:\n')
show(permutations('abcd'))

print('\nPairs:\n')
show(permutations('abcd', r=2))

All permutations:

abcd abdc acbd acdb adbc adcb 
bacd badc bcad bcda bdac bdca 
cabd cadb cbad cbda cdab cdba 
dabc dacb dbac dbca dcab dcba 

Pairs:

ab ac ad 
ba bc bd 
ca cb cd 
da db dc 


Для изменения длины возвращаемых перестановок и их количества используйте аргумент __r__.

Чтобы ограничить круг значений уникальными сочетаниями, а не перестановками, используйте функцию __combinations()__. Коль скоро все элементы входной последовательности являются уникальными, выходные последовательности не будут включать повторяющихся значений.

In [26]:
from itertools import *


def show(iterable):
    first = None
    for i, item in enumerate(iterable, 1):
        if first != item[0]:
            if first is not None:
                print()
            first = item[0]
        print(''.join(item), end=' ')
    print()


print('Unique pairs:\n')
show(combinations('abcd', r=2))

Unique pairs:

ab ac ad 
bc bd 
cd 


В отличие от функции __permutations()__, аргумент __r__ функции __combinations()__ является обязательным.

В то время как функция __combinations()__ не повторяет индивидуальные элементы входной последовательности, иногда полезно рассматривать сочетания, допускающие повторение элементов. В подобных случаях следует использовать функцию __combinations_with_replacement()__.

In [27]:
from itertools import *


def show(iterable):
    first = None
    for i, item in enumerate(iterable, 1):
        if first != item[0]:
            if first is not None:
                print()
            first = item[0]
        print(''.join(item), end=' ')
    print()


print('Unique pairs:\n')
show(combinations_with_replacement('abcd', r=2))

Unique pairs:

aa ab ac ad 
bb bc bd 
cc cd 
dd 


На этот раз каждый входной элемент образует сочетание c самим собой, а также c другими элементами входной последовательности.

## Задания