Тема урока: итераторы
Особенности итераторов
Встроенные функции, порождающие итераторы
Аннотация. Урок посвящен особенностям итераторов, а также встроенным функциям, которые порождают итераторы.

Особенности итераторов

Как мы уже выяснили, итератор — специальный объект, который выдает свои элементы по одному за раз.

Если итератор передать во встроенную функцию next(), то эта функция вернет его следующий элемент. При этом сам итератор также сдвинется на следующий элемент. При следующем вызове функция next() вернет следующий элемент и т.д. Если же в итераторе элементов больше не осталось, то вызов функции next() приведет к возбуждению исключения StopIteration, а сам итератор становится совершенно бесполезным, так как опустошен.

Итераторы очень глубоко интегрированы в язык Python, и многие языковые конструкции позволяют их использовать.

Цикл for

Самое простое, что можно сделать с итератором, — это его последовательный обход с помощью цикла for

In [1]:
numbers = [-3, 6, 1, -90, 34, -25, 23, -21]

positive_numbers = map(abs, numbers)  # создаем объект итератора

for num in positive_numbers:  # обходим итератор циклом for
    print(num)

3
6
1
90
34
25
23
21


По сути, за кулисами цикл for вызывает встроенную функцию next(), передавая ей в качестве аргумента итератор positive_numbers. Функция next() последовательно возвращает значения итератора, применяя к ним функцию abs() до тех пор, пока не будет возвращено последнее значение, после чего возбуждается исключение StopItеration, и цикл for завершается. По мере вызова функции next() итератор positive_numbers опустошается и в конце концов становится совершенно бесполезным.

In [2]:
numbers = [-3, 6, 1, -90, 34, -25, 23, -21]

positive_numbers = map(abs, numbers)  # создаем объект итератора

for num in positive_numbers:  # обходим итератор циклом for
    print(num)

for num in positive_numbers:  # обходим пустой итератор, тело цикла выполнено не будет
    print(num)

3
6
1
90
34
25
23
21


поскольку после первого цикла for итератор positive_numbers становится пустым и его повторный обход ни к чему не приведет.

Обратите внимание на то, что цикл for сам перехватывает исключение StopIteration. Если самостоятельно вызвать функцию next() на пустом итераторе, мы получим исключение.

In [3]:
numbers = [-3, 6, 1, -90, 34, -25, 23, -21]

positive_numbers = map(abs, numbers)  # создаем объект итератора

for num in positive_numbers:  # обходим итератор циклом for
    print(num)

print(next(positive_numbers))  # пытаемся получить элемент из пустого итератора

3
6
1
90
34
25
23
21


StopIteration: 

Преобразование в коллекцию

Помимо последовательного прохода по итератору с помощью цикла for мы можем использовать встроенные функции list(), tuple() и т.д. для преобразования итератора в коллекцию.

In [26]:
numbers = [-3, 6, 1, -90, 34, -25, 23, -21]

positive_numbers = map(abs, numbers)  # создаем объект итератора
positive_numbers_list = list(positive_numbers)  # преобразуем итератор в список

print(positive_numbers_list)
print(list(positive_numbers) == [])


[3, 6, 1, 90, 34, 25, 23, 21]
True


Функция list() в данном случае преобразует итератор в список и за кулисами обходит итератор до конца, тем самым опустошая его.

In [27]:
numbers = [-3, 6, 1, -90, 34, -25, 23, -21]

positive_numbers = map(abs, numbers)  # создаем объект итератора

positive_numbers_list1 = list(positive_numbers)  # преобразуем итератор в список
positive_numbers_list2 = list(positive_numbers)  # преобразуем пустой итератор в список

print(positive_numbers_list1)
print(positive_numbers_list2)

[3, 6, 1, 90, 34, 25, 23, 21]
[]


Так как получить элементы итератора возможно лишь единожды, второй список оказывается пустым.

Оператор принадлежности in

Оператор принадлежности in работает и с итераторами. Проверка на вхождение осуществляется путем перебора всех элементов последовательно, и как только элемент обнаружен, поиск прекращается.

In [28]:
numbers = [4, 8, 15, 16, 23, 42]

iterator = iter(numbers)  # создаем итератор на основе списка

print(15 in iterator)

True


Однако тут нужно понимать, что по мере поиска итератор опустошается, поскольку оператор in за кулисами вызывает функцию next() для получения следующего элемента.

In [35]:
numbers = [4, 8, 15, 16, 23, 42]

iterator = iter(numbers)  # создаем итератор на основе списка

print(15 in iterator)
print(15 in iterator)
print(4 in iterator)
print(23 in iterator)

True
False
False
False


При этом после второй проверки на принадлежность итератор iterator полностью опустошается и последующие поиски по нему всегда будут приводить к результату False

In [36]:
numbers = [4, 8, 15, 16, 23, 42]

iterator = iter(numbers)  # создаем итератор на основе списка

print(15 in iterator)
print(23 in iterator)

True
True


поскольку как только элемент 15 обнаружен, поиск прекращается, и в итераторе остается три числа 16,23,42.

Распаковка итератора

Мы также можем распаковывать содержимое итератора, автоматически опустошая его.

In [37]:
numbers = [4, 8, 15, 16, 23, 42]

iterator = iter(numbers)  # создаем итератор на основе списка

print(*iterator)
print(list(iterator))

4 8 15 16 23 42
[]


Примечания

Примечание 2. Не забывайте, что встроенные типы list, tuple, set, dict, str не являются итераторами, хотя на их основе можно создавать итераторы.

In [38]:
numbers = [4, 8, 15, 16, 23, 42]

print(15 in numbers)
print(8 in numbers)
print(15 in numbers)
print(42 in numbers)

True
True
True
True


В то время как код:

In [39]:
numbers = [4, 8, 15, 16, 23, 42]

iterator = iter(numbers)  # создаем итератор на основе списка

print(15 in iterator)
print(8 in iterator)
print(15 in iterator)
print(42 in iterator)

True
False
False
False


In [40]:
non_zero = filter(None, [-2, -1, 0, 1, 2])
positive = map(abs, non_zero)

print(list(non_zero))
print(list(positive))

[-2, -1, 1, 2]
[]


In [43]:
non_zero = list(filter(None, [-2, -1, 0, 1, 2]))
positive = list(map(abs, non_zero))
print(list(non_zero))
print(list(positive))

[-2, -1, 1, 2]
[2, 1, 1, 2]


Функция map()

Функция map(function, *iterable) применяет пользовательскую функцию function к каждому элементу итерируемого объекта iterable. Каждый элемент iterable отправляется в функцию function в качестве аргумента.

Возвращаемое значение: функция map() возвращает итератор типа <class 'map'>.

Примечание: если в функцию map() передаётся несколько итерируемых объектов iterable, то пользовательская функция function должна принимать количество аргументов, соответствующее количеству переданных итерируемых объектов, при этом function будет применяться к элементам из всех итераций параллельно.

Преимущества использования: функция map() написана на языке C и хорошо оптимизирована, ее внутренний цикл более эффективный, чем обычный цикл for в Python. Функция map() потребляет мало памяти, так как возвращает ленивый итератор элементы которого извлекаются по запросу.

In [44]:
from sys import getsizeof

numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
letters = 'beegeek'

squares = map(lambda num: num ** 2, numbers)
capitals = map(str.upper, letters)

print(f'Тип итератора squares: {type(squares)}, размер: {getsizeof(squares)}')
print(f'Тип итератора capitals: {type(capitals)}, размер: {getsizeof(capitals)}')

print(*squares, sep=' ')
print(*capitals, sep=' ')

Тип итератора squares: <class 'map'>, размер: 48
Тип итератора capitals: <class 'map'>, размер: 48
1 4 9 16 25 36 49 64 81 100
B E E G E E K


Обратите внимание на размер итератора типа <class 'map'>, он всегда равен 48 байтам, независимо от размера итерируемого объекта.

Функция filter()

Функция filter(function, iterable) фильтрует (отбирает) элементы переданного итерируемого объекта iterable при помощи пользовательской функции function. Если фильтрующая функция function вернёт True, то элемент из итерируемого объекта iterable попадёт в результат выполнения функции filter(), если False — не попадёт.

Возвращаемое значение: функция filter() возвращает итератор типа <class 'filter'>.

Примечание: Если function=None, то в результат выполнения функции filter() попадут те элементы, которые при переводе в логический тип имеют значение True.

Преимущества использования: функция filter() написана на языке C и хорошо оптимизирована, ее внутренний цикл более эффективный, чем обычный цикл for в Python. Функция filter() потребляет мало памяти, так как возвращает итератор, элементы которого извлекаются по запросу.

In [46]:
from sys import getsizeof

numbers = [45, -90, -21, 4, 89, 43, 1234, 112, 999, 777, -765, -666]
objects = ('a', None, 45, True, 69.69, False, -1, 0, 'empty', '')

positive_numbers = filter(lambda num: num > 0, numbers)
print(positive_numbers)
not_nulls = filter(None, objects)
print(not_nulls)

print(f'Тип итератора positive_numbers: {type(positive_numbers)}, размер: {getsizeof(positive_numbers)}')
print(f'Тип итератора not_nulls: {type(not_nulls)}, размер: {getsizeof(not_nulls)}')

print(*positive_numbers, sep=' ')
print(*not_nulls, sep=' ')

<filter object at 0x000001D2B15DB790>
<filter object at 0x000001D2B1796C50>
Тип итератора positive_numbers: <class 'filter'>, размер: 48
Тип итератора not_nulls: <class 'filter'>, размер: 48
45 4 89 43 1234 112 999 777
a 45 True 69.69 -1 empty


Обратите внимание на размер итератора типа <class 'filter'>, он всегда равен 48 байтам, независимо от размера итерируемого объекта.

Функция enumerate()

Функция enumerate(iterable, start=0) нумерует элементы итерируемого объекта iterable, начиная со значения start

Возвращаемое значение: функция enumerate() возвращает итератор типа <class 'enumerate'>, содержащий кортежи вида (счётчик, элемент).

Примечание: по умолчанию нумерация начинается с нуля.

Преимущества использования: функция enumerate() потребляет мало памяти, так как возвращает итератор, элементы которого извлекаются по запросу.

In [47]:
from sys import getsizeof

seasons = ['Spring', 'Summer', 'Fall', 'Winter']
letters = 'beegeek'

numbered_seasons = enumerate(seasons)
numbered_letters = enumerate(letters, start=1)

print(f'Тип итератора numbered_seasons: {type(numbered_seasons)}, размер: {getsizeof(numbered_seasons)}')
print(f'Тип итератора numbered_letters: {type(numbered_letters)}, размер: {getsizeof(numbered_letters)}')

print(*numbered_seasons, sep=' ')
print(*numbered_letters, sep=' ')

Тип итератора numbered_seasons: <class 'enumerate'>, размер: 72
Тип итератора numbered_letters: <class 'enumerate'>, размер: 72
(0, 'Spring') (1, 'Summer') (2, 'Fall') (3, 'Winter')
(1, 'b') (2, 'e') (3, 'e') (4, 'g') (5, 'e') (6, 'e') (7, 'k')


Обратите внимание на размер итератора типа <class 'enumerate'>, он всегда равен 64 байтам, независимо от размера итерируемого объекта.

Функция zip()

Функция zip(*iterables, strict=False) объединяет элементы каждого из переданных итерируемых объектов *iterables

Возвращаемое значение: функция zip() возвращает итератор типа <class 'zip'>, содержащий кортежи, где i-й кортеж содержит i-й элемент из каждого итерируемого объекта.

Примечание: по умолчанию значение аргумента strict=False, то есть функция zip() останавливается, когда исчерпывается самый короткий итерируемый объект. Если установить значение strict=True, то функция zip() проверяет длины итерируемых объектов, вызывая ошибку ValueError, если они не совпадают. С одним итерируемым аргументом функция zip() возвращает итератор из кортежей с одним элементом, без аргументов функция возвращает пустой итератор. Параметр strict был добавлен в Python 3.10.

Преимущества использования: функция zip() потребляет мало памяти, так как возвращает итератор, элементы которого извлекаются по запросу.

In [48]:
from sys import getsizeof

languages = ['Python', 'C#', 'C', 'Delphi']
years = [1991, 2000, 1972, 1986]
authors = ('Guido van Rossum', 'Anders Hejlsberg', 'Dennis MacAlistair Ritchie', 'Anders Hejlsberg')

zip_iterator1 = zip(languages, years)
zip_iterator2 = zip(languages, years, authors)

print(f'Тип итератора zip_iterator1: {type(zip_iterator1)}, размер: {getsizeof(zip_iterator1)}')
print(f'Тип итератора zip_iterator2: {type(zip_iterator2)}, размер: {getsizeof(zip_iterator2)}')

print(*zip_iterator1, sep=' ')
print(*zip_iterator2, sep=' ')

Тип итератора zip_iterator1: <class 'zip'>, размер: 64
Тип итератора zip_iterator2: <class 'zip'>, размер: 64
('Python', 1991) ('C#', 2000) ('C', 1972) ('Delphi', 1986)
('Python', 1991, 'Guido van Rossum') ('C#', 2000, 'Anders Hejlsberg') ('C', 1972, 'Dennis MacAlistair Ritchie') ('Delphi', 1986, 'Anders Hejlsberg')


Обратите внимание на размер итератора типа <class 'zip'>, он всегда равен 64 байтам, независимо от размера итерируемого объекта.

Функция reversed()

Функция reversed(seq) перебирает элементы итерируемого объекта seq в обратном порядке.

Возвращаемое значение: функция reversed() возвращает итератор, содержащий элементы итерируемого объекта в обратном порядке.

Примечание 1: итерируемый объект, передаваемый в функцию reversed(), должен являться последовательностью.

Примечание 2: функция reversed() не создает копию и не изменяет оригинал исходного итерируемого объекта.

Преимущества использования: функция reversed() потребляет мало памяти, так как возвращает ленивый итератор элементы которого извлекаются по запросу.

In [49]:
from sys import getsizeof

years = [1991, 2000, 1972, 1986]
letters = 'beegeek'

backward_years = reversed(years)
backward_letters = reversed(letters)

print(f'Тип итератора backward_years: {type(backward_years)}, размер: {getsizeof(backward_years)}')
print(f'Тип итератора backward_letters: {type(backward_letters)}, размер: {getsizeof(backward_letters)}')

print(*backward_years, sep=' ')
print(*backward_letters, sep=' ')

Тип итератора backward_years: <class 'list_reverseiterator'>, размер: 48
Тип итератора backward_letters: <class 'reversed'>, размер: 48
1986 1972 2000 1991
k e e g e e b


Обратите внимание на размер итератора, он всегда равен 48 байтам, независимо от размера итерируемого объекта.

Примечания

Примечание 1. Встроенные функции max() и min() также умеют работать с любыми итерируемыми объектами, включая итераторы.

In [50]:
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

squares = map(lambda num: num ** 2, numbers)
cubes = map(lambda num: num ** 3, numbers)

print(max(squares))
print(min(cubes))

100
1


Однако нужно быть очень аккуратным при использовании итераторов в функциях max() и min(). Дело в том, что для поиска максимального и минимального значения функции должны полностью обойти итератор. А значит, после их применения итераторы становятся пустыми.

In [53]:
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

squares = map(lambda num: num ** 2, numbers)
cubes = map(lambda num: num ** 3, numbers)

print(max(squares))
print(min(cubes))

print(list(squares))
print(list(cubes))

100
1
[]
[]


Примечание 2. Встроенные функции all() и any() также умеют работать с любыми итерируемыми объектами, включая итераторы.

Примечание 3. Функция reduce() из модуля functools также работает с любыми итерируемыми объектами, включая итераторы. Функция reduce() обычно завершает цепочку итераторов и возвращает итоговый результат.

Примечание 4. Важно знать особенность встроенной функции sorted(). Такая функция принимает в качестве аргумента любой итерируемый объект, а возвращает отсортированный список, состоящий из элементов итерируемого объекта. Именно список, а не итератор. Таким образом функция sorted() работает не лениво, а записывает все данные из итерируемого объекта в память компьютера.

Примечание 5. Встроенная функция open(), открывающая файл, также возвращает итератор, который позволяет обойти содержимое файла, не загружая его целиком в память.

Примечание 6. Использование итераторов приводит к выигрышу с точки зрения потребляемой памяти. Однако при этом скорость программы замедляется.

Функция filterfalse()
Реализуйте функцию filterfalse() с использованием функции filter(), которая принимает два аргумента:

predicate — функция-предикат; если имеет значение None, то работает аналогично функции bool()
iterable — итерируемый объект
Функция должна работать противоположно функции filter(), то есть возвращать итератор, элементами которого являются элементы итерируемого объекта iterable, для которых функция predicate вернула значение False.

Примечание 1. Предикат — это функция, которая возвращает True или False в зависимости от переданного в качестве аргумента значения.

Примечание 2. Элементы итерируемого объекта в возвращаемом функцией итераторе должны располагаться в своем исходном порядке.

Примечание 3. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

Примечание 4. В тестирующую систему сдайте программу, содержащую только необходимую функцию filterfalse(), но не код, вызывающий ее.

In [85]:
from typing import Any, Iterable


def filterfalse(predicate: Any, iterable: Iterable):
    if predicate is None:
        predicate = bool
    return filter(lambda x: not predicate(x), iterable)


objects = [0, 1, True, False, 17, []]
print(*filterfalse(None, objects))

numbers = (1, 2, 3, 4, 5)
print(*filterfalse(lambda x: x % 2 == 0, numbers))

numbers = [1, 2, 3, 4, 5]
print(*filterfalse(lambda x: x >= 3, numbers))

0 False []
1 3 5
1 2


In [None]:
from itertools import filterfalse

Функция transpose()
Транспонированная матрица — матрица A T , полученная из исходной матрицы A заменой строк на столбцы. Например, если 
A=   
123
456
789
то 
AT = 
147
258
369 
То есть для получения транспонированной матрицы из исходной нужно каждую строчку исходной матрицы записать в виде столбца в том же порядке.

Реализуйте функцию transpose() с использованием функции zip(), которая принимает один аргумент:

matrix — матрица произвольной размерности
Функция должна возвращать транспонированную матрицу matrix.

Примечание 1. Под матрицей подразумеваются исключительно вложенные списки.

Примечание 2. Функция должна возвращать новую матрицу, а не изменять переданную.

Примечание 3. В тестирующую систему сдайте программу, содержащую только необходимую функцию transpose(), но не код, вызывающий ее.

In [95]:
def transpose(matrix: list):
    return [list(i) for i in zip(*matrix)]


matrix = [[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]

for row in transpose(matrix):
    print(row)

matrix = [[1, 2, 3, 4, 5],
          [6, 7, 8, 9, 10]]

for row in transpose(matrix):
    print(row)

[1, 4, 7]
[2, 5, 8]
[3, 6, 9]
[1, 6]
[2, 7]
[3, 8]
[4, 9]
[5, 10]


In [None]:
transpose = lambda matrix: list(map(list, zip(*matrix)))

Функция get_min_max() 😎
Реализуйте функцию get_min_max(), которая принимает один аргумент:

data — список произвольных объектов, сравнимых между собой
Функция должна возвращать кортеж, в котором первым элементом является индекс минимального элемента в списке data, вторым — индекс максимального элемента в списке data. Если список data пуст, функция должна вернуть значение None.

Примечание 1. Если минимальных / максимальных элементов несколько, следует вернуть индексы первого по порядку элемента.

Примечание 2. В тестирующую систему сдайте программу, содержащую только необходимую функцию get_min_max(), но не код, вызывающий ее.

In [111]:
def get_min_max(data: list):
    if not data:
        return None
    min_pair = min(enumerate(data), key=lambda pair: pair[1])
    max_pair = max(enumerate(data), key=lambda pair: pair[1])
    return min_pair[0], max_pair[0]


data = [2, 3, 8, 1, 7]
print(get_min_max(data))

data = []
print(get_min_max(data))

(3, 2)
None


In [None]:
def get_min_max(data):
    if not data:
        return None
    d = dict(enumerate(data))
    return min(d, key=d.get), max(d, key=d.get)

In [None]:
def get_min_max(data):
    x = enumerate(data)
    if len(data) > 0:
        return data.index(min(data)), data.index(max(data))

Функция starmap()
Как известно, функция map() принимает функцию и итерируемый объект и возвращает итератор, элементами которого являются элементы итерируемого объекта, к которым была применена переданная функция. Нередко элементами итерируемого объекта являются коллекции (списки, кортежи, ..), тогда внутри переданной функции нам приходится обращаться к каждому элементу этих коллекций по индексу. Например:

persons = [('Timur', 'Guev'), ('Arthur', 'Kharisov')]

full_names = map(lambda tup: tup[0] + ' ' + tup[1], persons)
Было бы удобно иметь функцию, назовем ее starmap(), которая бы принимала функцию не с одним аргументом, а с несколькими — каждым элементом коллекции:

persons = [('Timur', 'Guev'), ('Arthur', 'Kharisov')]

full_names = starmap(lambda name, surname: f'{name} {surname}', persons)
Реализуйте функцию starmap() с использованием функции map(), которая принимает два аргумента:

func — функция
iterable — итерируемый объект, элементами которого являются коллекции
Функция starmap() должна работать аналогично функции map(), то есть возвращать итератор, элементами которого являются элементы итерируемого объекта iterable, к которым была применена функция func, с единственным отличием: func должна принимать не один аргумент — коллекцию (элемент iterable), а каждый элемент этой коллекции в качестве самостоятельного аргумента.

In [119]:
def starmap(func, iterable):
    return map(func, *zip(*iterable))
# Сначала мы распаковываем список и получаем (1, 3) (2, 5) (6, 4) потом zip мы собираем это в (1, 2, 6) и (3, 5, 4)

pairs = [(1, 3), (2, 5), (6, 4)]
print(*starmap(lambda a, b: a + b, pairs))

points = [(1, 1, 1), (1, 1, 2), (2, 2, 3)]
print(*starmap(lambda x, y, z: x * y * z, points))

4 7 10
1 2 12


In [None]:
def starmap(func, iterable):
    return [func(*i) for i in iterable]

In [None]:
from itertools import starmap

Функция get_min_max() 😳
Реализуйте функцию get_min_max(), которая принимает один аргумент:

iterable — итерируемый объект, элементы которого сравнимы между собой
Функция должна возвращать кортеж, в котором первым элементом является минимальный элемент итерируемого объекта iterable, вторым — максимальный элемент итерируемого объекта iterable. Если итерируемый объект iterable пуст, функция должна вернуть значение None.

In [141]:
from typing import Iterable, Optional, Tuple

def get_min_max(iterable: Iterable) -> Optional[Tuple[int, int]]:
    try:
        iterator = iter(iterable)
        first_value = next(iterator)  # Получаем первый элемент (чтобы избежать пустого итератора)
        min_value = max_value = first_value

        for value in iterator:  # Перебираем элементы
            if value < min_value:
                min_value = value
            if value > max_value:
                max_value = value

        return min_value, max_value

    except StopIteration:
        return None  # Если итератор пустой

iterable = iter(range(10))
print(get_min_max(iterable))

iterable = [6, 4, 2, 33, 19, 1]
print(get_min_max(iterable))

iterable = iter([])
print(get_min_max(iterable))

data = iter(range(100_000_000))
print(get_min_max(data))

(0, 9)
(1, 33)
None
(0, 99999999)


In [None]:
import copy

def get_min_max(iterable):
    try:
        C=copy.deepcopy(iterable)
        return(min(C),max(iterable))
    except:return None