Функции, фильтрующие данные

К этой категории относятся следующие функции:

dropwhile()
takewhile()
filterfalse()
compress()
islice()

Функция dropwhile()

Функция dropwhile() возвращает итератор, который генерирует элементы из входного итерируемого объекта сразу же после того, как для заданного условия будет получено ложное значение.

Аргументы функции:

predicate — фильтрующая функция, возвращающая bool значение
iterable — итерируемый объект

In [1]:
from itertools import dropwhile

numbers = [1, 1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3]
words = ['is', 'an', 'of', 'python', 'C#', 'beegeek', 'is']

new_numbers = list(dropwhile(lambda num: num <= 5, numbers))
print(new_numbers)

for word in dropwhile(lambda s: len(s) == 2, words):
    print(word)

[6, 7, 8, 9, 10, 1, 2, 3]
python
C#
beegeek
is


Если требуется обеспечить более сложную логику фильтрации, то вместо использования лямбда функции нужно определить функцию явно.

In [3]:
from itertools import dropwhile

def should_drop(x):
    print('Testing:', x)
    return x < 1

for i in dropwhile(should_drop, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)
    
# в контексте dropwhile, более корректное слово для вывода значений будет "Yielding" (или "Выдача" на русском). Значения начинаются выводиться только после того, как условие перестает быть истинным.

Testing: -1
Testing: 0
Testing: 1
Yielding: 1
Yielding: 2
Yielding: -2


Функция dropwhile() примерно эквивалентна следующему коду:

In [None]:
def dropwhile(predicate, iterable):
    iterable = iter(iterable)
    for x in iterable:
        if not predicate(x):
            yield x
            break
    for x in iterable:
        yield x
# Предикат — это функция или выражение, которое возвращает логическое значение: True или False

Функция takewhile()

Функция takewhile() возвращает итератор, который генерирует элементы из входного итерируемого объекта до тех пор пока для заданного условия не будет получено ложное значение. По сути, действия функции takewhile() противоположны действиям функции dropwhile().

Аргументы функции:

predicate — фильтрующая функция, возвращающая bool значение
iterable — итерируемый объект

In [4]:
from itertools import takewhile

numbers = [1, 1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3]
words = ['is', 'an', 'of', 'python', 'C#', 'beegeek', 'is']

new_numbers = list(takewhile(lambda num: num <= 5, numbers))
print(new_numbers)

for word in takewhile(lambda s: len(s) == 2, words):
    print(word)

[1, 1, 2, 3, 4, 4, 5]
is
an
of


Если требуется обеспечить более сложную логику фильтрации, то вместо использования лямбда функции нужно определить функцию явно.

In [5]:
from itertools import takewhile

def should_take(x):
    print('Testing:', x)
    return x < 2

for i in takewhile(should_take, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)

Testing: -1
Yielding: -1
Testing: 0
Yielding: 0
Testing: 1
Yielding: 1
Testing: 2


Как только функция should_take() возвращает ложное значение, функция takewhile() прекращает обработку переданного итерируемого объекта.

Функция takewhile() примерно эквивалентна следующему коду:

In [None]:
def takewhile(predicate, iterable):
    for x in iterable:
        if predicate(x):
            yield x
        else:
            break

Функция filterfalse()

Функция filterfalse() возвращает итератор, который генерирует элементы из входного итерируемого объекта для которых заданное условие ложно. По сути, действия функции filterfalse() противоположны действиям встроенной функции filter().

Аргументы функции:

predicate — фильтрующая функция, возвращающая bool значение
iterable — итерируемый объект

In [6]:
from itertools import filterfalse

numbers = [1, 1, 2, 3, 4, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3]
words = ['is', 'an', 'of', 'python', 'C#', 'beegeek', 'is']

new_numbers = list(filterfalse(lambda num: num <= 5, numbers))
print(new_numbers)

for word in filterfalse(lambda s: len(s) == 2, words):
    print(word)

[6, 7, 8, 9, 10]
python
beegeek


Если predicate=None, то фильтрующая функция равнозначна функции bool()

Если требуется обеспечить более сложную логику фильтрации, то вместо использования лямбда функции нужно определить функцию явно.

In [7]:
from itertools import filterfalse

def check_item(x):
    print('Testing:', x)
    return x < 1

for i in filterfalse(check_item, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)

Testing: -1
Testing: 0
Testing: 1
Yielding: 1
Testing: 2
Yielding: 2
Testing: -2


Функция filterfalse() примерно эквивалентна следующему коду:

In [None]:
def filterfalse(predicate, iterable):
    if predicate is None:
        predicate = bool
    for x in iterable:
        if not predicate(x):
            yield x

Функция compress()

Функция compress() предлагает другой способ фильтрации содержимого итерируемого объекта. Вместо того чтобы вызывать функцию, она использует значения другого итерируемого объекта для индикации того, следует ли принять значение или игнорировать его.

Аргументы функции:

iterable — итерируемый объект
selectors — итерируемый объект, состоящий из значений True, False, который предоставляет значения, указывающие на то, какие входные значения следует брать, а какие следует игнорировать

In [8]:
from itertools import compress

data = 'ABCDEF'
selectors = [True, False, True, False, True, False]

result = compress(data, selectors)
print(list(result))

['A', 'C', 'E']


Обратите внимание на то, что функция compress() останавливается, когда исчерпан любой из итерируемых объектов iterable или selectors.

In [9]:
from itertools import compress

data = 'ABCDEF'
selectors = [True, False, True]

result = compress(data, selectors)
print(list(result))

['A', 'C']


Функция compress() примерно эквивалентна следующему коду:

In [10]:
def compress(iterable, selectors):
    for value, selector in zip(iterable, selectors):
        if selector:
            yield value

Функция islice()

Функция islice() возвращает итератор, который генерирует последовательность из выбранных элементов переданного итерируемого объекта. Другими словами, функция islice() позволяет получить срез итерируемого объекта, для которого не всегда можно получить срез обычными средствами.

Аргументы функции:

iterable — итерируемый объект
start — начало среза, по умолчанию имеет значение 0
stop — конец среза (не включительно)
step — шаг среза, по умолчанию имеет значение 1

По сути, функция islice() имеет те же аргументы, что и оператор взятия среза списка: start, stop и step. При этом аргументы start и step — необязательные. Таким образом, вызывать функцию islice() можно одним из трех способов:

islice(iterable, stop)
islice(iterable, start, stop)
islice(iterable, start, stop, step)

при этом, если stop равен None, срез берется до конца.

In [11]:
from itertools import islice

print(*islice(range(10), None))
print(*islice(range(100), 5))
print(*islice(range(100), 5, 10))
print(*islice(range(100), 0, 100, 10))

0 1 2 3 4 5 6 7 8 9
0 1 2 3 4
5 6 7 8 9
0 10 20 30 40 50 60 70 80 90


В отличие от обычных срезов списков (строк, кортежей), функция islice() не поддерживает отрицательные значения для start, stop или step.

Примечания

Примечание 1. Встроенная функция filter() создает итератор, включающий только те элементы, для которых тестирующая функция возвращает истинное значение.

In [12]:
def check_item(x):
    print('Testing:', x)
    return x < 1

for i in filter(check_item, [-1, 0, 1, 2, -2]):
    print('Yielding:', i)

Testing: -1
Yielding: -1
Testing: 0
Yielding: 0
Testing: 1
Testing: 2
Testing: -2
Yielding: -2


Функция filter() отличается от функций dropwhile() и takewhile() тем, что тестирует каждый элемент переданного итерируемого объекта, прежде чем его вернуть.

Примечание 2. Буква i в начале названия функции islice() говорит о том, что будет возвращен итератор. В Python есть встроенная функция slice(), о которой можно почитать в документации.

In [14]:
from itertools import filterfalse

objects = [True, False, 'True', 'False', [], ()]

print(*filterfalse(None, objects))

# эта функция работает противоположно функции filter(). Если передать в качестве первого аргумента None, функция filter() будет фильтровать значения, соответствующие True, filterfalse() наоборот

False [] ()


In [15]:
from itertools import compress

numbers = [1, -2, 3, 4, -5, -6, 7, 8, -9, -10]
selectors = (i > 0 and i % 2 == 0 for i in numbers)

print(*compress(numbers, selectors))

4 8


In [16]:
from itertools import islice

print(*islice('beegeek', 2, 6))
# не включительно

e g e e


Функция drop_while_negative()
Реализуйте функцию drop_while_negative(), которая принимает один аргумент:

iterable — итерируемый объект, элементами которого являются целые числа
Функция должна возвращать итератор, генерирующий все числа итерируемого объекта iterable, начиная с первого неотрицательного числа.

Примечание 1. Элементы итерируемого объекта в возвращаемом функцией итераторе должны располагаться в своем исходном порядке.

Примечание 2. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [27]:
from itertools import dropwhile
from typing import Iterable

def check_item(x):
    return x < 0

def drop_while_negative(iterable: Iterable[int]):
    new_iter = dropwhile(check_item, iterable)
    yield from new_iter

def drop_while_negative(it):
    return dropwhile(lambda x: x < 0, it)

numbers = [-3, -2, -1, 0, 1, 2, 3]
print(*drop_while_negative(numbers))

iterator = iter([-3, -2, -1, 0, 1, 2, 3, -4, -5, -6])
print(*drop_while_negative(iterator))

iterator = iter([-3, -2, -1, -4, -5, -6])
print(list(drop_while_negative(iterator)))

0 1 2 3
0 1 2 3 -4 -5 -6
[]


Функция drop_this()
Реализуйте функцию drop_this(), которая принимает два аргумента в следующем порядке:

iterable — итерируемый объект
obj — произвольный объект
Функция должна возвращать итератор, генерирующий последовательность элементов итерируемого объекта iterable, начиная с элемента, не равного obj.

Примечание 1. Элементы итерируемого объекта в возвращаемом функцией итераторе должны располагаться в своем исходном порядке.

Примечание 2. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [37]:
from typing import Iterable, Iterator
from itertools import dropwhile

def drop_this(iterable: Iterable, obj) -> Iterator:
    search = [str(i) for i in iterable]
    result = dropwhile(lambda x: x.startswith(str(obj)), search)
    yield from result

def drop_this(iterable, obj):
    yield from dropwhile(lambda x: x == obj, iterable)
    
numbers = [0, 0, 0, 1, 2, 3]
print(*drop_this(numbers, 0))

iterator = iter('bbbbeebee')
print(*drop_this(iterator, 'b'))

iterator = iter('ssssssssssssssssssssssss')
print(list(drop_this(iterator, 's')))

1 2 3
e e b e e
[]


In [28]:
from itertools import filterfalse

names = ['Timur', 'Arthur', 'Dima', 'Anri']

print(*filterfalse(lambda name: name.startswith('A'), names))

Timur Dima


Функция first_true()
Реализуйте функцию first_true(), которая принимает два аргумента в следующем порядке:

iterable — итерируемый объект
predicate — функция-предикат; если имеет значение None, то работает аналогично функции bool()
Функция first_true() должна возвращать первый по счету элемент итерируемого объекта iterable, для которого функция predicate вернула значение True. Если такого элемента нет, функция first_true() должна вернуть значение None.

Примечание 1. Предикат — это функция, которая возвращает True или False в зависимости от переданного в качестве аргумента значения.

Примечание 2. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [70]:
from typing import Iterable
from itertools import dropwhile

def first_true(iterable: Iterable, predicate) -> int:
    if predicate is None:
        predicate = bool
    it = dropwhile(lambda x: not predicate(x), iterable)
    # в next можно передавать второй параметр, который будет возвращаться вместо возбуждения исключения
    return next(it, None)

def first_true(iterable, func):
    return next(filter(func, iterable), None)

numbers = [1, 1, 1, 1, 2, 4, 5, 6]
print(first_true(numbers, lambda num: num % 2 == 0))

numbers = iter([1, 1, 1, 1, 2, 4, 5, 6, 10, 100, 200])
print(first_true(numbers, lambda num: num > 10))

numbers = (0, 0, 0, 69, 1, 1, 1, 2, 4, 5, 6, 10, 100, 200)
print(first_true(numbers, None))

numbers = (0, 0, 0, 69, 1, 1, 1, 2, 4, 5, 6, 0, 10, 100, 200)
numbers_iter = filter(None, numbers)
print(first_true(numbers_iter, lambda num: num < 0))

2
100
69
None


In [53]:
numbers = [1, 1, 1, 1, 2, 4, 5, 6]
# print(list(islice(numbers, None)))

print(list(dropwhile(lambda num: not num % 2 == 0, numbers)))

[2, 4, 5, 6]


Функция take()
Реализуйте функцию take(), которая принимает два аргумента в следующем порядке:

iterable — итерируемый объект
n — натуральное число
Функция должна возвращать итератор, генерирующий последовательность из первых n элементов итерируемого объекта iterable.

Примечание 1. Элементы итерируемого объекта в возвращаемом функцией итераторе должны располагаться в своем исходном порядке.

Примечание 2. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [75]:
from typing import Iterable
from itertools import islice

def take(iterable: Iterable, n: int):
    iterable = islice(iterable, 0, n)
    yield from iterable

from itertools import islice as take

print(*take(range(10), 5))

iterator = iter('beegeek')
print(*take(iterator, 22))

iterator = iter('beegeek')
print(*take(iterator, 1))

0 1 2 3 4
b e e g e e k
b


Функция take_nth()
Реализуйте функцию take_nth(), которая принимает два аргумента в следующем порядке:

iterable — итерируемый объект
n — натуральное число
Функция должна возвращать n-ый по счету элемент итерируемого объекта iterable. Если итерируемый объект iterable содержит менее n элементов, функция должна вернуть значение None.

Примечание 1. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [101]:
from typing import Iterable
from itertools import islice

def take_nth(iterable: Iterable, n: int):
    return next(islice(iterable, n - 1, n), None)
    
numbers = [11, 22, 33, 44, 55]
print(take_nth(numbers, 3))

iterator = iter('beegeek')
print(take_nth(iterator, 4))

iterator = iter('beegeek')
print(take_nth(iterator, 10))

33
g
None


Функция first_largest()
Реализуйте функцию first_largest(), которая принимает два аргумента в следующем порядке:

iterable — итерируемый объект, элементами которого являются целые числа
number — произвольное число
Функция должна возвращать индекс первого элемента итерируемого объекта iterable, который больше number. Если таких элементов нет, функция должна вернуть число −1.

Примечание 1. Рассмотрим список чисел 
10,2,14,7,7,18,20 из первого теста. Первым числом, превосходящим 11, является число 14, которое имеет индекс 2.

Примечание 2. Гарантируется, что итерируемый объект, передаваемый в функцию, не является множеством.

In [105]:
from typing import Iterable

def first_largest(iterable: Iterable, number: int):
    lst = (i for i, e in enumerate(iterable) if e > number)
    return next(lst, -1)

numbers = [10, 2, 14, 7, 7, 18, 20]
print(first_largest(numbers, 11))

iterator = iter([-1, -2, -3, -4, -5])
print(first_largest(iterator, 10))

iterator = iter([18, 21, 14, 72, 73, 18, 20])
print(first_largest(iterator, 10))

2
-1
0
