# Функции: избранные темы

В предыдущих лекциях мы рассмотрели с вами простейшие [пользовательские функции в языке Python](../lesson7/interactive_conspect.ipynb) и более сложные конструкции, которые могут быть построены с помощью функций, к числе которым относятся [замыкания и декораторы](../lesson8/interactive_conspect.ipynb). В это лекции мы закончим обзор функций в Python, познакомившись с анонимными функциями, генераторными функциями и некоторыми встроенными функциями языка Python. 

## Анонимные функции

Иногда возникает необходимости создания простых функций, чье тело состоит из единственного утверждения **return**. Такие функции обычно используются для обработки некоторых последовательностей по определенным правилам. Например, мы хотим посчитать среднее значение квадратов элементов некоторой числовой последовательности. Мы могли бы сделать это следующим образом:

In [6]:
def get_squared_number(number: float) -> float:
    return number ** 2


sequence = list(range(10))

square_mean = sum(map(get_squared_number, sequence))
square_mean /= len(sequence)

print(f"mean of elements' squares: {square_mean}")

mean of elements' squares: 28.5


Про функцию **map** мы поговорим чуть позже, сейчас сосредоточимся на другом. 

Данный подход может показаться избыточным, ведь нам пришлось создать целую функцию для банального возведения элементов в квадрат. Чтобы избежать подобного нагромождения однотипного кода, в Python поддерживаются анонимные функции, известные также как лямбда-выражения (название берет свое начало из формальной системы [лямбда-исчисления](https://neerc.ifmo.ru/wiki/index.php?title=%D0%9B%D1%8F%D0%BC%D0%B1%D0%B4%D0%B0-%D0%B8%D1%81%D1%87%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5)). Лямбда-выражения - однострочные функции, тело которых состоит из простых выражений - возвращаемых значений.

В обзем виде анонимные функции определяются следующим образом:

```python
lambda parameters: expression
```

Рассмотрим его подробнее:

- **lambda** - ключевое слово, которое сообщает интерпретатору, что вы намереваетесь создать анонимную функцию;
- **parameters** - список параметров лямбда-функции, разделенных запятыми; параметры лямбда-функции ничем не отличаются от параметров обычной функции: вы можете создавать анонимные функции с позиционными параметрами, параметрами со значениями по умолчанию, чисто именованные параметры, параметрами в формах *args, **kwargs;

        Совет: несмотря на возможность использования различныъ форм параметров в лямбда-выражениях, стоит помнить, что анонимные функции - простые однострочные функции, выполняющие очень простые действия. Исходя из этого, стоит обходиться лишь позиционными параметрами и не переусложнять их.

- **expression** - простое выражение, результат вычисления которого будет возвращен после вызова лямбда-функции;

Теперь, вооружившись анонимными функциями, исправим приведенный выше пример:

In [16]:
sequence = list(range(10))

square_mean = sum(map(lambda x: x ** 2, sequence))
square_mean /= len(sequence)

print(f"mean of elements' squares: {square_mean}")

mean of elements' squares: 28.5


Теперь наш код выглядит более аккуратно и более читабельно.

Стоит обратить внимание, что тело лямбда-функции - это именно выражение. Лямбда-функция не может содержать утвержедний, типа присваивания, или составных утверждений, типа циклов - только выражение. Однако вы по-прежнему можете использовать простейшее ветвление с помощью тернарного оператора: 

In [19]:
from random import randint
from math import sqrt


sequence = [randint(-9, 9) for _ in range(10)]

print(f'sequence: {sequence}')

square_roots_sum = sum(map(lambda x: sqrt(x) if x >= 0 else 0, sequence))
print(f'{square_roots_sum = };')

sequence: [0, 2, -1, 8, 5, -4, -4, -1, 7, -4]
square_roots_sum = 9.124459975683667;


Также выражение в теле лямбда-функции может обуславливаться на локальный контекст, т.е. при вычислении выражения могут быть использованы внешние для данной анонимной функции переменные. Так, в примере ниже, прдставлен код для осуществления нормализации входных данных, что может быть полезным в ряде прикладных задач, в частности в задачах машинного обучения:

In [20]:
from random import randint


sequence = [randint(-9, 9) for _ in range(10)]

print(f'sequence: {sequence}')

sequence_min, sequence_max = min(sequence), max(sequence)
sequence_normalized = list(
    map(
        lambda x: (x - sequence_min) / (sequence_max - sequence_min),
        sequence 
    )
)

print(f'sequence normalized: {sequence_normalized};')

sequence: [8, 4, 5, 3, 2, 4, -9, 7, -2, 8]
sequence normalized: [1.0, 0.7647058823529411, 0.8235294117647058, 0.7058823529411765, 0.6470588235294118, 0.7647058823529411, 0.0, 0.9411764705882353, 0.4117647058823529, 1.0];


Обращаю ваше внимание, что все примеры выше являются чисто учебными, в реальных задах подобного плана целесообразней было бы обойтись списковыми включениями, которые были разобраны ранее, а также генераторными выражениями, которые будут разобраны в следующем разделе:

In [22]:
from random import randint


sequence = [randint(-9, 9) for _ in range(10)]

print(f'sequence: {sequence}')

sequence_min, sequence_max = min(sequence), max(sequence)
sequence_normalized = [
    (elem - sequence_min) / (sequence_max - sequence_min)
    for elem in sequence
]

print(f'sequence normalized: {sequence_normalized};')

sequence: [-6, -5, 3, 3, 0, -3, -1, 8, 6, -4]
sequence normalized: [0.0, 0.07142857142857142, 0.6428571428571429, 0.6428571428571429, 0.42857142857142855, 0.21428571428571427, 0.35714285714285715, 1.0, 0.8571428571428571, 0.14285714285714285];


Однако, не стоит ставить крест на анонимных функциях, они по-прежнему могут быть полезными, например, для сортировки элементов по специальным правилам. Здесь позволю себе повторить пример, с сортировкой слов по их окончаниям, приведенный в одной из предыдущих лекций.

Предположим, что у нас есть некоторый список доступных слов, и мы бы хотели сочинить стихи с их использованием. Не секрет, что для удачного стихосложения требуется, чтобы слова с определенной периодичностью имели одинаковые окончания (если вы не Даниил Хармс, разумеется). В этом случае, как программисты на языке Python, мы можем без труда сгруппировать слова по окончаниям, используя анонимные функции:

In [25]:
words = [
    'apple', 'grass', 'station', 'begin', 'orange',
    'sin', 'glass', 'storage', 'vibration', 'formation'
]

words_sorted = sorted(words, key=lambda x: x[::-1])

print(words_sorted)

['storage', 'orange', 'apple', 'begin', 'sin', 'formation', 'vibration', 'station', 'glass', 'grass']


В завершении этого раздела лишний раз подчеркну, что использовании лямбда-функций обосновано только если необходимый функционал является очень простым. Не стоит оформлять в виде анонимной функции сложный и неинтуитивно понятный код. В этом случае стоит задуматься над реализацией отдельно функции.

## Генераторные функции

Изучая последовательности мы познакомились с итерируемыми объектами и итераторами. Также в предыдущих лекциях нами было установлено, что к итерируемым объектам относятся не только последовательности, но еще и списки, и словари. Сегодня мы рассмотрим еще один тип итерируемых объектов: генераторы. Создание которых можно осуществить посредством генераторных функций.

Генераторная функция - это функция, тело которой содержит как минимуму одно выражение с ключевым словом **yeild**. При вызове генераторной функции, тело функции не выполняется сразу, а результат выполнения - специальный объект-генератор. Давайте проиллюстрируем сказанное простым примером:

In [26]:
from typing import Generator


def generate_123() -> Generator:
    print('start generation')

    for i in range(1, 4):
        print(f'generate: {i}')
        yield i

    print('end generation')

In [27]:
generator = generate_123()

print(type(generate_123).__name__)
print(type(generator).__name__)

function
generator


Как мы видим, генераторная функция имеет тип данных **function**, как и прочие пользовательские функции, которые мы видели до этого. Но возвращенный объект имеет новый для нас типа данных - **generator**. Давайте разберемся, что это такое.

Генератор - это специальный объект, который фактически оборачивает тело генераторной функции, ее локальные переменные и текущую точку выполнения. Генератор является итерируемым объектом, а потому поддерживает вызов встроенной функции **next()**, которая обсуждалась ранее:

In [28]:
next(generator)

start generation
generate: 1


1

Во время вызова функции next(), генератор выполняет тело функции до тех пор, пока не встретит выражение с ключевым словом yeild. Если после слова yeild идет какое-либо выражение, генератор произведет значение этого выражения и "вернет его вызывающей стороне", после чего остановится, запомнит свое текущее состояние, после чего вернет управление над потоком выполнения вызывающей стороне. Если после yeild ничего нет, то генератор произведет None с сделает все то же самое. 

После очередного вызова next() генератор продолжит выполнение с того места, на котором он остановился в последний раз:

In [29]:
next(generator)

generate: 2


2

In [30]:
next(generator)

generate: 3


3

В данном примере мы создали генератор, который способен произвести числа от 1 до 3, т.е. наш генератор поддерживает всего 3 вызова функции next(). При попытки вызвать функцию next() с генератором, исчерпавшим свои значения, мы получим исключение типа StopIteration. Т.е. столкнемся с классическим поведением ограниченных итераторов:

In [31]:
next(generator)

end generation


StopIteration: 

После исчерпания генератор не может быть использован повторно. Однако мы можем создать новый генератор, используя нашу генераторную функцию. В таком контексте мы можем думать о генераторной функции, как о фабрике генераторов.

Поскольку генераторы являются итерируемыми объектами, мы можем использовать их в циклах for, как показано ниже:

In [32]:
generator = generate_123()

for i in generator:
    print(f'get from generator: {i};')

start generation
generate: 1
get from generator: 1;
generate: 2
get from generator: 2;
generate: 3
get from generator: 3;
end generation


Также генераторная функция может содержать утверждение return. В этом случае, при достижении утверждения return генератором, будет возбуждаться исключение StopIteration, в качестве аргумента которого будет передано выражение, следующее за return. 

In [35]:
from typing import Generator


def generate_even_digits() -> Generator:
    num_curr = 0

    while True:
        if num_curr >= 10:
            return 'numbers are exhausted'
        
        if num_curr % 2 == 0:
            yield num_curr

        num_curr += 1

In [37]:
generator = generate_even_digits()

next(generator)
next(generator)
next(generator)
next(generator)
next(generator)
next(generator)

StopIteration: numbers are exhausted

In [38]:
from typing import Generator


def generate_pyramid_sequence(top_number: int) -> Generator:
    if top_number <= 1:
        raise ValueError('top number should be greater than 1')
    
    top_number = int(top_number)
    
    for i in range(1, top_number):
        yield i

    for i in range(top_number, 0, -1):
        yield i

Как настоящая фабрика, генераторная функция может иметь параметры, которые задаются теми же способами, что и параметры пользовательских функций.

In [39]:
for i in generate_pyramid_sequence(5):
    print(i, end=' ')

1 2 3 4 5 4 3 2 1 

В данном примере мы создали генераторную функцию, которая строит "пирамидальную" последовательность. Генераторная функция принимает на вход один аргумент - целое положительное число, большее 1, и возвращает генератор, стоящий данную последовательность.

Код из пример выше может быть упрощен с помощью использования специальной конструкции:

```python
yield from expression 
```

В качестве expression должен выступать некоторый итерируемый объект. Данная конструкция порождает значения напрямую и итерируемого объекта и позволяет значительно упростить код.

In [40]:
from typing import Generator


def generate_pyramid_sequence(top_number: int) -> Generator:
    if top_number <= 1:
        raise ValueError('top number should be greater than 1')
    
    top_number = int(top_number)
    
    yield from range(1, top_number)
    yield from range(top_number, 0, -1)

In [41]:
for i in generate_pyramid_sequence(5):
    print(i, end=' ')

1 2 3 4 5 4 3 2 1 

Тепрь давайте обсудим, зачем нам вообще нужны генераторы, ведь все, что мы делали выше, может быть сделано и без использования генераторных функций. На самом деле генераторы могут оказать очень полезными.

Во-первых, в отличие от функций, которые возвращают коллекции элементов, генераторы могут быть наограниченными. Т.е. мы буквально можем создать генератор, способный порождать бесконечное число элементов. В качестве примера такого генератора, давайте напишем генератор, способный порождать арифметическую прогрессию:

In [42]:
from typing import Generator


def generate_arithmetic_progression(start=0, step=1) -> Generator:
    current_member = start

    while True:
        yield current_member
        current_member += step

In [44]:
progression_gen = generate_arithmetic_progression(step=2)

for i in range(5):
    print(f'member_{i + 1}: {next(progression_gen)};')

member_1: 0;
member_2: 2;
member_3: 4;
member_4: 6;
member_5: 8;


Подобное просто невозможно сделать с помощью функций, генерирующих последовательности, поскольку нам банально не зватит памяти для аллоцирования бесконечного числа элементов. Отсюда следует второе полезное качество генераторов. Генераторы вычисляются лениво. Т.е. очередное значение, порожденное генератором, будет рассчитано и аллоцировано только в момент непосредственного вызова. Генератора не предрассчитывает все пораждаемые элементы заранее, в отличие от функций, возвращающих коллекции.

Это свойство может оказаться очень полезным при работе с большими объемами данных. Например, подобные генераторы могут быть использованы при порционной загрузке обучающих выборок при решении задач машинного обучения.

## Генераторные выражения

По аналогии со списковыми и словарными включениями, вы можете создавать простые генераторы с помощью генераторных выражений. В качестве примера использования генераторных выражений, давайте вычислим сумму квадратов чисел от 0 до 9 с помощью списковых и генераторных включений:

In [47]:
# испоьзование спискового включения
sum([i ** 2 for i in range(10)])

285

In [48]:
# использование генераторного выражения
sum(i ** 2 for i in range(10))

285

Старайтесь использовать генераторные выражения для создания простых и обезличенных генераторов для мгновенного использования (например, для использования в функции sum, как в данном примере). При необходимости создания сложных генераторов и запутанной логикой, отдавайте предпочтение генераторным функциям.

## Некоторые встроенные функции и итерируемые объекты

### max() / min()

Функции определения минимального и максимального значения среди переденных, или среди элементов некоторого итерируемого объекта. Также поддерживают аргумент key, для определения статистики по переданному ключу:

In [49]:
help(max)

Help on built-in function max in module builtins:

max(...)
    max(iterable, *[, default=obj, key=func]) -> value
    max(arg1, arg2, *args, *[, key=func]) -> value
    
    With a single iterable argument, return its biggest item. The
    default keyword-only argument specifies an object to return if
    the provided iterable is empty.
    With two or more arguments, return the largest argument.



In [50]:
help(min)

Help on built-in function min in module builtins:

min(...)
    min(iterable, *[, default=obj, key=func]) -> value
    min(arg1, arg2, *args, *[, key=func]) -> value
    
    With a single iterable argument, return its smallest item. The
    default keyword-only argument specifies an object to return if
    the provided iterable is empty.
    With two or more arguments, return the smallest argument.



In [53]:
print(
    max(range(5)),
    max(1, 3, 5, 7, 9),
    max(range(1, 10), key=lambda x: 5 - x),
    sep='\n'
)

4
9
1


### any() / all()

Функция all позволяет определить, принимают ли все элементы итерируемого объекта значение True в булевом контексте или нет. В случае если итерируемый объект пустой, функция вернет True. any возвращает True, если хотя бы один элемент итерируемого объект принимает значение True в булевом контексте. В случае если итерируемый объект пуст, функция вернет False.

In [54]:
help(all)

Help on built-in function all in module builtins:

all(iterable, /)
    Return True if bool(x) is True for all values x in the iterable.
    
    If the iterable is empty, return True.



In [55]:
help(any)

Help on built-in function any in module builtins:

any(iterable, /)
    Return True if bool(x) is True for any x in the iterable.
    
    If the iterable is empty, return False.



In [60]:
print(
    all(range(5)),
    all([]),
    sep='\n'
)

False
True


In [62]:
print(
    any(range(5)),
    any([]),
    sep='\n'
)

True
False


### range()

Мы очень часто работали c range, но только узнав о генераторах и итераторах мы готовы всерьез ее обсудить. range является специальным встроенным объектом. При использовании его в цикле for range возвращает генератор, пораждающий числа из заданного диапазона с заданным шагом, который по умолчанию равен 1. 

In [71]:
range_obj = range(1, 10, 2)

print(type(range_obj).__name__)

range


In [72]:
for i in range_obj:
    print(i)

1
3
5
7
9


### enumerate()

Мы также неоднократно встречались с enumerate, но понять суть ее работы мы можем только сейчас. Аналогично range enumerate является встроенным типом данных, позволяющих конструировать специальные объекты. При использовании этих объектов в циклах for, они возвращают генераторы, пораждающие пары вида <индекс, значение>.

In [73]:
enum = enumerate(range(5), start=1)

print(type(enum).__name__)

enumerate


In [74]:
for i, elem in enum:
    print(f'elem_{i}: {elem}')

elem_1: 0
elem_2: 1
elem_3: 2
elem_4: 3
elem_5: 4


### sum()

Функция sum предназначена для суммирования всех элементов переданного итерируемого объекта. Причем аргумент start позволяет настроить тип и значения объекта, к которому будут прибавляться очередные значения.

In [75]:
help(sum)

Help on built-in function sum in module builtins:

sum(iterable, /, start=0)
    Return the sum of a 'start' value (default: 0) plus an iterable of numbers
    
    When the iterable is empty, return the start value.
    This function is intended specifically for use with numeric values and may
    reject non-numeric types.



In [76]:
sum(range(5))

10

### map()

Мы знакомы с объектом map из примеров выше. Объект map позволяет построить итерируемый объект, содержащий результат применения переданной функции, к переданным итерируемым объектам. Например, мы можем посчитать поэлементную разницу двух массивов:

In [106]:
from random import randint


vector1 = [randint(-10, 10) for _ in range(10)]
vector2 = [randint(-10, 10) for _ in range(10)]

print(
    f'vector1: {vector1};',
    f'vector2: {vector2};',
    sep='\n'
)

differences = map(lambda x, y: x - y, vector1, vector2)

print(type(differences).__name__)

vector1: [4, -5, 4, -7, -3, -6, -10, -9, -10, -7];
vector2: [-10, -3, 6, -9, 7, 4, 3, -1, 5, -8];
map


In [107]:
for i, difference in enumerate(differences, start=1):
    print(f'difference_{i}: {difference};')

difference_1: 14;
difference_2: -2;
difference_3: -2;
difference_4: 2;
difference_5: -10;
difference_6: -10;
difference_7: -13;
difference_8: -8;
difference_9: -15;
difference_10: 1;


При несоответствии размеров итерируемых объектов, map обрежет все до длины кратчайшей последовательности. 

In [108]:
for i, diff in enumerate(map(lambda x, y: x - y, vector1, vector2[:5])):
    print(f'difference_{i}: {diff};')

difference_0: 14;
difference_1: -2;
difference_2: -2;
difference_3: 2;
difference_4: -10;


### zip()

zip позволяет получит итератор i-ый элементы которого - кортеж, содержащий i-е элементы переданных итерируемых объектов. При несоответствии длин итерируемых объектов, zip ведет себя подобно map, обрезая все по длине кратчайшей последовательности. 

Использование zip может быть проиллюстрировано вычислением манхеттенского расстояния между векторами:

In [110]:
from random import randint


vector1 = [randint(-10, 10) for _ in range(10)]
vector2 = [randint(-10, 10) for _ in range(10)]

print(
    f'vector1: {vector1};',
    f'vector2: {vector2};',
    sep='\n'
)

vector1: [7, 9, -4, -4, 4, -4, 0, -3, -4, -2];
vector2: [-6, 7, 3, -4, -8, 3, -6, 2, 3, -3];


In [111]:
distance = sum(abs(x_1 - x_2) for x_1, x_2 in zip(vector1, vector2))

print(f'{distance = }')

distance = 60
