## Функциональное программирование. Генераторы. Множества. Вложенные списки

Очень важная вещь, которую необходимо усвоить - это тот факт, что в питоне функция - это тоже объект. По существу, что такое функция?

In [None]:
def func(x):  # func = ...
  return 2 * x + 4

Эта функция - уравнение прямой. Она описывает конкретный объект в пространстве: прямую. Для каждого конкретного х мы можем у функции узнать, где его y. 

Поскольку функция - это такой же объект, как и все остальное, функция может возвращать другие функции, как объекты:

In [4]:
def funcoffuncs(k, b):
  return lambda x: k * x + b

lambda-функция - это безымянный объект типа "функция". Мы на ура можем его вернуть. 

И наоборот, функции могут принимать другие функции в качестве аргументов (но тогда они принимают только переменные со ссылкой на объект "функция", скобочки там ставить не нужно: мы не вызываем функцию, а только передаем ее, чтобы другая функция внутри себя ее вызывала). 

In [8]:
def funcfunc(func):
  return func(3)

#### Генераторы

Мы с вами в прошлый раз посмотрели генераторные выражения: это такие специальные выражения, которые очень похожи на свернутый цикл for (на самом деле это не цикл). Обычно они выглядят как-нибудь так:

In [1]:
g = (x ** 2 for x in range(10))

Главная особенность генератора в том, что он не кидается вычислять то, что внутри него записано, сразу же: он выдает результаты своих вычислений один за другим, если мы его просим. Еще генератор устроен подобно магазину винтовки: один раз выстрелив, он опустошается, и повторно по нему итерироваться нельзя. Наглядно это можно продемонстрировать так:

In [2]:
for i in g:
    print(i) 

0
1
4
9
16
25
36
49
64
81


In [3]:
for i in g:
    print(i) 

При повторном запуске того же цикла генератор уже ничего не выдает, он пустой. 

Также мы немного поговорили о протоколе итерации. Вообще в питоне есть много таких вот **протоколов**, то есть, определенных правил действий. Протокол итерации - это те действия, которые внутри себя должен выполнять питон, чтобы итерироваться по чему-нибудь. Как внутри себя устроен цикл for:

    for i in range(1, 4):
        print(i)
        
    Что происходит поэтапно:
    
    1. I = iter(range(1, 4)): питон из переданного в цикл объекта range создает итератор (это такой специальный объект). То есть, объект range вычисляется, и в итераторе лежат 1, 2, 3. 
    2. На первой итерации нам нужно достать элемент из нашего итератора. Питон это делает так: i = next(I)
    3. Ну а теперь уже печатаем. print(i)
    4. Повторять пункты 2-3, пока не возникнет ошибка StopIteration.
    
Половины этих действий мы с вами **не увидим**: функции iter() и next(), хотя являются встроенными, крайне редко используются в рабочем коде, как и исключение StopIteration. Но понимать вот всю эту кухню очень важно. Собственно, если вы вдумаетесь, вы поймете, почему изменять длину списка в цикле for плохо (iter() выполняется только один раз!), почему переменную цикла заранее не нужно объявлять (она автоматически меняет значение) и почему возникают такие сложности с изменяемыми и неизменяемыми типами данных. 

Так вот, чтобы посмотреть, как плюется своим содержимым генератор, интереса ради можно потыкать в него функцией next:

In [4]:
g = (x ** 2 for x in range(10))

In [5]:
print(next(g), next(g), next(g))

0 1 4


Как мы видим, мне, во-первых, пришлось заново его наполнить, а во-вторых, функция next(g) при каждом следующем своем вызове возвращает новое значение. Вернуться к уже выплюнутым не получится: они выстрелили. 

Генераторные выражения могут быть устроены довольно сложным образом. У них может быть if (но else не может быть):

In [None]:
(x ** 2 for x in range(1, 11) if x % 2)

А еще они могут быть многоэтажные:

In [6]:
A = [[1, 2], [3, 4]]

[elem for inner in A for elem in inner]  # inner - это один из вложенных списков, elem - его элемент. 

[1, 2, 3, 4]

Наконец, помимо генераторных выражений в питоне еще можно писать **генераторные функции**. Это такие функции, которые возвращают объект "генератор" и вместо return используют yield. 

In [7]:
def squares(start, stop, step):
    """Функция, которая создает объект, полностью идентичный range, только идущий квадратами"""
    for i in range(start, stop, step):
        yield i ** 2

In [9]:
for elem in squares(1, 10, 1):
    print(elem, end=' ')

1 4 9 16 25 36 49 64 81 

Как видим, если мы попытаемся получить результат такой функции, вернется генератор:

In [10]:
s = squares(1, 10, 1)
s

<generator object squares at 0x7f05c8140c10>

Напрямую его использовать мы можем разве что в цикле for, а также никто не возбраняет нам запихнуть его в генераторное выражение или превратить его в список с помощью list(). 

Теперь еще пара слов о парадигмах: мы с вами уже рассмотрели структурную парадигму (которая про блок-схемы и последовательность-ветвление-цикл), а теперь по сути погрузились в парадигму функциональную. 

Если заумными словами, то функциональное программирование воспринимает весь мир (и в частности наш код) как калькулус: мы оперируем функциями, как в математике, да, и приведенный самым первым пример про уравнение прямой неспроста. Более подробные объяснения можно почитать в [этой статье](https://habr.com/ru/post/570642/). Если же попроще, то мы структурируем код с помощью функций и пытаемся весь наш мир представить именно в функциях, то есть таких устройствах, которые что-то принимают в качестве аргументов и что-то возвращают в качестве значения. 

Посмотрим некоторые инструменты функционального программирования (много их сидит во встроенной библиотеке functools - про библиотеки мы с вами еще будем говорить), которые частью связаны с генераторами, поскольку сами возвращают что-то генератороподобное. 

1. Функция map(function, iterable) принимает функцию (без скобок!) и любой итерируемый объект, а потом последовательно применяет эту функцию к каждому его элементу. Возвращает генератор map. 
2. Функция filter(function, iterable) делает примерно то же, но функция должна быть не абы какая, а возвращающая bool. В дальнейшем те элементы, которые вернули False, из итогового объекта удаляются, а остаются только те, которые прошли проверку. Тоже возвращает генератор. 
3. Функция reduce(function, iterable) последовательно берет по несколько элементов из исходного итерируемого объекта и пропускает их через переданную ей функцию. 
4. Функция zip(*iterables) принимает сколько угодно итерируемых объектов и составляет из их элементов кортежи. 

In [11]:
print(list(map(int, '1 2 3 4 5'.split())))
print(list(map(lambda x: x + 1, [1, 2, 3, 4])))
print(list(map(pow, [1, 2, 3], [4, 5, 6])))

[1, 2, 3, 4, 5]
[2, 3, 4, 5]
[1, 32, 729]


In [12]:
print(list(filter(bool, [1, 2, 0, 2, 0, 4, 5])))
print(list(filter(lambda x: x > 0, [1, 2, -1, -5, 0, -3, 2])))
print(list(filter(str.isdigit, ['asd', '123', 'we', '4567'])))

[1, 2, 2, 4, 5]
[1, 2, 2]
['123', '4567']


Обратите внимание на то, как передается метод строки в filter.

In [15]:
from functools import reduce

print(reduce(lambda x, y: x + y, [1, 2, 3, 4]))

10


In [17]:
print(list(zip([1, 2, 3], 'abc')))
print(list(zip([1, 2, 3, 4], 'abcd', {5, 6, 7})))

[(1, 'a'), (2, 'b'), (3, 'c')]
[(1, 'a', 5), (2, 'b', 6), (3, 'c', 7)]


In [18]:
print(list(zip(*[[1, 2], ['a', 'b']])))

[(1, 'a'), (2, 'b')]


Функция zip, если у итерируемых объектов не совпадает длина, всегда берет самый короткий, а хвосты у более длинных отбрасывает. Есть функция zip_longest (она находится в библиотеке itertools), которая имеет дополнительный параметр fillval, которым умеет "добивать" хвост более короткого списка. Подробнее почитать про нее можно [тут](https://www.geeksforgeeks.org/python-itertools-zip_longest/).

#### Множества

Множество - это тоже итерируемый изменяемый объект, как и список, но у него есть свои очень важные отличия. Множество имплементирует в питоне те самые множества из логики. 

Какие у него особенности:

1. Множество может содержать только неизменяемые (hashable) объекты. =>
2. Поэтому у элементов множества порядок не определен: нет индексов. 
3. Поэтому элементы множества содержатся только в одном экземпляре. 
4. Поэтому поиск элемента в множестве x in S работает за константное время О(с). 

Как это так? дело в том, что хешируемые объекты мы умеем почти мгновенно находить в памяти с помощью хеш-таблицы и их хеша: нам достаточно только знать про сам объект (литерал). Следовательно, множеству достаточно знать, что такой-то объект в него входит. Потому же объекты могут быть только уникальными - у них же нет индексов, чтобы мы еще могли разместить два одинаковых элемента с разными номерами. 

Из этого следует, что список множеств мы составить можем вполне, а вот множество списков - никак. Множество строк или кортежей, однако, вполне возможно. 

Как выглядит множество в питоне:

In [None]:
s = {1, 2, 3}

Как создать множество?

- Явно в коде:
  
        s = {1, 2, 3}
      
- Превратить в него что-нибудь:

        s = set([1, 2, 3])
        
- Использовать генераторное выражение:

        s = {x ** 2 for x in range(1, 4)}
        
- Создать пустое множество, а потом добавлять элементы:

        s = set()
        s.add(1)
        
**Обратите внимание: пустое множество можно задать только командой set(), потому что пустые фигурные скобки задают словарь. **

Какие операции можно делать с множествами:

In [19]:
A = {1, 2, 3, 4, 5}
B = {4, 5, 6, 7, 8}

In [20]:
print(f'union: A | B = {A | B}')
print(f'intersection: A & B = {A & B}')
print(f'difference: A - B = {A - B}, B - A = {B - A}')
print(f'symmetric difference: A ^ B = {A ^ B}')

union: A | B = {1, 2, 3, 4, 5, 6, 7, 8}
intersection: A & B = {4, 5}
difference: A - B = {1, 2, 3}, B - A = {8, 6, 7}
symmetric difference: A ^ B = {1, 2, 3, 6, 7, 8}


К любому из этих операторов можно приписать = и получить примерно то же, что +=, -= и так далее. 

Также у всех них есть свои альтернативные методы:

In [None]:
A.union(B)  # A | B
A.intersection(B)  # A & B
A.difference(B)  # A - B
A.symmetric_difference(B)   # A ^ B
A.update(B)  # A |= B
A.intersection_update(B) # A &= B
A.difference_update(B) # A -= B
A.symmetric_difference_update(B)  # A ^= B

In [None]:
A.add(elem) # добавляет элемент
A.discard(elem) # удаляет элемент
A.clear() # удаляет все элементы
A.copy() # создает копию множества

Наконец, у множеств есть свои методы, связанные с логическими операциями:

In [None]:
A.issubset(B) # A является подмножеством B? В том смысле, что все элементы А входят в B
A.issuperset(B) # A является надмножеством B?
A.isdisjoint(B) # A и B не пересекаются?

## Вложенные списки

Списки могут вкладываться один в другой. Чтобы обратиться к элементу вложенного списка, нужно использовать двойной индекс:

In [4]:
M = [[1, 2, 3], [4, 5, 6]]
print('M', *M, sep='\n')
print(f'Нулевой элемент М: {M[0]}')
print(f'Первый элемент М: {M[1]}')
print(f'Нулевой элемент первого элемента М: {M[1][0]}')

M
[1, 2, 3]
[4, 5, 6]
Нулевой элемент М: [1, 2, 3]
Первый элемент М: [4, 5, 6]
Нулевой элемент первого элемента М: 4


Вложенные списки могут использоваться для работы с матрицами. Матрица - это табличка чисел. Обычная двумерная матрица выглядит как-то так:

    1    2    3
    4    5    6
    
Говорят, что это матрица размера два на три (2, 3), то есть, у нее две строки и три столбца. Матрица, у которой m и n (количество строк и столбцов) совпадают, называется квадратной. Матрица, состоящая из нулей, называется нулевой. Матрица, у которой все элементы - нули, кроме тех, которые стоят по диагонали, называется диагональной. Диагональная матрица, у которой все числа по диагонали - единицы, называется единичной. Вообще всем, кто планирует заниматься машинным обучением и NLP, следует сконцентрироваться на матрицах и постараться освоить их. 

Матрицы на самом деле могут быть многомерными. Представить это мы можем с трудом (наше воображение справляется только с трехмерной матрицей), а вот создать n-мерную матрицу в питоне - легко: достаточно сделать n вложений. 

Вообще говоря, с точки зрения нейронных сетей это как выглядит:

    0D - скаляр (одиночное число). 
    1D - вектор ([1, 2, 3, 4])
    2D - матрица
    3D и выше - тензор. 

На самом деле в высшей математике тензор - это немножко особенная штука, но в том же pytorch тензор - это просто многомерная матрица. Нам с вами доведется много иметь с ними дела, поэтому постарайтесь хорошенько с ними разобраться. 

Пока, впрочем, будем упражняться только с двумерными (пока не доберемся до numpy). 

Обычно с матрицами работают в модуле numpy, но для их понимания и вложенные списки сойдут (по существу, массивы numpy - те же вложенные списки, только обрабатываемые особым образом и не в питоне, а на языке С). 

До сих пор мы задавали матрицы только явным образом. Как задать матрицу с помощью генератора?

In [5]:
M1 = [[n for n in range(5)] for m in range(5)]
print('Матрица М1 - квадратная, состоит из повторяющихся строк:', *M1, sep='\n')
M2 = [[m * n for n in range(5)] for m in range(4)]
print('Матрица Ь2 - не квадратная, в каждой строке разные элементы:', *M2, sep='\n')

Матрица М1 - квадратная, состоит из повторяющихся строк:
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
Матрица Ь2 - не квадратная, в каждой строке разные элементы:
[0, 0, 0, 0, 0]
[0, 1, 2, 3, 4]
[0, 2, 4, 6, 8]
[0, 3, 6, 9, 12]


In [6]:
from random import randrange

M3 = [[randrange(1, 101) for n in range(5)] for m in range(5)]
print('Матрица М3 содержит случайные числа:', *M3, sep='\n')

Матрица М3 содержит случайные числа:
[42, 88, 92, 40, 31]
[56, 22, 32, 39, 57]
[56, 89, 66, 75, 70]
[11, 82, 89, 27, 55]
[93, 74, 82, 98, 84]


In [8]:
n = 3
M4 = [[2] * m + [1] + [0] * (n - m - 1) for m in range(n)]
print('Также можно использовать сложение списков, чтобы собирать строки:', *M4, sep='\n')

Также можно использовать сложение списков, чтобы собирать строки:
[1, 0, 0]
[2, 1, 0]
[2, 2, 1]
