Как мы видели из практики на предыдущем занятии, даже относительно простое задание может требовать массы переменных.
Во многих случайх мы даже не можем знать количество значений (или их наличие) изначально. Что же делать?

Нам помогут data structures - системы хранения данных в упорядоченных группах.
В Python существует примерно дюжина разных структур - в этом ноутбуке мы разберем самые основные - Lists, Tuples, Dictionaries, Sets.

# Lists

Лист - это одномерный упорядоченный массив данных. Данные могут быть любого типа, их количество так-же не лимитируется (даже ноль). Каждому значению соответствует его порядковый номер, начиная с нуля.
Таким образом, индекс последнего значения всегда равен количеству значений в списке минус 1.

Листы определяются квадратными скобками. Значения в них идут от первого к последнему, через запятую.

In [8]:
fruits = ['apple', 'banana']

Чтобы получить значение по его индексу, используйте квадратные скобки после переменной листа (в этом случае они отображают слайс, а не список).

In [4]:
fruits[0]

'apple'

In [3]:
fruits[1]

'banana'

Листы _mutable_ -- те их можно изменять в процессе. Чтобы добавить элемент к концу списка, используйте метод **.append**. Чтобы добавить другой список - **.extend**. При необходимости новый элемент можно добавить по индексу (тогда все значения после этого будут сдвинуты) используя метод **.insert(index, value)**.

In [9]:
fruits.append('plum')
fruits

['apple', 'banana', 'plum']

In [10]:
fruits.insert(1, 'pear')
fruits

['apple', 'pear', 'banana', 'plum']

In [11]:
fruits.extend(['pineapple','kiwi'])
fruits

['apple', 'pear', 'banana', 'plum', 'pineapple', 'kiwi']

# Slicing

Как вы могли заметить, получение значения по индексу для списков работает так же как и для строк (str). Lists, как и строки, как и tuples и некоторые другие структуры, имеют функционал слайсинга (получения суб-массива)

Самый простой пример слайсинга - получение конкретной величины, как мы уже пробовали:

In [12]:
fruits[0]

'apple'

Кроме индекса значения как такового, слайсы принимают и отрицательные индексы - в таком случае, счет пойдет от последнего значения к первому. Те индекс -1 всегда отдает последний элемент в массиве и не зависит от длинны массива

In [13]:
fruits[-1]

'kiwi'

Слайсинг так-же позволяет получать более одной величины c помощью двоеточия:. Перед двоеточием мы указываем начальный индекс, а после - конечный. При этом переменная соответствующая начальному индексу всегда будет включена, а концу - нет. Мы можем не указывать начало или конец субмассива - в этом случае он будет продлен до начала/конца базового массива


In [15]:
fruits[:3]

['apple', 'pear', 'banana']

In [16]:
fruits[1:3]

['pear', 'banana']

Обратите внимание - так мы всегда будем получать последние три элемента массива (если массив имеет три или более элементов)

In [17]:
fruits[-3:]

['plum', 'pineapple', 'kiwi']

Слайсинг так-же может принимать шаг выборки. Таким образом шаг в 2 отдаст нам только каждый второй элемент. Отрицательные шаги означают перевернутую очередность.

Таким образом можно просто перевернуть весь список:

In [31]:
fruits[::-1]

['kiwi', 'pineapple', 'plum', 'banana', 'pear', 'apple']

## Практика

### Задача 1
Напишите функцию squares, которая для каждого парамерта N возвращала бы список квадратов значений от нуля до N включительно.

In [3]:
def squares(N):
    # your code
    pass

### Задача 2

Нвпишите функцию, которая для любого списка возвращает три последние значения в обратном порядке

In [4]:
# YOUR CODE 

# Tuples

Вы можете думать о Tuples как усеченных, но более компактных Lists. Tuples - такие же упорядоченные одномерные массивы, однако они _immutable_ -- созданный tuple нельзя изменить, можно только создать новый.

Следовательно, tuples не могут добавлять элементов, но зато могут быть использоваты как ключи к словарям (об этом позднее). Tuples обозначаются круглыми скобками.

In [32]:
myTuple = (1,2,3)

In [33]:
myTuple.append(3)

AttributeError: 'tuple' object has no attribute 'append'

Зато tuples могут участвовать в _packing_ - в принципе круглые скобки не всегда нужны, см ниже:

In [34]:
values=  1, 2, 3
type(values)

tuple

In [38]:
value1, value2 = 1, 2

In [39]:
value2, value1 = value1, value2  # такой себе своп
value1

2

packing происходит и при итерации, когда элементов несколько:

In [6]:

for i, el in enumerate(range(10,20)):
    print(i, el)

0 10
1 11
2 12
3 13
4 14
5 15
6 16
7 17
8 18
9 19


# Dictionaries (словари)

В отличии от lists и tuples, словари определяют "положение" элемента не порядковым номером, а значением-ключом. Значение-ключ должно быть immutable (не может меняться) - это может быть например число, строка или tuple. Важно - ключи словаря не могут быть дубликатами, любое пересечение приведет к перезаписи! 

Кстати, технически словари не имеют очередности ключей, однако начиная с python 3.7 на практике очередность ввода гарантируется.

Словари определяются фигурными скобками, между ключом и значением должны стоять двоеточия, разные элементы разделены запятыми

In [9]:
myDict = {
    'name': 'Philipp',
    'surname': 'Kats',
    'age': 32
}

Значения получаются таким же образом, через квадратные скобки:

In [42]:
myDict['name']

'Philipp'

При необходимости как значения так и ключи можно получить в виде массивов:

In [43]:
myDict.keys()

dict_keys(['name', 'surname', 'age'])

In [44]:
myDict.values()

dict_values(['Philipp', 'Kats', 32])

или комбинации tuples по принципу ключ, значение:

In [45]:
myDict.items()

dict_items([('name', 'Philipp'), ('surname', 'Kats'), ('age', 32)])

Если мы попытаемся запросить несуществующий ключ, получим ошибку:

In [10]:
myDict['gender']

KeyError: 'gender'

если мы не уверены что ключ есть, но запросить нужно, можно использовать .get с дефолтной величиной:

In [47]:
myDict.get('sex', 'undefined')

'undefined'

## Объединение словарей

В ряде случаев нам нужно объединять словари. Стандартное решение для этого - метод `update`:

In [15]:
d1 = {'1':1, '2': 2}
d2 = {'2': 3, '3': 4}

d1.update(d2)
d1

{'1': 1, '2': 3, '3': 4}

In [None]:
Обратите внимание что метод именно обновляет первый словарь - пересечения перезаписываются. 

NOTE: заметьте, что словари с текстовыми ключами напоминают структуру переменных в коде питона, только в последнем случае без ковычек. Дело в том, что именно словарями scopes (контекст) и являются - вы можете получить их с помощью функции `locals()`1

## Practice

Решим задачу - напишите функцию `count`, которая для любого `iterable` возвращает словарь значений, c количеством повторений как value, те для строки 'Hello' результат должен быть `{'H':1, 'e':1, 'l':2, 'o':1}`

In [1]:
def count(iterable) -> dict:
    # Your code here
    pass

In [None]:
count('Hello')

# Sets

Последняя структура о которой стоит поговорить - sets. Грубо говоря, сэты представляют все свойства словарей с ключами, но без значений - они не имеют очередности, зато гарантируют отсутствие дубликатов - при попытке добавить в сет дубликат питон вас просто проигнорирует. Зато такая реализация (хеш-таблицы) позволяет мгновенно склеивать сеты, получить их разницу и определять, находится ли элемент в сете. Нередко использование сета в правильном месте ускоряет код на несколько порядков - но также и помогает читать код

Сетты определяются фигурными скобками, значения идут через запятую. Как и ключи словарей, значения в сете должны быть immutable (списки не подходят)

In [20]:
{1, 3, (1,2,3)}

{1, 3, (1, 2, 3)}

In [21]:
{1, 3, [1,2,3]}

TypeError: unhashable type: 'list'

## Быстрая проверка на включение

In [27]:
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
basket_ls = list(basket)

используем еще одну магию jupyter - `%%timeit` измеряет скорость исполнения кода в ячейке

In [28]:
%%timeit
'orange' in basket 

35.4 ns ± 0.833 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [29]:
%%timeit
'orange' in basket_ls

47.9 ns ± 1.77 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [31]:
second_basket = { 'milk', 'bread', 'peanut butter', 'banana'}

In [32]:
basket - second_basket # или метод difference

{'apple', 'orange', 'pear'}

In [33]:
second_basket - basket

{'bread', 'milk', 'peanut butter'}

In [34]:
basket.union(second_basket)

{'apple', 'banana', 'bread', 'milk', 'orange', 'peanut butter', 'pear'}

In [36]:
basket.intersection(second_basket)

{'banana'}

# One-liners (List comprehensions)

В предыдущем ноутбуке мы уже обсудили циклы. На самом деле есть еще один метод создавать циклы - так называемый list comprehensions, хотя они работают не только со списками.
List comprehension существенно короче чем цикл (занимают одну линию), но так-же и быстрее классического цикла! 

Впрочем, они не везде могут заменить обычный цикл...


Простейший кейс:

In [39]:
[x**2 for x in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Мы можем так-же добавить условие:

In [43]:
[x**2 for x in range(10) if ((x**2 % 2) == 0)] # только четные

[0, 4, 16, 36, 64]

Можно создать двойной цикл (правда, почему-то это надо делать в "обратном" порядке):

In [45]:
[x*y for y in range(3) for x in range(5,10)]

[0, 0, 0, 0, 0, 5, 6, 7, 8, 9, 10, 12, 14, 16, 18]

использовать со словарем:

In [46]:
D = {'Philipp': 20, 'David': 40}
{v:k for k, v in D.items()}

{20: 'Philipp', 40: 'David'}

# Генераторы (Generators)

Генераторы позволяют добавить свойства iterable обычным функциям. Более того - в отличии от "настоящих" структур данных, генераторы "ленивы" ('lazy') - то есть они не хранять все данные в памяти, и даже не рассчитывают их, пока до них не дойдет очередь. Схема работы генератора проста - каждый элемент имеет поинтер (ссылку) на следующий элемент, и только, последний элемент ссылается на ошибку. Отсюда следует, что:

1. Генераторы могут быть любой длины или даже бесконечными, без перегруза памяти
2. Нельзя заранее знать длину генератора, перескочить или вернуться к предыдущему значению; индексов не существует. как только мы вышли из контекста конкретного значения, оно исчезает.
3. Генераторы можно "сцеплять", - использовать один в другом

Существует три типичных случая использования генераторов:
    1. когда элементы итератора (скорее всего) не должны взаимодействовать друг с другом
    2. когда объем данных больше памяти, и загрузить все одновременно не представляется возможным. Например, Генератором можно читать гигантские файлы, строка за строкой, храня единомоментно в памяти только эту строку
    3. когда количество элементов в итераторе потенциально бесконечное ( например берет данные из стопки, в которую какой-то другой процесс их подкладывает. )

Генератора создаются с помощью команды `yield`. Yield работает как `return` - но не останавливает при этом функцию. В свою очередь, результат можно итерировать, или получить следующее значение с помощью `next(iterator)`

In [50]:
def chars(words):
    for word in words:
        yield word

In [53]:
W = chars('Hi')
next(W)

'H'

In [54]:
next(W)

'i'

In [55]:
next(W)

StopIteration: 

На самом деле мы использовали генераторы все это время - например, `range`.

Генератор можно так же создать с помощью List comprehension - заменив квадратные скобки списка на круглые (и это будет не тюпл)

In [56]:
G = (char for char in 'Hi')
next(G)

'H'