# Семинар №4: Продвинутые конструкции

<img src="images/oooh.jpg" width="500">

## 1. Изменяемые и неизменяемые объекты

Как мы с вами до этого определелили: все в python является объектом. Объекты можно разделять по разным классификациям. Рассмотрим одну из них: так, все объекты делятся на **изменяемые** и **неизменяемые**. Давайте разберемся, что это значит.  


Представим себе огромный комод с кучей ящиком в нем. Комод $-$ память вашего компьютера, а ящик $-$ ячейка памяти. 

<img src="images/comod.jpg" width="400">

Когда вы инициализируете какой-либо объект в питоне, а затем сохраняете его в памяти (например, закидываете в переменную), то один из ящиков вашего чудо-комода открывается, и в него кладется ваш объект:

<img src="images/comod_open.jpg" width="400">

Теперь давайте попробуем создать и сохранить объект числа $5$ в переменную $a$:

In [1]:
a = 5

На этом этапе один из ваших ящиков в комоде открылся, и в него сохранилось число $5$. Также стоит отметить, что все ящики пронумерованны, а номер ящика можно узнать с помощью функции `id()` 

In [2]:
id(a)

4499372464

Теперь давайте попробуем изменить нашу переменную $a$, добавив к ней $1$, а затем посмотрим снова на номер нашего ящика:

In [3]:
a += 1

id(a)

4499372496

Как видим, номер нашего ящика _изменился_. Это означает, что после того как мы добавили к $5$ единицу, наш объект $a$ (то есть $5$) _не перезаписался_. Напротив, создался новый объект, для которого был выделен отдельный ящик. Так вот, когда такое происходит, объекты, которые вы пытаетесь изменить, называются **неизменяемыми**$!!$ То есть каждый раз у вас занимается отдельный ящик и, соответственно, больше ячеек памяти.

А вот массив является изменяемым объектом. Так, например, когда вы добавляете к массиву какой-то элемент, у вас не создается нового экземпляра объекта и ящика под него. Наоборот, открывается уже существующий ящик и в нем изменяется элемент на другой. 

In [5]:
x = [1, 2, 3, 4]

print(f'До: {id(x)}')

x.append(100)

print(f'После: {id(x)}')

До: 4534364928
После: 4534364928


**Шпаргалка:**

* Простейшие (`int`, `float`, `str`, `bool`) - неизменяемые
* Списки (`list`) - изменяемые
* Кортежи (`tuple`) - неизменяемые
* Множества (`set`) - изменяемые
* "Замороженные" множества (`frozen set`) - неизменяемые
* Словари (`dict`) - изменяемые

Про последние типы данных мы с вами еще не говорили, самое время это исправить!

## 2. Кортежи (`tuple`)

**Кортежи** $-$ это неизменяемые списки. То есть это такие списки, в которых нельзя изменять, добавлять и удалять элементы. Поэтому если вы боитесь, что кто-то залезет в ваш список и что-то там поменяет, не сообщив вам, либо, что более страшно, какая-то функция случайно изменит ваш список, а вы бы этого не хотели, то смело пользуйтесь кортежами. Задаются они также как списки, только вместо квадратных скобок пишем круглые:

In [16]:
my_first_tuple = (1, -100, 'Привет')

type(my_first_tuple)

tuple

In [15]:
# изменить не можем!
my_first_tuple[0] = 4

TypeError: 'tuple' object does not support item assignment

In [21]:
# если хотим создать один объект в кортеже, то нужна запятая. Иначе преобразует в int

tup = (1, )
tup

(1,)

Иногда бывает полезным создавать списки из кортежей  

**Пример:** У вас есть записная книжка с номерами телефонов (да кто вообще ей пользуется в 2021 году??). Так вот, в этой записной книжке у вас составлены некие пары: _Имя человека_ и _номер телефона_. Тогда такую конструкцию можно представить в виде списка из кортежей:

In [43]:
my_phonebook = [('мария', 9998884422), ('антон', 8561328945), 
                ('егор', 9221784421), ('паша', 6688911231), 
                ('иннокентий', 5411234423), ('спасательная', 911), 
                ('андрей', 124125124)]

my_phonebook

[('мария', 9998884422),
 ('антон', 8561328945),
 ('егор', 9221784421),
 ('паша', 6688911231),
 ('иннокентий', 5411234423),
 ('спасательная', 911),
 ('андрей', 124125124)]

А еще такие пары можно собрать из двух списков с помощью функции `zip()`:

In [68]:
names = ['мария', 'антон', 'егор', 'паша', 'иннокентий', 'спасательная', 'андрей']
numbers = [9998884422, 8561328945, 9221784421, 6688911231, 5411234423, 911, 124125124]

list(zip(names, numbers))

[('мария', 9998884422),
 ('антон', 8561328945),
 ('егор', 9221784421),
 ('паша', 6688911231),
 ('иннокентий', 5411234423),
 ('спасательная', 911),
 ('андрей', 124125124)]

### Линейный и бинарный поиск 

Теперь представим _задачу_: нужно найти номер конкретного человека. Как мы это сделаем? Самый простой способ - это проходить по нашему массиву и сравнивать каждый объект до совпадения. Можно представить себе, что каждое имя в вашей книжке записано на отдельной странице, и вы по очереди перелистываете страницы, смотрите глазами на имя человека и если это тот, который вам нужен, то останавливаетесь, а если нет, то продолжаете листать страницы.   

Такой поиск называется **линейным**. Реализуем его:

In [44]:
search = 'паша'

for item in my_phonebook:
    if item[0] == search:
        print(f'{search} имеет номер {item[1]}')

паша имеет номер 6688911231


Однако в таком поиске есть один существенный недостаток: он долгий. Ведь если имя человека, которого вы ищете, находится на последней странице, то вам придется перелистать все страницы. Если в то же время ваша телефонная книга содержит около 1000 номеров, сделать это довольно затруднительно как и вам, так и компьютеру.  

Для того что я сейчас описал есть даже специальный термин в программировании - сложность по времени в худшем случае, обозначается она в данном случае как $O(n)$ и читается как **о-большое от эн**.  

$n$ - так как именно столько страниц вам нужно будет просмотреть, если имя находится на последней странице, а у книги всего $n$ страниц  


Чтобы узнать о сложностях чуть больше, можно почитать отдельную тетрадку:

**Однако задачу поиска можно _упростить_:**  

Давайте представим, что наша записная книжка отсортирована в алфавитном порядке имен:

In [45]:
phonebook_sorted = sorted(my_phonebook, key=lambda w: w[0]) # сортируем по первому ключу

phonebook_sorted

[('андрей', 124125124),
 ('антон', 8561328945),
 ('егор', 9221784421),
 ('иннокентий', 5411234423),
 ('мария', 9998884422),
 ('паша', 6688911231),
 ('спасательная', 911)]

Теперь мы можем открыть серединную страницу нашей книги и посмотреть, какое имя записано на ней. В данном примере этим именем будет Иннокентий. Затем мы с вами знаем, что буква "П" (в слове Паша) идет после буквы "И", поэтому нам нужно взять только те страницы нашей книги, которые идут после серединной. Теперь снова откроем середину в этом числе страниц. Попадем на какое-то имя, посмотрим на его букву и проделаем все тоже самое до тех пор, пока не окажемся на имени Паша.  

Такой поиск называется **бинарным**, и он очень сильно ускоряет работу. Ниже представлен входной размер данных и сколько по времени мы будем тратить, если будем проходить бинарным и линейным поиском:  

Кол-во элементов | Линейный поиск | Бинарный поиск | 
----| :-------------:|:-------------:| 
100| 100 мс | 7 мс | 
10000| 10 сек     | 14 мс      |  
1000000000| 11 дней | 32 мс    | 

Видим, что **скорость роста** у бинарного поиска совершенно другая. Связано это с тем, что скорость описывается другой функцией - логарифмом, поэтому сложность в худшем случае для такого алгоритма - это $O(\log n)$. Подумайте почему дело тут именно в логарифме, а также попробуйте реализовать код алгоритма в ячейке ниже:  

Сложность алгоритма, потому что:  

$$
\frac{n}{2^k} = 1
$$

$$
k = \log n
$$

In [37]:
# ваш код

def binary_search(lst, search):
    low = 0
    high = len(lst) - 1
    
    while low <= high:
        mid = (low + high) // 2
        guess = lst[mid]
        
        if guess[0] == search:
            return mid
        elif guess[0] > search:
            high = mid - 1
        else:
            low = mid + 1
    return 'Такого имени нет'  

phonebook_sorted[binary_search(phonebook_sorted, 'паша')]

('паша', 6688911231)

Больше алгоритмов простым языком можно найти в книге "Грокаем алгоритмы"

## 3. Хэш-таблицы

Однако на бинарном поиске упрощение не заканчивается. Оказывается, можно _моментально_ (то есть за константное время $O(1)$) получать ответ. Однако для такого записной книжкой ограничиться не получится, теперь нам нужен специальный помощник Алиса, который будет отвечать, на какой странице в нашей книге находится тот или иной человек. Такую "Алису" можно реализовать на питоне с помощью **хэш-таблицы**:  

Хэш-таблица задается **хэш-функцией**, то есть правилом, которое сопоставляет каждый элемент входных данных натуральному числу. 

Например, в качестве простейшей хэш-функции мы можем взять функцию, возвращающую номер первой буквы слова в алфавите:

In [38]:
def simple_hash(x):
    alph = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
    return alph.index(x[0])

simple_hash('паша')

16

Давайте _захешируем_ теперь каждое наше имя:

In [42]:
# для этого завели массив под каждую букву (размера 33)
x = [0] * 33
x[:10]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [47]:
# а теперь идем по всем именам и кладем их на соответствующее место в массиве
for name, number in my_phonebook:
    x[simple_hash(name)] = number
    
x[:10]

[124125124, 0, 0, 0, 0, 9221784421, 0, 0, 0, 5411234423]

Теперь если нам нужно найти номер по имени, то мы для начала ищем хэш данного имени с помощью функции `simple_hash()`, получаем наш хэш, а затем по нему итерируемся в массиве $x$:

In [48]:
idx = simple_hash('паша')
idx

16

In [49]:
x[idx]

6688911231

**Замечание:** В данном случае мы взяли слишком плохую хэш-функцию, так как для имен, начинающихся с одной и той же буквы, мы сопоставляем один и тот же хэш, поэтому если мы с вами внимательно посмотрим на $х$, то на 1ом месте в этом массиве увидим номер андрея, так как он шел после антона. Хэш для номера антона в данном случае _перезаписался_. Такая ситуация называется **коллизией**. Нужно писать такие хэш-функции, чтобы коллизии возникали очень очень редко. А если они все таки возникают, то обычно на позиции хэша создается массив, содержащий несколько объектов сразу. То есть что-то такое:

In [51]:
x[0] = [8561328945, 124125124]

x[:10]

[[8561328945, 124125124], 0, 0, 0, 0, 9221784421, 0, 0, 0, 5411234423]

### Реализации хэш-таблиц в python:

В питоне хэш-функции написаны уже за вас. Вам достаточно всего лишь воспользоваться конструкциями, которые реализуют их в отдельном объекте. Такие конструкции называются **словарями** и **множествами**:

### Множества

**Множество** $-$ это объект, в котором все значения уникальны, то есть нет повторяющихся. Также в множестве не задан порядок на объектами, а сам объект множества является хэш-таблицей.  

Множество можно создать как самому, так и из массива:

In [53]:
set_a = {1, 2, 3, 4, 4, 4, 5, 6}
set_a

{1, 2, 3, 4, 5, 6}

In [54]:
list_b = [1, 2, 3, 10, 10, 3]
list_b

[1, 2, 3, 10, 10, 3]

In [55]:
set_b = set(list_b)
set_b

{1, 2, 3, 10}

Над множествами определены следующие **операции**:

In [61]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

print(c <= a) # проверка на подмножество (с подномжество a)
print()
print(c <= b) # не подмножество, т.к. в b нет 2 
print()
print(a >= c) # а надмножество с
print()
print(a | b) # объединение
print()
print(a & b) # пересечение
print()
print(a - b) # разность множеств (все что в a, кроме b)
print()
print(a ^ b) # симметрическая разность множеств (объединение без пересечения)

True

False

True

{1, 2, 3, 4, 5, 6}

{3, 4}

{1, 2}

{1, 2, 5, 6}


Множество - это изменяемый объект, поэтому в него мы, например, можем добавить элемент:

In [58]:
a.add(100)

a

{1, 2, 3, 4, 100}

Однако в питон есть и специальная конструкция `frozenset`, которая делает множество неизменяемым:

In [1]:
b = frozenset([1, 2, 3, 4])

b.add(100)

AttributeError: 'frozenset' object has no attribute 'add'

**Очень простая задача на понимание:** Дан список чисел, который может содержать до $100000$ чисел. Определите, сколько в нем встречается различных чисел.

In [62]:
# ваш код
x = [1, 20, 3, 44, 5, 1, 100, 100, 100, 2, 2]

len(set(x))

7

### Словари

**Словари** $-$ это некая конструкция (отображение), которая каждому _уникальному_ ключу задает свое значение. Словари тоже являются хэш-таблицами.  

Например, словарем можно представить таблицу с оценками студентов за курс по питону:

In [5]:
d = {'Маша': 10, 'Паша': 5, 'Коля': 7, 'Тейлор': 12}

d

{'Маша': 10, 'Паша': 5, 'Коля': 7, 'Тейлор': 12}

Здесь **ключами** являются студенты, а **значениями** $-$ их оценки

**Важно:** Ключами в словаре могут быть только неизменяемые объекты

In [2]:
# можно взять кортеж или строку (как мы делали до этого)

d2 = {('Маша', 10): 'Оценка отлично', ('Паша', 5): 'Оценка удовлетворительно', 
      ('Коля', 7): 'Оценка хорошо', ('Тейлор', 12): 'Оценка гений'}

d2

{('Маша', 10): 'Оценка отлично',
 ('Паша', 5): 'Оценка удовлетворительно',
 ('Коля', 7): 'Оценка хорошо',
 ('Тейлор', 12): 'Оценка гений'}

In [1]:
# а вот список не может быть
d2 = {['Маша', 10]: 'Оценка отлично'}

TypeError: unhashable type: 'list'

Что можно делать со словарями:

In [80]:
'Маша' in d  # проверять, есть ли ключ

True

In [81]:
d['Андрей'] = 6 # добавлять новую пару ключ-значение
d

{'Маша': 10, 'Паша': 5, 'Коля': 7, 'Тейлор': 12, 'Андрей': 6}

In [23]:
d['Маша'] = 9 # заменять по ключу. Помним, что ключи все уникальны, то есть множество ключей - это множество
d

{'Маша': 9, 'Паша': 5, 'Коля': 7, 'Тейлор': 12}

Если хотим добавить ключ и значение, но боимся что такой ключ уже есть и значение заменится, можно использовать `setdefault`

In [24]:
d.setdefault('Маша', '100')
d

{'Маша': 9, 'Паша': 5, 'Коля': 7, 'Тейлор': 12}

In [16]:
# объединять словари через kwargs
c2 = {'c': 3, 'd': 4}

c1 = {'a': 1, 'b': 2, **c2}
c1

{'a': 1, 'b': 2, 'c': 3, 'd': 4}

views методы:

In [84]:
print(d.values()) # получаем значения
print()
print(d.keys()) # получаем ключи
print()
print(d.items()) # получаем пары

dict_values([9, 5, 7, 12, 6])

dict_keys(['Маша', 'Паша', 'Коля', 'Тейлор', 'Андрей'])

dict_items([('Маша', 9), ('Паша', 5), ('Коля', 7), ('Тейлор', 12), ('Андрей', 6)])


Еще методы:

In [14]:
d.get('Дарт Вейдер', '404') # если такого ключа нет, то выдавай 404

# сам список при этом не меняется

'404'

In [15]:
d.pop('Дарт Вейдер', '404') # тоже самое, что с get, но только с удалением

'404'

Переписываем долгий if через словари:

In [18]:
status = 'active'

if status == 'active':
    print('Status is active!')
elif status == 'inactive':
    print('Status is inactive!!')
else:
    print('Status is unknown')

Status is active!


In [19]:
MESSAGES = {
    'active': 'Status is active!',
    'inactive': 'Status is inactive!!'
}

MESSAGES.get(status, 'Status is unknown')

'Status is active!'

Таким образом, нашу записную книжку мы бы могли перезаписать с помощью словаря и тогда бы поиск по ней был бы моментальным:

In [86]:
phonebook_dict = {'мария': 9998884422, 'антон': 8561328945, 'егор': 9221784421, 
                  'паша': 6688911231, 'иннокентий': 5411234423, 'спасательная': 911, 'андрей': 124125124}

phonebook_dict['мария']

9998884422

**Еще пример:** Найти 3 самых частых слова, использующихся в дзене питона

In [27]:
zen = """
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
"""

In [28]:
zen_map = {}

for word in zen.split():
    cleaned_word = word.strip('.,!-').lower()
    if cleaned_word not in zen_map:
        zen_map[cleaned_word] = 0
    
    zen_map[cleaned_word] += 1
    
print(zen_map)

{'beautiful': 1, 'is': 10, 'better': 8, 'than': 8, 'ugly': 1, 'explicit': 1, 'implicit': 1, 'simple': 1, 'complex': 2, 'complicated': 1, 'flat': 1, 'nested': 1, 'sparse': 1, 'dense': 1, 'readability': 1, 'counts': 1, 'special': 2, 'cases': 1, "aren't": 1, 'enough': 1, 'to': 5, 'break': 1, 'the': 5, 'rules': 1, 'although': 3, 'practicality': 1, 'beats': 1, 'purity': 1, 'errors': 1, 'should': 2, 'never': 3, 'pass': 1, 'silently': 1, 'unless': 2, 'explicitly': 1, 'silenced': 1, 'in': 1, 'face': 1, 'of': 2, 'ambiguity': 1, 'refuse': 1, 'temptation': 1, 'guess': 1, 'there': 1, 'be': 3, 'one': 3, 'and': 1, 'preferably': 1, 'only': 1, 'obvious': 2, 'way': 2, 'do': 2, 'it': 2, 'that': 1, 'may': 2, 'not': 1, 'at': 1, 'first': 1, "you're": 1, 'dutch': 1, 'now': 2, 'often': 1, '*right*': 1, 'if': 2, 'implementation': 2, 'hard': 1, 'explain': 2, "it's": 1, 'a': 2, 'bad': 1, 'idea': 3, 'easy': 1, 'good': 1, 'namespaces': 1, 'are': 1, 'honking': 1, 'great': 1, '': 1, "let's": 1, 'more': 1, 'those': 

In [29]:
# делаем быстрее
from collections import Counter

cleaned_list = []
for word in zen.split():
    cleaned_list.append(word.strip('.,!-').lower())
    
Counter(cleaned_list).most_common(3)

[('is', 10), ('better', 8), ('than', 8)]

**Замечание:** Словари являются упорядоченными, начиная с версии питона 3.6 (реализация CPython). До 3.6 нужно было пользоваться OrderedDict из модуля collections