<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/a/a8/%D0%9B%D0%9E%D0%93%D0%9E_%D0%A8%D0%90%D0%94.png" width=500px/>
    <br/>
    <font>Python 2023</font><br/>
    <br/>
    <b style="font-size: 2em">Cтруктуры данных</b><br/>
    <br/>
    <font>Золотарёв Ярослав, по материалам Иларии Беловой $\heartsuit$</font><br/>
</center>

### План лекции

**Первая часть: (~1h)**
1. Устройство базовых типов данных: int, bool, float, str

**Вторая часть: (~1.5h)**
1. Устройство контейнеров: tuple, list, set, frozenset, dict
2. Shallow\deep copy; packing\unpacking

**Третья часть: (~0.5h)**
1. Comprehensions
2. Collections: defaultdict, deque, OrderedDict, Counter,
3. heapq

### Определения → Объекты, ссылки, типы, значения, операции

In [1]:
# All data in a Python program is represented by objects or by relations between objects

a = 1       # `имя` = `значение`. Имени `a` присваивается ссылка на объект со значением 1
A = id(a)   # `id`. Ссылка, где лежит объект в памяти
t = type(a) # `тип`. Какими свойствами обладает
a, A, t

(1, 139667859399560, int)

In [2]:
b = 1
c = 2
a = b + c   # Операция над объектами

### "Магия" Python 

In [3]:
list_of_immutables = list(range(5))
print(list_of_immutables)

list_of_mutables = [[1], [1], [1]]
print(list_of_mutables)

ref_list_of_mutables = [[1]] * 3
print(ref_list_of_mutables)

[0, 1, 2, 3, 4]
[[1], [1], [1]]
[[1], [1], [1]]


In [4]:
print(list_of_immutables)

for elem in list_of_immutables:
    elem = elem + 1
    # do something else
    print(elem, end=' ')
    
print(list_of_immutables)

[0, 1, 2, 3, 4]
1 2 3 4 5 [0, 1, 2, 3, 4]


In [5]:
for idx, elem in enumerate(list_of_mutables):
    elem.append(idx)
    
print(list_of_mutables)

[[1, 0], [1, 1], [1, 2]]


In [6]:
for idx, elem in enumerate(ref_list_of_mutables):
    elem.append(idx)
    
print(ref_list_of_mutables)

[[1, 0, 1, 2], [1, 0, 1, 2], [1, 0, 1, 2]]


### Определения → Мутабельность/иммутабельность объектов

In [7]:
# Иммутабельные - не меняют значение по ссылке
# Примеры: int, float, str, tuple, frozenset
a = 1
b = a
a += 2
a, b

(3, 1)

In [8]:
# Мутабельные - меняют значение по ссылке
# Примеры: list, set, dict
a = [1]
b = a
a += [2]
a, b

([1, 2], [1, 2])

### Ⅰ. Устройство базовых типов данных → int (1/8)

In [9]:
a = 322     
A = id(a)   
t = type(a)
a, A, t

(322, 139667238476464, int)

In [10]:
a = 322
b = 322
a == b, id(a) == id(b)

(True, False)

### Ⅰ. Устройство базовых типов данных → int  (2/8)

In [11]:
a = 322
A = id(a)
a = 323
id(a) == A

False

### Ⅰ. Устройство базовых типов данных → int  (3/8)

In [12]:
a = 322
b = a
a == b, id(a) == id(b)  # В чём разница со случаем 1?

(True, True)

### Ⅰ. Устройство базовых типов данных → int  (4/8)

In [13]:
a = 322
b = a
b = b + 1

id(a) == id(b)

False

In [14]:
a = 322
b = a
b += 1

id(a) == id(b)

False

### Ⅰ. Устройство базовых типов данных → int (5/8)

In [1]:
# Немножко оптимизации: малые значения инта
a = 1
b = 1
print(id(a) == id(b), a is b)

a = 256
b = 256
print(id(a) == id(b), a is b)

a = 257
b = 257
print(id(a) == id(b), a is b)

True True
True True
False False


In [16]:
# Немножко оптимизации: константы
a = 257
b = 257
print(id(a) == id(b))

def f():
    a = 257
    b = 257
    print(id(a) == id(b))
f()

False
True


### Ⅰ. Устройство базовых типов данных → int (6/8)

In [17]:
# id можно вызвать и от типа
a = 322
b = 322
id(type(a)) == id(type(b))

True

In [18]:
# При желании можно переприсвоить и int
int = 1
print(id(1) == id(int), id(1) == id(type(1)))
import builtins; int = builtins.int

True False


In [19]:
int = 1337
print(id(1337) == id(int), id(1337) == id(type(1337)))
import builtins; int = builtins.int

False False


###  Ⅰ. Устройство базовых типов данных → int (7/8)

In [20]:
# Сколько занимает int памяти?
import sys
a = 1
sys.getsizeof(a) #, sys.int_info

28

In [21]:
# А такой?
a = (1 << 30) - 1
sys.getsizeof(a)

28

In [22]:
# А такой?
a = (1 << 30)
sys.getsizeof(a)

32

In [23]:
# А такой?
a = (1 << 30) * (1 << 30)
sys.getsizeof(a)

36

In [24]:
# INT БЕСКОНЕЧНЫЙ

<b>Ⅰ. Устройство базовых типов данных → int (8/8)</b>
<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td>Знак числа + его размер по основанию 2<sup>30</sup></td> <td>8 байт</td> <td> l - signed long </td>
</tr>
<tr> 
<td> Каждый кусочек инта </td> <td>4 байта</td> <td> i - int </td>
</tr>
</table>


In [25]:
# Какой размер у a?
import sys
a = 437976919 + 87719511 * 2**30 + 107 * (2**30) ** 2
sys.getsizeof(a)

36

In [26]:
# Немного глянем во внутренности питона

import ctypes  # Библиотека, позволяющая работать напрямую с памятью
import struct  # Библиотека, связывающая питоновские объекты с их репрезентацией в памяти

print(struct.unpack("LLliii", ctypes.string_at(id(a), 36)))
# a = 437976919 + 87719511 * 2**30 + 107 * (2**30) ** 2

(1, 139667858391360, 3, 437976919, 87719511, 107)


In [27]:
# Поменять каждую из цифр разложения числа a
print(struct.unpack("LLliii", ctypes.string_at(id(a), 36)))

(1, 139667858391360, 3, 437976919, 87719511, 107)


### Ⅰ. Устройство базовых типов данных → bool (1/2)

In [28]:
a = True
b = True
a == b, id(a) == id(b)

(True, True)

In [29]:
a = True
b = a
a &= False
a, b, a == b, id(a) == id(b)

(False, True, False, False)

### Ⅰ. Устройство базовых типов данных → bool (2/2)

<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td>0 или 1</td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Значение bool </td> <td>4 байта</td> <td> i - int </td>
</tr>
</table>


In [30]:
# Какой размер у a?
import sys
a = True
sys.getsizeof(a)

28

In [31]:
# Немного глянем inside
import ctypes
import struct

struct.unpack("LLli", ctypes.string_at(id(a), 28))

(7975, 139667858321248, 1, 1)

### Ⅰ. Устройство базовых типов данных → float (1/7)

In [32]:
a = 1.1
b = 1.1
id(a) == id(b)

False

In [33]:
a = 1.1
b = a
id(a) == id(b)

True

### Ⅰ. Устройство базовых типов данных → float (2/7)

In [34]:
a = 1.1
b = a
b = b + 1.45

a == b, id(a) == id(b)

(False, False)

In [35]:
a = 1.1
b = a
b += 1.45

a == b, id(a) == id(b)

(False, False)

### Ⅰ. Устройство базовых типов данных → float (3/7)

In [36]:
# А что в случае типов?
a = 1.45
b = 1.47
id(type(a)) == id(type(b))

True

### Ⅰ. Устройство базовых типов данных → float (4/7)

In [37]:
# Потеря точности
float(10**16 - 1) == 10**16

True

In [38]:
a = 1.7976931348623157e+308 + 228
b = 1.7976931348623157e+308 + 777777
a == b, id(a) == id(b)

(True, False)

### Ⅰ. Устройство базовых типов данных → float (5/7)

In [39]:
a = 1.7976931348623157e+308; b = 10 ** 292  # 10.
print(a)
print(b) 
print(a+b)

1.7976931348623157e+308
10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000
inf


In [40]:
1.7976931348623157e+308 * 2 == float('inf')

True

In [41]:
a = float('inf')
b = float('inf')
a == b, id(a) == id(b)

(True, False)

In [42]:
a = float('nan')
b = float('nan')
a == b, id(a) == id(b)

(False, False)

### Ⅰ. Устройство базовых типов данных → float (6/7)

In [43]:
import sys
sys.getsizeof(1), sys.getsizeof(1.0)

(28, 24)

In [44]:
sys.getsizeof(sys.float_info.max)

24

In [45]:
sys.getsizeof(float('inf'))

24

<b>Ⅰ. Устройство базовых типов данных → float (7/7)</b>
<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> double со значением </td> <td>8 байт</td> <td> d - double </td>
</tr>
</table>


In [46]:
# Какой размер у a?
import sys
a = 1.45
sys.getsizeof(a)

24

In [47]:
# Немного глянем inside
import ctypes
import struct

struct.unpack("LLd", ctypes.string_at(id(a), 24))

(1, 139667858380384, 1.45)

In [48]:
# Playground

### Ⅰ. Устройство базовых типов данных → str (1/6)

In [49]:
a = "hello+world"
b = "hello+world"
a == b, id(a) == id(b)

(True, False)

### Ⅰ. Устройство базовых типов данных → str (2/6)

In [50]:
a = "hello"
b = a
b = b + " world"

a == b, id(a) == id(b)

(False, False)

In [51]:
a = "hello"
b = a
b += " world"

a == b, id(a) == id(b)

(False, False)

### Ⅰ. Устройство базовых типов данных → str (3/6)

In [52]:
# А что в случае типов?

a = "hello"
b = "world"
id(type(a)) == id(type(b))

True

### Ⅰ. Устройство базовых типов данных → str (4/6)

In [53]:
# Немного оптимизации: интернирование

a = "helloworld"
b = "helloworld"
id(a) == id(b)

True

In [54]:
a = "a" * 100500
b = "a" * 100500
id(a) == id(b)

False

In [55]:
# Интернирование
import sys
a = sys.intern("a" * 100500)
b = sys.intern("a" * 100500)
id(a) == id(b)

True

<b> Ⅰ. Устройство базовых типов данных → str (5/6) </b>
<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Число символов </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Хэш </td> <td>8 байт</td> <td> l - signed long </td>
</tr>
<tr> 
<td> Флаги, включая интернирование; служебная информация </td> <td>16 байт</td> <td> s - char[] </td>
</tr>
<tr> 
<td> Байты строки, заканчивающейся на \00 </td> <td> >= 1 байт </td> <td> s - char[] <td> 
</tr>
</table>

In [56]:
# Какой размер у a?
import sys
a = "shad2023"
sys.getsizeof(a)

57

In [57]:
# Немного глянем inside

import ctypes
import struct

struct.unpack("3Ll16s8s", ctypes.string_at(id(a), 56))

(1,
 139667858431168,
 8,
 3445965612054133883,
 b'\xe5S%\xf5\x06\x7f\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00',
 b'shad2023')

In [58]:
# Playground

### Ⅰ. Устройство базовых типов данных → str (6/6)

1. Вставка буквы в начало/середину/конец строки?
2. Взятие длины от строки?
3. Поиск буквы в строке?
4. Поиск подстроки в строке?
5. Удаление буквы из строки?
6. Добавление строки к строке?

### Ⅱ. Устройство контейнеров → list (1/10)

In [59]:
a = [1]
b = [1]
a == b, id(a) == id(b)

(True, False)

### Ⅱ. Устройство контейнеров → list (2/10)

In [60]:
def printy(label, value):
    print(f"{label} == {value} -> {id(value)}")
    if not isinstance(value, int):
        for i, el in enumerate(value):
            print(f"{label}[{i}] == {el} -> {id(el)}")

a = 2; b = 4; my_list = [2, 4]

printy("a", a)
printy("b", b)
printy("my_list", my_list)

a == 2 -> 139667859399592
b == 4 -> 139667859399656
my_list == [2, 4] -> 139667239441024
my_list[0] == 2 -> 139667859399592
my_list[1] == 4 -> 139667859399656


In [61]:
my_list[1] = 3

printy("a", a)
printy("b", b)
printy("my_list", my_list)

a == 2 -> 139667859399592
b == 4 -> 139667859399656
my_list == [2, 3] -> 139667239441024
my_list[0] == 2 -> 139667859399592
my_list[1] == 3 -> 139667859399624


### Ⅱ. Устройство контейнеров → list (3/10)

In [62]:
a = [1]
b = a
b = b + [2]

a, b, id(a) == id(b)

([1], [1, 2], False)

In [63]:
a = [1]
b = a
b += [2]

a, b, id(a) == id(b)

([1, 2], [1, 2], True)

### Ⅱ. Устройство контейнеров → list (4/10)

In [64]:
a = [1]
b = a
b.append(2)  # returns None

a, b, id(a) == id(b)

([1, 2], [1, 2], True)

In [65]:
a = [1]
b = a
b.extend([2])

a, b, id(a) == id(b)

([1, 2], [1, 2], True)

### Ⅱ. Устройство контейнеров → list (5/10)

In [66]:
a = [1, 2]
b = a
b = b[:1]
a[0] = 5

a, b, id(a) == id(b)

([5, 2], [1], False)

In [67]:
a = [1, 2]
b = a
b[:1] = b[1:]

a, b, id(a) == id(b)

([2, 2], [2, 2], True)

### Ⅱ. Устройство контейнеров → list (6/10)

In [68]:
# А что в случае типов?
a = [1]
b = [2]
id(type(a)) == id(type(b))

True

### Ⅱ. Устройство контейнеров → list (7/10)

In [69]:
# А что в случае пустых списков?
a = []
b = []
id(a) == id(b)

False

In [70]:
# А что в случае самозацикливания?
a = []
a.append(a)

printy('a', a)

a == [[...]] -> 139667236525120
a[0] == [[...]] -> 139667236525120


### Ⅱ. Устройство контейнеров → list (8/10)

In [71]:
# Сколько памяти ест список?
import sys
[].__sizeof__()

40

In [72]:
# Верно ли?
[1, 2, []].__sizeof__() == [1, 2, [1, 1, 1, 1]].__sizeof__()

True

<b>Ⅱ. Устройство контейнеров → list (9/10)</b>
<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Длина списка </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
    <td> Ссылка на данные 
    </td> 
    <td>
        8 байт
    </td> <td> L - unsigned long </td>
</tr>
<tr> 
    <td> Каждый кусочек данных
    </td> 
    <td>
        8 байт
    </td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Длина списка с учетом аллокации </td> <td>8 байт</td>  <td> L - unsigned long </td>
</tr>
</table>

In [73]:
# Какой размер у a?
import sys
a = [1, 3, "ab"]  # can modify length, but a[0] must be int
a.__sizeof__()

72

In [74]:
# Немного глянем inside
import ctypes
import struct

data_1 = struct.unpack("5L", ctypes.string_at(id(a), 40))
data_2 = struct.unpack(f"{len(a)}L", ctypes.string_at(data_1[3], len(a) * 8))
data_3 = struct.unpack("3Li", ctypes.string_at(data_2[0], 28))  # 0 -> 1
data_1, data_2, data_3

((1, 139667858388896, 3, 139667238479344, 4),
 (139667859399560, 139667859399624, 139667822822832),
 (1000004430, 139667858391360, 1, 1))

In [75]:
# Playground: modification

### Ⅱ. Устройство контейнеров → list (10/10)

* Обновление по индексу в списке?
* Вставка в список?
* Удаление из списка?
* Добавление в конец списка?
* Сложить два списка?
* Взять длину от списка?
* Поиск в списке?

### Ⅱ. Устройство контейнеров → tuple (1/9)

In [76]:
a = 1; c = 2; my_tuple = (1, 2)

printy("a", a)
printy("c", c)
printy("my_tuple", my_tuple)

a == 1 -> 139667859399560
c == 2 -> 139667859399592
my_tuple == (1, 2) -> 139667800493568
my_tuple[0] == 1 -> 139667859399560
my_tuple[1] == 2 -> 139667859399592


### Ⅱ. Устройство контейнеров → tuple (2/9)

In [77]:
a = (1,)
b = a
b = b + a

a, b, id(a) == id(b)

((1,), (1, 1), False)

In [78]:
a = (1,)
b = a
b += a

a, b, id(a) == id(b)

((1,), (1, 1), False)

### Ⅱ. Устройство контейнеров → tuple (3/9)

In [79]:
# Что будет тут?

my_tuple = (1, 2, [])
printy("my_tuple", my_tuple)

my_tuple[2].append(2)

print(f"========= UPDATE =========")
printy("my_tuple", my_tuple)

my_tuple == (1, 2, []) -> 139667239440832
my_tuple[0] == 1 -> 139667859399560
my_tuple[1] == 2 -> 139667859399592
my_tuple[2] == [] -> 139667236522432
my_tuple == (1, 2, [2]) -> 139667239440832
my_tuple[0] == 1 -> 139667859399560
my_tuple[1] == 2 -> 139667859399592
my_tuple[2] == [2] -> 139667236522432


### Ⅱ. Устройство контейнеров → tuple (4/9)

In [80]:
# А что в случае типов?
a = (1,)
b = (2,)
id(type(a)) == id(type(b))

True

### Ⅱ. Устройство контейнеров → tuple (5/9)

In [81]:
# Немножко оптимизации
a = ()
b = ()
id(a) == id(b)

True

In [82]:
a = (1, )
b = (1, )

id(a) == id(b)

False

### Ⅱ. Устройство контейнеров → tuple (6/9)

In [83]:
# Где больше?
().__sizeof__(), [].__sizeof__()

(24, 40)

In [84]:
# Верно ли?
(1, 2, 1, [1]).__sizeof__() == (1, 2, 1, 1).__sizeof__()

True

<b> Ⅱ. Устройство контейнеров → tuple (7/9)</b>
<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Длина tuple </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Ссылка на каждый элемент </td> <td> по 8 байт</td> <td> L - unsigned long </td>
</tr>
</table>

In [85]:
# Какой размер у a?
import sys
a = (1, 2)  # len(a) == 2
a.__sizeof__()

40

In [86]:
# Немного глянем inside
import ctypes
import struct
struct.unpack(f"{3 + len(a)}L", ctypes.string_at(id(a), 40))

(1, 139667858417632, 2, 139667859399560, 139667859399592)

In [87]:
# Playground

<b> Ⅱ. Устройство контейнеров → tuple (8/9)</b>

In [88]:
x = ([], 1, 2)
x[0] += [1]
x

TypeError: 'tuple' object does not support item assignment

In [89]:
x = ([], 1, 2)
print(f"old ID: {id(x)}")

try:
    x[0] += [1]
except TypeError:
    print('Caught an exception!')
    
print(f"new ID: {id(x)}")    
    
x

old ID: 139666572813120
Caught an exception!
new ID: 139666572813120


([1], 1, 2)

In [90]:
x = ([], 1, 2)
x[0].append(1)
x

([1], 1, 2)

### Ⅱ. Устройство контейнеров → tuple (9/9)

* Обновление по индексу в тупле?
* Вставка в тупл?
* Удаление из тупла?
* Добавление в конец тупла?
* Сложить два тупла? (+)
* Прибавить тупл к туплу? (+=)
* Взять длину от тупла?
* Поиск в тупле?

### Ⅱ. Устройство контейнеров → set (1/7)

In [91]:
a = set([1,2,3])
type(a), bool(a), bool(set())

(set, True, False)

In [92]:
a = set()
a.add(1)
a.add(2)
a.add(1)
a

{1, 2}

### Ⅱ. Устройство контейнеров → set (2/7)

In [93]:
a = {}
b = {5}

type(a), type(b)

(dict, set)

In [94]:
a = {1, 2, 3}
b = {3, 4, 5}
a - b, b - a

({1, 2}, {4, 5})

In [95]:
a | b, a & b

({1, 2, 3, 4, 5}, {3})

In [96]:
2 in a, 5 not in a

(True, True)

### Ⅱ. Устройство контейнеров → set (3/7)

In [97]:
a = set()
a.add(1.0)

In [98]:
a = set()
a.add({1, 2, 3})

TypeError: unhashable type: 'set'

In [99]:
a = set()
a.add([1, 2])

TypeError: unhashable type: 'list'

In [100]:
a = set()
a.add((1, 2))

### Ⅱ. Устройство контейнеров → set (4/7)

In [101]:
a = 1; b = 2; my_set = {1, 2}

printy("a", a)
printy("b", b)
printy("my_set", my_set)

a == 1 -> 139667859399560
b == 2 -> 139667859399592
my_set == {1, 2} -> 139667041299456
my_set[0] == 1 -> 139667859399560
my_set[1] == 2 -> 139667859399592


### Ⅱ. Устройство контейнеров → set (5/7)

In [102]:
a = {1}
b = a
b = b | {1, 4}

a, b, id(a) == id(b)

({1}, {1, 4}, False)

In [103]:
a = {1}
b = a
b |= {1, 4}

a, b, id(a) == id(b)

({1, 4}, {1, 4}, True)

<b>Ⅱ. Устройство контейнеров → set (6/7)</b>
<table>
<tr>
<td> Счетчик ссылок </td> <td>8 байт</td> <td> L - unsigned long </td>
<tr/>
<tr> 
<td> Ссылка на тип </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Длина set </td> <td>8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Число заполненных ячеек в hash-таблице </td> <td> 8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Число существующих ячеек в hash-таблице - 1</td> <td> 8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Ссылка на таблицу </td> <td> 8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Хеш </td> <td> 8 байт</td> <td> l - signed long </td>
</tr>
<tr> 
<td> Служебная инфо </td> <td> 8 байт</td> <td> L - unsigned long </td>
</tr>
<tr> 
<td> Вхардкоженая маленькая таблица </td> <td> 16 байт * 8</td> <td> Ll - unsigned long + signed long </td>
</tr>
<tr> 
<td> Weakref </td> <td> 8 байт</td> <td> L - unsigned long </td>
</tr>
</table>

In [104]:
import sys

a = {5, 10, "a"}  # *range(20)
a.__sizeof__()

200

In [105]:
# Немного глянем inside
import ctypes
import struct
data_1 = struct.unpack("6LlL" + 8*"Ll" + "L", ctypes.string_at(id(a), 200))
print(data_1[:8]); print(data_1[8:24]); print(data_1[24:])  # id -> hash

(1, 139667858413536, 3, 3, 7, 139667041299744, -1, 0)
(139667858931488, 2857918882943523360, 0, 0, 139667859399848, 10, 0, 0, 0, 0, 139667859399688, 5, 0, 0, 0, 0)
(0,)


In [106]:
table_id, table_size = data_1[5], data_1[4] + 1
data_2 = struct.unpack("Ll" * table_size, ctypes.string_at(table_id, 16 * table_size))
data_2

(139667858931488,
 2857918882943523360,
 0,
 0,
 139667859399848,
 10,
 0,
 0,
 0,
 0,
 139667859399688,
 5,
 0,
 0,
 0,
 0)

In [107]:
# Playground

### Ⅱ. Устройство контейнеров → set (7/7)

* Вставка в set?
* Поиск в set?
* Удаление из set?
* Длина от set?

### Ⅱ. Устройство контейнеров → frozenset (1/4)

In [108]:
a = frozenset([1, 2, 3])
type(a), bool(a), bool(frozenset())

(frozenset, True, False)

### Ⅱ. Устройство контейнеров → frozenset (2/4)

In [109]:
a = frozenset([1, 2, 3])
b = frozenset([3, 4, 5])
a - b, b - a

(frozenset({1, 2}), frozenset({4, 5}))

In [110]:
a | b, a & b

(frozenset({1, 2, 3, 4, 5}), frozenset({3}))

In [111]:
2 in a, 5 not in a

(True, True)

### Ⅱ. Устройство контейнеров → frozenset (3/4)

In [112]:
a = frozenset([1,2,3])
a.add(4)

AttributeError: 'frozenset' object has no attribute 'add'

In [113]:
a = frozenset([1])
b = a
b |= a

a == b, id(a) == id(b)

(True, False)

### Ⅱ. Устройство контейнеров → frozenset (4/4)

In [114]:
# Такой же как set
set().__sizeof__(), frozenset().__sizeof__()

(200, 200)

### Ⅱ. Устройство контейнеров → dict (1/7)

In [115]:
{"a": 1, "b": 2, "c": 3}

{'a': 1, 'b': 2, 'c': 3}

In [116]:
dict(a=1, b=2, c=3)

{'a': 1, 'b': 2, 'c': 3}

In [117]:
bool({"a": 1}), bool({})

(True, False)

### Ⅱ. Устройство контейнеров → dict (2/7)

In [118]:
d = {"a": 2}
d["a"]

2

In [119]:
d["b"]

KeyError: 'b'

In [120]:
d.get("b"), d.get("b", 0)

(None, 0)

### Ⅱ. Устройство контейнеров → dict (3/7)

In [121]:
d = {"a": 1, "b": 2}
d["b"] = 3
d["e"] = 4
d

{'a': 1, 'b': 3, 'e': 4}

In [122]:
d = {"a": 1}
d.update({"a": 3, "b": 2})
d

{'a': 3, 'b': 2}

### Ⅱ. Устройство контейнеров → dict (4/7)

In [123]:
d = {"a": 1, "b": 2}

for k in d:  # d.keys()
    print("Кeys:", k)
    
for v in d.values():
    print("  Values:", v)
    
for k, v in d.items():
    print("    Pairs:", k, v)

Кeys: a
Кeys: b
  Values: 1
  Values: 2
    Pairs: a 1
    Pairs: b 2


In [124]:
d = {"a": 1, "b": 2}
for k in d:
    del d[k]   
d

RuntimeError: dictionary changed size during iteration

### Ⅱ. Устройство контейнеров → dict (5/7)

In [125]:
d = {{1,2}: 3}

TypeError: unhashable type: 'set'

In [126]:
d = {(1,2): 3}

In [127]:
d = {[1,2]: 3}

TypeError: unhashable type: 'list'

In [128]:
d = {frozenset([1,2]): 3}

### Ⅱ. Устройство контейнеров → dict (6/7)

In [129]:
a = {"a": 1}
b = a
b.update({"b": 2})

a, b, id(a) == id(b)

({'a': 1, 'b': 2}, {'a': 1, 'b': 2}, True)

### Ⅱ. Устройство контейнеров → dict (7/7)

In [130]:
d = {"a": 1, "b": 2, "c": 4, "d":5}
print(d.__sizeof__())
d.clear(); print(d.__sizeof__())

168
48


In [131]:
{'a': 1, 'b': 2, 'c': 3}

# Pre-Python3.5:
    
#     entries = [['--', '--', '--'],
#                [-6135892715065594967, 'c', 3],
#                ['--', '--', '--'],
#                ['--', '--', '--'],
#                ['--', '--', '--'],
#                [-6219114009547292522, 'a', 1],
#                ['--', '--', '--'],
#                [6125113541592580481, 'b', 2]]

# Оптимальнее и упорядоченнее относительно вставки:

#     indices =  [None, 2, None, None, None, 0, None, 1]
#     entries =  [[-6219114009547292522, 'a', 1],
#                 [6125113541592580481, 'b', 2],
#                 [-6135892715065594967, 'c', 3]]

{'a': 1, 'b': 2, 'c': 3}

### Ⅱ. Shallow/deep copy (1/2)

In [132]:
a = [1, 2, 3]
b = a.copy()
b[0] = 4

a, b

([1, 2, 3], [4, 2, 3])

In [133]:
from copy import copy
a = [1, 2, 3]
b = copy(a)
b[0] = 4

a, b

([1, 2, 3], [4, 2, 3])

### Ⅱ. Shallow/deep copy (2/2)

In [134]:
from copy import copy
a = [1, 2, []]
b = copy(a)
b[2].append(3)
a, b

([1, 2, [3]], [1, 2, [3]])

In [135]:
from copy import deepcopy
a = [1, 500, []]
b = deepcopy(a)
b[2].append(3)
a, b

([1, 500, []], [1, 500, [3]])

### Ⅱ. Packing/Unpacking (1/2)

In [136]:
a, b = 0, 1
a, b

(0, 1)

In [137]:
# Как одно присвоение не перетирает другое?
a, b = b, a
a, b

(1, 0)

### Ⅱ. Packing/Unpacking (2/2)

In [138]:
x = [1, 2, 3, 4]

# a, b = x[0], x[1:]  # Equivalent
a, *b = x
a, b

(1, [2, 3, 4])

In [139]:
x = [1, 2, 3, 4]

# a, b, c = x[0], x[0:-1], x[-1]  # Equivalent
a, *b, c = x
a, b, c

(1, [2, 3], 4)

### Ⅲ. Comprehensions  →  list comprehension

In [140]:
lst = []
for i in range(5):
    lst.append(i**2)
lst

[0, 1, 4, 9, 16]

In [141]:
lst = [i ** 2 for i in range(5)]
lst

[0, 1, 4, 9, 16]

### Ⅲ. Comprehensions  → dict comprehension

In [142]:
dct = {}
for i in range(5):
    dct[i] = i**2
dct

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

In [143]:
dct = {i : i**2 for i in range(5)}
dct

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

### Ⅲ. Comprehensions  → set comprehension

In [144]:
st = set()

for i in range(10):
    st.add(i)

st

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

In [145]:
st = {i for i in range(10)}
st

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

### Ⅲ. Comprehensions  → comprehension with condition

In [146]:
lst = [i ** 2 for i in range(5)]  # len is always 5
lst

[0, 1, 4, 9, 16]

In [147]:
lst = [i ** 2 for i in range(5) if i % 2 == 1]  # len <= 5
lst

[1, 9]

In [148]:
lst = [i ** 2 if i > 2 else i for i in range(5)]  # len is always 5
lst

[0, 1, 2, 9, 16]

### Ⅲ. Collections  → defaultdict (1/3)

In [149]:
from collections import defaultdict
dct = defaultdict(float)

dct[2]

0.0

In [150]:
from collections import defaultdict
dct = defaultdict(list)

dct[2]

[]

In [151]:
float(), list()

(0.0, [])

### Ⅲ. Collections  → defaultdict (2/3)

In [152]:
dct = {}

for i in range(100):
    j = i % 10
    if j not in dct:
        dct[j] = []
    dct[j].append(i)

dct

{0: [0, 10, 20, 30, 40, 50, 60, 70, 80, 90],
 1: [1, 11, 21, 31, 41, 51, 61, 71, 81, 91],
 2: [2, 12, 22, 32, 42, 52, 62, 72, 82, 92],
 3: [3, 13, 23, 33, 43, 53, 63, 73, 83, 93],
 4: [4, 14, 24, 34, 44, 54, 64, 74, 84, 94],
 5: [5, 15, 25, 35, 45, 55, 65, 75, 85, 95],
 6: [6, 16, 26, 36, 46, 56, 66, 76, 86, 96],
 7: [7, 17, 27, 37, 47, 57, 67, 77, 87, 97],
 8: [8, 18, 28, 38, 48, 58, 68, 78, 88, 98],
 9: [9, 19, 29, 39, 49, 59, 69, 79, 89, 99]}

In [153]:
from collections import defaultdict

dct = defaultdict(list)

for i in range(100):
    dct[i % 10].append(i)

dict(dct)

{0: [0, 10, 20, 30, 40, 50, 60, 70, 80, 90],
 1: [1, 11, 21, 31, 41, 51, 61, 71, 81, 91],
 2: [2, 12, 22, 32, 42, 52, 62, 72, 82, 92],
 3: [3, 13, 23, 33, 43, 53, 63, 73, 83, 93],
 4: [4, 14, 24, 34, 44, 54, 64, 74, 84, 94],
 5: [5, 15, 25, 35, 45, 55, 65, 75, 85, 95],
 6: [6, 16, 26, 36, 46, 56, 66, 76, 86, 96],
 7: [7, 17, 27, 37, 47, 57, 67, 77, 87, 97],
 8: [8, 18, 28, 38, 48, 58, 68, 78, 88, 98],
 9: [9, 19, 29, 39, 49, 59, 69, 79, 89, 99]}

### Ⅲ. Collections  → defaultdict (3/3)

In [154]:
# Не делайте проверки в условиях через взятие по индексу!

dct = defaultdict(float)  # empty

for i in range(5):
    if dct[i] == 0:
        print("Found")

dct

Found
Found
Found
Found
Found


defaultdict(float, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})

### Ⅲ. Collections  → deque (1/3)

In [155]:
from collections import deque
deque([1,2,3])

deque([1, 2, 3])

In [156]:
q = deque([1,2,3])
q.appendleft(0)
q.append(4)
q

deque([0, 1, 2, 3, 4])

In [157]:
q = deque([1,2,3])
q.popleft()
q.pop()
q

deque([2])

### Ⅲ. Collections  → deque (2/3)

In [158]:
q = deque(range(100500))
%timeit [q[i] for i in range(100500)]

76.8 ms ± 438 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [159]:
q = list(range(100500))
%timeit [q[i] for i in range(100500)]

2.49 ms ± 16.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [160]:
def f():
    q = deque()
    for i in range(100500):
        q.appendleft(0)
    return q
%timeit f()

2.84 ms ± 66.7 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [161]:
def f():
    q = list()
    for i in range(100500):
        q.insert(0, i)
    return q
%timeit f()

2.63 s ± 16.7 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


### Ⅲ. Collections → deque (3/3)

* Вставка в начало/конец/середину?
* Извлечение по индексу в начале/конце/середине?
* Поиск?

### Ⅲ. Collections → OrderedDict (1/3)

In [162]:
from collections import OrderedDict

data = OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])
data

OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])

In [163]:
data[1]

'a'

In [164]:
data.update({3: 'd', 4: 'e'})
data

OrderedDict([(1, 'a'), (3, 'd'), (2, 'b'), (4, 'e')])

### Ⅲ. Collections → OrderedDict (2/3)

In [165]:
a = {}; a[1] = 2; a[3] = 4
b = {}; b[3] = 4; b[1] = 2
a == b

True

In [166]:
from collections import OrderedDict

a = OrderedDict(); a[1] = 2; a[3] = 4
b = OrderedDict();  b[3] = 4; b[1] = 2
a == b

False

### Ⅲ. Collections → OrderedDict (3/3)

In [167]:
d = OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])
print(d)
d.move_to_end(3, last=False)
print(d)
d.popitem(last=True)
print(d)

OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])
OrderedDict([(3, 'c'), (1, 'a'), (2, 'b')])
OrderedDict([(3, 'c'), (1, 'a')])


###  Ⅲ. Collections → Counter (1/2)

In [168]:
dct = {}
for a in "aaabbbbccd":
    if a not in dct:
        dct[a] = 0
    dct[a] += 1
dct

{'a': 3, 'b': 4, 'c': 2, 'd': 1}

In [169]:
from collections import Counter

Counter("aaabbbbccd")

Counter({'b': 4, 'a': 3, 'c': 2, 'd': 1})

###  Ⅲ. Collections → Counter (2/2)

In [170]:
d1 = {'a': 3, 'b': 4, 'c': 2, 'd': 1}
d2 = {'a': 4, 'b': 1}
d3 = {}

for k in d1:
    if k in d2:
        if (value := d1[k] - d2[k]) > 0:
            d3[k] = value
    else:
        d3[k] = d1[k]

d3

{'b': 3, 'c': 2, 'd': 1}

In [171]:
from collections import Counter

a = Counter("aaabbbbccd")
b = Counter("aaaab")
a - b

Counter({'b': 3, 'c': 2, 'd': 1})

###  Ⅲ. heapq (1/4)

In [172]:
import heapq

a = []
print(a)
heapq.heappush(a, 1)
print(a)
heapq.heappush(a, 2)
print(a)
heapq.heappush(a, 0)
print(a)
heapq.heappush(a, 4)
print(a)
heapq.heappush(a, -1)
print(a)

[]
[1]
[1, 2]
[0, 2, 1]
[0, 2, 1, 4]
[-1, 0, 1, 4, 2]


In [173]:
while a:
    value = heapq.heappop(a)
    print(value, a)

-1 [0, 2, 1, 4]
0 [1, 2, 4]
1 [2, 4]
2 [4]
4 []


###  Ⅲ. heapq (2/4)

In [174]:
# Получить 3 максимальных элемента с ограничением размера кучи

a = []
for value in [1, 5, 7, 2, 4, 3]:
    print(a)
    if len(a) != 3:
        heapq.heappush(a, value)
    elif a[0] < value:
        heapq.heapreplace(a, value)
a

[]
[1]
[1, 5]
[1, 5, 7]
[2, 5, 7]
[4, 5, 7]


[4, 5, 7]

In [175]:
# Получить 3 максимальных элемента

a = [1, 5, 7, 2, 4, 3]
heapq.nlargest(3, a)

[7, 5, 4]

###  Ⅲ. heapq (3/4)

In [176]:
import random
t = [random.randint(0, 100) for i in range(1005000)]

def f(n, k):
    return heapq.nlargest(k, n)

%timeit f(t, 3)

12.2 ms ± 63 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [177]:
import random
t = [random.randint(0, 100) for i in range(1005000)]

def f(n, k):
    maxs = sorted(n, reverse=True)[:k]
    
%timeit f(t, 3)

93.4 ms ± 290 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


###  Ⅲ. heapq (4/4)

* Найти минимум/максимум списка?
* Найти k максимальных элементов в списке

# Python is not memory safe

In [None]:
import ctypes
x = "hello world"
ctypes.pythonapi.PyObject_Free(x)