# Контейнеры

## 1. О контейнерах

**Контейнер** — объект, который содержит внутри себя другие объекты. Технически все контейнеры наследуют от `Collections.abc.Container` метод `__contains__`. С этим методом работает оператор `in`.

Контейнеры представлены разными структурами данных. На этих структурах можно построить всевозможные абстрактые типы данных.

**NB!** Не надо путать типы данных со структурами данных и абстрактными типами данных.

**Тип данных** — характеристика кусочка данных, которая определяет способ его интерпретации.
Например, `b1100001` может быть как число 97 (целый тип), а может быть как символ `a` из [ASCII](https://en.wikipedia.org/wiki/ASCII) (символ).

**Структура данных** — набор из примитивов данных и операций над ними, огранизованные для эффективного решения задачи.
Например, [массив](https://ru.wikipedia.org/wiki/Массив_(программирование)) или [связный список](https://ru.wikipedia.org/wiki/Связный_список).

**Абстрактный тип данных** (АТД) — математическая модель структуры данных, ее интерфейс.
Например, очередь — абстрактный тип данных, который можно реализовать на разных структурах данных.

### Проблема копирования коллекций
В Python присваивание `=` копирует только ссылки объектов. И опреацию вида `name = obj` можно интерпретировать как присваивание объекту `obj` имени `name`. Как в таком случае скопировать объект?

Для примера, давайте попробуем скопировать список списков.

In [97]:
# Пример списка списков
a = [1,2,3]
b = [4,5,6]
c = [a,b] # содержит ссылки на a и b

Если мы список `c` присвоим списку `d`, то по факту у списка `[a,b]` просто будет  два имение `c` и `d`.

In [99]:
# Навешиваем новое имя списку с (у обеъектов даолжны быть одинаковые id)
d = c
id(c), id(d)

(4393709704, 4393709704)

Можно скопировать список, создав явно новый с содержимым старого. При этом происходит поверхностное копирование списка. Элементы указывают на элементы старого списка.

In [100]:
# Поверхностное копирование списка (списки разные, но внутренние объекты нет)
d = list(c)
id(c), id(d), id(c[0]), id(d[0])

(4393709704, 4396512968, 4396514056, 4396514056)

Различают два типа копирования:
- Поверхностное (англ. shallow)
- Глубокое (англ. deep)

В отличии от поверхностного копировани

In [8]:
from copy import deepcopy
d = deepcopy(c)
id(c), id(d), id(c[0]), id(d[0])

(4389928072, 4389928904, 4389925192, 4389925960)

## 2. Built-in контейнеры

Встроенные в Python-контейнеры можно разделить на две категории:
- неизменяемые (англ. immutable) `string`, `tuple`, `range`, `frozenset`, `bytes`
- изменяемые (англ. mutable) `list`, `dict`, `set`, `bytearray`

In [57]:
c_str = "Еду в магазин в городе Санкт-Петербурге"
c_tpl = (1, 1.2, "я")
c_rng = range(10)
c_fst = frozenset({1,2,3}) # readonly set
c_bts = bytes((3,1,4,5,1,5))
c_lst = [1,2,3]
c_dct = {1: "Мир", 2: "Труд", 3: "Май"}
c_set = {1,2,3}
c_bar = bytearray((3,1,4,5,1,5)) # writable bytes

### О сложности операций над популярными контейнерами
В таблице приведены некоторые популярные встроенные контейнеры и некоторые операции над ними с асимптотической сложностью. 

| Контейнер         | List          | []()   | Tuple         | [  ]()        | Dictionary   | []()   | Set                | []()          |
|-------------------|---------------|--------|---------------|---------------|--------------|--------|--------------------|---------------|
| Пустой контейнер  | `[]`          | $O(1)$ | `()`          | $O(1)$        | `{}`         | $O(1)$ | `Set()` или `{()}` | $O(1)$        |
| Прочитать элемент | `l[i]`        | $O(1)$ | `t[i]`        | $O(1)$        | `d[key]`     | $O(1)$ | **undefined**      | **undefined** |
| Добавить элемент  | `l.append(5)` | $O(1)$ | **undefined** | **undefined** | `d[key]=5`   | $O(1)$ | `s.add(5)`         | $O(1)$        |
| Удалить элемент   | `del l[i]`    | $O(N)$ | **undefined** | **undefined** | `del d[key]` | $O(1)$ | `s.discard(5)`     | $O(1)$        |

### О хэшируемости

Объекты в Python могут быть хэшиуруемые — таким объектам сопоставляется некоторое число (хэш), которое не меняется в течении существования объекта. Хэши используются для сравнения ключей в словарях и множествах. Технически, у хэшируемых объектов реализован метод `__hash__()`.

Если контейнер и его элементы неизменяемые, то он хэшируемый.

In [18]:
# Хэшируемый кортеж
hash((1,3,()))

2528503368927772366

In [20]:
# Нехэшируемый кортеж (должна быть ошибка)
hash((1,3,[]))

TypeError: unhashable type: 'list'

## 3. Крутые контейнеры

### namedtuple — когда нужен «сишный struct»

In [28]:
from collections import namedtuple 
Point = namedtuple('Point', ['x', 'y'])

In [33]:
p = Point(1,2)

In [34]:
p.x

1

In [35]:
p[0]

1

In [41]:
for x in p:
    print(x)

1
2


In [42]:
p.x = 4

AttributeError: can't set attribute

**NB!** Удобно из функций возвращать данные.

### OrderedDict — когда важен порядок в словаре

`dict` не гарантирует, что будет хранить ключи в том порядке, в котором вы их задали. Если важно получить из `d.keys()` оригинальный порядок, то для этого есть `OrderedDict`.

In [54]:
dict_std = {"a": 1, "b": 2, "c": 3}
[k for k in reversed(dict_std)]

TypeError: 'dict' object is not reversible

In [55]:
from collections import OrderedDict 
dict_odr = OrderedDict({"a": 1, "b": 2, "c": 3})
[k for k in reversed(dict_odr)]

['c', 'b', 'a']

### defaultdict — когда лень инициализировать ключи 

In [9]:
from collections import defaultdict

s = 'я заливаю глаза керосином'
d = defaultdict(int)

for k in s:
    d[k] += 1

sorted(d.items(), key=lambda x: x[1], reverse=True)

[('а', 4),
 (' ', 3),
 ('з', 2),
 ('л', 2),
 ('и', 2),
 ('о', 2),
 ('я', 1),
 ('в', 1),
 ('ю', 1),
 ('г', 1),
 ('к', 1),
 ('е', 1),
 ('р', 1),
 ('с', 1),
 ('н', 1),
 ('м', 1)]

### ChainMap — когда нужно несколько словарей представить как один

`ChainMap` хранит ссылкки на другие словари и позволяет работать с ними как с одним целым словарем.

У `ChainMap` есть два традиционных приложения:
- Возвращать значения по-умполчанию.
- Поиск по нескольких словарям

In [24]:
from collections import ChainMap

group1 = {"a": 1, "b": 2}
group2 = {"c": 3, "d": 4}
groups = ChainMap(group1, group2)
groups["d"], groups["b"]

(4, 2)

Здесь `group1` может быть словарь параметров, а `group2` — словарь значений параметров по-умолчанию.



### MappingProxyType — когда нужен словарь только для чтения

In [26]:
from types import MappingProxyType

d = {"a": 1, "b": 2}
d_ro = MappingProxyType(d)

d_ro["a"]

1

In [27]:
d_ro["a"] = 1

TypeError: 'mappingproxy' object does not support item assignment

### Counter — когда надо мультимножество

In [72]:
from collections import Counter

s = 'я заливаю глаза керосином'
Counter(s)

Counter({'я': 1,
         ' ': 3,
         'з': 2,
         'а': 4,
         'л': 2,
         'и': 2,
         'в': 1,
         'ю': 1,
         'г': 1,
         'к': 1,
         'е': 1,
         'р': 1,
         'о': 2,
         'с': 1,
         'н': 1,
         'м': 1})

### deque — когда нужен двусторонний доступ

И очередь и стек можно реализовать на `list`. Но `list` реализован на динамическом массиве, а `deque` на связном списке.

In [79]:
from collections import deque
d = deque()
d.append("я")
d.append("иду")
d.append("брать")
d.append("лут")
d.popleft(), d.pop()

('я', 'лут')

### heapq — когда нужна двоичная куча

### dataclasses — когда от класса надо только хранение данных

Когда нужен изменяемый `namedtuple`, то подходит `dataclasses`.

In [90]:
from dataclasses import dataclass

@dataclass
class Structure:
    name: str
    value: float

    @property
    def square(self) -> float:
        return self.value * self.value
    
s = Structure("я", 2)
s.square

4

![title](img/namedtuple-vs-dataclass.png)

## 4. Numpy: компактные массивы + готовые алгоритмы

## 5. Pands: таблицы