# <span style="color: blue;">Встроенные коллекции и модуль collections</span>

### Встроенные коллекции

Встроенных коллекций в Python немного: `tuple`, `list`, `set`, `frozenset` и `dict`.

Мы уже кратко обсуждали базовые методы работы с ними.

Создать коллекцию можно с помощью литералов или
конструктора типов:

In [None]:
tuple(), (0, ) * 2

In [None]:
list(), [0] * 2

In [None]:
set()

In [None]:
dict(), {}

Функция **`len`** возвращает длину переданной коллекции.

"`elem` **`in`** `collection`" и "`elem` **`not in`** `collection`" — проверяют, содержится ли в коллекции элемент

Удалить элемент по ключу или по индексу можно с
помощью оператора **`del`**.

О чём тут ещё можно говорить?

## Кортеж

### Кортеж и литералы

Литералы кортежа — обычные скобки, почти всегда их можно и нужно опускать:

In [None]:
x, y = point
date = "October", 5

Эта рекомендация не касается одноэлементых кортежей:

In [None]:
# Плохо
xs = 42,
x, = xs
x

In [None]:
# Лучше
xs = (42, )
[x] = xs
x

### Кортеж и слайсы

С помощью слайсов можно выделить
подпоследовательность в любой коллекции, в частности, в
кортеже:

In [None]:
person = ("George", "Carlin", "May", 12, 1937)
name, birthday = person[:2], person[2:]
name

In [None]:
birthday

Избавиться от “магических” констант помогут
именованные слайсы:

In [None]:
NAME, BIRTHDAY = slice(2), slice(2, None)

In [None]:
NAME

In [None]:
person[NAME]

In [None]:
person[BIRTHDAY]

### Слайсы и функция reversed

Напоминание: функция `reversed` принимает одну последовательность и возвращает другую, перечисляющую
элементы первой в обратном порядке:

In [None]:
tuple(reversed((1, 2, 3)))

Эту операцию также можно выразить через слайс с
отрицательным шагом:

In [None]:
(1, 2, 3)[::-1]

**Вопрос:** Зачем же нужна "лишняя" функция `reversed`?

In [None]:
list(range(9, -1, -1))

In [None]:
list(reversed(range(10)))

### Конкатенация кортежей

Кортежи можно конкатенировать с помощью бинарной операции `+`. 

Результатом конкатенации всегда является новый кортеж:

In [None]:
xs, ys = (1, 2), (3, )
id(xs), id(ys)

In [None]:
id(xs + ys)

Сравнение кортежей происходит в лексикографическом
порядке, причём длина учитывается, только если одна
последовательность является префиксом другой:

In [None]:
(1, 2, 3) < (1, 2, 4)

In [None]:
(1, 2, 3, 4) < (1, 2, 4)

In [None]:
(1, 2) < (1, 2, 42)

Но если объекты не сравнимы, то будет ошибка

In [None]:
(None, 2) < (3, 4)

### collections.namedtuple

Функция `namedtuple` возвращает тип кортежа, специализированный на фиксированное множество полей:

In [None]:
from collections import namedtuple

Person = namedtuple("Person", ["name", "age"])
p = Person("George", age=77)
p

In [None]:
p._fields

In [None]:
p.name, p.age

Несколько полезных методов при работе с именованными
кортежами:

In [None]:
p._asdict()

In [None]:
p._replace(name="Bill")  # создаём новый кортеж

**Вопрос:** Зачем подчёркивания перед методами?

## Список

### Инициализация списка

Напоминание: синтаксис инициализации создаёт список
указанной длины и заполняет его начальным значением:


In [None]:
[0] * 2

In [None]:
[""] * 2

Важно понимать, что копирование начального значения
при этом не происходит:

In [None]:
chunks = [[0]] * 2 # матрица 2 x 1 из нулей
chunks

In [None]:
chunks[0][0] = 42
chunks

**Вопрос:** Как правильно инициализировать `chunks`?

In [34]:
chunks = [[0] for _ in range(2)]

In [None]:
chunks[0][0] = 42
chunks

### Добавление элементов в список

Методы `append` и `extend` добавлют в конец списка один элемент или произвольную последовательность соответственно:

In [None]:
xs = [1, 2, 3]
xs.append(42)
xs

In [None]:
xs.extend({-1, -2})
xs

Вставить элемент перед элементом с указанным индексом можно с помощью метода `insert`:

In [None]:
xs = [1, 2, 3]
xs.insert(0, 4)
xs

In [None]:
xs.insert(-1, 42)
xs

Можно также заменить подпоследовательность на
элементы другой последовательности:

In [None]:
xs = [1, 2, 3]
xs[:2] = [0] * 2
xs

### Конкатенация списков

Конкатенация списков работает аналогично конкатенации
кортежей: результатом всегда является новый список.

In [None]:
xs, ys = [1, 2], [3]
id(xs), id(ys)

In [None]:
id(xs + ys)

В отличие от кортежей списки поддерживают *inplace* конкатенацию ("`+=`"):

In [None]:
xs += ys  # ≈ xs = xs.extend(ys)
id(xs)

Вопрос для любителей "`+=`":

In [None]:
xs = []
def f():
    xs += [42]

f()

Ещё один неочевидный момент:

In [None]:
xs = []
xs += "abcd"
xs

### Удаление элементов из списка

С помощью оператора `del` можно удалить не только один элемент по его индексу, но и целую подпоследовательность:

In [None]:
xs = [1, 2, 3]
del xs[:2]
xs

In [None]:
xs = [1, 2, 3]
del xs[:]
xs

Иногда при удалении элемента по индексу может быть
удобно также получить его значение:

In [None]:
xs = [1, 2, 3]
xs.pop(1)
xs

Удалить первое вхождение элемента в списке можно с помощью метода `remove`:

In [None]:
xs = [1, 1, 0]
xs.remove(1)
xs

### Списки и функция reversed

Уже знакомая нам функция `reversed` работает со списками:

In [None]:
list(reversed([1, 2, 3]))

Можно также перевернуть список *inplace*:

In [None]:
xs = [1, 2, 3]
xs.reverse()
xs

Обратите внимание, что в отличие от функции `reversed` *inlpace* операция возвращает `None`, подсказывая пользователю, что список был изменён.

### Списки и функция sorted

Аналогичные взаимоотношения у функции `sorted` и метода `sort`:

In [None]:
xs = [3, 2, 1]
sorted(xs), xs

In [None]:
xs.sort()
xs

CPython использует довольно хитрый алгоритм сортировки Timsort за
авторством Тима Питерса. 

В репозитории CPython можно найти документ, подробно описывающий мотивацию и основные идеи Timsort:<br/>
http://bugs.python.org/file4451/timsort.txt

    

Функции `sorted` и методу `sort` можно опционально указать направление сортировки, а также функцию-ключ:

In [None]:
xs = [3, 2, 1]
xs.sort(key=lambda x: x % 2, reverse=True)
xs

In [None]:
from functools import cmp_to_key

def cmp(x, y):
    # ...

sorted(xs, key=cmp_to_key(cmp))

### Список — это стек, список – это очередь

In [None]:
stack = []
stack.append(1)
stack.append(2)
stack.pop()

In [None]:
stack

In [None]:
queue = []
queue.append(1)
queue.append(2)
queue.pop(0)

In [None]:
queue

**Вопрос:** В чём проблема с "`q.pop(0)`"?

### collections.deque

Тип `deque` реализует двустороннюю очередь:

In [None]:
from collections import deque
q = deque()

Добавление и удаление элемента с обеих сторон очереди
работает за константное время, индексирование — за
время, линейное от размера очереди.

Резюме операций c `deque`:

In [None]:
q = deque([1, 2, 3])
q.appendleft(0)
q

In [None]:
q.append(4)
q

In [None]:
q.popleft()

In [None]:
q[0]

### Несколько слов об ограниченной deque

Конструктор `deque` принимает опциональный аргумент `maxlen`, ограничивающий максимальную длину очереди.

При добавлении элемента к ограниченной очереди лишние элементы "вываливаются" с противоположной стороны:

In [None]:
q = deque([1, 2], maxlen=2)
q.appendleft(0)
q

In [None]:
q.append(2)
q

## Множество

### Методы работы с множествами: базовые

Базовые операции при работе с множествами:

In [None]:
xs, ys, zs = {1, 2}, {2, 3}, {3, 4}

In [None]:
set.union(xs, ys, zs)  # xs | ys | zs

In [None]:
set.intersection(xs, ys, zs)  # xs & ys & zs

In [None]:
set.difference(xs, ys, zs)  # xs - ys - zs

Операции сравнения множеств:

In [None]:
xs.isdisjoint(ys)

In [None]:
xs <= ys  # xs ⊆ ys

In [None]:
xs < xs  # xs ⊂ xs

In [None]:
xs | ys >= xs  # xs ∪ ys ⊇ xs

### Добавление элементов в множество

Добавить один элемент в множестве можно с помощью метода `add`, добавить последовательность элементов — с помощью метода `update`:

In [None]:
seen = set()
seen.add(42)
seen

In [None]:
seen.update([1, 2])
seen

Метод `update` принимает произвольное количество аргументов:

In [None]:
seen.update([], [1], [2], [3])
seen

### Удаление элементов из множества

Метод `remove` удаляет из множества существующий элемент или поднимает исключение, если элемент во множестве не содержится:

In [None]:
seen = {1, 2, 3}
seen.remove(3)
seen

In [None]:
seen.remove(100500)

В отличие от метода `remove` метод `discard` удаляет элемент, только если он содержится во множестве:

In [None]:
seen.discard(100500)
seen

Удалить все элементы из множества можно с помощью метода `clear`.

### Множество и хеширование

Напоминание: множество в Python — это хеш-сет, то есть оно может содержать только элементы, которые можно захешировать.

Можно ли сделать множество множеств?

In [None]:
{set(), set()}

Тип `frozenset` описывает неизменяемое множество:

In [None]:
{frozenset(), frozenset()}

Объекты типа `frozenset` поддерживают все операции типа `set` кроме операций добавления и удаления элементов.

## Словарь

### Словарь и конструктор `dict`

Конструктор `dict` позволяет создать словарь без использования литералов:

In [None]:
d = dict(foo="bar")
dict(d)  # (shallow) копия

In [None]:
dict(d, boo="baz")  # копирование с добавлением ключей

Можно также сконструировать словарь из
последовательности ключей и значения по умолчанию:

In [None]:
dict.fromkeys(["foo", "bar"])

In [None]:
dict.fromkeys("abcd", 0)

**Вопрос:** Эквивалентны ли эти два выражения? 

In [None]:
dict.fromkeys("abcd", [])

In [None]:
{ch: [] for ch in "abcd"}

### Проекции словаря

Методы `keys`, `values` и `items` возвращают проекции содержимого словаря:

In [None]:
d = dict.fromkeys(["foo", "bar"], 42)
d.keys()

In [None]:
d.values()

In [None]:
d.items()

Проекции поддерживают стандратные операции
последовательности:

In [None]:
len(d.items())

In [None]:
42 in d.values()

Проекция `keys` дополнительно реализует некоторые операции множества:

In [None]:
d.keys() & {"foo"}

### Проекции словаря и цикл `for`

Проекции можно использовать для итерации в цикле `for` или генераторе:

In [None]:
{v for v in d.values()}

Модифицировать содержимое словаря в процессе
итерации нельзя:

In [None]:
for k in d:
    del d[k]

Если очень хочется, можно сделать копию проекции и
итерироваться по ней:

In [None]:
for k in set(d):
    del d[k]

d

### Метод `get`

Напоминание: получить значение элемента по ключу можно с помощью синтаксиса `d[key]` или метода `get`:

In [None]:
d = {"foo": "bar"}
d["foo"]

In [None]:
d["boo"]

In [None]:
d.get("boo", 42)

**Вопрос:** Зачем нужен метод `get`, если можно написать.


In [None]:
if key not in d:
    value = default
else:
    value = d[key]

### Добавление элементов

Напоминание: записать значение по ключу можно с помощью синтаксиса `d[key] = value`.

Метод `setdefault` позволяет за один запрос к хеш-таблице проверить, есть ли в ней значение по некоторому ключу и, если значения нет, установить его в заданное.

In [None]:
d = {"foo": "bar"}
d.setdefault("foo", "???")

In [None]:
d.setdefault("boo", 42)

In [None]:
d

Метод `update` добавляет словарь элементы переданной последовательности пар или словаря:

In [None]:
d = {}
d.update([("foo", "bar")], boo=42)
d

In [None]:
d.update({'abc': 'def'})
d

### Методы работы со словарями: удаление элементов

Напоминение: удалить значение по ключу можно с
помощью оператора `del d[key]`.

Метод `pop` удаляет значение по ключу и возвращает его в качестве результата, а метод clear удаляет из словаря все значения:

In [None]:
d = {"foo": "bar", "boo": 42}
d.pop("foo")

In [None]:
d

In [None]:
d.clear()
d

### `collections.defaultdict`

Допустим, мы хотим хранить направленный граф в виде
“списка” смежности:

In [None]:
g = {"a": {"b"}, "b": {"c"}}
g["a"]

Как добавить в граф ребра ("b", "a") и ("c", "a")?

In [None]:
g["b"].add("a")
g["c"].add("a")

Избавит от боли `defaultdict` — словарь с функцией-инициализатором:

In [None]:
from collections import defaultdict

g = defaultdict(set, **{"a": {"b"}, "b": {"c"}})
g["c"].add("a")
g

Первым аргументом может быть любая функция -- фабрика значений по умолчанию

### `collections.OrderedDict`

Порядок ключей в обычном словаре не определён:

In [None]:
d = dict([("foo", "bar"), ("boo", 42)])
list(d)

`OrderedDict` — словарь с ключами, упорядоченными по времени добавления:

In [None]:
from collections import OrderedDict

d = OrderedDict([("foo", "bar"), ("boo", 42)])
list(d)

Изменение значения по ключу не влияет на порядок
ключей в словаре:

In [None]:
d["boo"] = "???"  # не изменит порядок ключей
d["bar"] = "???"
list(d)

Подробнее: http://python.org/dev/peps/pep-0372

### `collections.Counter`

Тип `Counter` — это специализация словаря для подсчёта объектов, которые можно захешировать:

In [None]:
from collections import Counter

c = Counter(["foo", "foo", "foo", "bar"])
c["foo"] += 1
c

Счётчик поддерживает все методы словаря, а также
реализует несколько дополнительных:

In [None]:
c.pop("foo")

In [None]:
c["boo"]  # не поднимает исключение

In [None]:
c

### Методы работы со счётчиком

Метод `elements` перечисляет элементы счётчика в произвольном порядке. 

Элементы, для которых частота равна нулю или отрицательна, игнорируются:

In [None]:
c = Counter(foo=4, bar=-1)
list(c.elements())

Метод `most_common` возвращает заданное число самых частых элементов:

In [None]:
c.most_common(1)

Методы `substract` и `update` позволяют поэлементно обновить значения счётчика:

In [None]:
c.update(["bar"])
c

In [None]:
c.subtract({"foo": 2})
c

### Счётчик как мультимножество

In [None]:
c1 = Counter(foo=4, bar=-1)
c2 = Counter(foo=2, bar=2)
c1 + c2  # c1[k] + c2[k]

In [None]:
c1 - c2  # c1[k] - c2[k]

In [None]:
c1 & c2  # min(c1[k], c2[k])    

In [None]:
c1 | c2  # max(c1[k], c2[k])

### Замечание
Результат любой из бинарных операций всегда содержит
только ключи с положительными частотами.
