# [Программирование на Python (SCS)](https://compscicenter.ru/courses/python/2015-autumn/classes/)
## Лектор Сергей Лебедев


|     **Дата**     |   **Название**  |     |
|:----------------:|:---------------:|:-----------------:|
| 5 октября 2015      |    Встроенные коллекции и модуль collections | 

# 5. Встроенные коллекции и модуль collections

Встроенных коллекций в Python немного: **tuple**, **list**, **set** и **dict**.

Мы уже кратко обсуждали базовые методы работы с ними.
Создать коллекцию можно с помощью литералов или
конструктора типов:

In [2]:
print(tuple(), (0, ) * 2)
print(set())
print(list(), [0] * 2)
print(dict(), {})

() (0, 0)
set()
[] [0, 0]
{} {}


- Функция len возвращает длину переданной коллекции.
- elem in collection и elem not in collection
проверяют, содержится ли в коллекции элемент,
- Удалить элемент по ключу или по индексу можно с
помощью оператора del .


# Слайд 2. Кортеж и литералы
Литералы кортежа — обычные скобки, почти всегда их можно и нужно опускать:

Эта рекомендация не касается одноэлементых кортежей!

In [7]:
x, y = 5, 4
point = x, y
date = "October", 5
print(point, date)

(5, 4) ('October', 5)


# Кортеж и слайсы
С помощью слайсов можно выделить подпоследовательность в любой коллекции, в частности, в
кортеже:

In [10]:
person = ("George", "Carlin", "May", 12, 1937)
name, birthday = person[:2], person[2:]
print(name)
print(birthday)

('George', 'Carlin')
('May', 12, 1937)


Избавиться от “магических” констант помогут **именованные слайсы**:

In [12]:
NAME, BIRTHDAY = slice(2), slice(2, None)
print(person[NAME])
print(person[BIRTHDAY])

('George', 'Carlin')
('May', 12, 1937)


# Cлайсы и функция reversed
Напоминание: функция reversed принимает одну последовательность и возвращает другую, перечисляющую
элементы первой в обратном порядке:

In [19]:
print(tuple(reversed((1, 2, 3))))
# Эту операцию также можно выразить через слайс с отрицательным шагом:
print((1, 2, 3)[::-1])

(3, 2, 1)
(3, 2, 1)


# Конкатенация кортежей
Кортежи можно конкатенировать с помощью бинарной операции + . Результатом конкатенации всегда является новый кортеж:

In [21]:
xs, ys = (1, 2), (3, )
print(id(xs), id(ys))
print(id(xs + ys))  # id суммы кортежей - новый кортеж
print((xs + ys))  

82582088 89106696
89085096
(1, 2, 3)


Сравнение кортежей происходит в лексикографическом порядке, причём длина учитывается, только если одна последовательность является префиксом другой:

In [23]:
print((1, 2, 3) < (1, 2, 4))
print((1, 2, 3, 4) < (1, 2, 4))
print((1, 2) < (1, 2, 42))

True
True
True


# collections.namedtuple
Функция `namedtuple` возвращает тип кортежа, специализированный на фиксированное множество полей:

In [29]:
from collections import namedtuple
Person = namedtuple("Person", ["name", "age"])
p = Person("George", age=77)
print(p._fields)
print( p.name, p.age)
print(p._asdict())
print(p._replace(name="Bill"))

('name', 'age')
George 77
OrderedDict([('name', 'George'), ('age', 77)])
Person(name='Bill', age=77)


In [30]:
help(namedtuple)

Help on function namedtuple in module collections:

namedtuple(typename, field_names, *, rename=False, defaults=None, module=None)
    Returns a new subclass of tuple with named fields.
    
    >>> Point = namedtuple('Point', ['x', 'y'])
    >>> Point.__doc__                   # docstring for the new class
    'Point(x, y)'
    >>> p = Point(11, y=22)             # instantiate with positional args or keywords
    >>> p[0] + p[1]                     # indexable like a plain tuple
    33
    >>> x, y = p                        # unpack like a regular tuple
    >>> x, y
    (11, 22)
    >>> p.x + p.y                       # fields also accessible by name
    33
    >>> d = p._asdict()                 # convert to a dictionary
    >>> d['x']
    11
    >>> Point(**d)                      # convert from a dictionary
    Point(x=11, y=22)
    >>> p._replace(x=100)               # _replace() is like str.replace() but targets named fields
    Point(x=100, y=22)



# Слайд 7. Список. Инициализация
Напоминание: синтаксис инициализации создаёт список
указанной длины и заполняет его начальным значением:



In [36]:
print([5] * 2)
print([''] * 3)

[5, 5]
['', '', '']


In [38]:
# Важно понимать, что копирование начального значения при этом не происходит:
chunks = [[0]] * 2 # матрица 2 x 1 из нулей
print(chunks)
chunks[0][0] = 42
print(chunks)

[[0], [0]]
[[42], [42]]



# Слайд 8. Cписки добавление элементов

Методы `append` и `extend` добавлют в конец списка один элемент или произвольную последовательность
соответственно:

In [40]:
xs = [1, 2, 3]
xs.append(42)        # ==> [1, 2, 3, 42]
xs.extend({-1, -2})  # ==> [1, 2, 3, 42, -1, -2]
print(xs)

[1, 2, 3, 42, -1, -2]


In [41]:
# Вставить элемент ПЕРЕД элементом с указанным индексом можно с помощью метода insert 
xs = [1, 2, 3]
xs.insert(0, 4) # ==> [4, 1, 2, 3]
print(xs)
xs.insert(-1, 42) # ==> [4, 1, 2, 42, 3]
print(xs)

[4, 1, 2, 3]
[4, 1, 2, 42, 3]


In [43]:
# Можно также заменить подпоследовательность на элементы другой последовательности:
xs = [1, 2, 3]
xs[:2] = [0] * 2
print(xs)

[0, 0, 3]


# Слайд 9. Cписки. Конкатенация
Конкатенация списков работает аналогично конкатенации кортежей: результатом всегда является новый список.

In [10]:
xs, ys = [1, 2], [3]
print( id(xs), id(ys))
print(id(xs + ys))
print((xs + ys))


83303368 83253704
83290248
[1, 2, 3]


В отличие от кортежей списки поддерживают inplace конкатенацию:

In [11]:
xs += ys # ≈ xs = xs.extend(ys)
print(id(xs))
print((xs))

83303368
[1, 2, 3]


In [17]:
# без глобал (нонлокал) конкатенация списка здесь не работает, т.к. внутри функции python
# пытается создать локальную переменную, которая уже есть в global
xs = []
def f():
    global xs
    xs += [42]
f()
print(xs)

[42]


In [15]:
# inplace конкатенация эквивалентна вызову метода extend
x=[]
x+="abcd"
x

['a', 'b', 'c', 'd']

In [13]:
x=[]
x.extend("abcd")
x

['a', 'b', 'c', 'd']

# Слайд 10. Списки. Удаление элементов
С помощью оператора **del** можно удалить не только один элемент по его индексу, но и целую
подпоследовательность:

In [4]:
xs = [1, 2, 3]
del xs[:2]
print(xs)

del xs[:]
print(xs)

[3]
[]


Иногда при удалении элемента по индексу может быть удобно также получить его значение функцией **pop**:

In [6]:
xs = [1, 2, 3]
print(xs.pop(1))
print(xs)

2
[1, 3]


In [7]:
# Удалить первое вхождение элемента в списке можно с помощью метода remove 
xs = [1, 1, 0]
xs.remove(1)
xs

[1, 0]

# Слайд 11. Списки. reversed

In [9]:
print(list(reversed([1, 2, 3])))
# Можно также перевернуть список inplace:
xs = [1, 2, 3]

# Обратите внимание, что в отличие от функции reversed inlpace операция возвращает None , подсказывая
# пользователю, что список был изменён.
xs.reverse()
print(xs)


[3, 2, 1]
[3, 2, 1]


# Слайд 12. Списки. sorted


In [11]:
xs = [3, 2, 1]
print(sorted(xs), xs)

xs.sort()
print(xs)


[1, 2, 3] [3, 2, 1]
[1, 2, 3]


Функции **sorted** и методу **sort** можно опционально указать `направление сортировки`, а также `функцию-ключ`:

In [13]:
xs = [3, 2, 1]
xs.sort(key=lambda x: x % 2, reverse=True)
print(xs)

[3, 1, 2]


# Слайд 13. Список - это стек. Список - это очередь!

In [16]:
stack = []
stack.append(1)
stack.append(2)
stack.append(3)
print(stack.pop())
print(stack)

3
[1, 2]


In [12]:
q = []
q.append(1)
q.append(2)
q.append(3)
print(q.pop(0))
print(q)

1
[2, 3]


In [15]:
q.pop(0)

IndexError: pop from empty list

# Слайд 14. deque - двусторонняя очередь

Добавление и удаление элемента с обеих сторон очереди работает за константное время, индексирование — за время, линейное от размера очереди.

Конструктор **deque** принимает опциональный аргумент `maxlen`, ограничивающий максимальную длину очереди.



In [2]:
from collections import deque
q = deque([1, 2, 3])  # [1, 2, 3]
print(q)
q.appendleft(0)  # [0, 1, 2, 3]
print(q)
q.append(4)  # [0, 1, 2, 3, 4]
print(q)
print(q.popleft())  # [1, 2, 3, 4]
print(q)

deque([1, 2, 3])
deque([0, 1, 2, 3])
deque([0, 1, 2, 3, 4])
0
deque([1, 2, 3, 4])


При добавлении элемента к ограниченной очереди лишние элементы “вываливаются” с противоположной
стороны:

In [4]:
q = deque([1, 2], maxlen=2)  # [1, 2]
print(q)
q.appendleft(0)  # [0, 1]
print(q)
q.append(2)  # [1, 2]
print(q)

deque([1, 2], maxlen=2)
deque([0, 1], maxlen=2)
deque([1, 2], maxlen=2)


In [9]:
# ID deque не меняется (в отличие от листа)
q = deque([1, 2, 3])  # [1, 2, 3]
print(id(q))
q.appendleft(0)
print(id(q))
q.popleft()
print(id(q))



89070616
89070616
89070616


# Слайд 16. Множество
Базовые операции при работе с множествами:

In [28]:
xs, ys, zs = {1, 2}, {2, 3}, {3, 4}
print(set.union(xs, ys, zs))        # xs | ys | zs
print(set.intersection(xs, ys, zs)) # xs & ys & zs
print(set.difference(xs, ys, zs))   # xs - ys - zs

{1, 2, 3, 4}
set()
{1}


Операции сравнения множеств:

In [29]:
print(xs.isdisjoint(ys))
print(xs <= ys)         # xs ⊆ ys
print(xs < xs)          # xs ⊂ xs
print(xs | ys >= xs)    # xs∪ys ⊇ x

False
False
False
True


# Слайд 17. Множества: добавление

Добавить один элемент в множестве можно с помощью метода **add**, добавить последовательность элементов — с помощью метода **update**.

Метод **update** принимает произвольное количество аргументов:

In [34]:
seen = set()
seen.add(42)
print(seen)
seen.update([1, 2])
print(seen)
seen.update([], [1], [2], [3])
print(seen)

{42}
{1, 42, 2}
{3, 1, 42, 2}


# Слайд 18.  Множества: удаление

Метод **remove** удаляет из множества существующий элемент или поднимает исключение, если элемент во
множестве не содержится:

Удалить все элементы из множества можно с помощью метода **clear** 

In [17]:
seen = {1, 2, 3}
seen.remove(3)
print(seen)
seen.remove(1050)  # если элемента в мн-ве нет - ошибка!

{1, 2}


KeyError: 1050

В отличие от метода `remove` метод **discard** удаляет элемент, только если он содержится во множестве:

In [18]:
seen.discard(100500)  # если элемента нет - норм
print(seen)

{1, 2}


# Слайд 19. Множества: хеширование

множество в Python — это хеш-сет, то есть оно может содержать только элементы, которые можно
**захешировать**.
Можно ли сделать множество множеств? - **нет**;
Но можно сделать множество неизменяемых множеств - тип **`frozenset`** описывает неизменяемое множество.

<font color=blue>**Капитан сообщает**</font><br>
Объекты типа <font color=green>**frozenset**</font> поддерживают все операции типа **set**
кроме операций добавления и удаления элементов.

In [19]:
 {frozenset(), frozenset()}

{frozenset()}

# Слайд 20. Словарь
Конструктор dict позволяет создать словарь без использования литералов:

In [26]:
d = dict(foo="bar")
b = {"foo":"bar"}
d == b


True

In [28]:
dict(d, boo="baz")  # копирование с добавлением ключей

{'foo': 'bar', 'boo': 'baz'}

In [30]:
# словарь из последовательности ключей и значения по умолчанию
dict.fromkeys(["foo", "bar"])

{'foo': None, 'bar': None}

In [38]:
# словарь из последовательности ключей и значения по умолчанию
dict.fromkeys("abcd", 0)

{'a': 0, 'b': 0, 'c': 0, 'd': 0}

Эквивалентны ли эти два выражения? 

`dict.fromkeys("abcd", [])` И `{ch: [] for ch in "abcd"}`

In [37]:
a = dict.fromkeys("abcd", [])
a

{'a': [], 'b': [], 'c': [], 'd': []}

In [34]:
b = {ch: [] for ch in "abcd"}
b

{'a': [], 'b': [], 'c': [], 'd': []}

In [41]:
# Вроде выражения похожи (А в лекции говорилось что в 1-м варианте для всех ключей
# будет 1 экзепляр списка)
print(id(a["a"]), id(a["b"]))
print(id(b["a"]) == id(b["b"]))


89281224 89236616
False


{'a': [1, 2], 'b': [], 'c': [], 'd': []}

# Слайд 21. Словари: проекции

Методы keys, values и items возвращают проекции содержимого словаря:

In [40]:
d = dict.fromkeys(["foo", "bar"], 42)
d.keys()


dict_keys(['foo', 'bar'])

In [42]:
d.values()

dict_values([42, 42])

In [44]:
d.items()

dict_items([('foo', 42), ('bar', 42)])

In [48]:
# Проекции поддерживают стандратные операции последовательности:
len(d)            # 2
len(d.items())    # 2
42 in d.values()  # True

True

In [49]:
# Проекция keys дополнительно реализует некоторые операции множества:
d.keys() & {"foo"}

{'foo'}

# Слайд 22. Словари: проекции и цикл for

Проекции можно использовать для итерации в цикле for или генераторе:

In [51]:
{v for v in d.values()}

{42}

In [53]:
# Модифицировать содержимое словаря в процессе итерации нельзя:
for k in d:
    del d[k]
# RuntimeError: dictionary changed size during iteration

RuntimeError: dictionary changed size during iteration

In [54]:
# Если очень хочется, можно сделать копию проекции и итерироваться по ней:
for k in set(d):
    del d[k]
d

{}

# Слайд 23. Словари. get

Напоминание: получить значение элемента по ключу можно с помощью синтаксиса `d[key]` или метода `get`:

In [56]:
d = {"foo": "bar"}
d["foo"]

'bar'

In [57]:
d.get("boo", 42)  # попытка получить несуществующее значение

42

# Слайд 24. Словари: добавление

Напоминание: записать значение по ключу можно с помощью синтаксиса `d[key] = value`.

Метод **`setdefault`** позволяет за один запрос к хеш-таблице проверить, есть ли в ней значение по некоторому ключу и, если значения нет, установить его в заданное.


In [59]:
d = {"foo": "bar"}
d.setdefault("foo", "???")

'bar'

In [61]:
d.setdefault("boo", 42)

42

In [63]:
d

{'foo': 'bar', 'boo': 42}

In [64]:
# Метод **update** добавляет в словарь элементы переданной последовательности пар или словаря:
d = {}
d.update([("foo", "bar")], boo=42)
d

{'foo': 'bar', 'boo': 42}

# Слайд 25: Словари: удаление

Напоминение: удалить значение по ключу можно с помощью оператора `del d[key]`.
Метод pop удаляет значение по ключу и возвращает его в качестве результата, а метод clear удаляет из словаря все значения:

In [66]:
d = {"foo": "bar", "boo": 42}
d.pop("foo")

'bar'

In [68]:
d.clear()
d

{}

# Слайд 26. collections.defaultdict

Допустим, мы хотим хранить направленный граф в виде “списка” смежности:

In [70]:
g = {"a": {"b"}, "b": {"c"}}
g["a"]

{'b'}

Как добавить в граф ребра ("b", "a") и ("c", "a")?

In [72]:
g["b"].add("a")
g["c"].add("a")

KeyError: 'c'

#### Избавит от боли `defaultdict` — словарь с функцией-инициализатором:

In [2]:
from collections import defaultdict
g = defaultdict(set, **{"a": {"b"}, "b": {"c"}})
g["c"].add("a")
g

defaultdict(set, {'a': {'b'}, 'b': {'c'}, 'c': {'a'}})

In [42]:
g["d"] ="dd"
g


NameError: name 'g' is not defined

In [45]:
help(defaultdict)

Help on class defaultdict in module collections:

class defaultdict(builtins.dict)
 |  defaultdict(default_factory[, ...]) --> dict with default factory
 |  
 |  The default factory is called without arguments to produce
 |  a new value when a key is not present, in __getitem__ only.
 |  A defaultdict compares equal to a dict with the same items.
 |  All remaining arguments are treated the same as if they were
 |  passed to the dict constructor, including keyword arguments.
 |  
 |  Method resolution order:
 |      defaultdict
 |      builtins.dict
 |      builtins.object
 |  
 |  Methods defined here:
 |  
 |  __copy__(...)
 |      D.copy() -> a shallow copy of D.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __missing__(...)
 |      __missing__(key) # Called by __getitem__ for missing key; pseudo-code:
 |      if self.default_facto

In [3]:
a = defaultdict(int, **{'a': 2, 'b': 3})

In [4]:
a

defaultdict(int, {'a': 2, 'b': 3})

In [5]:
a['avc'] += 2


In [6]:
a


defaultdict(int, {'a': 2, 'b': 3, 'avc': 2})

In [7]:
a['av']

0

# Слайд 27. collections.OrderedDict
Подробности: http://python.org/dev/peps/pep-0372

Порядок ключей в обычном словаре не определён:

In [74]:
d = dict([("foo", "bar"), ("boo", 42)])
list(d)

['foo', 'boo']

**`OrderedDict`** — словарь с ключами, упорядоченными по **времени** добавления:

In [81]:
from collections import OrderedDict
d = OrderedDict([("foo", "bar"), ("boo", 42)])
list(d)

['foo', 'boo']

Изменение значения по ключу не влияет на порядок ключей в словаре:


In [84]:
d["boo"] = "???" # не изменит порядок ключей
d["bar"] = "???"
list(d)

['foo', 'boo', 'bar']

# Слайд 28. collections.Counter

Тип Counter — это специализация словаря для подсчёта объектов, которые можно захешировать:

In [88]:
from collections import Counter
c = Counter(["foo", "foo", "foo", "bar"])
c["foo"] += 1
c

Counter({'foo': 4, 'bar': 1})

In [96]:
c.most_common(2)  # two most common elements

[('foo', 4), ('bar', 1)]

Счётчик поддерживает все методы словаря, а также реализует несколько дополнительных:

In [102]:
c.pop("foo")

4

In [104]:
c["boo"] # не поднимает исключение при доступе к несуществующему элементу

0

In [105]:
c

Counter({'bar': 1})

# Слайд 29. Методы работы со счётчиком

Метод elements перечисляет элементы счётчика в произвольном порядке. Элементы, для которых частота
равна нулю или отрицательна, игнорируются: 

In [109]:
c = Counter(foo=4, bar=-1, boo=2)
list(c.elements())

['foo', 'foo', 'foo', 'foo', 'boo', 'boo']

Метод most_common возвращает заданное число самых частых элементов:

In [111]:
c.most_common(1)

[('foo', 4)]

Методы **`substract`** и **`update`** позволяют поэлементно обновить значения счётчика:

In [116]:
c.update(["bar"])
c

Counter({'foo': 2, 'bar': 3, 'boo': 2})

In [114]:
c.subtract({"foo": 2})
c

Counter({'foo': 2, 'bar': 1, 'boo': 2})

# Слайд 30. Счётчик как мультимножество



In [118]:
c1 = Counter(foo=4, bar=-1)
c2 = Counter(foo=2, bar=2)
c1 + c2      # c1[k] + c2[k]

Counter({'foo': 6, 'bar': 1})

In [120]:
c1 - c2 # c1[k] - c2[k]

Counter({'foo': 2})

In [122]:
c1 & c2 # min(c1[k], c2[k])

Counter({'foo': 2})

In [125]:
c1 | c2 # max(c1[k], c2[k])

Counter({'foo': 4, 'bar': 2})

<font color=blue>Замечание</font><br>
Результат любой из бинарных операций всегда содержит только ключи с положительными частотами