# Collections

Модуль содержит расширение стандартных built-in контейнеров питона, таких как dict, list, set, and tuple

Зачастую ими пользоваться удобней, чем стандартными

## defaultdict

In [None]:
from collections import defaultdict
# Отнаследован от dict, а значит, имеет те же методы

К примеру, нам нужно посчитать частоту чисел в массиве. Используя словарь, это можно сделать так:

In [None]:
elems = [2, 2, 4, 2, 3]
build_in_dict = dict()

for elem in elems:
    if elem in build_in_dict:
        build_in_dict[elem] += 1
    else:
        build_in_dict[elem] = 1

print(build_in_dict)

Выглядит неаккуратно - 4 строчки занимают очень простую операцию - добавление элемента. Перепишем, используя defaultdict:

In [None]:
dct = defaultdict(int)

for elem in elems:
    dct[elem] += 1

print(dct)

Красиво и просто

defaultdict принимает аргументом фабрику для первого элемента в словаре. В представленном случае - int. То есть, в строчке
```
dct[elem] += 1
```
происходит что-то вроде:
```
dct[elem] = (int() if elem not in dct else dct[elem]) + 1
```

In [None]:
# По умолчанию, аргумент - None
dct = defaultdict()
# И при обращении к несуществующему элементу мы получим KeyError:
dct[0]

Конечно, можно передать вместо int - list, set или даже свою фабрику

### Упражнение 1

Написать с помощью defaultdict функцию для подсчета количества различных labels для каждого цвета

In [None]:
def count_colors_labels(colors_labels):
    raise NotImplementedError()

In [None]:
# format: list of tuples: (color, label)
elems = [('yellow', 3), ('green', 4), ('green', 4), ('red', 2), ('green', 7), ('yellow', 4)]

# check
true_answer = {'yellow': 2, 'green': 2, 'red': 1}

assert count_colors_labels(elems) == true_answer

Можем передать функцию:

In [None]:
import random

def factory():
    return random.randint(0, 100)

dct = defaultdict(factory)

print(dct[0], dct[1], dct[2], dct[0])
print(dct)

Не нужно забывать следующую особенность - объекты записываются в defaultdict, как только мы к ним обращаемся в первый раз

### Упражнение 2

Написать класс, с помощью которого можно создать словарь, который по умолчанию будет выдавать количество уже заведенных элементов до него

In [None]:
class StrangeClass(object):
    pass

In [None]:
dct = defaultdict(StrangeClass())

elems = [9, 3, 1, 3, 4, 10]

assert [dct[elem] for elem in elems] == [0, 1, 2, 1, 3, 4]

## deque (double-ended queue)

In [None]:
from collections import deque

Deques поддерживают **thread-safe**, **memory efficient** добавление и извлечение элементов с любого края за амортизированный О(1)

Его часто (!) используют как примитив синхронизации потоков из-за простоты и хорошей читаемости кода

Почему использовать deque вместо list?

In [None]:
elems = [1 for _ in range(20000000)]
delems = deque(elems)

%timeit (elems.pop(0), elems.append(1))

%timeit (delems.popleft(), delems.append(1))

Конструктор принимает итерируемый объект и максимальное количество элементов (по умолчанию None). При достижении границы, старые элементы будут удаляться с противоположного конца

In [None]:
d = deque(maxlen=2)
print(d)
d.extend([1, 2, 3, 4])
print(d)

Несколько полезных методов:

In [None]:
dq = deque([1,2,3,4,1])
print('elem count: {}'.format(dq.count(1)))

dq.extend([4, 5, 6])
print(dq)

dq.rotate(-1)
print(dq)

### Упражнение 3

С помощью deque написать функцию, выдающую последние n строк из файла

In [None]:
def tail(filename, n=10):
    raise NotImplementedError()

In [None]:
# check with your file

filename = ''
last_lines = ''

n = 10
# assert tail(filename, n) == last_lines

### Упражнение 4*

Реализовать свой deque

## Counter

Отнаследован от dict. Как следует из названия, хорош, если требуется что-то посчитать (вообще-то, только **hashable** объекты)

In [None]:
from collections import Counter

In [None]:
c = Counter()
print(c)

c = Counter('gallahad')
print(c)

c = Counter({'red': 4, 'blue': 2})
print(c)

c = Counter(cats=4, dogs=8)
print(c)

Можем найти N наиболее встречаемых слов в тексте в 1 строчку!

In [None]:
text = '''The rose is red the violet is blue The honey is sweet and so are you'''

Counter(text.split()).most_common(3)

### Упражнение 5

Написать функцию, выводящую наименее встречаемые элементы с помощью Counter

In [None]:
def get_least_common(iterable_obj, n=3):
    raise NotImplementedError()

In [None]:
elems = [1,4,3,1,1,8,9,2,8,8,9,9]
assert get_least_common(elems) == [2, 3, 4]

## OrderedDict

Как следует из названия, словарь, но уже с порядком элементов

In [None]:
from collections import OrderedDict

In [None]:
data = [(1, 'a'), (3, 'c'), (2, 'b')]

print(dict(data))
print(OrderedDict(data))

При удалении элементов, порядок сохраняется, но новый элемент добавляется в конец без учета порядка

### Упражнение 6

Написать класс LastUpdatedOrderedDict. Модификация относительно OrderedDict в том, чтобы при добавлении уже существующих элементов, перезаписывать их места в словаре

In [None]:
class LastUpdatedOrderedDict(OrderedDict):
    'Store items in the order the keys were last added'

In [None]:
lud = LastUpdatedOrderedDict()

elems = ['a', 'b', 'c']

for elem in elems:
    lud[elem] = 1

assert list(lud) == elems

lud['a'] = 1

assert list(lud) == ['b', 'c', 'a']

### namedtuple

Как следует из названия, именованные tuple, возможность организовать доступ к элементам через field_names в конструкторе. **namedtuple** возвращает класс, поэтому первым аргументом должны передать его имя. Лучше всего как он работает можно понять на примерах:

In [None]:
from collections import namedtuple

In [None]:
Point = namedtuple('Point', ['x', 'y'])

p = Point(1, 2)
print(p)

In [None]:
t = [11, 22]
Point._make(t)

Может быть полезно при чтении csv файлов (конструирование объектов через соответствие полей и значений:

In [None]:
EmployeeRecord = namedtuple('EmployeeRecord', 'name, age')

# imagine, that rows is returned from csv.reader(...):
rows = [
    ['Name1', 46],
    ['Name2', 24]
]

for emp in map(EmployeeRecord._make, rows):
    print(emp.name, emp.age)

### Упражнение 7

Полностью написать функцию, считывающую работников из csv файла. Использовать модуль csv

In [None]:
def read_employees(filename):
    raise NotImplementedError()

### Usefull functions from collections

Вместе с контейнерами, в collections есть также несколько полезных функций. К примеру, мы можем узнать, является ли объект итерируемым или хешируемым:

In [None]:
import collections

In [None]:
objs = [set([1,2,3]), (1,)]

for obj in objs:
    if isinstance(obj, collections.Hashable):
        print('object of type {} is hashable'.format(type(a)))
    else:
        print('object of type {} is not hashable'.format(type(a)))

Узнать больше:

https://docs.python.org/3/library/collections.html