<center>
<img src="../../img/ods_stickers.jpg">
## Открытый курс по машинному обучению
Авторы материала: программист-исследователь Mail.ru Group, старший преподаватель Факультета Компьютерных Наук ВШЭ Юрий Кашницкий и Data Scientist в Segmento Екатерина Демидова. Материал распространяется на условиях лицензии [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можно использовать в любых целях (редактировать, поправлять и брать за основу), кроме коммерческих, но с обязательным упоминанием автора материала.

# <center>Тема 2. Углубленные приемы pandas, collections, numpy</center>
## <center>Часть 1. Работа с модулем collections

**Collections** - это модуль Python, в котором реализованы специальные контейнеры данных, которые предоставляют альтернативу и расширяют функционал стандартных типов dict, list, set, и tuple.

Наиболее популярные типы данных:

- Counter
- defaultdict
- OrderedDict
- deque

In [1]:
from collections import (Counter, defaultdict, OrderedDict, deque, 
                         ChainMap, namedtuple)

### Counter

Словарь для подсчета числа элементов

Создание

In [2]:
cnt = Counter()
cnt

Counter()

In [3]:
cnt = Counter(range(10))
cnt

Counter({0: 1, 1: 1, 2: 1, 3: 1, 4: 1, 5: 1, 6: 1, 7: 1, 8: 1, 9: 1})

In [4]:
cnt = Counter({1:3,2:4})
cnt

Counter({1: 3, 2: 4})

Counter поддерживает все функции dict и имеет дополнительные:

- elements
- most_common()
- subtract()

In [5]:
cnt = Counter({1:3,2:4})
list(cnt.elements())

[1, 1, 1, 2, 2, 2, 2]

In [6]:
cnt = Counter([1,2,3,4,1,2,6,7,3,8,1])
cnt.most_common(1)

[(1, 3)]

In [7]:
cnt = Counter({1:3,2:4})
deduct = {1:1, 2:2}
cnt.subtract(deduct)
cnt

Counter({1: 2, 2: 2})

Отличие от dict

In [8]:
a = {1:2, 3:4, 5:6}
b = {1:1, 2:1, 3:1, 4:1, 5:1}

# a + b - ошибка
a.update(b)
a

{1: 1, 3: 1, 5: 1, 2: 1, 4: 1}

In [9]:
a = Counter({1:2, 3:4, 5:6})
b = Counter({1:1, 2:1, 3:1, 4:1, 5:1})

a + b

Counter({1: 3, 3: 5, 5: 7, 2: 1, 4: 1})

In [10]:
a.update(b)
a

Counter({1: 3, 3: 5, 5: 7, 2: 1, 4: 1})

### defaultdict

Словарь с элементами по умолчанию (не выдает ошибку KeyError

In [12]:
a = {1:1, 2:2, 3:3}
a[4]

KeyError: 4

In [14]:
dd = defaultdict(int, a)

**ВАЖНО!!!**

In [15]:
dd

defaultdict(int, {1: 1, 2: 2, 3: 3})

In [16]:
dd[4]

0

In [17]:
dd

defaultdict(int, {1: 1, 2: 2, 3: 3, 4: 0})

Значение по умолчанию

In [18]:
dd = defaultdict(lambda: 1, a)
dd

defaultdict(<function __main__.<lambda>()>, {1: 1, 2: 2, 3: 3})

In [19]:
dd[4] + 1

2

In [20]:
dd = defaultdict(lambda:defaultdict(list))

In [21]:
dd['month']['jan'] = list(range(10))
dd['month']['feb'].append('short')
dd

defaultdict(<function __main__.<lambda>()>,
            {'month': defaultdict(list,
                         {'jan': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
                          'feb': ['short']})})

In [22]:
dd['month'] = {}
dd['month']['feb'] = []
dd['month']['feb'].append(1)

### OrderedDict

Словарь, в котором учитывает порядок добавления ключей

In [23]:
cnt = Counter('Мама мыла раму...')
od = OrderedDict(cnt.most_common())
for key, value in od.items():
    print(key, value)

а 4
м 3
. 3
  2
М 1
ы 1
л 1
р 1
у 1


In [24]:
od.popitem()

('у', 1)

In [25]:
od.popitem(last=False)

('а', 4)

In [26]:
od

OrderedDict([('м', 3),
             ('.', 3),
             (' ', 2),
             ('М', 1),
             ('ы', 1),
             ('л', 1),
             ('р', 1)])

In [27]:
od.move_to_end('м')
od

OrderedDict([('.', 3),
             (' ', 2),
             ('М', 1),
             ('ы', 1),
             ('л', 1),
             ('р', 1),
             ('м', 3)])

Можно создавать отсортированные словари, но с версией Python 3.7 порядок ключей обычного dict будет сохраняться

### deque

Список, оптимизированный под вставку и удаление элементов (thread-safe, O(1))

In [28]:
deq = deque([1, 1, 2, 2, 3], 10)
deq

deque([1, 1, 2, 2, 3])

In [29]:
deq.append('end')
deq.appendleft('start')
deq

deque(['start', 1, 1, 2, 2, 3, 'end'])

In [30]:
deq.pop()
deq.popleft()
deq

deque([1, 1, 2, 2, 3])

In [31]:
deq.count(1)

2

In [32]:
deq.clear()
deq

deque([])

In [33]:
a = list(range(1000000))
deq = deque(a)

In [34]:
%timeit a.insert(0, 10)

516 µs ± 11.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [35]:
%timeit deq.insert(0, 10)

137 ns ± 3.79 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [36]:
%timeit deq.appendleft(10)

79 ns ± 4.65 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


### ChainMap

In [37]:
d1 = { 'a' : 1, 'b' : 2 }  
d2 = { 'c' : 3, 'b' : 4 }  
chain_map = ChainMap(d1, d2)  
print(chain_map)  

ChainMap({'a': 1, 'b': 2}, {'c': 3, 'b': 4})


In [38]:
for key, value in chain_map.items():
    print(key, value)

c 3
b 2
a 1


In [39]:
d3 = {'e' : 5, 'f' : 6, 'b': 8}  
new_chain_map = chain_map.new_child(d3)  
for key, value in new_chain_map.items():
    print(key, value)

c 3
b 8
a 1
e 5
f 6


### NamedTuple

In [40]:
Student = namedtuple('Student', 'fname, lname, age')  
s1 = Student('John', 'Clarke', '13')  
print(s1)

Student(fname='John', lname='Clarke', age='13')


In [41]:
s2 = Student._make(['Adam','joe','18'])  
print(s2)  

Student(fname='Adam', lname='joe', age='18')


In [42]:
print(s1._asdict())

OrderedDict([('fname', 'John'), ('lname', 'Clarke'), ('age', '13')])


In [43]:
s3 = s1._replace(age='14')  
print(s1)  
print(s3)  

Student(fname='John', lname='Clarke', age='13')
Student(fname='John', lname='Clarke', age='14')
