# PYTHON 3

## Словари, множества, collections


### Илья Гусев


MIPT 2019

## Напоминание с предыдущего семинара: в Python все является объектом

Еще коротенькое напоминание про mutable и immutable объекты

### Неизменяемые типы
- int
- float
- complex
- bool
- str
- tuple
- frozenset

При попытке совершить мутирующую операцию с неизменяемым объектом может произойти одна из двух вещей:
 - Произойдет создание измененной копии объекта (оператор += )
 - Произойдет ошибка (оператор [])

### Изменяемые типы
- list
- dict
- set

### Создание и удаление


- Note: При создании двух mutable-объектов отдельно - они будут гарантированно разными. Для immutable объектов это верно не всегда.
- Об удалении объектов заботиться не нужно, за вас всё сделает интерпретатор

## Словари

Универсальное средство для выражения связей между объектами, подсчёта, группировки.
Их иногда ещё называют **ассоциативными массивами или хеш-таблицами**.

In [1]:
a = {'Key1' : 'Value1', 'Key2' : 'Value2'}
a

{'Key1': 'Value1', 'Key2': 'Value2'}

In [2]:
b = dict([(1, 1), (2, 4), (3, 9)])
b

{1: 1, 2: 4, 3: 9}

Ключом словаря может быть любой hashable-объект.

Определение hashable из документации Python: https://docs.python.org/3/glossary.html#term-hashable 

Если коротко, то у объекта должен быть правильно определен метод `__hash__()`

Хэш от инта - само знчаение инта

In [3]:
hash(343)

343

In [8]:
hash(6.5) # есть тонкости, связанные с точностью представления чисел с поавающей запятой

1152921504606846982

Для строк уже по-другому

In [9]:
print(hash('aaa'))
print(hash('aab'))

-1734942595118093812
-5712605976625761266


#### Note: после перезапуска интерпретатора у сложных объектов (например, строк) будет уже другое значение хэш-функции

list в Python не является хэшируемым объектом

In [2]:
[1].__hash__ is None  # метод __hash__ не определен для списка

True

Можно ли использовать словарь в качестве ключа словаря?

In [11]:
d1 = {1: 'b'}
d2 = {d1: 'abc'}

TypeError: unhashable type: 'dict'

In [12]:
{1: 'b'}.__hash__ is None  # dict тоже не является хэшируемым

True

По словарю можно итерироваться, причем как по ключам, так и по значениям

In [19]:
# итерация по словарю
dictionary = {'a': 1, 'b': 2, 'c': 3}
   
for k in dictionary.keys():
    print(k)
    
print()
    
for k in dictionary:  # такая же итерация по ключам, но Python Zen говорит нам, что явное лучше, чем неявное
    print(k)          # поэтому лучше явно прописать .keys(), чтобы улучшить читабельность кода

a
b
c

a
b
c


In [20]:
for v in dictionary.values(): # итерация по значениям
    print(v)

1
2
3


In [21]:
for key, value in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(key, value)

a 1
b 2
c 3


In [22]:
# конструкторы:
a = dict(a=1, b=2, c=3)

keys = ["Petya", "Vasya", "Masha"]
values = [20, 21, 22]

dictionary = dict(zip(keys, values))
dictionary

{'Masha': 22, 'Petya': 20, 'Vasya': 21}

In [23]:
print(list(a.keys()))
print(list(a.values()))
print(list(a.items()))

['a', 'b', 'c']
[1, 2, 3]
[('a', 1), ('b', 2), ('c', 3)]


In [24]:
del dictionary['Vasya']
dictionary

{'Masha': 22, 'Petya': 20}

In [25]:
a.update(dictionary)  # объединение двух словарей
a

{'Masha': 22, 'Petya': 20, 'a': 1, 'b': 2, 'c': 3}

In [26]:
a[('Composite', 'Key')] = [1, 2, 3]   # only immutable objects could be keys in dicts
a

{('Composite', 'Key'): [1, 2, 3],
 'Masha': 22,
 'Petya': 20,
 'a': 1,
 'b': 2,
 'c': 3}

In [27]:
a["aa"] = a.pop("a")
a

{('Composite', 'Key'): [1, 2, 3],
 'Masha': 22,
 'Petya': 20,
 'aa': 1,
 'b': 2,
 'c': 3}

## Задачка на 5 минут
### Используя только что полученные знания об итерировании по словарю, давайте подумаем, как обратить словарь, т.е. как создать словарь с обратными парами (значение: ключ)? Считаем, что в исходном словаре значения тоже являются хэшируемыми

### Помните генераторы списков (list comprehensions) с прошлого занятия? Существуют и генераторы словарей!

In [13]:
dct = {i : i ** 3 for i in range(5)}
dct

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64}

### Множества (set)
В основе set тоже лежит хэш-таблица

In [30]:
a = {1, 2, 3}
b = set([2, 3, 4])

a.add(5)
b.update({5, 6}) # объединить множество с другим множеством
a, b

({1, 2, 3, 5}, {2, 3, 4, 5, 6})

In [15]:
print (a - b)
print (b - a)
print (a | b) # объединение
print (a & b) # пересечение

{1}
{4, 6}
{1, 2, 3, 4, 5, 6}
{2, 3, 5}


Существуют и генераторы множеств

In [16]:
st = {i for i in range(10) if not i % 3}
st

{0, 3, 6, 9}

In [17]:
d = {st: 1} # set тоже не является хэшируемым

TypeError: unhashable type: 'set'

In [18]:
d = {frozenset(st): 6}  # а вот frozenset уже можно хэшировать, так как он является неизменяемым объектом
d

{frozenset({0, 3, 6, 9}): 6}

# Для чего удобно использовать dict и set?

### Установление однозначного соответствия каждому объекту из множества ключей какого-то другого объекта (условно можно удобно реализовать словарь для перевода с одного языка на другой)

### Для подсчета уникальных элементов в списке/уникальных слов в тексте

### Для быстрой проверки элемента на вхождение: поиск по ключу в dict и set выполняется за O(1) (в среднем): от объекта вычисляется хэш и проверяется, есть ли такой хэш в контейнере

In [19]:
2 in a     # O(1)

True

### Задача

Даны два отсортированных списка с числами (не обязательно одной длины). Выведите все числа, которые есть в первом списке, но нет во втором

In [32]:
lst1 = [1,2,8]
lst2 = [2,6]

#### Способ 1: с помощью set

In [33]:
# способ 1
set(lst1) - set(lst2) 

{1, 8}

Формально за O(n) по времени (на создание set уходит O(n), но с немалой константой), но требует доп. память, и не используется отсортированность

####  Способ 2: давайте подумаем, как это сделать за O(n) по времени, но без доп.памяти

### collections
Объекты в collections - модифицированные для разных нужд словари и еще несколько удобных структур данных.

Хороший краткий обзор модуля collections можно почитать [здесь](https://pythonworld.ru/moduli/modul-collections.html) 

In [38]:
from collections import defaultdict
dct = defaultdict(float)

print(dct[2]) # если ключа нет, то устанавливает дефолтное значение
print(dct)

0.0
defaultdict(<class 'float'>, {2: 0.0})


In [23]:
from collections import deque
q = deque()

for i in range(10):
    q.append(i)

while len(q) > 5: 
    print(q.pop(), q) # O(1)

print()
    
while len(q):  # пока дек не пуст
    print(q.popleft(), q) # O(1)

9 deque([0, 1, 2, 3, 4, 5, 6, 7, 8])
8 deque([0, 1, 2, 3, 4, 5, 6, 7])
7 deque([0, 1, 2, 3, 4, 5, 6])
6 deque([0, 1, 2, 3, 4, 5])
5 deque([0, 1, 2, 3, 4])

0 deque([1, 2, 3, 4])
1 deque([2, 3, 4])
2 deque([3, 4])
3 deque([4])
4 deque([])


In [24]:
from collections import OrderedDict # помнит порядок, в котором ему были даны ключи

data = [(1, 'a'), (3, 'c'), (2, 'b')]

print(dict(data))
print(OrderedDict(data))

{1: 'a', 3: 'c', 2: 'b'}
OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])


In [45]:
from collections import Counter

word_count = Counter()
char_count = Counter()
with open("wp.txt", "r", encoding="utf-8") as f:
    for line in f:
        words = line.strip().lower().split()
        word_count.update(words)
        chars = list(line.replace(" ", ""))
        char_count.update(chars)
print(word_count.most_common(50))
print(char_count.most_common(10))

[('и', 4633), ('–', 4207), ('в', 2337), ('не', 1961), ('на', 1604), ('что', 1495), ('он', 1463), ('с', 1372), ('как', 1029), ('к', 864), ('я', 808), ('его', 687), ('князь', 546), ('но', 543), ('сказал', 530), ('это', 498), ('она', 455), ('за', 450), ('а', 422), ('так', 399), ('было', 394), ('по', 391), ('от', 384), ('всё', 349), ('был', 347), ('то', 335), ('из', 333), ('ему', 326), ('вы', 324), ('у', 318), ('ее', 302), ('бы', 302), ('о', 299), ('же', 285), ('только', 283), ('еще', 268), ('и,', 254), ('для', 217), ('de', 213), ('он,', 210), ('все', 207), ('была', 201), ('ты', 200), ('уже', 198), ('мне', 196), ('они', 182), ('когда', 181), ('чтобы', 177), ('сказала', 174), ('андрей', 174)]
[('о', 60381), ('а', 44104), ('е', 42288), ('и', 35353), ('н', 33969), ('т', 30138), ('с', 27625), ('л', 27118), ('р', 24084), ('в', 23683)]
