<a href="https://colab.research.google.com/github/alrinchino/Python_2024/blob/main/07_%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D0%B8%2C_%D0%BC%D0%BD%D0%BE%D0%B6%D0%B5%D1%81%D1%82%D0%B2%D0%B0_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 6. Словари

Словарь -- это структура данных, которая представляет отображение из одного типа данных в другой. Представляет собой набор пар ключ-значение, в качестве ключа могут выступать immutable типы данных (int, str, tuple, ...)

Словарь -- универсальное средство для выражения связей между объектами, подсчёта, группировки.

Массивы, которые мы до этого рассматривали, были отображением непрерывного отрезка [0, n] в другой тип данных. `dict` может быть гораздо удобнее, когда нужно использовать в качестве ключа другой тип данных (например, сопоставить именам людей (str) их даты рождения) или когда в качестве ключа хочется использовать int, но не все значения из промежутка [0, n] нужны. Например, если хочется сопоставить года рождения великих писателей их именам.

Поэтому словари иногда называют **ассоциативными массивами или хеш-таблицами**.

Пустой словарь можно создать либо с помощью `{}`, либо с `dict()`:

In [None]:
d = {}
dd = dict()

print(d == dd, '|', type(d))

Добавим значение value по ключу key в словарь:

In [None]:
key = 'a'
value = 100

d[key] = value
d

Непустой словарь можно создать несколькими способами:

In [None]:
d = {
    'short': 'dict',
    'long': 'dictionary'
}
d

In [None]:
d = dict(short='dict', long='dictionary')
d

In [None]:
d = dict([(1, 1), (2, 4)])
d

Создать дефолтный словарь с ключами из списка, значениями None:

In [None]:
d = dict.fromkeys(['a', 'b'])
d

Создать дефолтный словарь с ключами из списка, всеми значениями по умолчанию 100:

In [None]:
d = dict.fromkeys(['a', 'b'], 100)
d

In [None]:
a = {'Key1' : 'Value1', 'Key2' : 'Value2'}
a

{'Key1': 'Value1', 'Key2': 'Value2'}

In [None]:
b = dict([(1, 1), (2, 4), (3, 9)])
b

{1: 1, 2: 4, 3: 9}

Ключом словаря может быть любой hashable-объект. (mutable == not hashable)

Определение hashable из документации Python: https://docs.python.org/3/glossary.html#term-hashable

Если коротко, то у объекта должен быть правильно определен метод `__hash__()`

Хэш от инта - само значение инта

All of Python’s immutable built-in objects are hashable; mutable containers (such as lists or dictionaries) are not. Objects which are instances of user-defined classes are hashable by default. They all compare unequal (except with themselves), and their hash value is derived from their id().

In [None]:
print(hash(343))
print(hash(True))
hash('hello')

343
1


-4283234814681434623

In [None]:
hash(6.5) # есть тонкости, связанные с точностью представления чисел с плавающей запятой
          # месседж: нужно быть очень аккуратным с хэшированием float и лучше их вообще не хэшировать
hash(round(6.50443,2)) # или хэшировать вот так

1152921504606846982

In [None]:
print(hash('aaa'))
print(hash('aab'))

-5604296508917805270
-8333015767918374177


#### Note: после перезапуска интерпретатора у сложных объектов (например, строк) будет уже другое значение хэш-функции

list в Python не является хэшируемым объектом

In [None]:
[1].__hash__ is None  # метод __hash__ не определен для списка

True

Можно ли использовать словарь в качестве ключа словаря?

In [None]:
d1 = {1: 'b'}
d2 = {d1: 'abc'}

TypeError: unhashable type: 'dict'

In [None]:
{1: 'b'}.__hash__ is None  # dict тоже не является хэшируемым

True

По словарю можно итерироваться, причем как по ключам, так и по значениям

In [None]:
# итерация по словарю
dictionary = {'a': 1, 'b': 2, 'c': 3}

for k in dictionary.keys():
    print(k)

print()

for k in dictionary:  # такая же итерация по ключам, но Python Zen говорит нам, что явное лучше, чем неявное
    print(k)          # поэтому лучше явно прописать .keys(), чтобы улучшить читабельность кода
                      # слишком читабельный код еще никогда никому не мешал

a
b
c

a
b
c


In [None]:
for v in dictionary.values(): # итерация по значениям
    print(v)

1
2
3


In [None]:
for pair in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(pair)


for key, value in dictionary.items(): # итерируемся сразу по парам (ключ: значение)
    print(key, value)

('a', 1)
('b', 2)
('c', 3)
a 1
b 2
c 3


In [None]:
# конструкторы:
a = dict(a=1, b=2, c=3)
a
print(a)
keys = ["Petya", "Vasya", "Masha", "a"]
values = [20, 21, 22, 4]

dictionary = dict(zip(keys, values)) # один из самых удобных способов создания словаря из двух списков

dictionary

{'a': 1, 'b': 2, 'c': 3}


{'Petya': 20, 'Vasya': 21, 'Masha': 22, 'a': 4}

In [None]:
print(list(a.keys()))
print(list(a.values()))
print(list(a.items()))

['a', 'b', 'c']
[1, 2, 3]
[('a', 1), ('b', 2), ('c', 3)]


In [None]:
del dictionary['Vasya']
dictionary

{'Petya': 20, 'Masha': 22}

In [None]:
a.update(dictionary)  # объединение двух словарей
a

{'a': 4, 'b': 2, 'c': 3, 'Petya': 20, 'Vasya': 21, 'Masha': 22}

In [None]:
a[('Composite', 'Key')] = [1, 2, 3]   # only immutable objects could be keys in dicts
a

{'a': 1,
 'b': 2,
 'c': 3,
 'Petya': 20,
 'Masha': 22,
 ('Composite', 'Key'): [1, 2, 3]}

### Помните генераторы списков (list comprehensions)? Cуществуют и генераторы словарей!

In [None]:
dct = {i : i ** 3 for i in range(5)}
dct

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64}

In [None]:
# Аккуратная обработка неизвестности

dct = {1:2,3:4}

key = 5

res1 = dct.get(key,'not found')
res2 = dct.setdefault(key, 'default')

print(dct)
print(res1, res2)

dct = {1:2,3:4,5:6}

res1 = dct.get(key,'not found')
res2 = dct.setdefault(key, 'default')

print(res1, res2)

{1: 2, 3: 4, 5: 'default'}
not found default
6 6


Еще один способ объявления словаря: создадим словарь, где каждому целому числу от 0 до 6 поставим в соответствие квадрат этого числа:

In [None]:
d = {a: a ** 2 for a in range(7)}
d

### !

Будьте осторожны, если ключа, по которому поступил запрос, нет в словаре, то выбросит исключение:

In [None]:
d = {1: 100, 2: 200, 3: 300}
d['a']

Поэтому безопаснее использовать **get(key)**. Тогда, если нужно, можно проверить на **None**:

In [None]:
d.get(1)

In [None]:
d.get('a') == None

Самое часто используемое - получение ключей, получение значений и получение всего вместе:

In [None]:
# получить список ключей
print(d.keys(), '|', type(d.keys()))

# чтобы вывести ключи, нужно привести d.keys() к списку
print(list(d.keys()))

In [None]:
# получить список значений
print(d.values(), '|', type(d.values()))

# то же самое -- чтобы вывести значения, нужно привести d.values() к списку
print(list(d.values()))

In [None]:
# получить список пар ключ-значение
print(d.items(), '|', type(d.items()))

# то же самое -- чтобы вывести пары ключ-значения, нужно привести d.items() к списку
print(list(d.items()))

### 7. Множества (set)

Множество -- это массив, в котором элементы не могут повторяться (то есть, как и в математическом определении множества)

Внутри языка множество устроено совсем не так, как массив или кортеж, элементы множества хранятся не последовательно, поэтому к элементам множества нельзя обрашаться по индексу.

В основе set тоже лежит хэш-таблица

Пустое множество можно создать с помощью set():

In [None]:
s = set()

print(s, '|', type(s))

set() | <class 'set'>


А можно привести список к множеству:

Обратите внимание, что элементы set'а выводятся в отсортированном порядке!

In [None]:
s = set([5, 2, 3, 2])
s

{2, 3, 5}

Можно добавлять элементы в множество с помощью метода `.add()`:

In [None]:
s.add(1)
s.add('a')
# None тоже можно добавить =)
s.add(None)
s.add('bullet')
print(s)

Метод .difference() позволяет получить элементы, которые есть в одном сете, но нет в другом:

In [None]:
s1 = set(range(0, 10))
s2 = set(range(5, 15))

print('s1: ', s1, '\ns2: ', s2)

In [None]:
# элементы, которые есть в s1, но нет в s2
print(s1.difference(s2))
print()
# элементы, которые есть в s2, но нет в s1
print(s2.difference(s1))

In [None]:
# пересечение множеств s1 и s2 можно записать двумя способами:
print(s1.intersection(s2))
print(s1 & s2)

In [None]:
# объединение множеств s1 и s2 тоже можно записать двумя способами:
print(s1.union(s2))
print(s1 | s2)

Из сета можно удалить элемент по значению:

In [None]:
s1.discard(0)
s1

In [None]:
a = {1, 2, 3}
b = set([2, 3, 4])

a.add(5)
b.update({5, 6}) # объединить множество с другим множеством
a, b

({1, 2, 3, 5}, {2, 3, 4, 5, 6})

In [None]:
print(3 in b)
print(5 not in b)
print(b.issubset(a))   # equivalent to b <= a
print(a.issuperset(b)) # equivalent to a >= b
print(a.isdisjoint(b)) # True если пустое пересечение; equivalent to "not a & b"

True
False
False
False
False


In [None]:
print (a - b)
print (b - a)
print (a | b) # объединение
print (a & b) # пересечение
print (a ^ b) # ~ XOR

{1}
{4, 6}
{1, 2, 3, 4, 5, 6}
{2, 3, 5}
{1, 4, 6}


In [None]:
a.difference(b)             # a - b
a.union(b)                  # a | b
a.intersection(b)           # a & b
a.symmetric_difference(b)   # a ^ b

a.difference_update(b)            # a -= b
a.update(b)                       # a |= b
a.intersection_update(b)          # a &= b
a.symmetric_difference_update(b)  # a ^= b

In [None]:
a = {1,2,3}
a.remove(3)
a.remove(3)

KeyError: 3

In [None]:
a = {1,2,3}
a.discard(3)
a.discard(3)
a

{1, 2}

Существуют и генераторы множеств

In [None]:
st = {i for i in range(10) if not i % 3}
st

{0, 3, 6, 9}

In [None]:
d = {st: 1} # set тоже не является хэшируемым

TypeError: unhashable type: 'set'

In [None]:
d = {frozenset(st): 6}  # а вот frozenset уже можно хэшировать, так как он является неизменяемым объектом
d

{frozenset({0, 3, 6, 9}): 6}

# Для чего удобно использовать dict и set?

### Установление однозначного соответствия каждому объекту из множества ключей какого-то другого объекта (условно можно удобно реализовать словарь для перевода с одного языка на другой)

### Для подсчета уникальных элементов в списке/уникальных слов в тексте

### Для быстрой проверки элемента на вхождение: поиск по ключу в dict и set выполняется за O(1) (в среднем): от объекта вычисляется хэш и проверяется, есть ли такой хэш в контейнере

In [None]:
2 in a     # O(1)

True

### 8. collections
Объекты в collections - модифицированные для разных нужд словари и еще несколько удобных структур данных.

Хороший краткий обзор модуля collections можно почитать [здесь](https://pythonworld.ru/moduli/modul-collections.html)

In [None]:
from collections import defaultdict
dct = defaultdict(float)

print(dct[2]) # если ключа нет, то устанавливает дефолтное значение
print(dct)

0.0
defaultdict(<class 'float'>, {2: 0.0})


In [None]:
from collections import deque
q = deque()

for i in range(10):
    q.append(i)

while len(q) > 5:
    print(q.pop(), q) # O(1)

print()

while len(q):  # пока дек не пуст
    print(q.popleft(), q) # O(1)

9 deque([0, 1, 2, 3, 4, 5, 6, 7, 8])
8 deque([0, 1, 2, 3, 4, 5, 6, 7])
7 deque([0, 1, 2, 3, 4, 5, 6])
6 deque([0, 1, 2, 3, 4, 5])
5 deque([0, 1, 2, 3, 4])

0 deque([1, 2, 3, 4])
1 deque([2, 3, 4])
2 deque([3, 4])
3 deque([4])
4 deque([])


In [None]:
from collections import OrderedDict # помнит порядок, в котором ему были даны ключи

# C 3.7 версии сохранение порядка гарантируется и для dict, но:
# Операция сравнения для обычных диктов всё ещё не учитывает порядок в отличие от OrderedDict
# А ещё у OrderedDict есть метод move_to_end (подвинуть существующий элемент в конец), которого нет в дикте

data = [(1, 'a'), (3, 'c'), (2, 'b')]

print(dict(data))
print(OrderedDict(data))

{1: 'a', 3: 'c', 2: 'b'}
OrderedDict([(1, 'a'), (3, 'c'), (2, 'b')])


In [None]:
from collections import OrderedSet

ImportError: cannot import name 'OrderedSet' from 'collections' (/usr/lib/python3.9/collections/__init__.py)

In [None]:
{1, 5, 4} #set

{1, 4, 5}

In [None]:
{1: 1, 5: 5, 4: 4} #dict

{1: 1, 5: 5, 4: 4}

In [None]:
from collections import Counter

word_counter = Counter()

for word in ['spam', 'egg', 'spam', 'counter', 'counter', 'counter']:
    word_counter[word] += 1

print(word_counter)
print(word_counter['counter'])
print(word_counter['collections'])


Counter({'counter': 3, 'spam': 2, 'egg': 1})
3
0


In [None]:
c = Counter(a=4, b=2, c=0, d=-2)

list(c.elements())

['a', 'a', 'a', 'a', 'b', 'b']

In [None]:
Counter('abracadabra').most_common(3)

[('a', 5), ('b', 2), ('r', 2)]

In [None]:
c = Counter(a=4, b=2, c=0, d=-2)
d = Counter(a=1, b=2, c=3, d=4)

print(c, d)

c.subtract(d)

print(c, d)

Counter({'a': 4, 'b': 2, 'c': 0, 'd': -2}) Counter({'d': 4, 'c': 3, 'b': 2, 'a': 1})
Counter({'a': 3, 'b': 0, 'c': -3, 'd': -6}) Counter({'d': 4, 'c': 3, 'b': 2, 'a': 1})


In [None]:
a = Counter(a=4, b=2, c=0, d=-2, k=7, f=-2)
b = Counter(a=1, b=2, c=3, d=4, e=8, f=-4)

print(a)
print(b)

print()

print(a + b)
print(a - b)
print(a | b)
print(a & b)

a.update(b)
print(a)

Counter({'k': 7, 'a': 4, 'b': 2, 'c': 0, 'd': -2, 'f': -2})
Counter({'e': 8, 'd': 4, 'c': 3, 'b': 2, 'a': 1, 'f': -4})

Counter({'e': 8, 'k': 7, 'a': 5, 'b': 4, 'c': 3, 'd': 2})
Counter({'k': 7, 'a': 3, 'f': 2})
Counter({'e': 8, 'k': 7, 'a': 4, 'd': 4, 'c': 3, 'b': 2})
Counter({'b': 2, 'a': 1})
Counter({'e': 8, 'k': 7, 'a': 5, 'b': 4, 'c': 3, 'd': 2, 'f': -6})


In [None]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])

point = Point(x = 1, y = 3)

print(point)
print(point.x, point.y)

Point(x=1, y=3)
1 3
