## Множества и словари

*Материал Татьяны Рогович, НИУ ВШЭ*  

# Множества (set)

Мы уже знаем списки и кортежи - упорядоченные структуры, которые могут хранить в себе объекты любых типов, к которым мы можем обратиться по индексу. Теперь поговорим о стуктурах неупорядоченных - множествах и словарях. 

Множества хранят некоторое количество объектов, но, в отличие от списка, один объект может храниться в множестве не более одного раза. Кроме того, порядок элементов множества произволен, им нельзя управлять.

Тип называется set, это же является конструктором типа, т.е. в функцию set можно передать произвольную последовательность, и из этой последовательности будет построено множество:

In [1]:
a = [1, 2, 3]

In [2]:
a[0]

1

In [6]:
a = {}

In [7]:
type(a)

dict

In [4]:
{1, 2, 3, 'a'}

{1, 2, 3, 'a'}

In [8]:
x = set()
type(x)

set

In [2]:
set([1, 1, 1, 2, 2, 3])

{1, 2, 3}

In [6]:
x = (4, 5, 6)
print(set(x)) # передаем список

{4, 5, 6}


In [9]:
set(range(10))

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}

In [3]:
print(set()) # передаем tuple
print(set(range(10)))
print(set()) # пустое множество

set()
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()



Другой способ создать множество - это перечислить его элементы в фигурных скобках (список - в квадратных, кортеж в круглых, а множество - в фигурных)

In [9]:
{1, 1, 1, 2, 2}

{1, 2}

In [10]:
primes = {2, 2, 3, 5, 7}
animals = {"cat", "dog", "horse", 'cat'}

print(primes)
print(animals)

{2, 3, 5, 7}
{'horse', 'cat', 'dog'}


In [11]:
primes

{2, 3, 5, 7}

In [8]:
x = [1,2,3,2,2,2,2,2,2,2,'dog',1]
print(set(x))

{1, 2, 3, 'dog'}


Кстати, обратите внимание, что множество может состоять только из уникальных объектов. Выше множество animals включает в себя только одну кошку несмотря на то, что в конструктор мы передали 'cat' два раза. Преобразовать в список в множество - самый простой способ узнать количество уникальных объектов.

Со множествами работает почти всё, что работает с последовательностями (но не работают индексы, потому что элементы не хранятся упорядоченно).

In [9]:
print(len(primes))

4


In [12]:
primes = {1,11,22,34,5}
11 in primes

True

In [13]:
animals = {"cat", "dog", "horse", 'cat'}
"cow" in animals

False

In [15]:
animals

{'cat', 'dog', 'horse'}

In [16]:
len(animals)

3

In [67]:
 # длина
print(11 in primes) # проверка на наличие элемента in хорошо и быстро работает для множеств
print("cow" in animals)

4
False
False


Все возможные операции с множествами: https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset

Отдельно мы посмотрим на так называемые операции над множествами. Если вы знаете круги Эйлера, то помните как различают объекты множеств - пересечение, объекты, которые принадлежат множеству а, но не принадлежат b и так далее. Давайте посмотрим, как эти операции реализовани в питоне.

In [13]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

In [19]:
print(c <= a)

True


In [17]:
a1 = {1, 2}
a2 = {1, 2}

In [18]:
a1 < a2

False

In [21]:
a1.issubset(a2)

True

In [22]:
a1 <= a2

True

In [23]:
a1 < a2

False

In [15]:
print(c >= a)

False


In [24]:
c <= b

False

In [19]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

In [20]:
print(a | b)

{1, 2, 3, 4, 5, 6}


In [22]:
a.intersection(b)

{3, 4}

In [26]:
a.union(b)

{1, 2, 3, 4, 5, 6}

In [24]:
a ^ b

{1, 2, 5, 6}

In [20]:
b.difference(a)

{5, 6}

In [21]:
b - a

{5, 6}

In [23]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

 # проверка на подмножество (с подномжество a)
print(c <= b) # не подмножество, т.к. в b нет 2 
print(a >= c) 
print(a | b) # объединение a.union(b) aka a+b
print(a & b) # пересечение a.intersection(b)
print(a - b) # разность множеств (все что в a, кроме b) a.difference(b)
print(a ^ b) # симметрическая разность множеств (объединение без пересечения) 

c = a.copy() # копирование множества, или set(a)
print(c)

False
True
{1, 2, 3, 4, 5, 6}
{3, 4}
{1, 2}
{1, 2, 5, 6}
{1, 2, 3, 4}


In [24]:
a = [1, 2, 3]
b = a

In [25]:
b[-1] = 999

In [26]:
b

[1, 2, 999]

In [27]:
a

[1, 2, 999]

In [28]:
a = [1, 2, 3]
b = a.copy() 

In [29]:
a = [1, 2, 3]
b = a[:]

In [30]:
b[-1] = 999

In [31]:
b

[1, 2, 999]

In [32]:
a

[1, 2, 3]

In [29]:
a = {1, 2, 3, 4}
c = a.copy()
c

{1, 2, 3, 4}

In [11]:
print(c.issubset(a)) # c <= a 
print(c.isdisjoint(a)) # a и c не пересекаются?
print(a.issuperset(c)) # a включает в себя с как подмножество

True
False
True


In [33]:
s = {1, 2, 3}
s

{1, 2, 3}

In [34]:
s.add(10)
s

{1, 2, 3, 10}

In [35]:
s.add(10)
s

{1, 2, 3, 10}

In [36]:
s.discard(500)
s

{1, 2, 3, 10}

In [37]:
s.remove(500)

KeyError: 500

In [38]:
x = s.pop()
print(s)
print(x)

{1, 2, 3}
10


In [38]:
s

{1, 2, 3}

In [39]:
s.clear()
s

set()

Предыдущие операции не меняли множества, создавали новые. А как менять множество:


In [40]:
s = {1, 2, 3}
s.add(10) # добавить
print(s) # обратите внимание, что порядок элементов непредсказуем
s.remove(1) # удаление элемента
s.discard(1) # аналогично, но не будет ошибки, если вдруг такого элемента нет в множестве
print(s)
x = s.pop() # удаляет и возвращает один произвольный элемент множества (можем сохранить его в переменную)
print(s)
print(x)
s.clear() # очистить
print(s)

{10, 1, 2, 3}
{10, 2, 3}
{2, 3}
10
set()


In [None]:
x = 1
x += 1 # x = x + 1

Как мы сокращали арифметические операции раньше (например, +=), так же можно сокращать операции над множествами.

In [42]:
s |= {1.5, 20} # s = s | {10, 20} # объединение множества s с {10,20}
print(s)
# s ^=, s &= и т.п.

{1.5, 10, 20}


# Словари (dict)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения.

Давайте посмотрим на списки непривычным способом. Списки - это функции (отображения), которые отображают начальный ряд натуральных чисел в объекты (проще говоря - преводят число 0,1,2,3... во что-то): 

In [29]:
l = [10, 20, 30, 'a']
print(l[0])
print(l[1])
print(l[2])
print(l[3])

10
20
30
a


В словарях отображать можно не только начала натурального ряда, а произвольные объекты. Представьте себе настоящий словарь или телефонную книжку. Имени человека соответствует номер телефона.

Классическое использование словарей в анализе данных: хранить частоту слова в тексте.

кот $\rightarrow$ 10

и $\rightarrow$ 100

Тейлора $\rightarrow$ 2

Словарь состоит из набора ключей и соответствующих им значений. Значения могут быть любыми объектами (также как и в списке, хранить можно произвольные объекты). А ключи могут быть почти любыми объектами, но только неизменяемыми. В частности числами, строками, кортежами. Список или множество не могут быть ключом.

Одному ключу соответствует ровно одно значение. Но одно и то же значение, в принципе, можно сопоставить разным ключам.

In [43]:
d = dict()
d = {}

In [44]:
type({})

dict

In [45]:
s = set()

In [62]:
type(s)

str

In [63]:
{1: None}

{1: None}

In [47]:
{'Ivanov': [1, 2, 3, 4], 'Petrov': [6, 7]}

{'Ivanov': [1, 2, 3, 4], 'Petrov': [6, 7]}

In [49]:
1, 1.5, 'hey', (1, 2)

(1, 1.5, 'hey', (1, 2))

In [50]:
d = {1: 1, 1.5:2, 'hey': 1, (1, 2): 5}

In [51]:
{[1, 2]: 'a'}

TypeError: unhashable type: 'list'

In [52]:
d = {1: 1, 1.5:2, 'hey': 1, (1, 2): 5, 'hey': 100}

In [53]:
d

{1: 1, 1.5: 2, 'hey': 100, (1, 2): 5}

In [54]:
s = 'aaaabbbccc'

In [55]:
s[0]

'a'

In [56]:
d[0]

KeyError: 0

In [57]:
d

{1: 1, 1.5: 2, 'hey': 100, (1, 2): 5}

In [58]:
d[1]

1

In [59]:
d[1.5]

2

In [60]:
d['hey']

100

In [61]:
d[(1, 2)]

5

In [64]:
a = dict()
type(a)

dict

In [65]:
a['chapter1'] = 'ghfdlksgrjkasgdjkagrdjksargs'
a

{'chapter1': 'ghfdlksgrjkasgdjkagrdjksargs'}

In [66]:
a[1] = 'hrjegrejk'

In [67]:
a

{'chapter1': 'ghfdlksgrjkasgdjkagrdjksargs', 1: 'hrjegrejk'}

In [48]:
x = (3,4,5)
a[x] = 'hrjekwslerw'

In [49]:
a

{'chapter1': 'ghfdlksgrjkasgdjkagrdjksargs',
 1: 'hrjegrejk',
 (3, 4, 5): 'hrjekwslerw'}

In [50]:
x = (1,2,3,'str')
a[x] = 'fuidaslt'

In [51]:
a

{'chapter1': 'ghfdlksgrjkasgdjkagrdjksargs',
 1: 'hrjegrejk',
 (3, 4, 5): 'hrjekwslerw',
 (1, 2, 3, 'str'): 'fuidaslt'}

In [53]:
a

{'chapter1': 'ghfdlksgrjkasgdjkagrdjksargs',
 1: 'hrjegrejk',
 (3, 4, 5): 'hrjekwslerw',
 (1, 2, 3, 'str'): 'fuidaslt'}

In [52]:
a = dict()
a[(2,3)] = [2,3] # кортеж может быть ключом, потому что он неизменямый
a

{(2, 3): [2, 3]}

In [53]:
b = dict()
b[[2,3]] = [2,3] # а список уже нет, получим ошибку
print(b)

TypeError: unhashable type: 'list'

In [56]:
len(a.keys())

1

In [68]:
a.keys()

dict_keys(['chapter1', 1])

In [70]:
a.values()

dict_values(['ghfdlksgrjkasgdjkagrdjksargs', 'hrjegrejk'])

In [72]:
a.values()[0]

TypeError: 'dict_values' object is not subscriptable

In [73]:
list(a.values())[0]

'ghfdlksgrjkasgdjkagrdjksargs'

In [59]:
students = {'Petrov': [1, 2]}

In [63]:
students['Petrov'].append(10)

In [62]:
students

{'Petrov': [1, 2, 10]}

### Создание словаря
В фигурных скобках (как множество), через двоеточие ключ:значение

In [65]:
d = dict()
d

{}

In [None]:
# d[ключ] = значение

In [74]:
# {ключ: значение, ключ2: значение2}
d1 = {"кот": 10, "и": 100, "Тейлора": 2}
print(d1)

{'кот': 10, 'и': 100, 'Тейлора': 2}


In [57]:
d1["кот"]

10

Через функцию dict(). Обратите внимание, что тогда ключ-значение задаются не через двоеточие, а через знак присваивания. А строковые ключи пишем без кавычек - по сути мы создаем переменные с такими названиями и присваиваим им значения (а потом функция dict() уже превратит их в строки).

In [75]:
d2 = dict(кот=10, и=100, Тейлора=2)
print(d2) # получили тот же результат, что выше

{'кот': 10, 'и': 100, 'Тейлора': 2}


И третий способ - передаем функции dict() список списков или кортежей с парами ключ-значение.

In [77]:
d3 = dict([("и", 100), ("кот", 10), ("Тейлора", 2)]) # перечисление (например, список) tuple
print(d3)

{'и': 100, 'кот': 10, 'Тейлора': 2}


Помните, когда мы говорили про списки, мы обсуждали проблему того, что важно создавать именно копию объекта, чтобы сохранять исходный список. Копию словаря можно сделать так

In [78]:
d4 = dict(d3) # фактически, копируем dict который строчкой выше
print(d4)

{'и': 100, 'кот': 10, 'Тейлора': 2}


In [77]:
d1 == d2 == d3 == d4 # Содержание всех словарей одинаковое

True

In [87]:
z = [1, 2, 3]

In [88]:
d15 = {1: z.copy()}

In [89]:
d15[1].append(99)

In [90]:
d15

{1: [1, 2, 3, 99]}

In [91]:
z

[1, 2, 3]

Пустой словарь можно создать двумя способами.

In [92]:
d2 = {} # это пустой словарь (но не пустое множество)
d4 = dict()
print(d2, d4)

{} {}


In [94]:
type({})

dict

In [95]:
type(d2)

dict

In [91]:
type({1, 2, 3})

set

In [64]:
x = {}
type(x)

dict

### Операции со словарями

Как мы уже говорили, словари неупорядоченные структуры и обратиться по индексу к объекту уже больше не удастся.

In [96]:
d1

{'кот': 10, 'и': 100, 'Тейлора': 2}

In [97]:
d1[1] # выдаст ошибку во всех случах кроме того, если в вашем словаре вдруг есть ключ 1

KeyError: 1

Но можно обращаться к значению по ключу.

In [99]:
d3 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)])
print(d1['кот'])

10


In [66]:
d1[1]

KeyError: 1

Можно создать новую пару ключ-значение. Для этого просто указываем в квадратных скобках название нового ключа.

In [100]:
d1[1] = 'test'
print(d1[1]) # теперь работает!

test


In [101]:
d1

{'кот': 10, 'и': 100, 'Тейлора': 2, 1: 'test'}

Внимание: если элемент с указанным ключом уже существует, новый с таким же ключом не добавится! Ключ – это уникальный идентификатор элемента. Если мы добавим в словарь новый элемент с уже существующим ключом, мы просто изменим старый – словари являются изменяемыми объектами. 

In [106]:
d1[1.5] = 'test2'

In [96]:
d1

{'кот': 10, 'и': 100, 'Тейлора': 2}

In [97]:
d1.keys()

dict_keys(['кот', 'и', 'Тейлора'])

In [94]:
d1.values()

dict_values([10, 100, 2])

In [98]:
d1.items()

dict_items([('кот', 10), ('и', 100), ('Тейлора', 2)])

In [92]:
list(d1.keys())[0]

'кот'

In [112]:
d1[list(d1.keys())[0]]

11

In [99]:
d3 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)])
d1["кот"] = 11 # так же как в списке по индексу - можно присвоить новое значение по ключу
d1

{'кот': 11, 'и': 100, 'Тейлора': 2}

In [114]:
d1["кот"] += 1 # или даже изменить его за счет арифметической операции
d1

{'кот': 12, 'и': 100, 'Тейлора': 2, 1: 'test2', 1.5: 'test2'}

А вот одинаковые значения в словаре могут быть.

In [71]:
d1['собака'] = 13
print(d1)

{'кот': 13, 'и': 100, 'Тейлора': 2, 1: 'test', 'собака': 13}


Кроме обращения по ключу, можно достать значение с помощью метода .get(). Отличие работы метода в том, что если ключа еще нет в словаре, он не генерирует ошибку, а возвращает объект типа None ("ничего"). Это очень полезно в решении некоторых задач. 

In [100]:
d1

{'кот': 11, 'и': 100, 'Тейлора': 2}

In [101]:
d1[2.5]

KeyError: 2.5

In [102]:
d1.get(2.5)

In [103]:
d1.get(2.5, 'такого нет!')

'такого нет!'

In [121]:
d1.get('кот', 'такого нет!')

12

In [None]:
print(d1['кот'])

In [74]:
print(d1.get("ктоо")) # вернут None


None


Удобство метода .get() заключается в том, что мы сами можем установить, какое значение будет возвращено, в случае, если пары с выбранным ключом нет в словаре. Так, вместо None мы можем вернуть строку Not found, и ломаться ничего не будет:

In [75]:
print(d1.get("ктоо", 'Not found')) # передаем вторым аргументом, что возвращать
print(d1.get("ктоо", False)) # передаем вторым аргументом, что возвращать

Not found
False


Также со словарями работают уже знакомые нам операции - проверка количества элементов, проверка на наличие объектов.

In [104]:
d1

{'кот': 11, 'и': 100, 'Тейлора': 2}

In [123]:
print(d1)
print("кот" in d1) # проверка на наличие ключа
print("ктоо" not in d1) # проверка на отстуствие ключа


{'кот': 12, 'и': 100, 'Тейлора': 2, 1: 'test2', 1.5: 'test2'}
True
True


Удалить отдельный ключ или же очистить весь словарь можно специальными операциями.

In [105]:
del d1["кот"]

In [106]:
d1

{'и': 100, 'Тейлора': 2}

In [79]:
d1.clear()
d1

{}

In [107]:
del d1["кот"] # удалить ключ со своим значением
print(d1)
d1.clear() # удалить все
print(d1)

KeyError: 'кот'

In [130]:
d1 = dict([("кот", 10), ("и", 10), ("Тейлора", 2)])

У словарей есть три метода, с помощью которых мы можем сгенерировать список только ключей, только значений и список пар ключ-значения (на самом деле там несколько другая структура, но ведет себя она очень похоже на список).

In [108]:
print(d1.values()) # только значения
print(d1.keys()) # только ключи
print(d1.items()) # только ключ-значение

dict_values([100, 2])
dict_keys(['и', 'Тейлора'])
dict_items([('и', 100), ('Тейлора', 2)])


In [109]:
d1

{'и': 100, 'Тейлора': 2}

In [110]:
for x in d1:
    print(x)

и
Тейлора


In [111]:
for x in d1.keys():
    print(x)

и
Тейлора


In [112]:
for x in d1.values():
    print(x)

100
2


In [113]:
for x in d1.items():
    print(x)

('и', 100)
('Тейлора', 2)


In [115]:
for key, value in d1.items():
    print(f'{key} is {value}')

и is 100
Тейлора is 2


Ну, и раз уж питоновские словари так похожи на обычные, давайте представим, что у нас есть словарь, где все слова многозначные. Ключом будет слово, а значением ‒ целый список. 

In [118]:
my_dict = {'swear' : {'swear' : ['клясться', 'ругаться'], 
                      'dream' : ['СПАТЬ', 'МЕЧТАТЬ']}, 
           'dream' : ['спать', 'мечтать']}

In [119]:
my_dict['swear']

{'swear': ['клясться', 'ругаться'], 'dream': ['СПАТЬ', 'МЕЧТАТЬ']}

In [121]:
my_dict['swear']['dream']

['СПАТЬ', 'МЕЧТАТЬ']

In [123]:
my_dict['swear']['dream'][0]

'СПАТЬ'

In [124]:
my_dict['swear']['dream'][0] + '!!!!!'

'СПАТЬ!!!!!'

In [145]:
my_dict.keys()

dict_keys(['swear', 'dream'])

In [139]:
my_dict['swear']

{'swear': ['клясться', 'ругаться'], 'dream': ['спать', 'мечтать']}

In [141]:
my_dict['swear']['swear']

['клясться', 'ругаться']

In [149]:
my_dict['swear']['dream']

['спать', 'мечтать']

In [150]:
my_dict['swear']['dream'][1]

'мечтать'

In [147]:
my_dict['dream']

['спать', 'мечтать']

In [148]:
my_dict['dream']['dream']

TypeError: list indices must be integers or slices, not str

In [134]:
my_dict.items()

dict_items([('swear', {'swear': ['клясться', 'ругаться'], 'dream': ['спать', 'мечтать']}), ('dream', ['спать', 'мечтать'])])

In [135]:
type(my_dict.items())

dict_items

In [136]:
len(my_dict.items())

2

По ключу мы получим значение в виде списка:

In [91]:
my_dict['swear']['swear'][0]

'клясться'

Так как значением является список, можем отдельно обращаться к его элементам:

In [27]:
my_dict['swear'][0] # первый элемент

'клясться'

Можем пойти дальше и создать словарь, где значениями являются словари! Например, представим, что в некотором сообществе проходят выборы, и каждый участник может проголосовать за любое число кандидатов. Данные сохраняются в виде словаря, где ключами являются имена пользователей, а значениями – пары *кандидат-голос*.

In [151]:
votes = {'user1': {'cand1': '+', 'cand2': '-'},
         'user2' : {'cand1': 0, 'cand3' : '+'}} # '+' - за, '-' - против, 0 - воздержался

In [152]:
votes

{'user1': {'cand1': '+', 'cand2': '-'}, 'user2': {'cand1': 0, 'cand3': '+'}}

По аналогии с вложенными списками по ключам мы сможем обратиться к значению в словаре, который сам является значением в `votes` (да, эту фразу нужно осмыслить):

In [30]:
votes['user1']['cand1'] # берем значение, соответствующее ключу user1, в нем – ключу cand1

'+'

In [1]:
dict1 = {'a': 1, 'b': 2}
dict2 = {'c': 3, 'd': 4}
dict3 = dict1.copy()
dict3.update(dict2)
print(dict3)

{'a': 1, 'b': 2, 'c': 3, 'd': 4}


In [154]:
dict1 = {'a': 1, 'b': 2}
dict2 = {'a': 3, 'd': 4}
dict3 = {**dict1, **dict2}
print(dict3) 

{'a': 3, 'b': 2, 'd': 4}
