Программа повышения квалификации (научно-педагогических) работников НИУ ВШЭ

# Python для исследователей

*Автор: Татьяна Рогович, НИУ ВШЭ*  

## Множества и словари

# Множества (set)

Мы уже знаем списки и кортежи - упорядоченные структуры, которые могут хранить в себе объекты любых типов, к которым мы можем обратиться по индексу. Теперь поговорим о стуктурах неупорядоченных - множествах и словарях. 

Множества хранят некоторое количество объектов, но, в отличие от списка, один объект может храниться в множестве не более одного раза. Кроме того, порядок элементов множества произволен, мы не можем обращаться к объектам по индексам.

Тип называется set, это же является конструктором типа, т.е. в функцию set можно передать произвольную последовательность, и из этой последовательности будет построено множество:

In [25]:
print(set([10, 20, 30])) # передаем список
print(set((4, 5, 6))) # передаем tuple
print(set(range(10)))
print(set()) # пустое множество

{10, 20, 30}
{4, 5, 6}
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()



Другой способ создать множество - это перечислить его элементы в фигурных скобках (список - в квадратных, кортеж в круглых, а множество - в фигурных)

In [26]:
primes = {2, 3, 5, 7}
animals = {"cat", "dog", "horse", 'cat'}
print(primes)
print(animals)

{2, 3, 5, 7}
{'horse', 'dog', 'cat'}


Кстати, обратите внимание, что множество может состоять только из уникальных объектов. Выше множество animals включает в себя только одну кошку несмотря на то, что в конструктор мы передали 'cat' два раза. Преобразовать в список в множество - самый простой способ узнать количество уникальных объектов.

Со множествами работает почти всё, что работает с последовательностями (но не работают индексы, потому что элементы не хранятся упорядоченно).

In [67]:
print(len(primes)) # длина
print(11 in primes) # проверка на наличие элемента in хорошо и быстро работает для множеств
print("cow" in animals)

4
False
False


Все возможные операции с множествами: https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset

Отдельно мы посмотрим на так называемые операции над множествами. Если вы знаете круги Эйлера, то помните как различают объекты множеств - пересечение, объекты, которые принадлежат множеству а, но не принадлежат b и так далее. Давайте посмотрим, как эти операции реализовани в питоне.

![](https://lh3.googleusercontent.com/proxy/7VKKEUmsA4LGYWhYZsIZ-rROy2owYfj0pgpajnHocP8a2W5DqAP3rNrj9fB76SyosvzqOkzGHs4b69F_LFAV)

In [27]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

print(c <= a) # проверка на подмножество (с подномжество a)
print(c <= b) # не подмножество, т.к. в b нет 2 
print(a >= c) 
print(a | b) # объединение (рис. а)
print(a & b) # пересечение (рис. в)
print(b - a) # разность множеств (все что в b, кроме пересечения с a, рис. г)
print(a ^ b) # симметрическая разность множеств (объединение без пересечения, рис. д)

c = a.copy() # копирование множества, или set(a)
print(c)

True
False
True
{1, 2, 3, 4, 5, 6}
{3, 4}
{1, 2}
{1, 2, 5, 6}
{1, 2, 3, 4}


Предыдущие операции не меняли множества, создавали новые. А как менять множество:


In [28]:
s = {1, 2, 3}
s.add(10) # добавить
print(s) # обратите внимание, что порядок элементов непредсказуем
s.remove(1) # удаление элемента
s.discard(1) # аналогично, но не будет ошибки, если вдруг такого элемента нет в множестве
print(s)
x = s.pop() # удаляет и возвращает один произвольный элемент множества (можем сохранить его в переменную)
print(s)
print(x)
s.clear() # очистить
print(s)

{10, 1, 2, 3}
{10, 2, 3}
{2, 3}
10
set()


Как мы сокращали арифметические операции раньше (например, +=), так же можно сокращать операции над множествами.

In [70]:
s |= {10, 20} # s = s | {10, 20} # объединение множества s с {10,20}
print(s)
# s ^=, s &= и т.п.

{10, 20}


# Словари (dict)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения.

Давайте посмотрим на списки непривычным способом. Списки - это функции (отображения), которые отображают начальный ряд натуральных чисел в объекты (проще говоря - преводят число 0,1,2,3... во что-то): 

In [29]:
l = [10, 20, 30, 'a']
print(l[0])
print(l[1])
print(l[2])
print(l[3])

10
20
30
a


В словарях отображать можно не только начала натурального ряда, а произвольные объекты. Представьте себе настоящий словарь или телефонную книжку. Имени человека соответствует номер телефона.

Классическое использование словарей в анализе данных: хранить частоту слова в тексте.

кот $\rightarrow$ 10

и $\rightarrow$ 100

Тейлора $\rightarrow$ 2

Словарь состоит из набора ключей и соответствующих им значений. Значения могут быть любыми объектами (также как и в списке, хранить можно произвольные объекты). А ключи могут быть почти любыми объектами, но только неизменяемыми. В частности числами, строками, кортежами. Список или множество не могут быть ключом.

Одному ключу соответствует ровно одно значение. Но одно и то же значение, в принципе, можно сопоставить разным ключам.

In [30]:
a = dict()
a[(2,3)] = [2,3] # кортеж может быть ключом, потому что он неизменямый
a

{(2, 3): [2, 3]}

In [31]:
b = dict()
b[[2,3]] = [2,3] # а список уже нет, получим ошибку
print(b)

TypeError: unhashable type: 'list'

### Создание словаря
В фигурных скобках (как множество), через двоеточие ключ:значение

In [56]:
d1 = {"кот": 10, "и": 100, "Тейлора": 2}
print(d1)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Через функцию dict(). Обратите внимание, что тогда ключ-значение задаются не через двоеточие, а через знак присваивания. А строковые ключи пишем без кавычек - по сути мы создаем переменные с такими названиями и присваиваим им значения (а потом функция dict() уже превратит их в строки).

In [34]:
d2 = dict(кот=10, и=100, Тейлора=2)
print(d2) # получили тот же результат, что выше

{'кот': 10, 'и': 100, 'Тейлора': 2}


И третий способ - передаем функции dict() список списков или кортежей с парами ключ-значение.

In [35]:
d3 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)]) # перечисление (например, список) tuple
print(d3)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Помните, когда мы говорили про списки, мы обсуждали проблему того, что важно создавать именно копию объекта, чтобы сохранять исходный список. Копию словаря можно сделать так

In [36]:
d4 = dict(d3) # фактически, копируем dict который строчкой выше
print(d4)

{'кот': 10, 'и': 100, 'Тейлора': 2}


In [37]:
d1 == d2 == d3 == d4 # Содержание всех словарей одинаковое

True

Пустой словарь можно создать двумя способами.

In [38]:
d2 = {} # это пустой словарь (но не пустое множество)
d4 = dict()
print(d2, d4)

{} {}


### Операции со словарями

Как мы уже говорили, словари неупорядоченные структуры и обратиться по индексу к объекту уже больше не удастся.

In [57]:
d1[1] # выдаст ошибку во всех случах кроме того, если в вашем словаре вдруг есть ключ 1

KeyError: 1

Но можно обращаться к значению по ключу.

In [58]:
print(d1['кот'])

10


Можно создать новую пару ключ-значение. Для этого просто указываем в квадратных скобках название нового ключа.

In [59]:
d1[1] = 'test'
print(d1[1]) # теперь работает!

test


Внимание: если элемент с указанным ключом уже существует, новый с таким же ключом не добавится! Ключ – это уникальный идентификатор элемента. Если мы добавим в словарь новый элемент с уже существующим ключом, мы просто изменим старый – словари являются изменяемыми объектами. 

In [60]:
d1["кот"] = 11 # так же как в списке по индексу - можно присвоить новое значение по ключу
print(d1['кот'])
d1["кот"] += 1 # или даже изменить его за счет арифметической операции
print(d1['кот'])

11
12


А вот одинаковые значения в словаре могут быть.

In [61]:
d1['собака'] = 12
print(d1)

{'кот': 12, 'и': 100, 'Тейлора': 2, 1: 'test', 'собака': 12}


Кроме обращения по ключу, можно достать значение с помощью метода .get(). Отличие работы метода в том, что если ключа еще нет в словаре, он не генерирует ошибку, а возвращает объект типа None ("ничего"). Это очень полезно в решении некоторых задач. 

In [45]:
print(d1.get("кот")) # вернул значение 11
print(d1.get("ктоо")) # вернут None
print(d1['ктоо']) # ошибка

12
None


KeyError: 'ктоо'

Удобство метода .get() заключается в том, что мы сами можем установить, какое значение будет возвращено, в случае, если пары с выбранным ключом нет в словаре. Так, вместо None мы можем вернуть строку Not found, и ломаться ничего не будет:

In [54]:
print(d1.get("ктоо", 'Not found')) # передаем вторым аргументом, что возвращать
print(d1.get("ктоо", False)) # передаем вторым аргументом, что возвращать

Not found
False


Также со словарями работают уже знакомые нам операции - проверка количества элементов, проверка на наличие объектов.

In [46]:
print(d1)
print("кот" in d1) # проверка на наличие ключа
print("ктоо" not in d1) # проверка на отстуствие ключа


{'кот': 12, 'и': 100, 'Тейлора': 2, 1: 'test'}
True
True


Удалить отдельный ключ или же очистить весь словарь можно специальными операциями.

In [47]:
del d1["кот"] # удалить ключ со своим значением
print(d1)
d1.clear() # удалить все
print(d1)

{'и': 100, 'Тейлора': 2, 1: 'test'}
{}


У словарей есть три метода, с помощью которых мы можем сгенерировать список только ключей, только значений и список пар ключ-значения (на самом деле там несколько другая структура, но ведет себя она очень похоже на список).

In [62]:
print(d1.values()) # только значения
print(d1.keys()) # только ключи
print(d1.items()) # только значения

dict_values([12, 100, 2, 'test', 12])
dict_keys(['кот', 'и', 'Тейлора', 1, 'собака'])
dict_items([('кот', 12), ('и', 100), ('Тейлора', 2), (1, 'test'), ('собака', 12)])


Ну, и раз уж питоновские словари так похожи на обычные, давайте представим, что у нас есть словарь, где все слова многозначные. Ключом будет слово, а значением ‒ целый список. 

In [2]:
my_dict = {'swear' : ['клясться', 'ругаться'], 'dream' : ['спать', 'мечтать']}

По ключу мы получим значение в виде списка:

In [26]:
my_dict['swear']

['клясться', 'ругаться']

Так как значением является список, можем отдельно обращаться к его элементам:

In [27]:
my_dict['swear'][0] # первый элемент

'клясться'

Можем пойти дальше и создать словарь, где значениями являются словари! Например, представим, что в некотором сообществе проходят выборы, и каждый участник может проголосовать за любое число кандидатов. Данные сохраняются в виде словаря, где ключами являются имена пользователей, а значениями – пары *кандидат-голос*.

In [1]:
votes = {'user1': {'cand1': '+', 'cand2': '-'},
         'user2' : {'cand1': 0, 'cand3' : '+'}} # '+' - за, '-' - против, 0 - воздержался

In [29]:
votes

{'user1': {'cand1': '+', 'cand2': '-'}, 'user2': {'cand1': 0, 'cand3': '+'}}

По аналогии с вложенными списками по ключам мы сможем обратиться к значению в словаре, который сам является значением в `votes` (да, эту фразу нужно осмыслить):

In [30]:
votes['user1']['cand1'] # берем значение, соответствующее ключу user1, в нем – ключу cand1

'+'

"Объединять словари можно через метод update(). Обратите внимание, что если в словарях есть одинаковые ключи, то они перезапишутся ключами того словаря, который добавляем."

In [4]:
votes.update(my_dict)
votes

{'user1': {'cand1': '+', 'cand2': '-'},
 'user2': {'cand1': 0, 'cand3': '+'},
 'swear': ['клясться', 'ругаться'],
 'dream': ['спать', 'мечтать']}

In [5]:
votes['swear'] = 1 # добавим в словарь votes ключ swear, чтобы проверить, что произойдет, когда объединим с my_dict, в котором есть такой ключ\n",
votes.update(my_dict)
print(votes) # swear в votes перезависался swear из mydict

{'user1': {'cand1': '+', 'cand2': '-'}, 'user2': {'cand1': 0, 'cand3': '+'}, 'swear': ['клясться', 'ругаться'], 'dream': ['спать', 'мечтать']}


Через занятие мы с вами начнем работать с условными операторами и циклом for, и тогда мы поговорим об особенностях обращения к значениям в цикле и сортировок словарей.