# Множества

## Объекты типа set

Мы написали уже много программ, работающих с данными, количество которых неизвестно на момент написания программы. Теперь было бы здорово уметь хранить в памяти неизвестное на момент написания программы количество данных. В этом нам помогут так называемые **коллекции** — специальные типы данных, которые умеют хранить несколько значений под одним именем. Первая из коллекций, с которой мы познакомимся, называется **множество**.

> ### Множество
Множество — составной тип данных, представляющий собой несколько значений (элементов множества) под одним именем. Этот тип называется set, не создавайте, пожалуйста, переменные с таким именем! Чтобы задать множество, нужно в фигурных скобках перечислить его элементы.

Здесь создается множество из четырех элементов (названий млекопитающих), которое затем выводится на экран:

In [1]:
mammals = {'cat', 'dog', 'fox', 'elephant'}
print(mammals)

{'elephant', 'cat', 'dog', 'fox'}


Введите этот код в Python и запустите программу несколько раз. Скорее всего, вы увидите разный порядок перечисления млекопитающих, так происходит потому, что элементы в множестве Python не упорядочены. Это позволяет быстро выполнять операции над множествами, о которых мы скоро поговорим.

> ### Создание множества
  Для создания пустых множеств обязательно вызывать функцию set:


In [2]:
empty = set()
print(empty)

set()


Обратите внимание: элементами множества могут быть строки или числа. Возникает вопрос: а может ли множество содержать и строки, и числа? Давайте попробуем:

In [3]:
mammals_and_numbers = {'cat', 5, 'dog', 3, 'fox', 12, 'elephant', 4}
print(mammals_and_numbers)

{3, 4, 5, 'cat', 'dog', 'elephant', 12, 'fox'}


Как видим, множество может содержать и строки, и числа, а Python опять выводит элементы множества в случайном порядке. Заметьте, если поставить в программе оператор вывода множества на экран несколько раз, не изменяя само множество, порядок вывода элементов не изменится.

Может ли элемент входить в множество несколько раз? Это было бы странно, так как совершенно непонятно, как отличить один элемент от другого. Нет смысла хранить несколько одинаковых объектов, удобно иметь контейнер, сохраняющий только уникальные объекты. Поэтому множество содержит каждый элемент только один раз. Следующий фрагмент кода это демонстрирует:

In [4]:
birds = {'raven', 'sparrow', 'sparrow', 'dove', 'hawk', 'falcon'}
print(birds)

{'raven', 'hawk', 'sparrow', 'dove', 'falcon'}


> ### Важно!
> Итак, у множеств есть три ключевые особенности:
> - Порядок элементов в множестве не определен
> - Элементы множеств — строки и/или числа
> - Множество не может содержать одинаковых элементов



Выполнение этих трех свойств позволяет организовать элементы множества в структуру со сложными взаимосвязями, благодаря которым можно быстро проверять наличие элементов в множестве, объединять множества и т. д. Но пока давайте обсудим ограничения.

## Операции над множеством

Простейшая операция — вычисление числа элементов множества. Для этого служит функция len. Мы уже встречались с этой функцией раньше, когда определяли длину строки:

In [5]:
my_set = {'a', 'b', 'c'}
n = len(my_set)  # => 3

Далее можно вывести элементы множества с помощью функции print:

In [6]:
my_set = {'a', 'b', 'c'}
print(my_set) # => {'b', 'c', 'a'}

{'a', 'b', 'c'}


В вашем случае порядок может отличаться, так как правило упорядочивания элементов в множестве выбирается случайным образом при запуске интерпретатора Python.

Очень часто необходимо обойти все элементы множества в цикле. Для этого используется цикл for и оператор in, с помощью которых можно перебрать не только все элементы диапазона (как мы это делали раньше, используя range), но и элементы множества:

In [7]:
my_set = {'a', 'b', 'c'}
for elem in my_set:
    print(elem)

a
b
c


такой код выводит:

b

a

c

Однако, как и в прошлый раз, в вашем случае порядок может отличаться: заранее он неизвестен. Код для работы с множествами нужно писать таким образом, чтобы он правильно работал при любом порядке обхода. Для этого надо знать два правила:

- Если мы не изменяли множество, порядок обхода элементов тоже не изменится
- После изменения множества порядок элементов может измениться произвольным образом

Чтобы проверить наличие элемента в множестве, можно воспользоваться уже знакомым оператором in:

In [8]:
if elem in my_set:
    print('Элемент есть в множестве')
else:
    print('Элемента нет в множестве')

Элемент есть в множестве


Выражение **elem in my_set** возвращает True, если элемент есть в множестве, и False, если его нет. Интересно, что эта операция для множеств в Python выполняется за время, не зависящее от мощности множества (количества его элементов).

Добавление элемента в множество делается при помощи **add**:

In [10]:
new_elem = 'e'
my_set.add(new_elem)

add — что-то вроде функции, «приклеенной» к конкретному множеству. Такие «приклеенные функции» называются методами.

Таким образом, если в коде присутствует имя множества, затем точка и еще одно название со скобками, второе название — имя метода. Если элемент, равный new_elem, уже существует в множестве, оно не изменится, поскольку не может содержать одинаковых элементов. Ошибки при этом не произойдет. Небольшой пример:

In [11]:
my_set = set()
my_set.add('a')
my_set.add('b')
my_set.add('a')
print(my_set)

{'a', 'b'}


Данный код три раза вызовет метод add, «приклеенный» к множеству my_set, а затем выведет либо {'a', 'b'}, либо {'b', 'a'}.

С удалением элемента сложнее. Для этого есть сразу три метода: discard (удалить заданный элемент, если он есть в множестве, и ничего не делать, если его нет), remove (удалить заданный элемент, если он есть, и породить ошибку KeyError, если нет) и pop. Метод pop удаляет некоторый элемент из множества и возвращает его как результат. Порядок удаления при этом неизвестен.

In [20]:
my_set = {'a', 'b', 'c'}
 
my_set.discard('a')         # Удалён
my_set.discard('hello')     # Не удалён, ошибки нет
my_set.remove('b')          # Удалён
print(my_set)               # В множестве остался один элемент 'c'
my_set.remove('world')      # Не удалён, ошибка KeyError

{'c'}


KeyError: 'world'

На первый взгляд, странно, что есть метод remove, который увеличивает количество падений вашей программы. Однако если вы на 100 % уверены, что элемент должен быть в множестве, то лучше получить ошибку во время отладки и исправить ее, чем тратить время на поиски при неправильной работе программы.

Метод pop удаляет из множества случайный элемент и возвращает его значение:

In [21]:
my_set = {'a', 'b', 'c'}
print('до удаления:', my_set)
elem = my_set.pop()
print('удалённый элемент:', elem)
print('после удаления:', my_set)

до удаления: {'a', 'b', 'c'}
удалённый элемент: a
после удаления: {'b', 'c'}


Результат работы случаен, например, такой код может вывести следующее:

> до удаления: {'b', 'a', 'c'}

> удалённый элемент: b

> после удаления: {'a', 'c'}

Если попытаться применить pop к пустому множеству, произойдет ошибка KeyError.

Очистить множество от всех элементов можно методом clear:

In [22]:
my_set.clear()
print(my_set)

set()


## Операции над двумя множествами

In [23]:
my_set1 = {'морковь', 'картошка', 'помидоры', 'лук'}
my_set2 = {'морковь', 'редис', 'капуста', 'лук'}

Есть четыре операции, которые из двух множеств делают новое множество: объединение, пересечение, разность и симметричная разность.

![title](img/set-union.svg)

Объединение двух множеств включает в себя все элементы, которые есть хотя бы в одном из них. Для этой операции существует метод union:

In [24]:
union = my_set1.union(my_set2)
print(union)

{'капуста', 'лук', 'морковь', 'помидоры', 'картошка', 'редис'}


Или можно использовать оператор |:

In [25]:
union = my_set1 | my_set2
union

{'капуста', 'картошка', 'лук', 'морковь', 'помидоры', 'редис'}

![title](img/set-intersection.svg)

Пересечение двух множеств включает в себя все элементы, которые есть в обоих множествах:

In [26]:
intersection = my_set1.intersection(my_set2)
intersection

{'лук', 'морковь'}

Или аналог:

In [27]:
intersection = my_set1 & my_set2
intersection

{'лук', 'морковь'}

![title](img/set-difference.svg)

Разность двух множеств включает в себя все элементы, которые есть в первом множестве, но которых нет во втором:

In [28]:
diff = my_set1.difference(my_set2)
diff

{'картошка', 'помидоры'}

Или аналог:

In [29]:
diff = my_set1 - my_set2
diff

{'картошка', 'помидоры'}

![title](img/set-symmetric_difference.svg)

Симметричная разность двух множеств включает в себя все элементы, которые есть только в одном из этих множеств:

In [30]:
symm_diff = my_set1.symmetric_difference(my_set2)

Или аналогичный вариант:

In [31]:
symm_diff = my_set1 ^ my_set2

Люди часто путают обозначения | и &, поэтому рекомендуется вместо них писать s1.union(s2) и s1.intersection(s2). Операции − и ^ перепутать сложнее, их можно записывать прямо так.

In [32]:
s1 = {'a', 'b', 'c'}
s2 = {'a', 'c', 'd'}
union = s1.union(s2)                # {'a', 'b', 'c', 'd'}
intersection = s1.intersection(s2)  # {'a', 'c'}
diff = s1 - s2                      # {'b'}
symm_diff = s1 ^ s2                 # {'b', 'd'}

## Сравнение множеств

Все операторы сравнения множеств, а именно: ==, <, >, <=, >=, возвращают True, если сравнение истинно, и False — в противном случае.

> ### Равенство и неравенство множеств
Множества считаются равными, если они содержат одинаковые наборы элементов. Равенство множеств, как в случае с числами и строками, обозначается оператором ==.
Неравенство множеств обозначается оператором !=. Он работает противоположно оператору ==.


In [5]:
if set1 == set2:
    print('Множества равны')
else:
    print('Множества не равны')

NameError: name 'set1' is not defined

Обратите внимание на то, что у двух равных множеств могут быть разные порядки обхода, например, из-за того, что элементы в каждое из них добавлялись в разном порядке.

Теперь перейдем к операторам <=, >=. Они означают «является подмножеством» и «является надмножеством».

> ### Подмножество и надмножество
Подмножество — некоторая выборка элементов множества, которая может быть как меньше множества, так и совпадать с ним, на что указывают символы «<» и «=» в операторе <=. Наоборот, надмножество включает все элементы некоторого множества и, возможно, какие-то еще.


In [34]:
s1 = {'a', 'b', 'c'}
print(s1 <= s1)  # True
 
s2 = {'a', 'b'}
print(s2 <= s1)  # True
s3 = {'a'}
print(s3 <= s1)  # True
s4 = {'a', 'z'}
print(s4 <= s1)  # False

True
True
True
False


Операция s1 < s2 означает «s1 является подмножеством s2, но целиком не совпадает с ним». Операция s1 > s2 означает «s1 является надмножеством s2, но целиком не совпадает с ним».

## Упражнения

### Упражнение 1

Аня и Наташа играют в города. Они очень любят эту игру, знают много городов и к концу игры забывают, какие уже называли. На вас возложена почётная задача вести запись игры и напоминать девочкам, если какой-то город уже был назван.
#### Формат ввода

В первой строке записано число названных городов N. Затем идут N строк с названиями городов и ещё одна строка с новым только что названым городом.
#### Формат вывода

Слово OK, если такого города ещё не было названо, и TRY ANOTHER, если город уже был назван.


![title](img/ex1.png)

In [2]:
# код решения
def main():
    n = int(input())
    cities = set()
    for _ in range(n):
        city = input()
        cities.add(city)
    new_city = input()
    if new_city in cities:
        print("TRY ANOTHER")
    else:
        print("OK")
if __name__ == "__main__":
    main()


OK


### Упражнение 2



Каждый ученик в классе изучает либо английский, либо немецкий, либо оба этих языка.
У классного руководителя есть списки учеников, изучающих каждый из языков. Напишите программу, которая позволит классному руководителю быстро выяснить, сколько учеников изучает только один язык.
#### Формат ввода

В первых двух строках указывается количество учеников, изучающих английский и немецкий языки (M и N). Затем идут M строк — фамилии учеников, которые изучают английский язык; и N строк с фамилиями учеников, изучающих немецкий. Гарантируется, что среди учеников нет однофамильцев.
#### Формат вывода

Количество учеников, которые изучают только один язык. Если таких не окажется, в строке вывода нужно написать NO.



![title](img/ex2.png)

In [3]:
# код решения
def main():
    m = int(input())
    n = int(input())
    english_students = set()
    german_students = set()
    for _ in range(m):
        english_students.add(input())
    for _ in range(n):
        german_students.add(input())
    only_english = english_students - german_students
    only_german = german_students - english_students
    count = len(only_english) + len(only_german)
    if count > 0:
        print(count)
    else:
        print("NO")
if __name__ == "__main__":
    main()

5


### Упражнение 3



Марина пригласила гостей и хочет поразить их своим кулинарным мастерством. На магазин времени не осталось, поэтому ей придётся обойтись продуктами, которые уже есть в холодильнике. В кулинарной книге Марины для каждого рецепта записаны необходимые ингредиенты. Определите, какие рецепты Марина может приготовить. Считайте, что если продукт есть в холодильнике, то его достаточно для приготовления любого блюда по любому рецепту.
#### Формат ввода

В первой строчке указано число продуктов в холодильнике M. Далее идут M строчек с названиями продуктов. После этого — строчка с числом рецептов N. Далее — N блоков, описывающие каждый из рецептов. Блок начинается со строчки с названием рецепта, затем, на следующей строке - количество ингредиентов в нём. Далее идут названия ингредиентов. Названия каждого ингредиента и рецепта состоят из одного слова.
#### Формат вывода

Названия рецептов, которые можно приготовить из продуктов в холодильнике, в порядке их появления во входном файле.



![title](img/ex3.png)

In [8]:
# код решения
def main():
    m = int(input())
    fridge_products = set()
    for _ in range(m):
        fridge_products.add(input())
    n = int(input())
    possible_recipes = []
    for _ in range(n):
        recipe_name = input()
        ingredients_count = int(input())
        recipe_ingredients = set()
        for _ in range(ingredients_count):
            recipe_ingredients.add(input())

        if recipe_ingredients.issubset(fridge_products):
            possible_recipes.append(recipe_name)
    for recipe in possible_recipes:
        print(recipe)
if __name__ == "__main__":
    main()