# Python-1, Лекция 3

Лектор: Хайбулин Даниэль

Подготовил материал: Хайбулин Даниэль

## Множества

Скорее всего вы знаете, что такое множества, исходя из математики. Множество - это набор уникальных элементов.

Ну и что же в этом уникального, спросите вы? Можно же просто просто хранить список. А вот нет, тогда мы будем сильно проигрывать по времени. Давайте попробуем что-нибудь:

In [None]:
a = [i for i in range(100000)]
b = set(a)

In [None]:
%%time

c = 10000
if c not in a:
    a.append(c)

In [None]:
%%time

c = 10000
if c not in b:
    b.add(c)

### Операции

Опа и пожалуйста, экономия времени! Как это получается? На самом деле ответ кроется в том, как хранит элементы множество и список (список хранит просто в раличных ячейках памяти элементы, множество же занимается хешированием)

А наша задача, в первую очередь, это вообще понять, как с ними работать. Итак, поехали:

* s.add(elem) - добавить элемент во множество (если элемент уже есть, то ничего не изменится)

* clear() - очистить множество

* copy() - скопировать множество

* s.discard(elem) / s.remove(elem) / s.pop() - разные методы удаления (первое - не ругнется, если попробовать убрать элемент не из множества, второй - ругнется, третий - просто вытаскивает рандомный элемент и возвращает его)

* difference / difference_update() / - - разность

* union() / | - объединение множеств

* intersection() / & - пересечение множеств

* issubset() / isdisjoint() / issuperset() - проверка на подмножество, наличие пересечений и проверка на супермножество (один находится в другом)

* symmetric_difference / ^ - симметричная разность

* len(s) - узнать число элементов во множестве

* ==, <=, >= - проверки на равенство (поэлементно), является ли одно множество под(над)множеством другого

Как можно заметить, можно использовать и операторы)

![](https://i.pinimg.com/originals/d3/59/3a/d3593ae3a7dbdccf9513d3aa5b608230.png)

In [None]:
a = {1, 2, 3, 5}
b = {4, 5, 6}

print(a.union(b), a | b)
print(a.intersection(b), a & b)
print(a.difference(b), a - b)
print(a.symmetric_difference(b), a ^ b)

Есть такая штука, как difference_update. Как думаете, в чем разница?

In [None]:
print(a.difference(b), a)
print(a.difference_update(b), a)

Сравнение множеств:

In [None]:
a = {1, 2}
b = {1, 2, 3}

# Подмножество
a.issubset(b)  # True
assert a <= b  # True

# Собственное подмножество
assert a < b  # True (a является подмножеством, но не равно b)

# Надмножество
b.issuperset(a)  # True
assert b >= a  # True

# Собственное надмножество
assert b > a  # True

Поиграемся с удалениями элементов:

In [None]:
a.discard(5)
a.discard(5)
a.remove(3)
a.remove(3)

Поиск внутри множества:

In [None]:
print(b)
4 in b

In [None]:
while a:
    print(a.pop())

### Применение

In [None]:
# Самый эффективный способ удаления дубликатов
items = [1, 2, 3, 2, 1, 4, 5]
unique = list(set(items))
assert unique == [1, 2, 3, 4, 5]

In [None]:
# Быстрая фильтрация с использованием множеств
all_items = [1, 2, 3, 4, 5, 6, 7, 8, 9]
valid_items = {2, 4, 6, 8}

filtered = [item for item in all_items if item in valid_items]
assert filtered == [2, 4, 6, 8]

In [None]:
# Эффективный поиск общих элементов в нескольких коллекциях
list1 = [1, 2, 3, 4, 5]
list2 = [4, 5, 6, 7, 8]
list3 = [5, 6, 7, 8, 9]

common = set(list1) & set(list2) & set(list3)
assert common == {5}

In [None]:
import random

# Создаем список со множеством дубликатов
data = [random.randint(0, 100) for _ in range(1000)]

# Сравниваем подходы
%timeit list(set(data))              # Самый быстрый
%timeit list(dict.fromkeys(data))    # Сохраняет порядок, но медленнее
%timeit sorted(set(data), key=data.index)  # Сохраняет порядок, очень медленно

In [None]:
# Пустое множество ложно в булевом контексте
s = set()
if not s:
    print("Множество пустое")

# Непустое множество истинно
s = {1, 2, 3}
if s:
    print("Множество не пустое")

In [None]:
# Аналогично списковым включениям
squares = {x**2 for x in range(10)}
assert squares == {0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

# С условием
even_squares = {x**2 for x in range(10) if x % 2 == 0}
assert even_squares == {0, 4, 16, 36, 64}

### Set Comprehensions

Например, хотим положить в множество все символы, в названии которых присутствует SIGN. Можно сделать это не очень красивым способом:

In [None]:
from unicodedata import name

s = set()

for i in range(32, 256):
    if "SIGN" in name(chr(i), ""):
        s.add(chr(i))
s

Однако, в питоне принято конструировать объекты с использованием comprehensions:

In [None]:
from unicodedata import name

sd = {chr(i) for i in range(32, 256) if "SIGN" in name(chr(i), "")}
sd

Конечно, поначалу такой способ может показаться сложнее и неудобочитаемым, но со временем раскрывается его красота и удобство. Рекомендую сразу стараться писать таким образом.

### Хешируемость

In [None]:
a.add([15, 20])

Тут мы сталкиваемся с той проблемой, что есть хешируемые и нехешируемые объекты. Что же такое хешируемый объект? Это объект, от которого можно взять хеш - тут можно сказать, что объект должен быть неизменяемым, чтобы хеш-функция всегда выдавала одно значение. Кроме этого объект обязательно должен быть сравнимым - этот аспект подробнее рассмотрите на курсе алгоритмов и структур данных когда будете разбирать внутреннее устройство хеш-таблицы.

Ну хорошо, как же тогда быть? Использовать хешируемые объекты, например: кортеж, frozenset.

От кортежа можно получить хеш, соответственно он может быть ключом в множестве:

In [None]:
t = (1, 2, (3, 4))
hash(t)

Но тут нужно быть внимательными, например:

In [None]:
t = (1, 2, [3, 4])
hash(t)

Почему так? Потому что список - изменяемый объект внутри кортежа.

Важно понимать, что хеш-функция - некоторое сочетание хешей вложенных объектов. То есть, чтобы получить хеш от кортежа нужно получить хеш от всего, что в него вложено. Тут то и возникает проблема с тем, что мы не можем получить хеш у списка, так как это изменяемый объект, или, корректнее говоря, у списка отсутствует метод __hash__.

In [None]:
a.add((15, 20))
a

In [None]:
a.add(frozenset({15, 20}))
a

А вот если положить список в замороженное множество, то можем спокойно брать хеш.

In [None]:
t = (1, 2, frozenset([3, 4]))
hash(t)

### Оптимизации

Давайте еще посмотрим на то в чем разница между различными способами инициализации множества:

In [None]:
from dis import dis

dis("{1}")

In [None]:
from dis import dis

dis("set({1})")

Отсюда видно, что лучше всегда создавать множество без приписки set(), чтобы не тратить время на лишние четыре действия.

## Словари

### Создание

Ну хорошо, у нас есть множества, давайте пойдем чуть дальше. Допустим, что мы хотим иметь не просто множество, а еще уметь и считать, сколько раз тот или иной элемент встретился!

Можно ответить про Counter, конечно, но про это мы позже поговорим тоже, а сейчас давайте про уже встроенные методы. То есть что бы нам хотелось? Хранить некоторую пару "key" - "value" (в нашем случае сколько раз встретилось)

Вот для этого и подходят словари! (почему словарь - аналогия с переводом)
Давайте создавать!

In [None]:
a = dict(one=1, two=2, three=3)
b = {"one": 1, "two": 2, "three": 3}
c = dict(zip(["one", "two", "three"], [1, 2, 3]))
d = dict([("two", 2), ("one", 1), ("three", 3)])
e = dict({"three": 3, "one": 1, "two": 2})
print(c)
a == b == c == d == e

Рассмотрим подробнее создание с использованием функции zip:

In [None]:
c = dict(zip(["one", "two", "three"], [1, 2, 3]))
c

zip попарно соединяет два итерируемых объекта (про это будем говорить на другой лекции).

In [None]:
type(zip(["one", "two", "three"], [1, 2, 3]))

In [None]:
list(zip(["one", "two", "three"], [1, 2, 3])) == [("one", 1), ("two", 2), ("three", 3)]

### Хешируемые ключи

Еще раз про хешируемость, но теперь в словарях:

In [None]:
# Хешируемые ключи
d = {
    1: "int",
    "a": "str",
    (1, 2): "tuple",  # Только если элементы кортежа хешируемы
    frozenset([1, 2]): "frozenset",
    None: None,
}

In [None]:
# Нехешируемые ключи (вызовут TypeError)
d = {
    [1, 2]: "list",  # Ошибка!
    {1, 2}: "set",  # Ошибка!
    {"a": 1}: "dict",  # Ошибка!
}

### Итерация по словарю

Все, что находится слева (до двоеточия) - это ключи (или же keys), все, что после - это значения (или же values)

In [None]:
print(e.keys(), e.values(), e.items())

Итерация по словарю:

In [None]:
# По умолчанию итерация идет по ключам
for key in d:
    print(key, d[key])

# Явное указание
for key in d.keys():
    print(key)

for value in d.values():
    print(value)

for key, value in d.items():  # Самый эффективный способ
    print(key, value)

### Функциональность

Как обращаться по ключу? Абсолютно точно также, как и в списке (можно считать, будто это индексы):

In [None]:
e["one"]

Но потом мы попробовали вот так:

In [None]:
e["four"]

И получили ошибку, что же делать? Для этого есть более "безопасный" вариант: get()

In [None]:
print(e.get("four"))
print(e.get("four", 5))

Что может быть в качестве значения? На самом деле что угодно!

Что может быть в качестве ключей? Только хешируемые объекты.

In [None]:
a = {"abc": set([1, 2, 3])}
a

Ну хорошо, создавать от руки мы умеем. А как теперь добавлять/удалять и так далее, что мы вообще можем делать со словарем?



In [None]:
e["four"] = 100
e["one"] += 1
print(e)

* e.pop(elem) - удалить ключ и вернуть по нему значение

* e.popitem() - удали рандомный элемент и верни ключ-значение удаленного

* e.clear() - очистить словарь

* len(e) - число элементов

* e.setdefault(key, value) - поставь значение по ключу, если его нет, то поставь value

In [None]:
e.pop("four")
print(e.popitem())
print(len(e))
print(e.setdefault("four", 10000))
print(e)

Словарь можно обновлять через **update**:

In [None]:
e.update({"c": 3, "d": 4})  # Может принимать другой словарь
e.update([("e", 5), ("f", 6)])  # Или список кортежей

print(e)

Конечно основное применение словаря - это поиск внутри него. Для этого в питоне есть ключевое слово **in**:

In [None]:
"five" not in e

In [None]:
"one" in e

In [None]:
e.clear()
e

Также можно сливать словари воедино:

In [None]:
d1 = {"a": 1, "b": 2}
d2 = {"b": 3, "c": 4}

# Новый словарь (приоритет у последнего)
assert {**d1, **d2} == {"a": 1, "b": 3, "c": 4}

# С дополнительными значениями
assert {**d1, "d": 5, **d2} == {"a": 1, "b": 3, "d": 5, "c": 4}

### Dict Comprehensions

Вообще, в питоне есть очень удобные способы создавать объекты. Посмотрим быстренько на dict comprehensions:

In [None]:
capitals = [
    ("Russia", "Moscow"),
    ("USA", "Washington"),
    ("China", "Beijing"),
]

d = {
    country: capital.upper() for country, capital in capitals
}  # это dict comprehensions
d

Способ менее изящный и нерекомендуемый:

In [None]:
d = {}
for country, capital in capitals:
    d[country] = capital.upper()
d

Можно удобно фильтровать внутри структуры создания словаря:

In [None]:
d = {
    country: capital.upper() for country, capital in capitals if len(capital) < 8
}  # это dict comprehensions
d

### Порядок ключей

In [None]:
DIAL_CODES = [
    (86, "China"),
    (91, "India"),
    (1, "United States"),
    (62, "Indonesia"),
    (55, "Brazil"),
    (92, "Pakistan"),
    (880, "Bangladesh"),
    (234, "Nigeria"),
    (7, "Russia"),
    (81, "Japan"),
]

Сперва сложим в словарь все как есть:

In [None]:
d1 = dict(DIAL_CODES)
print("d1:", d1.keys())

Теперь попробуем посортировать по коду:

In [None]:
d2 = dict(sorted(DIAL_CODES))
print(f"d2: {d2.keys()}")

Теперь попробуем посортировать по названию страны:

In [None]:
d3 = dict(sorted(DIAL_CODES, key=lambda x: x[1]))
print("d3:", d3.keys())

In [None]:
assert d1 == d2 == d3

При этом все эти словари считаются равными, но ключи в них лежат в различном порядке:

In [None]:
print("Без упорядочивания:")
for k, v in d1.items():
    print(f"({k}, {v})", end=" ")

print("\nС сортировкой по кодам:")
for k, v in d2.items():
    print(f"({k}, {v})", end=" ")

print("\nС сортировкой по названиям стран:")
for k, v in d3.items():
    print(f"({k}, {v})", end=" ")

Какой вывод из этого можно сделать? Не стоит завязывать какую-либо логику на порядок ключей в словаре.