# Python-1, Лекция 3

Лектор: Хайбулин Даниэль

Подготовил материал: Хайбулин Даниэль

## Множества

Скорее всего вы знаете, что такое множества, исходя из математики. Множество - это набор уникальных элементов.

Ну и что же в этом уникального, спросите вы? Можно же просто просто хранить список. А вот нет, тогда мы будем сильно проигрывать по времени. Давайте попробуем что-нибудь:

In [None]:
a = [i for i in range(100000)]
b = set(a)

In [None]:
%%time

c = 1000000
if c not in a:
    a.append(c)

In [None]:
%%time

c = 1000000
if c not in b:
    b.add(c)

Видим, что поиск в множестве намного быстрее чем в списке. Как это работает? На самом деле множество - хеш-таблица. Саму хеш-таблицу вы разберете на курсе алгоритмов и структур данных, а вот что такое хеш и хешируемость мы обсудим на нашем курсе.

### Операции

Методы множеств:

* `s.add(elem)` - добавить элемент во множество (если элемент уже есть, то ничего не изменится)

* `clear()` - очистить множество

* `copy()` - скопировать множество

* `s.discard(elem)` / `s.remove(elem)` / `s.pop()` - разные методы удаления (первое - не ругнется, если попробовать убрать элемент не из множества, второй - ругнется, третий - просто вытаскивает рандомный элемент и возвращает его)

* `difference` / `difference_update()` / `-` - разность

* `union()` / `|` - объединение множеств

* `intersection()` / `&` - пересечение множеств

* `issubset()` / `isdisjoint()` / `issuperset()` - проверка на подмножество, наличие пересечений и проверка на супермножество (один находится в другом)

* `symmetric_difference` / `^` - симметричная разность

* `len(s)` - узнать число элементов во множестве

* `==`, `<=`, `>=` - проверки на равенство (поэлементно), является ли одно множество под(над)множеством другого

![](https://i.pinimg.com/originals/d3/59/3a/d3593ae3a7dbdccf9513d3aa5b608230.png)

In [None]:
a = {1, 2, 3, 5}
b = {4, 5, 6}

In [None]:
a.union(b), a | b

In [None]:
a.intersection(b), a & b

In [None]:
a.difference(b), a - b

In [None]:
a.symmetric_difference(b), a ^ b

Есть такая штука, как difference_update. Как думаете, в чем разница?

In [None]:
print(a.difference(b), a)
print(a.difference_update(b), a)

Дальше я часто будем использовать `assert`. Что это такое? Это проверка какого-либо условия, если условие не выполняется, то выбрасывается исключение (о них мы поговорим позже).

In [None]:
assert not []

In [None]:
assert [], "список пуст"

Сравнение множеств:

In [None]:
a = {1, 2}
b = {1, 2, 3}

# Подмножество
a.issubset(b)
assert a <= b

# Собственное подмножество
assert a < b

# Надмножество
b.issuperset(a)
assert b >= a

# Собственное надмножество
assert b > a

In [None]:
b = {1, 2}
3 in b  # Поиск внутри множества

Поиграемся с удалениями элементов:

In [None]:
a = {1, 2, 3, 5}
a.discard(5)
assert 5 not in a
a.discard(5)  # Не пробрасывает исключение, если элемент не найден в множестве
a

In [None]:
a.remove(5)  # Пробрасывает исключение, если элемент не найден в множестве

In [None]:
while a:
    print(a.pop())

### Применение

In [None]:
# Эффективный способ удаления дубликатов
items = [1, 2, 3, 2, 1, 4, 5]
unique = list(set(items))
assert unique == [1, 2, 3, 4, 5]

In [None]:
# Быстрая фильтрация с использованием множеств
all_items = [1, 2, 3, 4, 5, 6, 7, 8, 9]
valid_items = {2, 4, 6, 8}

filtered = [item for item in all_items if item in valid_items]
assert filtered == [2, 4, 6, 8]

In [None]:
# Эффективный поиск общих элементов в нескольких коллекциях
list1 = [1, 2, 3, 4, 5]
list2 = [4, 5, 6, 7, 8]
list3 = [5, 6, 7, 8, 9]

common = set(list1) & set(list2) & set(list3)
assert common == {5}

In [None]:
# Пустое множество ложно в булевом контексте
s = set()
if not s:
    print("Множество пустое")

# Непустое множество истинно
s = {1, 2, 3}
if s:
    print("Множество не пустое")

### Set Comprehensions

Например, хотим положить в множество все символы, в названии которых присутствует SIGN. Можно сделать это не очень красивым способом:

In [None]:
from unicodedata import name

s = set()

for i in range(32, 256):
    if "SIGN" in name(chr(i), ""):
        s.add(chr(i))
print(*s)

Однако, в питоне принято конструировать объекты с использованием comprehensions:

In [None]:
from unicodedata import name

sd = {chr(i) for i in range(32, 256) if "SIGN" in name(chr(i), "")}
print(*sd)

In [None]:
squares = {x**2 for x in range(10)}
assert squares == {0, 1, 4, 9, 16, 25, 36, 49, 64, 81}

even_squares = {x**2 for x in range(10) if x % 2 == 0}
assert even_squares == {0, 4, 16, 36, 64}

Конечно, поначалу такой способ может показаться сложнее и неудобочитаемым, но со временем раскрывается его красота и удобство. Рекомендую сразу стараться писать таким образом.

### Хешируемость

In [None]:
a = {1}
a.add([15, 20])

Тут мы сталкиваемся с той проблемой, что есть **хешируемые** и **нехешируемые** объекты.

Для начала давайте поймем что такое хеш-функция.

Пусть у нас есть $U$ — универсум всех возможных входных данных (ключей), $S = \{0, 1, 2, \ldots, m-1\}$ — множество целочисленных хеш-значений размера $m$.

Хеш-функция $h$ определяется как отображение:

$h: U \rightarrow S$

Хешируемый объект - это:
- Объект может быть передан аргументом в функцию $h$ (имеет магический метод `__hash__`), то есть можно получить **хеш** от объекта.
- Сравним с другими объектами: имеет магический метод `__eq__` (об этом мы еще отдельно поговорим).
- $\forall x \in U, h(x) = \text{const}$
- $\forall x, y \in U, x = y \Rightarrow h(x) = h(y)$

In [None]:
hash(1), hash(2), hash(10)

Вопрос: что будет выведено в данном случае?

In [None]:
hash(-1), hash(-2)

In [None]:
{-1, -2}

In [None]:
items = ["apple", 42, (1, 2), frozenset([3, 4])]
for item in items:
    print(f"{item!r}: hash = {hash(item)}")

От кортежа можно получить хеш, соответственно он может быть ключом в множестве:

In [None]:
t = (1, 2, (3, 4))
hash(t)

Вопрос: что произойдет в данном примере?

In [None]:
t = (1, 2, [3, 4])
hash(t)

Почему так? Потому что список - изменяемый объект внутри кортежа.

Важно понимать, что хеш-функция объекта с вложением - некоторое сочетание результатов хеш-функции вложенных объектов. То есть, чтобы получить хеш от кортежа нужно получить хеш от всего, что в него вложено. Тут то и возникает проблема с тем, что мы не можем получить хеш у списка, так как это изменяемый объект, или, корректнее говоря, у списка отсутствует метод `__hash__`.

Честно говоря я не раздобыл какая действительно функция лежит под капотом, но пример функции ниже выглядит вполне приемлемым:

Для кортежа $T = (x_1, x_2, \ldots, x_n)$:
$$
h_{\text{tuple}}(T) = \left( c_{\text{tuple}} + \sum_{i=1}^{n} h(x_i) \cdot p_i^{n-i} \right) \mod m
$$
где $c_{\text{tuple}}$ — константа для типа "кортеж", $p_i$ — простые числа, $m$ - размер словаря.

In [None]:
a.add((15, 20))
a

In [None]:
a.add(frozenset({15, 20}))
a

А вот если положить список в замороженное множество, то можем спокойно брать хеш.

In [None]:
t = (1, 2, frozenset([3, 4]))
hash(t)

### Оптимизации

Давайте еще посмотрим на то в чем разница между различными способами инициализации множества. Ниже будет представлено то, как работает питон "под капотом":

In [None]:
from dis import dis

dis("{}")

In [None]:
from dis import dis

dis("set({})")

Отсюда видно, что лучше всегда создавать множество без приписки set(), чтобы не тратить время на лишние четыре действия.

## Словари

### Создание

Словарь (`dict`) в Python — встроенная структура данных, которая хранит коллекцию элементов в виде пар ключ-значение (key-value). 

Ключи выступают уникальными идентификаторами для доступа к соответствующим значениям. 

Словари реализованы с использованием хэш-таблиц, что обеспечивает эффективность операций добавления, удаления и поиска элементов.

In [None]:
a = dict(one=1, two=2, three=3)
b = {"one": 1, "two": 2, "three": 3}
c = dict(zip(["one", "two", "three"], [1, 2, 3]))
d = dict([("two", 2), ("one", 1), ("three", 3)])
e = dict({"three": 3, "one": 1, "two": 2})
a == b == c == d == e

Рассмотрим подробнее создание с использованием функции zip:

In [None]:
c = dict(zip(["one", "two", "three"], [1, 2, 3]))
c

zip попарно соединяет два итерируемых объекта (про это будем говорить на другой лекции).

In [None]:
type(zip(["one", "two", "three"], [1, 2, 3]))

In [None]:
list(zip(["one", "two", "three"], [1, 2, 3])) == [("one", 1), ("two", 2), ("three", 3)]

### Хешируемые ключи

Еще раз про хешируемость, но теперь в словарях:

In [None]:
# Хешируемые ключи
d = {
    1: "int",
    "a": "str",
    (1, 2): "tuple",  # Только если элементы кортежа хешируемы
    frozenset([1, 2]): "frozenset",
    None: None,
}

Попытка вставить нехешируемый ключ вызывает ошибку `TypeError`.

In [None]:
d = {
    [1, 2]: "list",
    {1, 2}: "set",
    {"a": 1}: "dict",
}

<div style="
    background-color: #44944A;
    padding: 15px;
    border-radius: 10px;
    border: 1px solid #fbfbfbff;
    text-align: center;
    display: flex;
    justify-content: center;
    align-items: center;
    min-height: 15px;
">
    <span style="color: white; font-weight: bold;">
        Самый простой и надежный способ узнать что объект хешируемый - вызывать hash от него!
    </span>
</div>

Вопрос: что будет внутри словаря?

In [None]:
{1: 1, 1.0: 1.0, True: True}

### Итерация по словарю

Все, что находится слева (до двоеточия) - это ключи (или же keys), все, что после - это значения (или же values)

In [None]:
e.keys(), e.values(), e.items()

Итерация по словарю:

In [None]:
d

In [None]:
for key in d:
    print(f"{key=}, value={d[key]}")

In [None]:
for key in d.keys():
    print(key)

In [None]:
for value in d.values():
    print(value)

In [None]:
for key, value in d.items():
    print(f"{key=}, {value=}")

### Функциональность

Так можно достать значение по ключу в словаре:

In [None]:
e["one"]

При этом если обратиться по ключу, который отсутствует в словаре, то мы получим ошибку `KeyError`.

In [None]:
e["four"]

И получили ошибку, что же делать? Для этого есть более безопасный вариант: `get(key, default)` - ищет значение по ключу `get`, если такого ключа нет, то возвращает `default`.

In [None]:
print(e.get("four"))
print(e.get("four", 5))

Что может быть в качестве значения? На самом деле что угодно!

Что может быть в качестве ключей? Только хешируемые объекты.

In [None]:
a = {"abc": set([1, 2, 3])}
a

Ну хорошо, создавать от руки мы умеем. А как теперь добавлять/удалять и так далее, что мы вообще можем делать со словарем?



In [None]:
e["four"] = 100
e["one"] += 1
print(e)

* `e.pop(elem)` - удалить ключ и вернуть по нему значение

* `e.popitem()` - удали рандомный элемент и верни ключ-значение удаленного

* `e.clear()` - очистить словарь

* `len(e)` - число элементов

* `e.setdefault(key, value)` - поставь значение по ключу, если его нет, то поставь `value`

In [None]:
e.pop("four")
print(e.popitem())
print(len(e))
print(e.setdefault("four", 10000))
print(e)

Словарь можно обновлять через **update**:

In [None]:
e.update({"c": 3, "d": 4})  # Может принимать другой словарь
e.update([("e", 5), ("f", 6)])  # Или список кортежей

print(e)

Поиск внутри словаря - очень важная часть применения этой структуры. Для этого в питоне есть ключевое слово `in`:

In [None]:
"five" not in e

In [None]:
"one" in e

In [None]:
e.clear()
e

Распаковка словарей:

In [None]:
{"a": 0, **{"x": 1}, "y": 2, **{"z": 3, "x": 4}}

Также можно сливать словари воедино:

In [None]:
d1 = {"a": 1, "b": 2}
d2 = {"b": 3, "c": 4}

# Новый словарь (приоритет у последнего)
assert {**d1, **d2} == {"a": 1, "b": 3, "c": 4}

# С дополнительными значениями
assert {**d1, "d": 5, **d2} == {"a": 1, "b": 3, "d": 5, "c": 4}

In [None]:
d1 = {"a": 1, "b": 3}
d2 = {"a": 2, "b": 4, "c": 6}

d1 | d2

In [None]:
d1 |= d2
d1

### Dict Comprehensions

Вообще, в питоне есть очень удобные способы создавать объекты. Посмотрим быстренько на dict comprehensions:

In [None]:
capitals = [
    ("Russia", "Moscow"),
    ("USA", "Washington"),
    ("China", "Beijing"),
]

d = {
    country: capital.upper() for country, capital in capitals
}  # это dict comprehensions
d

Способ менее изящный и нерекомендуемый:

In [None]:
d = {}
for country, capital in capitals:
    d[country] = capital.upper()
d

Можно удобно фильтровать внутри структуры создания словаря:

In [None]:
d = {
    country: capital.upper() for country, capital in capitals if len(capital) < 8
}  # это dict comprehensions
d

Паттерн матчинг со словарями:

In [None]:
food = {"категория": "мороженое", "вкус": "ванильное", "цена": "110р"}

match food:
    case {"категория": "мороженое", **details}:
        print(f"Характеристики мороженого: {details}")

Помните, мы говорили про `memoryview` на первой лекции? Вот у словарей тоже есть `view`:

In [None]:
d = dict(a=1, b=2, c=3)

In [None]:
values = d.values()
values, type(values)

Имеем тип `dict_values` - это и есть view на значения в словаре. Что мы можем с этим делать? Выше мы уже использовали это как способ перебрать содержимое словаря циклом. Давайте посмотрим еще.

In [None]:
len(values), list(values)

Однако, мы не можем индексироваться по значениям в словаре:

In [None]:
values[0]

А что произойдет с этим объектом, если мы изменим сам словарь?

In [None]:
d["d"] = 4
values

Зачем нам вообще этот тип нужен? На самом деле, эти объекты (`dict_values`, `dict_keys` и `dict_items`) поддерживают работу с операциями над множествами.

In [None]:
d1 = dict(a=1, b=2, c=3, d=4)
d2 = dict(b=20, d=40, e=50)

d1.keys() & d2.keys()


In [None]:
s = {"a", "e", "i"}

d1.keys() & s, d1.keys() | s

Выше показан очень удобный встроенный способ обрабатывать словари. Он эффективен, так как реализован на С, а не кастомная реализация какого-то кода на питоне.

### Порядок ключей

In [None]:
DIAL_CODES = [
    (86, "China"),
    (91, "India"),
    (1, "United States"),
    (62, "Indonesia"),
    (55, "Brazil"),
    (92, "Pakistan"),
    (880, "Bangladesh"),
    (234, "Nigeria"),
    (7, "Russia"),
    (81, "Japan"),
]

Сперва сложим в словарь все как есть:

In [None]:
d1 = dict(DIAL_CODES)
print("d1:", d1.keys())

Теперь попробуем посортировать по коду:

In [None]:
d2 = dict(sorted(DIAL_CODES))
print(f"d2: {d2.keys()}")

Теперь попробуем посортировать по названию страны:

In [None]:
d3 = dict(sorted(DIAL_CODES, key=lambda x: x[1]))
print("d3:", d3.keys())

In [None]:
assert d1 == d2 == d3

При этом все эти словари считаются равными, но ключи в них лежат в различном порядке:

In [None]:
print("Без упорядочивания:")
for k, v in d1.items():
    print(f"({k}, {v})", end=" ")

print("\nС сортировкой по кодам:")
for k, v in d2.items():
    print(f"({k}, {v})", end=" ")

print("\nС сортировкой по названиям стран:")
for k, v in d3.items():
    print(f"({k}, {v})", end=" ")

Какой вывод из этого можно сделать? Не стоит завязывать какую-либо логику на порядок ключей в словаре - по дефолту ключи в словаря упорядочены в порядке их добавления в словарь (в современных версиях питона).

# Еще немного про строки

## Стандартные методы

Тут бы хотелось подметить некоторые полезные методы для работы со строками.

In [None]:
text = "  Hello, World!  "

In [None]:
text.strip()

In [None]:
text.lstrip()

In [None]:
text.rstrip()

In [None]:
"heLlo".upper()

In [None]:
"HElLo".lower()

Можем сделать каждую первую букву в слове заглавной:

In [None]:
"hello world".title(), "Hello World".istitle()

Можем сделать первый символ в строке заглавным:

In [None]:
"hello world".capitalize()

In [None]:
"HeLlO".swapcase()

In [None]:
"hello world".replace("world", "Python")

In [None]:
text = "Python programming is fun"

In [None]:
text.startswith("Python"), text.endswith("fun")

In [None]:
text.find("program"), text.rfind("o"), text.index("program"), text.count("o")

In [None]:
"123".isdigit(), "abc".isalpha(), "abc123".isalnum(), "   ".isspace()

In [None]:
csv_data = "apple,banana,orange"
csv_data.split(",")

In [None]:
text = "one\ntwo\nthree"
text.splitlines()

In [None]:
words = ["Python", "is", "awesome"]
print(" ".join(words))  # "Python is awesome"
print("-".join(words))

In [None]:
data = "a:b:c:d"
data.split(":", 2)

In [None]:
translation = str.maketrans("aeiou", "12345")
print("hello".translate(translation))

In [None]:
text = "TestString"
text.removeprefix("Test"), text.removesuffix("ing")

In [None]:
"but victim or perpetrator".ljust(40, "*")

In [None]:
"if your number's up...".rjust(40, "*")

In [None]:
"we'll find *you*".center(40, "*")

## Модуль string

In [None]:
import string

string.ascii_letters, string.ascii_lowercase, string.ascii_uppercase

In [None]:
"a" in string.ascii_lowercase, "1" in string.ascii_lowercase

In [None]:
string.punctuation

In [None]:
print("name\tsurname\n---------------\nHarold\tFinch")