## Словари и множества

### Множества

Set - множество, набор уникальных данных. 

In [None]:
my_set = {1, 2, 3, 4}
print("Множество:", my_set)

# Добавление элемента
my_set.add(5)
print("Добавление элемента 5 в множество:", my_set)

# Можно добавлять разные типы данных
my_set.add("a")
print("Добавление элемента 'a' в множество:", my_set)

# Сохраняются только уникальные значения
for i in range(5):
    my_set.add("a")
    
print(my_set)

# Удаление элемента
my_set.remove(2)
print("Удаление элемента из множества:", my_set)

Основные действия с set. Как мы знаем, у множеств в математике есть, например, пересечения и в целом поддержка логики. В Python это так же реализовано.

In [None]:
set1 = {1, 2, 3}
set2 = {3, 4, 5}

# Объединение множеств
union_set = set1.union(set2)
print("Объединение множеств:", union_set)

# Пересечение множеств
intersection_set = set1.intersection(set2)
print("Пересечение множеств:", intersection_set)

# Какими элементами множество 1 отличается от 2
difference_set = set1.difference(set2)
print("Разница множеств:", difference_set)

# Какими элементами множество 2 отличается от 1
difference_set = set2.difference(set1)
print("Разница множеств:", difference_set)

Однако такая запись будет слегка громоздка. Множества поддерживают бинарные операции.

In [None]:
set1 = {1, 2, 3}
set2 = {3, 4, 5}

# Объединение множеств
union_set = set1 | set2
print("Объединение:", union_set)

# Пересечение множеств
intersection_set = set1 & set2
print("Пересечение:", intersection_set)

# Разница множеств (не и)
difference_set = set1 ^ set2
print("Разница:", difference_set)

# Отличие одного сета от другого
difference_set1_from_set2 = set1 - set2
print("Отличие первого множества от втрого:", difference_set1_from_set2)

Также множества можно проверять и на подмножества.

In [None]:
set1 = {1, 2, 3}
set2 = {3, 4, 5}

print(3 in set1)  # True
print(2 in set2)  # False

# Проверка на подмножества
print(set1.issubset(set2))  # False
print(set1.issuperset({1, 2}))  # True

Кортежи (tuple) также можно положить в множества, однако список положить не получится.

In [None]:
my_list = [1, 2, 3]
my_set = {1, 2, 3}

# Попытаемся положить в set список
try:
    my_set.add(my_list)
    print(my_set)
except TypeError as e:
    print(e)

# Приведём список к кортежу
my_tuple = tuple(my_list)

# Добавляем кортеж
my_set.add(my_tuple)
print(my_set)

Обратите внимание, что set не поддерживает оператор доступа к элементу [].

In [None]:
my_set = {1, 2, 3}
# Попробуем обратиться к первому элементу множества
try:
    print(my_set[0])
except TypeError as e:
    print(e)  # "set" object is not subscriptable

## Как это работает?

### Хэширование

Хэширование — это процесс преобразования данных в фиксированное числовое значение, называемое хэшом. Хэш-функции берут входные данные (например, строки, числа или другие объекты) и создают уникальное числовое представление, которое можно использовать для быстрого поиска и сравнения элементов.

В Python структуры данных dict и set используют хэширование для организации своих данных, что позволяет им обеспечивать быстрый доступ (в среднем O(1)) к элементам. Например, когда вы добавляете или ищете элемент в set или dict, Python сначала вычисляет хэш элемента (или ключа), а затем использует это значение для определения позиции в памяти.

Для вычисления хэшей в Python используется встроенная функция hash(), которая возвращает уникальное целое число для объектов, которые могут быть захэшированы (например, числа, строки, кортежи).

Размер множества (set и dict) сильно больше, чем просто сумма размеров его элементов, потому что для эффективного хранения и доступа требуется дополнительная память для управления хэш-таблицей, а также для борьбы с коллизиями и обеспечения свободного места, чтобы избежать переполнения.

### Коллизии

Коллизия — это ситуация, когда два разных объекта имеют одинаковое хэш-значение. Коллизии неизбежны, поскольку хэш-функции преобразуют потенциально бесконечное множество входных данных в ограниченное количество значений. Другими словами, хэш-функция ограничена по количеству возможных значений, а количество возможных входных данных — нет. Например, если хэш-функция может выдавать значения в диапазоне от 0 до 100 и выдаёт их на произвольную строку, то при большом количестве входных данных вероятно, что несколько из них будут иметь одинаковый хэш.

В Python при возникновении коллизий используются различные методы их разрешения, например, открытая адресация или связные списки.

### Пример коллизии

Теперь давайте рассмотрим пример с коллизиями на основе простой хэш-функции. Мы будем давать каждой букве английского алфавита числовой код, например, буква 'a' — 1, 'b' — 2 и так далее, до 'z' — 26. Для строки будем просто складывать коды букв. Это хэш-функция очень простая, и у неё будут коллизии.

Например, рассмотрим строку 'az' и строку 'abf'. Они обе дадут одинаковый хэш, хотя содержат разные буквы.

In [None]:
# Пример простой хэш-функции для строк на основе конкатенации индексов букв

def simple_hash(s):
    # Присваиваем буквам числа от 1 до 26
    letter_to_num = {chr(i + 96): str(i) for i in range(1, 27)}  # 'a' -> '1', 'b' -> '2', ..., 'z' -> '26'
    return ''.join(letter_to_num[char] for char in s)

# Примеры строк
word1 = input() # 'az'
word2 = input() # 'abf'

# Хэшируем строки
hash1 = simple_hash(word1)
hash2 = simple_hash(word2)

# Выводим результаты
print(f"Хэш для '{word1}': {hash1}")
print(f"Хэш для '{word2}': {hash2}")

# Проверяем коллизию
if hash1 == hash2:
    print(f"Коллизия! '{word1}' и '{word2}' имеют одинаковый хэш.")
else:
    print(f"Нет коллизии между '{word1}' и '{word2}'.")

### Мультимножества

Мультисет - такое же множество как и set, однако оно хранит в себе и дубликаты.

Для его использования мультисет необходимо сперва добавить в нашу программу с помощью import.

In [None]:
from collections import Counter

Словом Counter в Python обозначается мультисет.

In [None]:
# Создание мультисета
multiset = Counter("hello")
print("Мультисет:", multiset)

# Добавление элементов
multiset.update("l")
print("После добавления 'l':", multiset)

# Подсчёт количества вхождений элемента
print("Количество 'l':", multiset["l"])

# Удаление одного вхождения элемента
multiset.subtract("l")
print("После удаления одного вхождения 'l':", multiset)

# Удаление нескольких вхождений элементов
multiset["l"] -= 2
print("После удаления двух 'l':", multiset)

# Удаление всех вхождений элемента. При такой реализации мультисет совсем забывает про l
del multiset["l"]
print("После удаления всех вхождений 'l':", multiset)

# Удаление и добавление нескольких вхождений элемента
multiset.update("hello")  # Добавим 'hello' ещё раз
print("После добавления 'hello':", multiset)
multiset.subtract("ello")
print("После удаления 2-х 'l', 1 'e' и 1 'o':", multiset)

In [None]:
# Объединение двух мультисетов (суммируем количество одинаковых элементов)
multiset2 = Counter("world")
union_multiset = multiset + multiset2
print("Объединение двух мультисетов:", union_multiset)

# Пересечение двух мультисетов (берём минимальное количество каждого элемента)
intersection_multiset = multiset & multiset2
print("Пересечение двух мультисетов:", intersection_multiset)

# Разница между двумя мультисетами
difference_multiset = multiset - multiset2
print("Разница мультисетов:", difference_multiset)

# Мультисеты не поддерживают XOR
try:
    no_intersection_multiset = multiset ^ multiset2
    print(no_intersection_multiset)
except TypeError as e:
    print(e)

Мультисеты (реализованные через Counter) позволяют работать с неуникальными элементами и предоставляют гибкие инструменты для добавления, удаления и подсчёта вхождений элементов. Мы можем выполнять с мультисетами аналогичные операции, как с множествами, но с учётом количества каждого элемента.

### Пример использования

Давайте проверим, являются ли два слова анаграммами. Два слова являются анаграммами, если одно можно получить из другого путём перестановки букв.

Например, 'aba' и 'aab' - анаграммы, а 'aba' 'bba' нет. Аналогично 'baa' и 'baaa' не анаграммы.

In [None]:
def are_anagrams(word1, word2):
    # Прежде всего сверяем длины слов. У анаграмм они одинаковые
    if len(word1) != len(word2):
        return False
    
    # Приводим к нижнему регистру для корректного сравнения
    word1 = word1.lower()
    word2 = word2.lower()
    
    # Используем Counter для подсчёта частоты символов
    return Counter(word1) == Counter(word2)

# Пример использования
word1 = input() # "listen"
word2 = input() # "silent"

if are_anagrams(word1, word2):
    print(f"'{word1}' и '{word2}' являются анаграммами.")
else:
    print(f"'{word1}' и '{word2}' не являются анаграммами.")

Давайте вернёмся к set. Как мы видим, set - несортированная коллекция. Но как же её отсортировать?

In [None]:
my_set = {1, 3, 4, 2, 5, 7, 6}
my_sorted_set = sorted(my_set)
print("Отсортированное множество:", my_sorted_set)

### Замороженное множество

В Python существует кортеж для замороженных списков. Аналогично и для множеств существует неизменяемый аналог.

In [None]:
my_frozenset = frozenset(my_set)
print(my_frozenset)

Попробуем в него что-нибудь добавить.

In [None]:
try:
    my_frozenset.add(10)
except AttributeError as e:
    print(e)  # 'frozenset' object has no attribute 'add'

Frozenset можно использовать в операциях и с обычными множествами.

In [None]:
set1 = {1, 2, 3}
frozen_set2 = frozenset([3, 4, 5])

# Объединение
union_result = set1 | frozen_set2 # Возвращается тип set
print("Объединение:", union_result)  # {1, 2, 3, 4, 5}

# Пересечение
intersection_result = set1 & frozen_set2 # Возвращается тип set
print("Пересечение:", intersection_result)  # {3}

### Словари

Структура словарей очень похожа на Counter, где в значении у нас лежало количество. Однако в случае словарей значением может быть любая структура, в том числе и словарь.

В данном случае рассмотрим пример, когда и ключ, и значение - строки.

In [None]:
# Инициализация пустого словаря
my_dict = {}
print("Пустой словарь:", my_dict)

# Инициализация словаря с элементами
my_dict = {"key1": "value1", "key2": "value2"}
print("Словарь с элементами:", my_dict)

# Добавление элемента
my_dict["key3"] = "value3"
print("Добавление элемента:", my_dict)

# Удаление элемента по ключу
my_dict.pop("key2")
print("Удаление элемента по ключу:", my_dict)

# Очистка словаря
my_dict.clear()
print("Очистка словаря:", my_dict)

In [None]:
# Инициализация с определённым количеством элементов
predefined_dict = {f"key{i}": f"value{i}" for i in range(5)}
print("Словарь с заданными элементами:", predefined_dict)

Ключи в словаре могут быть разными и не зависеть друг от друга:

In [None]:
# Пример с разными типами ключей
mixed_keys_dict = {1: "integer key", "str": "string key", (1, 2): "tuple key"}
print("Словарь с разными типами ключей:", mixed_keys_dict)

In [None]:
dict1 = {"a": 1, "b": 2}
dict2 = {"a": 1, "b": 2}
print("Словари равны:", dict1 == dict2)

# Сравнение неравных словарей
dict3 = {"a": 1, "c": 3}
print("Словари не равны:", dict1 == dict3)

Сортировка и приведение словаря к списку элементов ключ-значение.

In [None]:
# Приведение словаря к списку ключей и значений
my_dict = {"a": 3, "b": 1, "c": 2}
sorted_keys = sorted(my_dict.keys())
sorted_values = sorted(my_dict.values())
print("Отсортированные ключи:", sorted_keys)
print("Отсортированные значения:", sorted_values)

# Преобразование словаря в список пар (ключ, значение)
dict_items = list(my_dict.items())
print("Список пар ключ-значение:", dict_items)

Пример значения как структуры:

In [None]:
my_dict = {
    "name": "Alice",            # значение - строка
    "age": 30,                  # значение - число
    "hobbies": ["reading", "swimming"],  # значение - список
    "is_student": False         # значение - булевое значение
}

# Доступ к значениям
print("Name:", my_dict["name"])        # Выводит строку
print("Hobbies:", my_dict["hobbies"])  # Выводит список

Давайте добавим ещё одно хобби

In [None]:
if isinstance(my_dict["hobbies"], list):
    my_dict["hobbies"].append("walking")

print("Updated hobbies:", my_dict["hobbies"])

Давайте попробуем поделать разные запросы к словарям.

In [None]:
# Словарь для Alice
alice = {
    "name": "Alice",
    "age": 30,
    "hobbies": ["reading", "swimming", "traveling"],
    "is_student": False
}

# Словарь для Bob
bob = {
    "name": "Bob",
    "age": 25,
    "hobbies": ["gaming", "cycling"],
    "is_student": True
}

# Сравнение количества хобби
if len(alice["hobbies"]) > len(bob["hobbies"]):
    print(f"У Алисы больше хобби: {len(alice['hobbies'])} против {len(bob['hobbies'])}")
elif len(alice["hobbies"]) < len(bob["hobbies"]):
    print(f"У Боба больше хобби: {len(bob['hobbies'])} против {len(alice['hobbies'])}")
else:
    print(f"У Алиса и Боба одинаковое количество хобби: {len(alice['hobbies'])}")

# Сравнение возраста
if alice["age"] > bob["age"]:
    print(f"Aлиса старше Боба: {alice['age']} против {bob['age']}")
elif alice["age"] < bob["age"]:
    print(f"Боб старше Алисы: {bob['age']} против {alice['age']}")
else:
    print(f"Алиса и Боб одного возраста: {alice['age']}")

# Сравнение длины имени
if len(alice["name"]) > len(bob["name"]):
    print(f"Имя Алисы длиннее: {len(alice['name'])} букв против {len(bob['name'])}")
elif len(alice["name"]) < len(bob["name"]):
    print(f"Имя Боба длиннее: {len(bob['name'])} букв против {len(alice['name'])}")
else:
    print(f"Имена Боба и Алисы имеют одинаковую длину: {len(alice['name'])} букв")

# Проверка, кто является студентом
if alice["is_student"] and not bob["is_student"]:
    print("Алиса - студент, а Боб - нет")
elif not alice["is_student"] and bob["is_student"]:
    print("Боб - студент, а Алиса - нет")
elif alice["is_student"] and bob["is_student"]:
    print("Боб и Алиса оба являются студентами")
else:
    print("Ни Боб, ни Алиса не студенты")

Давайте попробуем переписать ту задачу про анаграммы, но уже на словарях:

In [None]:
def are_anagrams(word1, word2):
    # Приводим оба слова к нижнему регистру для корректного сравнения
    word1 = word1.lower()
    word2 = word2.lower()
    
    # Если длина слов разная, то они не могут быть анаграммами
    if len(word1) != len(word2):
        return False
    
    # Функция для подсчета частоты символов в слове с использованием словаря
    def char_count(word):
        count = {}
        for char in word:
            if char in count:
                count[char] += 1
            else:
                count[char] = 1
        return count
    
    # Подсчитываем символы для обоих слов
    count1 = char_count(word1)
    count2 = char_count(word2)
    
    # Сравниваем два словаря
    return count1 == count2

# Пример использования
word1 = input() # "listen"
word2 = input() # "silent"

if are_anagrams(word1, word2):
    print(f"'{word1}' и '{word2}' являются анаграммами.")
else:
    print(f"'{word1}' и '{word2}' не являются анаграммами.")

Напишем программу, которая будет искать наиболее часто встречающуюся букву в строке:

In [None]:
def most_frequent_letter(s):
    # Приводим строку к нижнему регистру, чтобы буквы не отличались по регистру
    s = s.lower()
    
    # Создаём словарь для хранения частоты вхождений каждой буквы
    letter_count = {}

    # Проходим по каждому символу в строке
    for letter in s:
        # Если символ — буква, обновляем счётчик в словаре
        if letter.isalpha():
            if letter in letter_count:
                letter_count[letter] += 1
            else:
                letter_count[letter] = 1

    # Находим букву с максимальной частотой
    max_letter = None
    max_count = 0
    for letter, count in letter_count.items():
        if count > max_count:
            max_letter = letter
            max_count = count

    return max_letter, max_count


# Тестируем на строке
input_string = "Hello, how are you doing today?"
most_frequent, count = most_frequent_letter(input_string)

print(f"Наиболее часто встречаемая буква '{most_frequent}' с {count} вхождениями.")

In [None]:
print("До скорых встреч!")