# Множества

### Хэш

Представьте, что вы продавец в маленьком магазинчике. Когда клиент покупает товары, вы проверяете их 
цену по книге. Если записи в книге не упорядочены 
по алфавиту, то поиск слова «апельсины» в каждой 
строке займет слишком много времени. 

Ваша помощница Мэгги может сообщить цену любого товара, независимо от размера книг. Она помнит все наизусть )))

Просто чудо, а не девушка! И где взять такую Мэгги? 


![image.png](attachment:image.png)

Мэгги можно реализовать программно ...

***Хеш-функция*** представляет собой функцию, которая получает строку и возвращает число:

![image.png](attachment:image.png)

***Хэш*** - это числовое значение, которое вычисляется для данных с помощью хэш-функции.

В нашем примере это результат выполнения хеш-функции

Однако хеш-функция должна соответствовать некоторым требованиям:
* Она должна быть последовательной. Допустим, вы передали ей строку «апельсины» и получили 4. Это значит, что каждый раз в будущем, передавая ей строку «апельсины», вы будете получать 4. Без этого хеш-таблица бесполезна.
* Разным словам должны соответствовать разные числа. Например, хеш-функция, которая возвращает 1 для каждого полученного слова, никуда не годится. В идеале каждое входное слово должно отображаться на свое 
число.

Зачем все это нужно? Вспомните, мы реализовываем Мэгги )))

Все цены будут храниться в этом массиве. Передадим хеш-функции строку «апельсины»

![image.png](attachment:image.png)

Продолжайте действовать так, и со временем весь массив будет заполнен 
ценами на товары. 

![image.png](attachment:46e18632-e9bf-4026-99c0-515dbd16335e.png)

А теперь вы спрашиваете: `сколько стоит авокадо?` Искать в массиве ничего 
не нужно, просто передайте строку «авокадо» хеш-функции. 

![image.png](attachment:4c32e23c-7b08-4c65-a8c5-aa9d78c9ad0e.png)

Результат показывает, что значение хранится в элементе с индексом 4. 

И оно, конечно, там и находится! 

![image.png](attachment:5cc3b05d-1647-4e3f-8289-f81e261dd418.png)

Поздравляю: вы создали Магги! Свяжите воедино хеш-функцию и массив, и вы получите структуру данных, которая называется `хеш-таблицей`. 


Хеш-таблицы станут самой полезной из сложных структур данных, с которыми вы познакомитесь. Они также известны под другими 
названиями: «ассоциативные массивы», «словари», «отображения», «хеш карты» или просто «хеши».
***Хеш-таблицы исключительно быстро работают!***

Обращение к элементу массива происходит мгновенно. 

Рассмотрим пример реализации хеша в Питоне:

### Встроенный метод hash:
В Python существует встроенная функция hash, которая возвращает хэш-значение для объекта. Хэшируемыми типами данных в Python являются неизменяемые объекты, такие как строки, числа и кортежи.


In [8]:
hash_value = hash("hello")
print(hash_value)  # Выводит целочисленное значение хэша

-4070720932136665189


In [9]:
hash_value = hash("hello1")
print(hash_value) 

-7396988784061103298


**Запомните!!!**

Изменяемые типы данных в Python, такие как списки, множества и словари, не являются хэшируемыми, потому что их содержимое может изменяться после создания. Хэшируемость объекта требует, чтобы его хэш-значение оставалось постоянным на протяжении всего времени жизни объекта. Если бы изменяемые объекты были хэшируемыми, это могло бы привести к проблемам, например, при использовании их в качестве ключей в словарях или элементах множеств, так как изменение объекта после его добавления в коллекцию нарушило бы целостность структуры данных.

### Задание для закрепления

Используя пример, объясните, 
как вы поняли смысл хэш:

In [10]:
print(hash(1))
print(hash(1.0))
print(hash('1'))
print(hash('строка'))
print(hash((1,2,3)))

1
1
-7734804947338998584
-5195782899830486749
529344067295497451


## Множество
Множество - это абстрактная структура данных, которая представляет собой неупорядоченную коллекцию уникальных элементов.

In [None]:
a=[1,1,2,3,4,4,4,5]
set(a)

Существует ограничение, что элементами множества (как и ключами словарей) в Python могут быть только так называемые хешируемые (Hashable) объекты. Это обусловлено тем фактом, что внутренняя реализация set основана на хеш-таблицах. Например, списки и словари – это изменяемые объекты, которые не могут быть элементами множеств.

### Операции из теории множеств - пересечение, объединение и т.д.:
Множества в Python поддерживают операции из теории множеств, такие как пересечение (intersection), объединение (union), разность (difference), симметрическая разность (symmetric_difference) и проверку на подмножество (issubset) и надмножество (issuperset).


![image.png](attachment:50ecf721-fbeb-49be-a6b3-de84c9f57ba4.png)

In [11]:
data_scientist_skills = set(['Python', 'R', 'SQL', 'Tableau', 'SAS', 'Git'])
data_engineer_skills = set(['Python', 'Java', 'Scala', 'Git', 'SQL', 'Hadoop'])

In [12]:
# логическое ИЛИ – что нужно знать data-scientst, который по совместительству data-engineer
print(data_scientist_skills.union(data_engineer_skills))
print(data_scientist_skills | data_engineer_skills)

{'R', 'Scala', 'Git', 'Hadoop', 'SQL', 'Python', 'Tableau', 'SAS', 'Java'}
{'R', 'Scala', 'Git', 'Hadoop', 'SQL', 'Python', 'Tableau', 'SAS', 'Java'}


In [13]:
# логическое И – что нужно знать и data-scientist и data-engineer
print(data_scientist_skills.intersection(data_engineer_skills))
print(data_scientist_skills & data_engineer_skills)

{'SQL', 'Python', 'Git'}
{'SQL', 'Python', 'Git'}


In [14]:
# разность множеств – что знает data-scientist, но не знает data-engineer (и наоборот)
# print(data_scientist_skills.difference(data_engineer_skills))
# print(data_scientist_skills - data_engineer_skills)
print(data_engineer_skills.difference(data_scientist_skills))
print(data_engineer_skills - data_scientist_skills)

{'Hadoop', 'Scala', 'Java'}
{'Hadoop', 'Scala', 'Java'}


In [15]:
# симметричная разность множеств – что такого знают data-scientist и data-engineer, чего не знают они оба
# print(data_scientist_skills.symmetric_difference(data_engineer_skills))
# print(data_scientist_skills ^ data_engineer_skills)
print(data_engineer_skills.symmetric_difference(data_scientist_skills))
print(data_engineer_skills ^ data_scientist_skills)

{'R', 'Scala', 'Hadoop', 'Tableau', 'SAS', 'Java'}
{'R', 'Scala', 'Hadoop', 'Tableau', 'SAS', 'Java'}


 Из списка можно убрать все повторения просто обратив его в set!

In [16]:
lst = ['a','b','a','c','d','a']
set(lst)

{'a', 'b', 'c', 'd'}

### Задание для закрепления

1. Пусть X={1,3,4}, Y={1,6,4,2,3,9}. 
Является ли множество X подмножеством множества Y?
* Является
* Не является 

2. Пусть X={множество чисел кратных 2 },Y={множество чисел кратных 4 }
 Является ли множество X надмножеством множества Y?
* Является
* Не является

3. Какой будет результат выполнения фрагмента кода?


In [17]:
users = {"Tom", "Bob", "Alice"}
users2 = {"Sam", "Kate", "Bob"}
 
users3 = users.intersection(users2)
print(users3)

{'Bob'}


## Работа с множествами

In [18]:
my_set = {1, 2, 3}
empty_set = set()
print(len(my_set))  # Выводит размер множества
print(2 in my_set)  # Выводит True, так как элемент 2 содержится во множестве


3
True


### Добавление/удаление элемента во множество.
Операции из теории множеств в Python:
Множество в Python поддерживает операции добавления элемента (add), удаления элемента (remove, discard) и очистки множества (clear).


In [19]:
my_set = {1, 2, 3}
my_set.add(4)
print(my_set)

{1, 2, 3, 4}


In [20]:
my_set.remove(2)
print(my_set)

{1, 3, 4}


In [21]:
# безопасный метод
my_set.discard(5)
print(my_set)

{1, 3, 4}


In [22]:
my_set.remove(10)
print(my_set)

KeyError: 10

In [23]:

my_set.clear()
print(my_set)  # Выводит пустое множество


set()


### Сравнение множеств:
Множества в Python можно сравнивать на равенство (==), неравенство (!=), подмножество (<=, <) и надмножество (>=, >).


In [24]:
set1 = {1, 2, 3}
set2 = {2, 3, 4}
print(set1 == set2)  # Выводит False
print(set1 < set2)  # Выводит False, set1 не является подмножеством set2


False
False


In [25]:
set1 = {3, 2}
set2 = {2, 3, 4}
print(set1 < set2)

True


### Итерирование по множеству с помощью цикла for:
Множество можно перебрать с помощью цикла for, чтобы выполнить определенные действия для каждого элемента множества.


In [26]:
my_set = {1, 2, 3}
for item in my_set:
    print(item)  # Выводит каждый элемент множества


1
2
3


## Практика

1. Дан массив. 
Дать ответ на вопрос есть ли в нём два элемента с суммой ноль. 
* Решить с двумя вложенными циклами
* Решить с помощью множеств



In [27]:
lst = [1,6,3,2,0,7]

f=False
for i in range(len(lst)-1):
    for j in range(i+1,len(lst)):
        if lst[i] + lst[j] == 0:
            print('Да')
            f=True
            break
if not f:
    print('Нет')

Нет


In [28]:
def has_zero_sum_pair_set(arr):
    num_set = set()
    for num in arr:
        if -num in num_set:
            return True
        num_set.add(num)
    return False

# Пример использования:
my_array = [2, -3, 1, 5, -2]
result = has_zero_sum_pair_set(my_array)
print("Есть ли пара элементов с суммой ноль:", result)


Есть ли пара элементов с суммой ноль: True


2. Напишите программу, которая принимает два списка и возвращает список, содержащий только уникальные элементы из обоих списков. 
Создайте функцию unique_elements, которая принимает два списка в качестве аргументов и возвращает список уникальных элементов. Используйте множества для фильтрации дубликатов. Выведите результат на экран.
Примеры списков:

[1, 2, 3, 4, 5]

[4, 5, 6, 7, 8]

Пример вывода:

Уникальные элементы: 
[1, 2, 3, 4, 5, 6, 7, 8]



In [29]:
def unique_elements(list1, list2):
    # Создаем множества из списков
    set1 = set(list1)
    set2 = set(list2)
    
    # Объединяем множества и преобразуем результат обратно в список
    unique_list = list(set1 | set2)
    
    return unique_list

# Пример использования:
list1 = [1, 2, 3, 4, 5]
list2 = [4, 5, 6, 7, 8]
result = unique_elements(list1, list2)

print("Уникальные элементы:", result)


Уникальные элементы: [1, 2, 3, 4, 5, 6, 7, 8]


In [39]:
def unique_elements(list1, list2): 
    list1.extend(list2)
    return list(set(list1))

In [40]:
list1 = [1, 2, 3, 4, 5]
list2 = [4, 5, 6, 7, 8]
result = unique_elements(list1, list2)

print("Уникальные элементы:", result)

Уникальные элементы: [1, 2, 3, 4, 5, 6, 7, 8]


In [36]:
list1 = [1, 2, 3, 4, 5]
list2 = [4, 5, 6, 7, 8]
res = list1.extend(list2)
print(list1)

[1, 2, 3, 4, 5, 4, 5, 6, 7, 8]


### Полезные материалы
1. Множества (set и frozenset) ​​https://pythonworld.ru/tipy-dannyx-v-python/mnozhestva-set-i-frozenset.html 
2. Хэш-таблицы за 10 минут https://youtu.be/0UX4MIfOMEs

### Вопросы для закрепления
1. Что такое множество и как оно реализовано внутри
2. Какие операции из теории множеств вы помните?
3. Для каких операций список эффективнее множества как коллекция элементов?
