# Множества, ассоциативные массивы

## Множества
Множество хранит набор значений, в отличие от списков:
* один и тот же элемент не может входить в множество несколько раз;
* в множествах нет понятия порядка элементов, т.е. нельзя обратиться к элементу
  по номеру. Можно только перебрать все элементы в каком-то неопределенном порядке.
* для множеств очень быстро работает операция проверки вхождения: `in`, `not in`.

Как следствие, множество не является типом-последовательностью, в частности, с ним не работают индексирования, слайсы и т.п.

Есть два типа множеств: `set` и `frozenset`. Отличие как у списка и кортежа. Т.е. `frozenset` неизменяемо. Оно эффективней.

### Создание множества

In [1]:
s1 = {10, 20, 30}  # перечисляем элементы, в фигурных скобках
s2 = {}  # это не пустое множество, это словарь (см. далее)
s3 = set()  # а это уже пустое множество
s4 = set("abc")  # как и list(), превращает в множество любое перечисление
s5 = {str(i) for i in range(10)}  # как списковый генератор, только в {}
print(s4)
print(s5)

{'c', 'b', 'a'}
{'0', '4', '5', '6', '1', '8', '7', '3', '9', '2'}


### Действия с множествами

In [2]:
print(len(s1))  # длина (неудивительно, мы знаем,
                # что len это длина любого перечисления)
print(20 in s1) # проверка вхождения
print(20 not in s1)

s1 = {10, 20, 30}
s2 = {20, 30, 40}
s3 = {20, 40}

print(s3 <= s1)  # подмножество или нет?
print(s2 >= s3)  # тоже, подмножество или нет? (s3 подмножество)
print(s3 < s2)  # s3 подмножество s2, но с меньшим числом элементов
print(s3 < s3)
print(s1 == s2)  # проверка, что в множествах одинаковые элементы
print(s1 is s2)  # напоминание. is проверяет, что это один и тот же объект
print(s1 | s2)  # объединение
print(s1 & s2)  # пересечение множеств
print(s1 - s2)  # разность множеств
print(s1 ^ s2)  # симметрическая разность. Элементы, которые в одном из множеств,
                # но не в обоих
print(s1.copy())  # есть копирование множества

3
True
False
False
True
True
False
False
False
{20, 40, 10, 30}
{20, 30}
{10}
{40, 10}
{10, 20, 30}


У всех операторов есть варианты в виде метода. Например:

In [3]:
print(s1 | s2)
print(s1.union(s2))  # аналогично предыдущему

{20, 40, 10, 30}
{20, 40, 10, 30}


У версий в виде методов можно в качестве второго множества указывать произвольные перечисления:

In [4]:
s = {'a', 'b', 'z'}
# print(s1 | "abc") # нельзя, только множество со множеством
print(s.union("abc")) # можно перечисление

{'c', 'b', 'z', 'a'}


Другие названия методов вместо операторов, см. [документация]https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset).

### Операции по изменению множества
Это то, что не будет работать с `frozenset`.

In [5]:
s1 = set()  # пустое множество
s1.add(10)  # добавить один элемент
s1.add(20)
s1.add(30)
print(s1)   
s1.remove(20)  # удалить элемент
print(s1)  
# s1.remove(20)  # удалить отсутствующий элемент - возникает ошибка
s1.discard(20)  # удалить элемент, но здесь не возникнет ошибка, если его нет
print(s1.pop())  # взять произвольный элемент множества и удалить его
print(s1)  # s1 теперь без вынутого элемента
s1.clear()  # очистка множества

# есть ряд методов типа:
s1 |= {5, 6, 7}  # эквивалентно s1 = s1 | {5, 6 7}
s1.update({5, 6, 7})  # эквивалентно предыдущему, зато можно передать
                      # перечисление.
print(s1)

{10, 20, 30}
{10, 30}
10
{30}
{5, 6, 7}


Другие функции типа `update`, см. [документация](https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset).

### Содержимое множества
Не любой объект можно поместить в множество. Только "хэшируемый". Это:
* числа
* строки
* обычно, неизменяемые объекты типа кортежа и frozenset.
* изменяемые объекты никогда не могут использоваться в множестве. Т.е. списки, обычные множества - нет.

## Отступление. Деструктуризация при присваивании
Если есть какая-то структура со значениями внутри (список, кортеж, другая последовательность), то можно ее присвоить такой же структуре переменных:

In [6]:
a = [10, 20, 30]
[x, y, z] = a
print(x, y, z)
# [x, y] = a  # ошибка
# [x, y, z, t] = a  # ошибка

10 20 30


Аналогично с кортежами:

In [7]:
c = 10, 20, 30
x, y, z = c
print(x, y, z)

x, y = y, x  # !! запомните этот пример, обмен значений переменных
print(x, y)

10 20 30
20 10


Пример реального использования, он тоже важный, прошу запомнить.

In [8]:
a = [10, 20, 30, "xyz"]
# хотим перечислить значения списка и их индексы:
for i in range(len(a)):
    print(i, a[i]) # индекс и значение
# рекомендуется делать иначе:
# enumerate(a) - последовательность кортежей из индекса и значения:
print(enumerate(a))
print(list(enumerate(a)))

0 10
1 20
2 30
3 xyz
<enumerate object at 0x000002A11FAF8D38>
[(0, 10), (1, 20), (2, 30), (3, 'xyz')]


In [9]:
for indAndValue in enumerate(a):
    print(indAndValue, indAndValue[0], indAndValue[1])

(0, 10) 0 10
(1, 20) 1 20
(2, 30) 2 30
(3, 'xyz') 3 xyz


Лучше всего сделать так:

In [10]:
for i, x in enumerate(a):  # деструктуризация при присваивании в i, x
    print(i, x)

0 10
1 20
2 30
3 xyz


## Словари (ассоциативные массивы)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения:

In [11]:
a = [10, 20, 30, "xyz"]

`a` - это функция, которая числам от 0 до 3 сопоставляет следующие значения:

In [12]:
for i, x in enumerate(a):
    print(f"a[{i}] = {x}")

a[0] = 10
a[1] = 20
a[2] = 30
a[3] = xyz


другие индексы кроме 0, 1, 2, 3 в `a` подставлять нельзя, будет ошибка:

In [13]:
a[4]  # index error, неправильное число
a["cat"]  # type error, можно только числа

IndexError: list index out of range

В ассоциативном массиве (в словаре) индексы могут быть любыми: и произвольными числами, и строками, и любыми объектами, которые можно использовать в множествах (см. выше)

### Создание словаря
Тип данных `dict`. Словарь хранит некоторое количество ключей, и для каждого ключа - связанное с ним значение. Можно считать, что словарь - это набор пар из ключа и значения. В словарях очень быстро работает поиск значения по ключу.

In [14]:
a = {'one': 1, 'two': 2, 'three': 3}
b = {}  # пустой словарь
c = dict(one=1, two=2, three=3)  # функция, в которой у аргументов есть имена
                                 # пока мы это встречали только в ф-ии `open`
d = dict([("one", 1), ("two", 2), ("three", 3)])  # любое перечисление тьюплов
e = dict({'one': 1, 'two': 2, 'three': 3})  # копия словаря
print(a == c == d == e)

f = {word : len(word) for word in ("abc", "xy", "hello")} # как генератор списка
print(f)

True
{'abc': 3, 'xy': 2, 'hello': 5}


Созданные словари (`a`, `c`, `d`, `e`) имеют три записи по ключам (индексам) `"one"`, `"two"`, `"three"`:

In [15]:
print(a["one"])

1


Классический пример использования словарей - это записать для каждого слова из текста, сколько раз оно встречается в тексте.

### Действия со словарями
#### Обращение к записям в словаре

In [16]:
d = {'one': 1, 'two': 2, 'three': 3}
print(d['one'])  # узнаю значение по ключу
# print(d['seven'])  # ошибка KeyError
d['seven'] = 6 # можно присвоить
d['seven'] = 7 # или перезаписать
del d['three']  # удалить значение
print('one' in d)  # проверка, что для ключа есть значение
print('six' not in d)  # что нет значения
# d.clear()   очистить
# e = d.copy() скопировать
d.update({'twenty': 20, 'thirty': 30})  # дополнить словарь новыми значениями
d.update([("fourty", 40), ("sixty", 60)])  # перечисление пар
d.update(seventy=70, eighty=80)  # еще так можно указать новые пары
print(d.get("one"))  # Аналогично d["one"], но никогда не генерирует ошибку
print(d.get("five", 42))  # если записи для ключа нет, вернется 42
print(d.get("eleven"))  # если записи для ключа нет, вернется None

print(d.setdefault("hundred", 100)) # см. ниже
d.setdefault("hundred", 101)

1
True
True
1
42
None
100


100

`setdefault` Если ключ есть в словаре, то возвращается значение, и со словарем ничего не происходит. Иначе для этого ключа вставляется указанное значение и тоже возвращается. Т.е. это `get`, который устанавливает значение ключу, если его не было. Второй аргумент это как раз новое значение для ключа.

#### Перечисление содержимого словаря
Словарь можно воспринимать как перечисление ключей:

In [17]:
print(list(d))
print(len(d))  # количество ключей (записей) в словаре 
print('one' in d)  # можно проверить вхождение ключа в перечисление ключей

print("Переберем все ключи в цикле")
for key in d:
    print("   ", key)

['one', 'two', 'seven', 'twenty', 'thirty', 'fourty', 'sixty', 'seventy', 'eighty', 'hundred']
10
True
Переберем все ключи в цикле
    one
    two
    seven
    twenty
    thirty
    fourty
    sixty
    seventy
    eighty
    hundred


Три метода `d.keys()`, `d.values()`, `d.items()` - это перечисления, соответственно, ключей, значений и пар ключ-значение.

In [18]:
print(list(d.keys()))  # аналогично list(d)
print(list(d.values()))
print(list(d.items()))

['one', 'two', 'seven', 'twenty', 'thirty', 'fourty', 'sixty', 'seventy', 'eighty', 'hundred']
[1, 2, 7, 20, 30, 40, 60, 70, 80, 100]
[('one', 1), ('two', 2), ('seven', 7), ('twenty', 20), ('thirty', 30), ('fourty', 40), ('sixty', 60), ('seventy', 70), ('eighty', 80), ('hundred', 100)]


Идеоматический код перебора элементов словаря:

In [19]:
for key, val in d.items():
    print(f"d[{key}] = {val}")

d[one] = 1
d[two] = 2
d[seven] = 7
d[twenty] = 20
d[thirty] = 30
d[fourty] = 40
d[sixty] = 60
d[seventy] = 70
d[eighty] = 80
d[hundred] = 100
