### Множества и их методы

Множества - это объекты, которые работают в точности как множества в мат.логике. Множество - это набор элементов; как и списки, множества изменяемые и итерируемые. 

Особенность множеств состоит в том, что у них нет индексации, поэтому во множестве могут находиться только хешируемые (неизменяемые) объекты: питону же надо как-то быстро их находить, а если индексов нет, он ищет объекты по хешу. 

С этим же связано то, что в множестве могут быть только *уникальные* объекты. Если мы попытаемся добавить во множество объект, который там уже есть, ничего не произойдет. 

Как задавать множества?

1. Явно в коде:


    S = {1, 2, 3}
    S = {'1', '2', '3'}
    S = {[1], [2], [3]} - вызовет ошибку!

2. Завести пустое множество и добавлять в него элементы. 


    S = set()
    for i in <iterable>:
      S.add(...)

Обратите внимание, что множества, в отличие от списков, нельзя задавать просто {}: так получится не множество! Всегда пишем только set().

3. Явное преобразование:


    A = [1, 2, 3]
    S = set(A)

4. Генератором:


    S = {func(x) for x in <iterable> if x}

**Операторы и методы множеств:**

1. Добавляет элементы: set.add(elem)

2. Удаляет конкретный элемент: set.discard(elem)

*Операторы множеств и соответствующие им методы*

Главное отличие операторов от методов в том, что у оператора и слева, и справа обязательно должно стоять множество, а метод может в скобочках принимать любой итерируемый объект. 

1. Конъюнкция (объединение):


    A | B
    A.union(B)

2. Дизъюнкция (пересечение):


    A & B
    A.intersection(B)

3. Разность:


    A - B
    A.difference(B)

4. Симметрическая разность:


    A ^ B
    A.symmetric_difference(B)

In [1]:
A = {1, 2, 3}
B = {2, 3, 4}
print('Union:', A | B)
print('Intersection:', A & B)
print('Difference A - B:', A - B)
print('Difference B - A:', B - A)
print('Symmetric difference:', A ^ B)

Union: {1, 2, 3, 4}
Intersection: {2, 3}
Difference A - B: {1}
Difference B - A: {4}
Symmetric difference: {1, 4}


**Проверки множеств**

Это про понятие подмножества и надмножества. 

In [2]:
A = {1, 2, 3, 4, 5}
B = {1, 2, 3}
C = {6, 7, 8}
print('А является надмножеством В:', A.issuperset(B))
print('В является подмножеством А:', B.issubset(A))
print('А и С не пересекаются:', A.isdisjoint(C))

А является надмножеством В: True
В является подмножеством А: True
А и С не пересекаются: True


## Словари

Словари - итерируемые изменяемые объекты, которые в питоне еще относятся к типу mapping type. По сути, словарь состоит  из двух частей: ключей и значений. С одной стороны, словарь похож на список: с той только разницей, что у списка индексы, а у словаря вместо индексов ключи. С другой стороны, словарь похож на множество: его ключи устроены именно таким образом. 

Итак, словарь - это нечто вроде списка пар ключ-значение. Ключами словаря могут быть только неизменяемые объекты, как во множестве. В версиях питона старше 3.7 порядок ключей в словаре не определен, в более поздних - зависит от времени добавления ключа в словарь. Значениями словаря могут быть абсолютно любые объекты. 

Соответственно, повторяющихся ключей в словаре быть не может, а повторящиеся значения - вполне. 

Как выглядит словарь:

In [None]:
dct = {1: 4, 2: 8, 3: 'qwerty'}

Пары ключ: значение обязательно идут через двоеточие. 

Как можно задавать словарь:

1. Прямо в коде
2. Завести пустой словарь и записывать значения в ключи
3. Использовать метод класса dict.fromkeys()
4. Использовать представление словаря и генератор
5. Превратить в словарь другой объект (но не всякий...)

In [None]:
# 1
d = {1: 1, 2: 4}
# 2
d = dict() # d = {}
d[1] = 1
d[2] = 4
# 3
keys = [1, 2]
d = dict.fromkeys(keys, 0) # 0 - значение по дефолту. Если не передать этот аргумент, то по умолчанию будет значение None
# 4
d = {x: x ** 2 for x in range(1, 3)}
# 5
lstoftuples = [(1, 1), (2, 4)]
d = dict(lstoftuples)

Какие здесь есть особенности?

Обратите внимание, что метод dict.fromkeys на самом деле создает один объект (который мы указали по дефолту) и для всех ключей делает примерно это: key1 = default, key2 = default...

Соответственно, если у нас в дефолте изменяемый объект (список, множество, другой словарь), то **все** ключи будут в итоге ссылаться на один объект. Поэтому таким образом список с пустыми словарями вместо значений создать не удастся.

Какие объекты можно превращать в словари?

1. Список кортежей, в каждом кортеже 2 элемента
2. Результат работы функции enumerate
3. Результат работы функции zip

Enumerate:

    enumerate(iterable, 1) 
    
Первый аргумент функции - любой итерируемый объект, второй (необязательный) - число, с которого начинать нумерацию. Возвращает пары вида (0, elem1), (1, elem2).... Удобно использовать для итерации в цикле for:

    for num, elem in enumerate(lst):
        ....
        
Zip:

    zip(iterable1, iterable2...)
    
Работает, как застежка-молния на одежде: сопоставляет по группам элементы нескольких итерируемых объектов (первый с первым, второй со вторым...). На выходе получается список кортежей (только он оформлен как zip object, но его можно и в список превратить), причем в кортеже столько элементов, сколько было итерируемых аргументов. Для словаря нужно иметь два, очевидно. 

Если у итерируемых объектов, которые объединяет zip, разные длины, на выходе получается список наименьшей длины, хвосты отрезаются. Заполнять хвосты дефолтными значениями умеет функция zip_longest:

    from itertools import zip_longest
    
    zip_longest(*iterables, fillvalue=...)
    
Не забывайте, что если в кортежах есть первые повторяющиеся элементы, н-р, (1, 2), (1, 4), то в словаре окажется все равно только один ключ 1, и его значение будет таким, которое позднее всех попалось (4). 

Поскольку словарь - сложная двусоставная структура, можно обращаться к его частям отдельно. При этом части сами по себе не существуют, но мы можем их посмотреть друг без друга. Это называется view objects: изменять их мы не можем, но можем по ним итерироваться или создавать какие-то новые объекты на их базе. Всего их три:

1. dict.keys()
2. dict.values()
3. dict.items()

Соответственно, итерироваться мы можем по любому из трех. Обратите внимание, что цикл for умеет итерироваться по нескольким переменным сразу, тогда они указываются через запятую:

    for k, v in dct.items()
    
При этом, если мы пишем просто dct, то по умолчанию питон считает, что имелось в виду dct.keys(), поэтому list(dct) вернет список из ключей, а for будет итерироваться по key. 

Когда мы обращаемся к несуществующему ключу словаря, питон вываливает ошибку KeyError. Если ключа еще нет в словаре, все, что мы можем сделать - это присвоить в него какое-то значение:

    dct[key] = value
    
Любые другие операции вызовут ошибку. Чтобы ее избежать, можно проверять ключ на наличие: key in dct. (== key in dct.keys()).

Существуют еще некоторые методы, которые позволяют это обходить.

Какие функции можно использовать со словарями?

    len()
    list()
    set()
    reversed()
    sorted()
    ...

Методы словарей

clear() - очистит словарь
copy() - создаст явную копию
pop(key) - удалит ключ и значение key и вернет этот ключ
popitem() - удалит и вернет последний добавленный элемент (в версиях старше 3.7 - рандомный)
update() - добавит один словарь в другой, если в первом словаре были ключи, которые есть во втором, значения ключей второго перезапишут первые. 
setdefault(k, v) - если ключ уже есть, просто вернет его значение, а если нет, то заведет такой ключ и запишет значение v.
get(key) - вернет значение ключа, а если ключа нет, вернет None.

Ключи со значениями также можно удалять с помощью del:

    del dct[key]

В библиотеке collections (идет вместе с питоном) также есть два класса, созданных на основе класса словаря: defaultdict и Counter.

defaultdict(type) - принимает в качестве аргумента имя класса (list, str, int, float...). Работает точно так же, как обычный словарь, за единственным исключением: если мы обращаемся по несуществующему ключу, не выдает KeyError, а считает, что в значении должен быть пустой объект указанного класса. 

In [1]:
from collections import defaultdict

d = defaultdict(list)
print(d)
print(d[1], d[2])
print(d)

defaultdict(<class 'list'>, {})
[] []
defaultdict(<class 'list'>, {1: [], 2: []})


При этом, если указать изменяемый объект в качестве дефолтного, то для ключей будут создаваться индивидуальные объекты: два пустых списка в коде выше - это разные списки. 

Counter заточен под то, чтобы считать элементы в других объектах. В него можно напрямую аргументом передать итерируемый объект, элементы которого хотим посчитать:

In [2]:
from collections import Counter

lst1 = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1]
lst2 = [1, 2, 3, 4, 1, 2, 3, 1, 1, 1]
c1 = Counter(lst1)
print(c1)
c2 = Counter(lst2)
print(c2)
total = c2 + c1
print(total)
print(total - c2)

Counter({1: 4, 2: 3, 3: 2, 4: 1})
Counter({1: 5, 2: 2, 3: 2, 4: 1})
Counter({1: 9, 2: 5, 3: 4, 4: 2})
Counter({1: 4, 2: 3, 3: 2, 4: 1})


У Counter еще есть метод most_common(), который возвращает n самых частотных объектов, по умолчанию - 100. 