## Множества

Множество, как и список - изменяемый итерируемый объект. Основные отличительные черты множества:

- может содержать только неизменяемые (хешируемые) объекты. 
- объекты не индексируются и содержатся в **произвольном** порядке. 
- объекты могут быть только уникальными. 

Что такое хеш?

Хеш-функция - это такая математическая функция, которая приписывает объекту произвольного размера номер определенного размера (лон же хэш). Поскольку номеров ограниченное количество, а объектов нет, есть вероятность, что в какой-то момент функция припишет один и тот же номер двум объектам. Современное хеширование устроено таким образом, что в момент возникновения такой ошибки хеш-функция меняется на другую (существуют семейства хеш-функций). Списки хешей называются хеш-таблицами. Поиск по хеш-таблице осуществляется не мгновенно, но почти с константной скоростью. **Мы жертвуем точностью ради скорости**. 

То есть, что происходит, когда мы создаем неизменяемый объект? По его адресу вычисляется хеш и складывается в хеш-таблицу. Когда мы обращаемся к этому объекту, питон почти мгновенно находит его по хешу и возвращает его. Мы можем завести три переменных, каждая из которых будет содержать число 4, - на самом деле это будет одно и то же число в памяти компьютера (один и тот же объект), просто поскольку объект неизменяемый, то нам это вообще неважно. 

Можно это проверить:

In [1]:
a = 4
b = 4
a is b

True

Соответственно, вот главная причина, почему объекты во множестве могут быть только в единственном числе. 

Что будет, если во множество добавить объект, который в нем уже есть? Ничего: множество никак не поменяется. Оно уже содержит хеш этого объекта. 

Как выглядит множество?

Как перечень объектов в фигурных скобках. Фигурные скобки здесь - представление множества. 

{1, 2, 3}

Как задать множество?

1. Явно в коде: {1, 2, 3}
2. С помощью функции set() и метода add():

        s = set()
        s.add(1)
    
3. С помощью представления множества и генератора: {func(x) for x in iterable}
4. Из другого итерируемого объекта: set(lst)

Обратите внимание, что чтобы создать пустое множество, нельзя написать просто пустые фигурные скобки: это создаст **словарь**. Пустое множество задается только как set().

Множество - это понятие из мат. логики, и у него есть соответствующие операторы множеств. 

- & (set.intersection()) - пересечение
- | (set.union()) - объединение
- - (set.difference()) - разность
- ^ (set.symmetric_difference()) - симметрическая разность

In [2]:
A = set(range(1, 6))
B = set(range(3, 9))
print(f'A: {A} B: {B}')
print(f'Пересечение: {A & B}')
print(f'Объединение: {A | B}')
print(f'Разность А - B: {A - B}')
print(f'Разность B - A: {B - A}')
print(f'Симметрическая разность: {A ^ B}')

A: {1, 2, 3, 4, 5} B: {3, 4, 5, 6, 7, 8}
Пересечение: {3, 4, 5}
Объединение: {1, 2, 3, 4, 5, 6, 7, 8}
Разность А - B: {1, 2}
Разность B - A: {8, 6, 7}
Симметрическая разность: {1, 2, 6, 7, 8}


Все эти операторы возвращают новый объект, но любой из них можно записать результат в левый операнд, если добавить =:

In [3]:
C = A & B
A &= B
print(C, A)

{3, 4, 5} {3, 4, 5}


В чем разница между операторами и соответствующими им методами? Только в том, что у оператора оба операнда обязаны быть множествами, а у метода аргумент может быть любым итерируемым объектом. Как правило, используются операторы.

У множеств есть следующие методы:

- add(x) - добавляет элемент x
- discard(x) - удаляет элемент x
- update(X) - добавляет в множество элементы множества Х
- clear() - удаляет все элементы из множества
- copy() - создает явную копию

Методы проверок:

- issubset(Х) - проверяет, является ли множество подмножеством Х
- issuperset(X) - проверяет, является ли множество надмножеством Х
- isdisjoint(X) - проверяет, являются ли множества непересекающимися

Методы проверок возвращают True/False.

## Вложенные списки

Списки (и словари) могут вкладываться один в другой. Чтобы обратиться к элементу вложенного списка, нужно использовать двойной индекс:

In [4]:
M = [[1, 2, 3], [4, 5, 6]]
print('M', *M, sep='\n')
print(f'Нулевой элемент М: {M[0]}')
print(f'Первый элемент М: {M[1]}')
print(f'Нулевой элемент первого элемента М: {M[1][0]}')

M
[1, 2, 3]
[4, 5, 6]
Нулевой элемент М: [1, 2, 3]
Первый элемент М: [4, 5, 6]
Нулевой элемент первого элемента М: 4


Вложенные списки могут использоваться для работы с матрицами. Матрица - это табличка чисел. Обычная двумерная матрица выглядит как-то так:

    1    2    3
    4    5    6
    
Говорят, что это матрица размера два на три (2, 3), то есть, у нее две строки и три столбца. Матрица, у которой m и n (количество строк и столбцов) совпадают, называется квадратной. Матрица, состоящая из нулей, называется нулевой. Матрица, у которой все элементы - нули, кроме тех, которые стоят по диагонали, называется диагональной. Диагональная матрица, у которой все числа по диагонали - единицы, называется единичной. Вообще всем, кто планирует заниматься машинным обучением и NLP, следует сконцентрироваться на матрицах и постараться освоить их. 

Матрицы на самом деле могут быть многомерными. Представить это мы можем с трудом (наше воображение справляется только с трехмерной матрицей), а вот создать n-мерную матрицу в питоне - легко: достаточно сделать n вложений. 

Обычно с матрицами работают в модуле numpy, но для их понимания и вложенные списки сойдут (по существу, массивы numpy - те же вложенные списки, только обрабатываемые особым образом и не в питоне, а на языке С). 

До сих пор мы задавали матрицы только явным образом. Как задать матрицу с помощью генератора?

In [5]:
M1 = [[n for n in range(5)] for m in range(5)]
print('Матрица М1 - квадратная, состоит из повторяющихся строк:', *M1, sep='\n')
M2 = [[m * n for n in range(5)] for m in range(4)]
print('Матрица Ь2 - не квадратная, в каждой строке разные элементы:', *M2, sep='\n')

Матрица М1 - квадратная, состоит из повторяющихся строк:
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
[0, 1, 2, 3, 4]
Матрица Ь2 - не квадратная, в каждой строке разные элементы:
[0, 0, 0, 0, 0]
[0, 1, 2, 3, 4]
[0, 2, 4, 6, 8]
[0, 3, 6, 9, 12]


In [6]:
from random import randrange

M3 = [[randrange(1, 101) for n in range(5)] for m in range(5)]
print('Матрица М3 содержит случайные числа:', *M3, sep='\n')

Матрица М3 содержит случайные числа:
[42, 88, 92, 40, 31]
[56, 22, 32, 39, 57]
[56, 89, 66, 75, 70]
[11, 82, 89, 27, 55]
[93, 74, 82, 98, 84]


In [8]:
n = 3
M4 = [[2] * m + [1] + [0] * (n - m - 1) for m in range(n)]
print('Также можно использовать сложение списков, чтобы собирать строки:', *M4, sep='\n')

Также можно использовать сложение списков, чтобы собирать строки:
[1, 0, 0]
[2, 1, 0]
[2, 2, 1]
