<a href="https://colab.research.google.com/github/svdcvt/math_python_hse/blob/master/fall-2021/lectures/lecture07_set.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Занятие №7: множества, алгоритмическая сложность.

---

[МИНИКОНТЕСТ](https://contest.yandex.ru/contest/30000/)

---

"https://replit.com - можете сразу воспроизводить код и решать задачи используя онлайн интерпретатор Питона (\\\"Create Repl\\\" -> \\\"Select Language - Python\\\")

#  Множества   [DOCS1](https://docs.python.org/3/tutorial/datastructures.html#sets) [DOCS2](https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset)

Множество в языке Питон — это **изменяемая** структура данных, эквивалентная множествам в математике. Множество состоит из **различных** элементов, **порядок** которых **не определен**.

Главная особенность множеств это отсутствие порядка. Элементы множества хранятся не подряд, а при помощи хитрых алгоритмов (об этом будем говорить на следующем занятии!). Это позволяет выполнять проверку на принадлежность элемента множеству **быстрее**, чем просто перебирая все элементы (как это происходит в списке, строках и т.д.).

Элементами множества может быть любой **неизменяемый** тип данных: числа, строки, кортежи. 

Изменяемые типы данных не могут быть элементами множества, т.е. нельзя сделать элементом множества список (но можно сделать кортеж) или другое множество. Требование неизменяемости элементов множества накладывается особенностями представления множества в памяти компьютера.

##  Создание множества 

Множество задается перечислением всех его элементов в фигурных скобках `{}` через запятую.

In [1]:
A = {1, 2, 3}
print(A, type(A))

{1, 2, 3} <class 'set'>


Пустое множество можно создать **только** при помощи функции `set()`. 

In [2]:
print(type(set()), type({}))

<class 'set'> <class 'dict'>


Если функции `set` передать в качестве параметра список, строку или кортеж, то она вернёт множество, составленное из элементов списка, строки, кортежа. 

In [19]:
print(set([1, 2, 4, 3, 2, 3, 1]))
print(set('qwertqwertabc'))
print(set(['10', '11', '9', 12, '100', 10, 11]))

{1, 2, 3, 4}
{'w', 'e', 'q', 'b', 'a', 't', 'c', 'r'}
{'9', 10, 12, 11, '10', '11', '100'}


Заметьте в дальнейшем примере, что абсолютно так же заданные множества уже имеют другой порядок элементов, что говорит нам о том, что в множество действительно не определен порядок и про это необходимо помнить. Кроме того, сам порядок не особо поддается логике.

In [1]:
print(set('qwertqwertabc'))

{'c', 'q', 'w', 'e', 'r', 'b', 'a', 't'}


In [2]:
print(set(['10', '11', '9', 12, '100', 10, 11]))

{'100', '11', 10, 11, 12, '9', '10'}


Решите задачу: https://contest.yandex.ru/contest/30000/problems/A/

Как и для списков, есть __генератор множества__, который выглядит как и известный нам генератор, но скобки должны быть фигурными. 

In [5]:
a = {x for x in 'abracadabra' if x not in 'ac'}
print(a, type(a))

{'r', 'd', 'b'} <class 'set'>


Каждый элемент может входить в множество **только один раз**, порядок задания элементов неважен. Например, программа выведет `True`, так как A и B — равные множества.

In [17]:
A = {10, 2, 3}
B = {3, 2, 3, 10}
print(A == B)

True


### Работа с элементами множеств 

Из множества можно сделать список при помощи функции `list` или отсортированный список с помощью `sorted`. Узнать число элементов в множестве можно при помощи функции `len`.

In [18]:
print(list(B), sorted(B), len(B), len(set()), sep='\n')

[10, 2, 3]
[2, 3, 10]
3
0


Решите задачи:
- https://contest.yandex.ru/contest/30000/problems/D/
- https://contest.yandex.ru/contest/30000/problems/F/

`s.copy()` - возвращает копию множества;

`s.clear()` - удаляет все элементы множества

In [19]:
B2 = B.copy()
B.clear()
print(B2, B, sep='\n')

{10, 2, 3}
set()


Проверить, принадлежит ли элемент множеству можно при помощи операции `in`, возвращающей значение типа `bool`. Аналогично есть противоположная операция `not in`.

In [29]:
A = {1, 2, 3}
print(1 in A, 4 not in A)

True True


Для добавления элемента в множество есть метод `add`:

In [30]:
A.add(4)
print(A)

{1, 2, 3, 4}


Решите задачу: https://contest.yandex.ru/contest/30000/problems/B/

Также можно объединить два множества методом `update`:

In [31]:
A.update([5, 6, 7])
print(A)
A.update('89')
print(A)

{1, 2, 3, 4, 5, 6, 7}
{1, 2, 3, 4, 5, 6, 7, '9', '8'}


Для удаления элемента `x` из множества есть два метода: `discard` и `remove`. Их поведение различается только в случае, когда удаляемый элемент отсутствует в множестве. В этом случае метод `discard` не делает ничего, а метод `remove` генерирует исключение KeyError.

In [32]:
A.discard(10)

In [33]:
A.remove(10)

KeyError: ignored

Метод `pop` удаляет из множества один **случайный элемент** и возвращает его значение. Если же множество пусто, то генерируется исключение `KeyError`.

In [34]:
b = A.pop()
print(b)
print(A)
c = A.pop()
print(c)
print(A)

1
{2, 3, 4, 5, 6, 7, '9', '8'}
2
{3, 4, 5, 6, 7, '9', '8'}


Перебрать все элементы множества (в неопределенном порядке!) циклом `for` можно как и обычно:

In [36]:
for el in A:
    print(el, end=' ')

3 4 5 6 7 9 8 

###  Операции с множествами  

С множествами в Питоне можно выполнять обычные для математики операции над множествами.

| Операция | Метод | Что делает |
| ---      | ---   | ---        |
| A \| B |A.union(B) |Возвращает множество, являющееся объединением множеств A и B.|
|A \|= B |A.update(B)|Добавляет в множество A все элементы из множества B.|
|A & B |A.intersection(B)|Возвращает множество, являющееся пересечением множеств A и B.|
|A &= B|A.intersection_update(B)|Оставляет в множестве A только те элементы, которые есть в множестве B.|
|A - B|A.difference(B)|Возвращает разность множеств A и B (элементы, входящие в A, но не входящие в B).|
|A -= B|A.difference_update(B)|Удаляет из множества A все элементы, входящие в B.|
|A ^ B|A.symmetric_difference(B)|Возвращает симметрическую разность множеств A и B (элементы, входящие в A или в B, но не в оба из них одновременно).|
|A ^= B|A.symmetric_difference_update(B)|Записывает в A симметрическую разность множеств A и B.|
|A <= B|A.issubset(B)|Возвращает true, если A является подмножеством B.|
|A >= B|A.issuperset(B)|Возвращает true, если B является подмножеством A.|
|A < B||Эквивалентно A <= B and A != B|
|A > B||Эквивалентно A >= B and A != B|
||A.isdisjoint(B)| Эквивалентно пустому A.intersection(B) |

Решите задачи: 
- https://contest.yandex.ru/contest/30000/problems/C/
- https://contest.yandex.ru/contest/30000/problems/E/
- https://contest.yandex.ru/contest/30000/problems/G/

###  Frozen set  

Тип `frozenset` - множество, которое является неизменяемым, а поэтому может использоваться как ключ словаря или как элемент множества. Его элементы нельзя изменить, поэтому методов `add`, `remove` и др. у него нет.

In [37]:
froze = frozenset([1, 2, 2])

In [38]:
froze.add('3')

AttributeError: ignored

In [39]:
froze.pop()

AttributeError: ignored

In [42]:
a = {froze, 1, (3, 4)}
print(a)

{1, (3, 4), frozenset({1, 2})}


# Алгоритмическая сложность

##  О-символика   

Сегодня мы поговорим о том, как сравнивать скорость различных алгоритмов. Конечно, скорость выполнения программы зависит от многих факторов - процессор компьютера, его загруженность, архитектура, устройство памяти, сам язык программирования - поэтому хочется уметь сравнивать алгоритмы вне зависимости от них. Определить, какой алгоритм работает в общем случае быстрее другого, можно, например, с помощью О-символики. Начнем с определения.

###  Определение  

>Пусть $f,g$ - функции. Говорим, что $f$ растет **не быстрее** $g$ и пишем $f(n) = O(g(n))$ или $f \preceq g$, если существует такая константа $c>0$, что $f(n) \leq c \cdot g(n)$ для любого $n \in \mathbb N$.

Связанные понятия:
> $f(n) = \Omega(g(n)),\ f \succeq g \iff \exists c>0: f(n) \geq c\cdot g(n)$ (не медленнее)
> $f(n) = \Theta(g(n)),\ f \asymp g \iff f(n) = O(g(n)) = \Omega(g(n))$ (не быстрее и не медленнее, т.е. одинаково) 

###  Пример  

$$3n^2 + 5n + 2 = O(n^2)$$
<img src='https://github.com/svdcvt/math_python_hse/blob/master/fall-2020/lectures/frac.png?raw=1'>

Видно что наш полином в асимтотике отличен от простого квадратичного монома на константу 3.

###  Общие правила  

1. Постоянные множители можно опускать:
$$ 7n^3 = \Theta(n^3), \quad \frac{n^2}{3} = \Theta(n^2)$$
2. Многочлен более высокой степени растёт быстрее:
$$ n^a \prec n^b \iff a < b, \quad n = O(n^2)$$
3. Экспонента растёт быстрее многочлена:
$$n^a \prec b^n\ (\forall a>0, b>1), \quad n^2 = O(3^n), \quad n^{1000} = O(1.1^n)$$
4. Многочлен растет быстрее логарифма:
$$(\log n)^a \prec n^b\ (\forall a, b > 0), \quad (\log n)^{10} = O(\sqrt{n}), \quad n\cdot\log n = O(n^2)$$
5. Медленно растущие слагаемые можно опускать:
$$f + g = O(\max(f,g)), \quad n^2 + n = O(n^2) $$

###  Часто используемые функции  
$$\log n \prec \sqrt{n} \prec n \prec n\log n \prec n^2 \prec 2^n$$
<img src='https://github.com/svdcvt/math_python_hse/blob/master/fall-2020/lectures/all.png?raw=1' width='500px'>

Такой способ позволяет оценить скорость алгоритма в первом приближении, опуская детали, но иногда эти "детали" могут быть очень значимыми, а О-символика их игнорирует. Однако, в программировании постоянно используют этот способ, часто можно увидеть выражения "алгоритм за квадрат" - $O(n^2)$, "алгоритм за линию" - $O(n)$, "константа" - $O(1)$. Везде за $n$ берется **размер входных данных** (число строк, число символов, длина массива, количество запросов и т.д.).

##  Скорость роста времени работы кода на практике  

Зная какие операции различных структур данных сколько занимают "времени", мы можем писать более оптимальный код. Подробнее можно посмотреть, например, [тут](https://www.ics.uci.edu/~pattis/ICS-33/lectures/complexitypython.txt) и [тут](https://www.bigocheatsheet.com).

###  Циклы и список  

**Пример 1**

Пусть дан список $A$ длины $N$, тогда какова алгоритмическая сложность следующего кода?

    for i in range(len(A)):
        print(i)

Цикл делает столько итераций, сколько составляет длина списка, и выполняет лишь одну простую (константную) операцию. 

Поэтому сложность: $\Theta(N) \cdot \Theta(1) = O(N)$

**Пример 2**
    
    s = 0
    for i in range(5):
        for x in A:
            s += A

Задание переменной это простая операция. Далее цикл фиксированной длины, в котором есть внутренний цикл зависящий от длины списка. Внутренний цикл выполняет простую операцию обновления переменной.

Итого: $\Theta(1) + \Theta(1) \cdot \Theta(N) \cdot \Theta(1) = O(N)$

**Пример 3**

    s = 0
    for i in range(len(A)):
        for j in range(len(A)):
            print(A[i] + A[j])

Сначала простая операция задания переменной. Далее двойной цикл по массиву. Внутри операция доступа к элементу массива и простая операция печати.

Итого: $\Theta(1) + \Theta(N) \cdot \Theta(N) \cdot (\Theta(1) + \Theta(1)) = O(N^2)$ 

**Пример 4**

    for i in range(len(A)):
        A[i] = A[i] * i

Цикл по всему массиву, внутри цикла проста операция доступа к элементу списка, простая арифметическая операция, простая операция замены (задания) значения элемента списка.

Итого: $\Theta(N) \cdot (\Theta(1) + \Theta(1) + \Theta(1)) = O(N)$

**Пример 5**

    B = []
    for x in A:
        B.append(x * 2)

Сначала простая операция задания переменной пустым массивом. Далее цикл по элементам массива А. Внутри цикла простая арифметическая операция и добавление элемента в конец массива*.

Итого: $\Theta(1) + \Theta(N) \cdot (\Theta(1) + \Theta(1)^*) = O(N)$

\* - вообще говоря, в Питоне эта операция в худшем случае выполняется за линейное время, и [вот почему](https://ru.wikipedia.org/wiki/Динамический_массив). Даже скорее не в лучшем случае, а есть такое понятие "амортизированная сложность". 

- Во время создания списка, под него выделяется какое-то количество памяти, например, $N$. 
- Потом мы в свободные "ячейки" памяти кладем за константное время новые элементы в конец списка, пока память не заполнится. 
- Когда память заполнилась, мы выделяем $2\cdot N$ памяти, _копируем $N$ элементов_ и далее можем добавить еще $N$ элементов в конец списка. 

Получается, что само добавление элемента это константная операция, т.к. выделение памяти занимает $O(N)$, куда мы добавим максимум $N$ элементов, тогда в среднем получаем $O(N)/N = O(1)$. Это и называют _амортизированной сложностью_.

###  Сложность операций списка  
 [(источник)](https://www.ics.uci.edu/~pattis/ICS-33/lectures/complexitypython.txt)

Operation     | Example      | Complexity Class         | Notes
---           |---           |---            |-------
**Append**        | `l.append(5)  `| **O(1)**	     | O(N) in worst case
**Containment**   | `x in/not in l`| **O(N)**	     | linearly searches list 
**Insert/Delete**||**O(N)**|
|||
Index         | `l[i]         `| O(1)	     |
Store         |` l[i] = 0     `| O(1)	     |
Length        | `len(l)       `| O(1)	     |
Pop	          | `l.pop()      `| O(1)	     | 
Clear         | `l.clear()    `| O(1)	     | similar to l = []
Slice         | `l[a:b]       `| O(N)	     | O(b-a): l[0:-1]:O(N)
Construction  | `list(...)    `| O(len(...))   | depends on length of ... iterable
Extend        | `l.extend(...)`| O(len(...))   | depends only on len of extension
check ==, !=  | `l1 == l2     `| O(N)          |
Insert        | `l[a:b] = ... `| O(N)	     | 
Delete        | `del l[i]     `| O(N)	     | depends on i; O(N) in worst case
Copy          | `l.copy()     `| O(N)	     | Same as l[:] which is O(N)
Remove        | `l.remove(...)`| O(N)	     | 
Pop	          | `l.pop(i)     `| O(N)	     | O(N-i): l.pop(0):O(N) (see above)
Extreme value | `min(l)/max(l)`| O(N)	     | linearly searches list for value
Reverse	      | `l.reverse()`  | O(N)	     |
Iteration     | `for v in l: ` | O(N)          | 
Find | `l.index(x)`| O(N)|linearly searches list for value

In [43]:
def copy(A):
    B = []
    for i in range(len(A)):
        B.append(A[i])
    return B

def copy2(A):
#     B = A.copy()
#     return B
    return A.copy()

N = 1000
A = [i for i in range(N)]

%timeit copy(A)
%timeit copy2(A)

10000 loops, best of 5: 108 µs per loop
The slowest run took 6.27 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 5: 2.81 µs per loop


In [44]:
import random

def sort(iterable):
    l = list(iterable)
    s = sorted(l)
    return s

def sort2(iterable):
    return sorted(iterable)

N = 10000
A = [i for i in range(N)]
random.shuffle(A)

iterableA = map(str, A)
print(type(sort(iterableA)), type(sort2(iterableA)))

%timeit sort(iterableA)
%timeit sort2(iterableA)

<class 'list'> <class 'list'>
The slowest run took 17.35 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 5: 477 ns per loop
The slowest run took 17.45 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 5: 329 ns per loop


In [45]:
def scale(A):
#     X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0))
    B = A.copy()
    for i in range(len(A)):
        B[i] = (A[i] - min(A)) / (max(A) - min(A))
    return B

def scale2(A):
    B = A.copy()
    amin, amax = min(A), max(A)
    for i in range(len(A)):
        B[i] = (A[i] - amin) / (amax - amin)
    return B

N = 1000
A = [i for i in range(N)]

%timeit scale(A)
%timeit scale2(A)

10 loops, best of 5: 58.5 ms per loop
1000 loops, best of 5: 218 µs per loop


In [46]:
def find_all(A, x):
    i = 0
    idx = []
    while x in A[i:]:
        i += A[i:].index(x) + 1 # +1 для того чтобы потом искать с места после найденного х
        idx.append(i - 1) # -1 чтобы корректно добавить нужный индекс
    return idx

def find_all2(A, x):
    idx = []
    for i in range(len(A)):
        if x == A[i]:
            idx.append(i)
    return idx

N = 1000
n = 3 # try 100
A = [i % n for i in range(N)]
print(find_all(A, 2) == find_all2(A, 2))

%timeit find_all(A, 2)
%timeit find_all2(A, 2)

True
1000 loops, best of 5: 828 µs per loop
10000 loops, best of 5: 94.5 µs per loop


###  Сложность операций множеств  

На следующем занятии мы поговорим про хитрый алгоритм, на котором основаны множества, а пока, можете изучить алгоритмические сложности операций.


Operation     | Example      | Complexity Class         | Notes
--------------|--------------|---------------|-------------------------------
Add           | `s.add(5); s.update(k)`| O(1); O(len(k))	     | O(N) worst case
Containment   | `x in/not in s`| O(1)	     | 
Delete        | `s.remove(..); s.discard(..); s.pop(..)`| O(1)	     | 
||||
check ==, !=  | `s != t`       | O(len(s))     | False in O(1) if the lengths are different
<= or < , \>= or >         | `s <= t; s >= t`    | O(len(s)), O(len(t))     | 
Sets operations | `s \| t; s & t; s - t; s ^ t`| O(len(s)+len(t))