1.

*Инверсией* в перестановке $\pi$ называется пара индексов $(i,j)$ такая что $i<j$, но $\pi_i>\pi_j$. Докажите, что в перестановке из $n$ элементов может быть не более $\frac{n(n-1)}{2}$ инверсий. В какой перестановке число инверсий ровно $\frac{n(n-1)}{2}$?

*Доказательство:* методом математической индукции по длине массива.

* База индукции: для $n=1$ число инверсий, очевидно, $0 \leq n(n-1)/2 = 0$
* Предположение: для $(n-1)$-элементного массива число инверсий действительно $\leq (n-1)(n-2)/2$
* Индуктивный переход: добавляя ещё один элемент к $(n-1)$-элементному массиву, число возникающих с этим элементом инверсий не может быть больше чем $(n-1)$ (просто потому что это все элементы которые у нас есть). Это точная оценка: $(n-1)$ новых инверсий действительно достигается если новый элемент больше всех остальных и добавлен в начало. Отсюда:

$$I_n \leq I_{n-1} + n-1 = \frac{(n-1)(n-2)}{2} + n - 1 = \frac{n(n-1)}{2}$$

Что и требовалось доказать. Ровно $n(n-1)/2$ инверсий содержится в массиве, отсортированном в обратном порядке.

2.

В доказательстве нижней границы сложности сортировок на основе сравнений фигурировало выражение $\log_2{n!}$, которое мы оценивали формулой Стирлинга. Но можно ограничиться и школьной математикой: используя лишь свойство логарифма произведения, докажите более слабое утверждение: $\log_2{n!} \ge Cn\log_2{n}$.

$$
\begin{gathered}
\log_2{n!} = \log_2{(1 \cdot 2 \cdot \cdots \cdot n)}
= \log_2{1} + \log_2{2} + \cdots + \log_2{n} \ge \\
\ge \log_2{\frac{n}{2}} + \cdots + \log_2{n}
\ge \frac{n}{2} \log_2{\frac{n}{2}} = \frac{n}{2} (\log_2{n} - 1) \ge \\
\ge \frac{n}{2} (\log_2{n} - \frac{1}{2}\log_2{n}) = \frac{n}{4} \log_2{n}
\end{gathered}
$$

3.

Дана квадратная матрица `A` размера `n×n`, заполненная нулями и единицами. Известно, что за исключением элемента `A[i][i]`, значение которого не определено, строка с индексом `i` состоит из нулей, а столбец с индексом `i` — из единиц. Очевидно, что `i` единственно. Напишите функцию, которая возвращает `i`. Время работы алгоритма — `O(n)`.

*Подсказка:* попробуйте посмотреть на `A[i][j]` как на результат сравнения некоторых элементов `i` и `j`. Вспомните, что максимум из `n` элементов можно найти за `O(n)`.

In [1]:
def get_idx(A):
    i, j = 0, 0
    
    while max(i, j) < len(A):
        if i == j or A[i][j] == 1:
            i += 1
        else:
            j += 1
            
    return j

In [2]:
get_idx([
    [0, 1, 0],
    [0, 1, 0],
    [1, 1, 1]
])

1

4.

В сортировке вставками для добавления элемента в отсортированный префикс фактически используется линейный поиск. Однако можно было бы использовать и бинарный поиск для нахождения точного индекса для нового элемента. Это не улучшает асимптотическую сложность — потребуется освободить место для нового элемента, и это по-прежнему линейная операция. Зато (теоретически) это уменьшает число операций сравнения. Реализуйте такую сортировку на основе приведённого в шаблоне кода. Для бинарного поиска используйте функции из модуля `bisect` стандартной библиотеки.

In [3]:
from bisect import *

def insertion_sort(A):
    for j in range(1, len(A)):
        key = A[j]
        
        # bisect_left тоже будет работать, но повлечёт больше копирований
        # если значение key встречается в отсортированой префиксе
        # несколько раз
        idx = bisect_right(A, key, 0, j)
        
        for i in range(j, idx, -1):
            A[i] = A[i-1]
            
        A[idx] = key

    return A

5.

Имеется `n`-элементный массив, в котором только 3 различных элемента: 'B' («blue»), 'R' («red») и 'W' («white»). Реализуйте (на основе процедуры `partition` из алгоритма Quicksort) сортировку такого массива в порядке цветов флага Нидерландов. Время работы: `O(n)`, дополнительная память: `O(1)`.

In [4]:
colours = {'R': 0, 'W': 1, 'B': 2}


def flag_partition(A, lo, hi, pivot):
    # За исключением сравнения цветов и явного задания pivot,
    # функция не отличается от обычного partition из quicksort.
    i = lo

    for j in range(lo, hi):
        if colours[A[j]] <= colours[pivot]:
            A[i], A[j] = A[j], A[i]
            i += 1
    return i


def three_sort(A):
    # Отделяем синий цвет вправо
    m = flag_partition(A, 0, len(A), 'W')
    # Разделяем цвета в подмассиве с красным и белым цветом
    flag_partition(A, 0, m, 'R') 
    return A
    

# Существует также аналогичное,
# но более специализированное решение three-way-partition:
# https://en.wikipedia.org/wiki/Dutch_national_flag_problem

In [5]:
three_sort(['B', 'B', 'W', 'R', 'B', 'R', 'R', 'W', 'W'])

['R', 'R', 'R', 'W', 'W', 'W', 'B', 'B', 'B']

6.

Напишите функцию на основе Quicksort, возвращающую `m` наименьших элементов исходного массива (не обязательно отсортированных). Время работы: `O(n)`.

In [6]:
def partition(A, lo, hi):
    # Без изменений
    
    pivot = A[hi]
    i = lo

    for j in range(lo, hi):
        if A[j] <= pivot:
            A[i], A[j] = A[j], A[i]
            i += 1

    A[i], A[hi] = A[hi], A[i]
    return i


def qs(A, m, lo, hi):
    # Алгоритм напоминает quicksort, но, после разделения
    # массива на две части вокруг pivot, продолжает сортировку
    # только в одно из частей – в той, в которой находятся
    # интересующие нас m элементов.
    
    # Код аналогичен поиску m-й порядковой статистики.
    
    if lo < hi:
        p = partition(A, lo, hi)
        if m < p:
            qs(A, m, lo, p-1)
        elif m > p:
            qs(A, m, p+1, hi)
        else:
            return A
    return A


def nsmallest(m, A):
    return qs(A, m, 0, len(A)-1)[:m]

In [7]:
nsmallest(3, [44, 64, 21, 86, 40, 46, 95])

[44, 21, 40]

7.

Напишите функцию, вычисляющую симметрическую разность двух отсортированных массивов. Гарантируется, что в каждом из массивов нет повторяющихся элементов. *Подсказка:* в качестве вдохновения используйте функцию `merge` из Mergesort.

In [8]:
def sym_diff(a1, a2):
    # Идея очень похожа на слияние в mergesort:
    # смотрим на первые элементы массивов, берём из них
    # наименьший и добавляем к результату, перемещаясь
    # к следущему элементу массива.
    
    # Отличие в том, что мы проверяем, содержится ли элемент
    # в обоих массивах, и если да, то "выбрасываем" оба элемента.
    
    # Когда один из массивов закончился, добиваем результат
    # оставшимися элементами.
    
    n1, n2 = len(a1), len(a2)
    i = j = 0
    result = []

    while i < n1 and j < n2:
        e1, e2 =  a1[i], a2[j]
        
        if e1 != e2:
            result.append(e1 if (e1 < e2) else e2)
        i += 1 if e1 <= e2 else 0
        j += 1 if e1 >= e2 else 0

    while i < n1:
        result.append(a1[i])
        i += 1

    while j < n2:
        result.append(a2[j])
        j += 1

    return result

In [9]:
sym_diff([1, 2, 3, 4, 5], [2, 4, 10])

[1, 3, 5, 10]

8.

Даны `n` отрезков на прямой, заданные в виде двух массивов действительных чисел `A` и `B`, где каждый отрезок это `(A[i], B[i])`. Найти максимальное `k`, для которого найдётся точка прямой покрытая `k` отрезками. Время работы: `O(n log(n))`, дополнительная память — `O(1)`.

In [10]:
def intervals(A, B):
    """
    Принимает два массива действительных чисел размера `n`,
    где `(A[i], B[i])` - отрезок на прямой.
    Возвращает максимальное целое число `k`, для которого
    найдётся точка прямой покрытая `k` отрезками.
    """

    # A и B по условию должны иметь одну длину равную
    # количеству отрезков
    assert len(A) == len(B)
    
    # Метод .sort() у списков выполняет in-place сортировку,
    # в отличие от sorted(), которая создаёт новый массив
    A.sort()
    B.sort()
    
    cov_now, cov_max = 0, 0

    ln, rn = len(A), len(B)
    li = ri = 0
    
    # Схема аналогичная слиянию массивов из mergesort:
    # начинаем с первых элементов обоих массивов
    # выбираем меньший элемент из двух
    # из массива, откуда мы взяли этот элемент, считываем следующий.
    
    # При этом в нашей задаче элемент из A означает
    # вхождение в зону покрытия некоторого отрезка,
    # а элемент из B – выход из отрезка.
    # Осталось только посчитать входы и выходы и найти максимум.

    while li < ln and ri < rn:
        l, r =  A[li], B[ri]
        
        if l < r:
            cov_now += 1
            li += 1
        else:
            cov_now -= 1
            ri += 1
            
        cov_max = max(cov_now, cov_max)
            
    return cov_max

In [11]:
intervals(
    [5, 3, 7],
    [8, 6, 9]
)

2

9.

Некоторые файловые менеджеры сортируют нумерованые файлы вида `1.jpg`, `2.jpg`, `3.jpg`, ... следующим образом:
	```
	1.jpg
	10.jpg
	100.jpg
	11.jpg
	...
	2.jpg
	20.jpg
	21.jpg
	...
	```

Это результат сортировки с простым посимвольным сравнением. Оно хорошо подходит для сортировки фамилий, но плохо работает с нумероваными файлами: символ `1` «меньше» чем `2`, поэтому `100.jpg` стоит раньше чем `2.jpg`. Именно поэтому к названиям таких файлов часто добавляют нули (например `IMG_0042.jpg` в фотоаппаратах).

Избавиться от этого помогает [натуральная сортировка](https://en.wikipedia.org/wiki/Natural_sort_order), в которой последовательности цифр в строке считаются за один символ. Напишите функцию `key` для стандартной питоновской функции [sorted](https://docs.python.org/3.6/library/functions.html#sorted), которая реализует натуральную сортировку строк состоищих из символов `a-z` и `0-9`. Функция не должна использовать регулярные выражения.

P.S.: обратите внимание: в отличие от рассказанного на лекции примера, `sorted` принимает не функцию сравнивающую два элемента, а функцию отображающую элементы массива на некоторое множество сравнимых объектов (чисел, строк и т.п.), которые потом используются для сортировки.

In [12]:
def tokenise(string):
    # Разбираем строку на массив из составляющих строку
    # символов и чисел: причём несколько стоящих подряд
    # чисел считается одним числовым токеном.
    
    # >>> tokenise('img1923aaa')
    # ['i', 'm', 'g', 1923, 'a', 'a', 'a']
    
    tokens = []
    ct, it = None, 0
    for c in string:
        if ct: tokens.append(ct) ; ct = None
            
        if c.isdigit():
            it = 10 * it + int(c)
        elif c.isalpha():
            if it: tokens.append(it) ; it = 0
            ct = c

    if it: tokens.append(it)
    if ct: tokens.append(ct)

    return tokens

def key(x):
    tokens = tokenise(x)
    
    # Транслируем буквы в соответствующие им коды ASCII,
    # а числа сдвигаем правее всех букв (максимальный
    # код ASCII у буквы 'z')
    
    return tuple(
        ord(t) if type(t) is str
        else (t + ord('z') + 1)
        for t in tokens
    )

In [13]:
sorted(['3', '10', '2', '20', '100', '11', '21', '1'], key=key)

['1', '2', '3', '10', '11', '20', '21', '100']