In [1]:
%matplotlib notebook
import copy
import generator
import kd_tree
import range_tree
import test_tree_build
import test_tree_search
from structures import *
from kd_tree_visualizer import *

# Пересечение прямоугольника с множеством прямоугольников

## Постановка задачи
Пусть дано множество прямоугольников $P$, стороны которых параллельны осям координат. Нужно эффективно отвечать на запросы следующего вида: для прямоугольника $q$ (его стороны также параллельны осям координат) определить, с какими прямоугольниками из $P$ он пересекается. 

## Идея решения
Разобьём все возможные случаи пересечения $q$ с некоторым прямоугольником $p \in P$ на три (необязательно непересекающихся) множества:

* Хотя бы одна вершина $p$ лежит внутри прямоугольника запроса $q$.

<img src="images\p_in_q.png" style="width: 400px; float: midle" />

Все такие случаи можно учесть, если рассмотреть множество точек $T$, являющихся вершинами прямоугольников из $P$ и найти, какие точки из $T$ попадают в прямоугольник $q$. Таким образом, данный случай сводится к решению задачи о **нахождении всех точек, которые попадают в заданный прямоугольник**. (задача рассмотрена далее в этом билете)

* Хотя бы одна вершина прямоугольника запроса $q$ лежит внутри прямоугольника $p$.

<img src="images\q_in_p.png" style="width: 400px; float: midle" />

Все такие случаи можно учесть, если для каждой вершины $q$ найти все прямоугольники, в которые она попадает. Таким образом, данный случай сводится к решению задачи о **нахождении всех прямоугольников, в которые попадает заданная точка**. (задача рассмотрена в 3-ем билете)

* Хотя бы одна сторона $p$ пересекает прямоугольник запроса $q$, но не лежит в нём концами.

<img src="images\p_intersects_q.png" style="width: 400px; float: midle" />

Все такие случаи можно учесть, если рассмотреть множество отрезков $S$, которые являются сторонами прямоугольников из $P$ и найти, какие отрезки из $S$ пересекают (но не лежат концами) прямоугольник $q$. Таким образом, данный случай сводится к решению задачи **о нахождении всех отрезков, которые пересекают заданный прямоугольник**. (задача рассмотрена в 4-ом билете)

**Ответом к задаче** будет объединение ответов к трём подзадачам.

## Нахождение множества точек, попадающих в прямоугольник запроса

Рассмотрим одномерный случай. Быстро выдавать множество точек, попадающих в отрезок, можно с помощью сбалансированного дерева поиска. Также можно с помощью отсортированного массива и бинпоиска, но в такую структуру данных, к сожалению, нельзя эффективно вставить новую точку.

Как это делать в сбалансированном дереве поиска — очевидно: идём вглубь дерева, пока не встретим узел, разделяющий концы отрезка. После этого ищем каждый конец отрезка в отдельности и добавляем к ответу все поддеревья, лежащие справа (для левого конца) и слева (для правого конца) от пути.

Такое дерево можно построить за $O(n\log n)$, она будет занимать $O(n)$ памяти, запрос будет обработан за $O(\log n + k)$, где $k$ $-$ величина ответа. Как расширить эту структуру на многомерный случай и добиться сопоставимых результатов?

## Способ 1. K-d tree

K-d дерево (short for **k-dimensional tree**) — статическая структура данных для хранения точек в k-мерном пространстве. Позволяет отвечать на запрос, какие точки лежат в данном прямоугольнике.

##### Пример:
Слева $-$ как разбивается плоскость, справа $-$ соответствующее дерево.

<img src="images\kd_tree.png" style="width: 800px; float: midle" />

### Построение
Строится это дерево следующим образом: разобьём все точки на плоскости вертикальной прямой так, чтобы слева и справа от неё было примерно поровну точек (для этого посчитаем медиану первых координат). Получим подмножества для левого и правого ребёнка. Потом построим для этих подмножеств деревья, но разбивать будем уже не вертикальной, а горизонтальной прямой (для этого посчитаем медиану вторых координат). И так далее (будем считать, что $k = 2$ (случай бОльших размерностей обрабатывается аналогично), поэтому на следующем уровне вновь будем разбивать вертикальными прямыми) пока в множестве больше одной точки.

##### Визуализатор построения:
<p>Функция *kd_tree_build_visualize* выполняет визуализацию построения дерева для *pointsCount* точек до step шага.</p>
<p>Прямая, добавленная на текущем шаге, выделена красным.</p>

In [None]:
pointsCount = 20
kd_tree_build_visualize(pointsCount)

##### Реализация построения:

Пусть нам дано множество точек. Напишите функцию, которая строит 2-d tree по ним.

In [None]:
def buildKdTree(points):
    if (len(points) == 0):
        return kd_tree.KdTree(None, 0, 0, 0, 0)

    points.sort(key=keyX)
    sortX = copy.deepcopy(points)
    points.sort(key=keyY)
    sortY = copy.deepcopy(points)

    root = buildKdNode(sortX, sortY, False)
    xMin = sortX[0].x
    xMax = sortX[len(sortX) - 1].x
    yMin = sortY[0].y
    yMax = sortY[len(sortY) - 1].y
    return kd_tree.KdTree(root, xMin, yMin, xMax, yMax)

def buildKdNode(pSortX, pSortY, depth): 

    # Вы получаете на вход:
    # pSortX и pSortY — списки точек, отсортированных по x и y соответственно.
    #                   Списки содержат одни и те же точки.
    # depth - флаг, показывающий, находитесь ли вы на нечетной глубине.
    #         Изначально глубина 0, так что передается False.
    #         (так как нас интересует только четность глубины, удобнее передевать флаг, а не ее значение)  
    
    # Вам предлагается написать рекурсивную функцию, по входным данным строющуюю 2-d дерево
    # и возвращающую в buildKdTree указатель на корень построенного дерева.

    # Точки представляют из себя объекты типа Point, имеющих поля x и y.
    
    # Вершины дерева можно создавать так: Node(points),
    # где points - список точек, рассматриваемых на момент создания ноды.
    # У ноды также есть поля leftChild и rightChild - указатели на левого и правого "ребенка" соответственно.
    # node.setMediana(mediana) - метод, устанавливающий значение x или y координаты (в зависимости от глубины)
    #                            разделяющей прямой, за которую отвечает эта нода. (т. е медиана points)

    # Напишите здесь код, строящий описанное выше дерево.

    return None

test_tree_build.testBuildKdTree(buildKdTree)

##### Время построения: 
>*Построение выполняется за $O(n \log n)$*.

<br>$\triangleright$<br>
<div style="padding-left:40px"> 
Время построения обозначим $T(n)$. Поиск медианы можно сделать за линейное время, поэтому легко заметить, что:

$T(n) = O(1)$ if $n = 1$.

$T(n) = O(n) + 2 \cdot T(n / 2)$, otherwise.

Решением этого рекурентного соотношения является $T(n) = O(n \log n)$.

Также стоит отметить, что можно и не искать медиану за линейное время, а просто отсортировать все точки в самом начале и дальше использовать это. В реализации попроще, асимптотика та же.</div>
$\triangleleft$

##### Занимаемая память:
>*K-d дерево требует $O(n)$ памяти.*

<br>$\triangleright$<br>
<div style="padding-left:40px"> 
Высота дерева, очевидно, логарифмическая, а листьев всего $O(n)$. Поэтому будет $O(n)$ вершин, каждая занимает $O(1)$ памяти.</div>
$\triangleleft$

###  Запрос

Пусть нам поступил какой-то прямоугольник $R$. Нужно вернуть все точки, которые в нём лежат. Будем это делать рекурсивно, получая на вход корень дерева и сам прямоугольник $R$. Обозначим область, соответствующую вершине $v$, как $\operatorname{region(v)}$. Она будет прямоугольником, одна или более границ которого могут быть на бесконечности. $\operatorname{region(v)}$ можно явно хранить в узлах, записав при построении, или же считать при рекурсивном спуске. Если корень дерева является листом, то просто проверяем одну точку и при необходимости возвращаем её. Если нет, то смотрим, пересекают ли регионы детей прямоугольник $R$. Если да, то запускаемся рекурсивно от такого ребёнка. При этом, если регион полностью содержится в $R$, то можно возвращать сразу все точки из него. Тем самым мы, очевидно, вернём все нужные точки и только их.

##### Визуализатор выполнения запроса:

<p>Функция *kd_tree_search_visualize* выполняет визуализацию выполнения запроса для прямоугольника *R* в дереве, построенного для *pointsCount* точек.</p>
<p>Тёмно-синяя область $-$ прямоугольник *R*.<br>
Красные области $-$ регионы, полностью входящие в *R*.<br>
Светло-синие области $-$ листья, до которых дошёл наш алгоритм.<br></p>

In [None]:
xMin = 2
yMin = 2
xMax = 13
yMax = 14                        
pointsCount = 20
R = [xMin, yMin, xMax, yMax]   
kd_tree_search_visualize(R, pointsCount)

##### Реализация выполнения запроса:
Пусть нам дано построенное на множестве точек 2-d tree и прямоугольник запроса. Напишите функцию, которая находит точки, попадающие в заданный прямоугольник.

In [None]:
def pointsInRectangle(kdTree, rect):
    region = Rectangle(kdTree.xMin, kdTree.yMin, kdTree.xMax, kdTree.yMax)
    return getPoints(kdTree.root, False, region, rect)

def getPoints(node, depth, region, rect):
    
    pointsInRect = [];
    
    # Вы получаете на вход:
    # node — вершина, в которой сейчас находимся. Изначально передается корень дерева.
    #        Является объектом типа Node, поля которого описаны в задании на построение дерева.
    # depth — флаг, показывающий, находитесь ли вы на нечетной глубине. Изначально глубина 0, так что передается False.
    # region — прямогульник, за который отвечает поддерево узла node. Изначально — область, содержащая 
    #          все точки, для которых построено дерево.
    # rect — прямоугольник запроса.

    # rect и region представляет из себя объекты типа Rectangle и имеет поля: xMin, yMin, xMax, yMax.
    # Эти значения являются границами прямогульника по оси x и по оси y. 
    # Создавать Rectangle можно так: Rectangle(xMin, yMin, xMax, yMax).
    # rect.include(innerRect) - метод, проверяющий, сожержит ли rect полностью innerRect.
    #                           (если содержит - возвращает True, иначе - False)

    # Напишите здесь код рекурсивной функции, находящей точки в заданном прямоугольнике.
    # Вам нужно вернуть список объектов типа Point, которые можно создавать так: Point(x, y).
    
    return pointsInRect

test_tree_search.testKdTreePointsInRect(pointsInRectangle)

##### Время работы:
>*Перечисление точек в прямоугольнике выполняется за $O(\sqrt n + ans)$, где $ans$ — размер ответа.*

<br>$\triangleright$<br><div style="padding-left:40px"> 
Сперва заметим, что все вывод всех точек из нод дерева суммарно выполняются за $O(\text{ans})$. Поэтому достаточно доказать оценку для числа рекурсивных вызовов. А рекурсивные вызовы выполняются только для тех вершин, регионы которых пересекают R, но не содержатся в нём. Такие регионы обязательно пересекают хотя бы одну сторону заданного прямоугольника. Оценим количество регионов, которые могут пересекаться произвольной вертикальной прямой. Для горизонтальной прямой это будет аналогично.

Обозначим максимально возможное количество регионов, пересекаемых какой-либо вертикальной прямой, в дереве для $n$ точек, у которого первое разбиение делается вертикальной прямой, как $Q(n)$. Рассмотрим произвольную вертикальную прямую $l$. Она будет пересекать регион корня и какого-то одного из его детей (например, левого). При этом ни один из регионов в другом (правом) поддереве пересекать она не может. Левая половина разбита ещё на 2 части горизонтальной прямой, в каждой из них примерно $n / 4$ вершин, и они хранятся в поддереве, у которого первое разбиение делается вертикальной прямой. Это даёт нам следующее соотношение:

$Q(n) = O(1)$ if $n = 1$.
$Q(n) = 2 + 2 \cdot Q(n / 4)$, otherwise.

Глубина дерева рекурсии равна: $\log_4 n = \frac{1}{2}\log_2 n$

Следовательно, $Q(n) = O(2^{\frac{1}{2}\log_2 n}) = O(\sqrt n)$ является решением. С учетом написанного выше, получаем требуемое.</div>
$\triangleleft$

## Способ 2. Range tree

<img src="images\range_tree.png" style="width: 400px; float: right" />
Дадим следующее рекурсивное определение **range tree**:
* Одномерное **range tree** — просто дерево поиска, описанное выше.
* $d$-мерное **range tree** — дерево поиска (по первой координате $X_1$), аналогичное описанному выше, но в каждой вершине дополнительно хранящее $d-1$-мерное **range tree** (по остальным координатам $X_2 \times \cdots \times X_d$) для множества элементов, являющихся листами поддерева этой вершины.

### Построение
Построим сбалансированное двоичное дерево поиска по первой координате. Для каждого узла $v$ этого основного дерева первого уровня строим дерево второго уровня (представляющее собой $d-1$-мерное range tree для точек, являющимися листьями в поддереве с корнем $v$) и сохраняем указатель на него в $v$. Это $d-1$-мерное range tree строится точно так же, как и основное сбалансированное дерево дерево поиска, но уже по второй координате точек, и каждый узел в нем хранит указатель на $d-2$-мерное range tree для точек из своего поддерева, ограниченное последними $d-2$ координатами. Такое рекурсивное построение прекращается, когда останутся только последние координаты точек: они сохраняются в $1$-мерном range tree $-$ тоже сбалансированном двоичном дереве поиска.

##### Реализация построения:

Пусть нам дано множество точек. Напишите функцию, которая строит $2$-мерное range tree по ним.

In [None]:
def buildRangeTree(points):
    tree = range_tree.RangeTree();

    # Вы можете вставлять элементы в дерево так: tree.insert(value, innerTree)
    # Для внутреннего дерева добавляйте None в качестве innerTree

    # points представляет из себя список объектов типа Point.

    # Напишите здесь код, строящий описанное выше дерево.

    return tree

test_tree_build.testBuildRangeTree(buildRangeTree)

##### Время построения:

>*Построение выполняется за $O(n \log^{d-1} n)$*.

<br>$\triangleright$<br>
<div style="padding-left:40px"> 

Доказательство аналогично доказательству для объема занимаемой памяти и приводится ниже.

</div>
$\triangleleft$


##### Занимаемая память:
>*Range tree требует $O(n \log^{d-1} n)$ памяти.*

<br>$\triangleright$<br><div style="padding-left:40px"> 
Докажем по индукции оценку в $O(n \log^{d-1} n)$ для потребляемой памяти для структуры range tree.
* $d = 1$: в одномерном случае range tree является обычным деревом, оценка в $O(n \log^0 n) = O(n)$ очевидна.
* $d > 1$: очевидно, что основным слагаемым в оценке потребляемой памяти будут не сами хранимые элементы, а range tree меньшей размерности, хранимые в каждой вершине, которые по индукционному предположению занимают $O(n \log^{d-2} n)$ памяти. Просуммируем размеры этих range tree (суммирование по расстоянию до вершины от корня): $\sum_{k=1}^{\log n} 2^k O(\frac{n}{2^k} \log^{d-2} \frac{n}{2^k}) = \sum_{k=1}^{\log n} O(n \log^{d-2} n) = O(n \log^{d-1} n)$. 
</div>
$\triangleleft$

### Запрос
Запрос на выдачу точек, принадлежащих некому прямоугольнику $R$, выполняется следующим образом:<br>
Выполняем описанную в постановке задачи процедуру поиска элементов отрезка для проекции прямоугольника запроса на $X_1$.

При добавлении вершины к ответу рассмотрим текущую координату. Если она:
* последняя $-$ выдаем вершину в качестве ответа.
* не последняя $-$ переходим к сохраненному в корне поддерева range tree по следующим координатам и повторяем тот же алгоритм.

Таким образом, алгоритм сначала найдет по первой координате некоторый набор поддеревьев, потом выполнит поиск по второй координате внутри этих поддеревьев, и так далее.

##### Реализация выполнения запроса:
Пусть нам дано построенное на множестве точек $2$-мерное range tree и прямоугольник запроса. Напишите функцию, которая находит точки, попадающие в заданный прямоугольник.

In [None]:
def pointsInRectangle(rangeTree, rect):

    pointsInRect = [];
    
    # Вы можете использовать функцию, возвращающую список всех Node из rangeTree,
    # у которых value (значение, соответсвующему ноде) находится в интервале [vMin, vMax] так:
    # range_tree.getNodes(rangeTree, vMin, vMax),
    # причем Node отсортировны по полю value.
    
    # Кроме поля value, объект типа Node имеет поле InnerTree — указатель на внутреннее дерево
    # (для вложенного дерева он будет None).

    # rect представляет из себя объект типа Rectangle.

    # Напишите здесь код, находящий точки в заданном прямоугольнике.
    # Вам необходимо вернуть список объектов типа Point.
    
    return pointsInRect;

test_tree_search.testRangeTreePointsInRect(pointsInRectangle)

##### Время работы:
>*Перечисление точек в прямоугольнике выполняется за $O(\log^d n + ans)$, где ans $-$ количество точек ответа.*

<br>$\triangleright$<br><div style="padding-left:40px"> 
Фаза алгоритма, обрабатывающая одну координату, может выдать $O(\log n)$ поддеревьев высотой $O(\log n)$, каждое из которых будет обработано фазой по следующей координате, и т.д. Таким образом, время запроса $-$ $O(\log^d n + ans)$
</div>
$\triangleleft$

### Fractional cascading

**Fractional cascading** $-$ оптимизация, позволяющая снизить асимптотику запроса в range tree до $O(\log^{d - 1} n + k)$.

##### Описание:

Рассмотрим две упорядоченных последовательности $S_1$ и $S_2$, причем $S_2 \subset S_1$. Пусть стоит задача выдать элементы некоторого отрезка, принадлежащие этим последовательностям. Очевидно, это можно сделать бинпоиском для каждой последовательности отдельно за $O(\log n + k)$, где $k$ $-$ размер ответа; тем не менее, это решение никак не использует тот факт, что $S_2 \subset S_1$.
Теперь, зная, что $S_2 \subset S_1$, для каждого элемента $a_1 \in S_1$ будем хранить ссылку на минимальный элемент $a_2 \in S_2$, такой, что $a_2 \geq a_1$. В таком случае мы можем избавиться от двоичного поиске по $S_2$: после поиска по $S_1$, мы можем перейти по ссылке, запомненной для первого элемента ответа из $S_1$, и выдавать элементы из $S_2$, пока они лежат в отрезке запроса. Таким образом, запрос для второй последовательности может быть осуществлён за $O(1 + k)$.

##### Layered range tree:

<p>Рассмотрим $d$-мерное range tree и запрос, выполненный до $(d-1)\text{-ой}$ координаты. На последнем шаге мы выбрали набор вершин, поддеревья которых будут обработаны следующим шагом алгоритма (уже по последней координате). Всегда существует поддерево, содержащее в себе все эти вершины (корнем этого поддерева будет последняя общая вершина в путях от корня дерева к левому и правому концам отрезка запроса). Корень этого поддерева назовём $v_{split}$.
Вместо хранения деревьев, мы будем хранить массивы вершин, отсортированные по последней координате. Заметим, что множества вершин, соответствующие правому и левому детям некоторой вершины, являются подмножествами множества вершин, соответствующему их родителю.</p>
<p>Используем описанный факт, чтобы применить fractional cascading. В массивах вместе с вершинами будем хранить ссылку на минимальный элемент массива в левом ребёнке, больший или равный текущему элементу массива; аналогично будем хранить ссылки на элементы массива в правом ребёнке текущей вершины. Range tree с такой оптимизацией называют **layered range tree**.</p>
<p>Для осуществления запроса найдём двоичным поиском в массиве, хранящемся в $v_{split}$, левую границу множества элементов, лежащих в отрезке запроса. Далее, при спуске по дереву (при поиске по предпоследней координате), мы можем поддерживать левую границу текущего поддерева (границу по последней координате), используя сохранённые ссылки. При обработке поддерева по предпоследней координате, используя сохранённый в корне поддерева массив вершин и ссылку на левую границу ответа, мы можем выдать ответ за $O(1 + k_v)$, где $k_v$ $-$ размер ответа в поддереве вершины v.
Таким образом, мы избавились от поиска по дереву на последнем уровне range tree, сократив время работы до $O(\log^{d-1} n + k)$.</p>

##### Пример:

Точки, для которых построено дерево:<br>
$(2, 19)$; $(7, 10)$; $(12, 3)$; $(17, 62)$; $(21, 49)$; $(41, 95)$; $(58, 59)$; $(93, 70)$; $(5, 80)$; $(8, 37)$; $(15, 99)$; $(33, 30)$; $(52, 23)$; $(67, 89)$

<img src="images\fractional_cascading.png" style="width: 1000px; float: midle" />