# Recursion 

## What is Recursion

**재귀(Recursion)**은 어떠한 것을 정의할 때 자기 자신을 참조하는 것을 뜻한다. 컴퓨터 과학에 있어서 재귀는 자신을 정의할 때 자기 자신을 재참조하는 방법을 뜻하며, 이를 프로그래밍에 적용한 **재귀 호출(Recursive call)**의 형태로 많이 사용된다.

**재귀함수(Recursive algorithm)**는 자신을 무한히 참조할 수 있기 때문에, 무한히 참조하는 상황을 방지하기 위해 **base case** 조건을 사용해서 문제가 간단해졌다고 생각되는 지점에서 함수를 종료하게 된다.

파이썬 인터프리터를 실행하게 되면 **call stack**이라고 불리는 인메모리를 함수를 실행하고 불러오는데 사용한다. base case 없이 재귀함수를 작성하게 되면 무한히 call stack에 push 하기 때문에 모든 메모리를 소진하게 된다. 이 현상을 **stack overflow**라고 한다.

stack overflow가 발생하면 파이썬은 **Recursion Error**를 출력한다. 

## Recursive Sum 

```Python
def recursive_sum(values) : 
    if not values : 
        return 0
    return values[0] + recursive_sum(values[1:])
```

recursive_sum 함수 내부의 if statement는 base case로 재귀함수를 종료하는 조건을 의미한다. recursive_sum 내부에서는 더이상 추가로 더할 수 없는 원소가 없는 리스트에 대해서 재귀함수를 종료하게 된다.

recursive_sum 함수는 리스트 내부에 원소가 존재할 경우 return statement에서 자기 자신을 계속 참조하게 된다. 이때 다시 불러오는 리스트의 원소는 하나씩 줄어들기 때문에 문제가 간단해지는 효과가 있다. 

```Python
def list_sum(lst) : 
    if not lst :
        return 0
    return 1 + list_sum(lst) 
```

## Towers of Hanoi

하노이 타워 문제는 재귀함수의 대표적인 예시이다. 모든 디스크는 가장 큰 디스크부더 낮은 디스크 순으로 쌓여있고, 문제의 목표는 같은 순서대로 A막대에서 C막대로 디스크를 옮기는 것이다. 문제에는 두 가지 규칙이 존재한다.

1. 디스크는 한번에 하나씩만 움직일 수 있다.
2. 작은 디스크위에 큰 디스크를 올릴 수 없다.

문제를 해결하기 위해 문제를 작은 단위로 분해하면 다음의 단계를 적용할 수 있다.

1. 첫번째 하위 문제는 가장 밑에 있는 디스크를 제외한 모든 디스크를 중간 막대로 옮긴다. 
2. 두번째 하위 문제는 가장 밑에 있는 디스크를 제외한 모든 디스크를 마지막 막대 옮긴다. 
3. 세번째 하위 문제는 중간 막대에 있는 모든 디스크를 마지막 막대로 옮긴다. 
4. 첫번째, 세번째 단계를 각각 재귀적으로 적용하여 가장 밑에 있는 디스크를 마지막 막대로 옮긴다. 

```Python
def solve_hanoi(num_disks, first_peg, middle_peg, last_peg) : 
    if num_disks == 1 :
        print(f"Move the top disk from peg {first_peg} to peg {lasg_peg}.")
    else : 
        solve_hanoi(num_disks-1, first_peg, last_peg, middle_peg)
        solve_hanoi(1, first_peg, middle_peg, last_peg)
        solve_hanoi(num_disks-1, middle_peg, first_peg, last_peg)
        
solve_hanoi(4, 'A', 'B', 'C')
```

## Listing All Files in a Directory

다음 코드는 주어진 폴더 내부를 재귀적으로 조회하여 모든 파일을 조회하는 코드이다. list_files 재귀 함수 내부에서 사용할 메소드는 다음과 같다. 

- os.listdir(current_path) : 주어진 경로 내부의 모든 컨텐츠를 리스트로 return 한다. 
- os.path.isdir(current_path) : 주어진 경로가 디렉토리일 경우 True를, 파일일 경우 False를 return하여 base case에 사용한다. 
- os.path.join(current_path) : 두 경로를 합쳐 하나의 경로로 return 한다. 

```Python
import os 

def list_files(current_path) : 
    if not(os.path.isdir(current_path)) : 
        print(current_path)
    else : 
        for name in os.listdir(current_path) : 
            list_files(os.path.join(current_path, name)
```

## Merge Sort 

**Merge sort**알고리즘은 정렬 알고리즘의 하나로, 리스트의 인덱스를 재귀적으로 절반으로 나눈 뒤 각각의 리스트를 정렬하고 하나의 정렬된 리스트로 병합하는 알고리즘이다. 정렬된 두 리스트를 하나의 정렬된 리스트로 병합하는 과정은 다음과 같다. 

```Python
def merged_sorted_lists(list1, list2) : 
    index1 = 0
    index2 = 0
    merged_list = []
    
    while (index1 < len(list1)) and (index2 < len(list2)) : 
        if list1[index1] <= list2[index2] : 
            merged_list.append(list1[index1])
            index1 += 1
        else : 
            merged_list.append(list2[index2])
            index2 += 1
    merged_list += list1[index1:]
    merged_list += list2[index2:]
    return merged_list 
```

단일 리스트를 받았을 때, 두개의 리스트로 나누어 정렬하는 알고리즘은 다음과 같다. 완성된 알고리즘은 $O(N*log(N))$의 시간복잡도를 갖게 된다. 

```Python
def merge_sort(values) : 
    if len(values) < 2 : 
        return values 
    midpoint = len(values) //2 
    sorted_first_half = merge_sort(values[:midpoint])
    sorted_second_half = merge_sort(values[midpoint:])
    return merged_sorted_lists(sorted_first_half, sorted_second_half)

```

# Introduction to Binary Trees

## What is Tree Structure

기존에 학습했던 Linked List, Stack, Queues, Dictionary의 자료구조는 선형 구조로 되어있어, 자료를 검색할 때 모든 값을 순환해야 했다. **트리 구조(Tree)**는 하나 이상의 계승자로 이루어져 계층적으로 데이터를 검색할 수 있다. 즉, **이진 트리(Binary Tree)**의 경우 계승자의 수가 대부분 2개라는 의미이다.

트리 구조의 각각의 요소를 **노드(Node)**라고 하고, 노드의 계승자를 **자식(Children)**이라고 한다. 최상위 노드는 **루트(Root)**라고 하며 자식을 가지고 있지 않는 노드를 **잎(Leaves)**라고 한다. 또한 모든 부모, 자식 노드를 **내부 노드(Internals)**라고 한다. 

## Node 

이진 트리 구조는 리스트를 사용해서 데이터를 저장한다. 리스트의 각 원소는 Linked List 처럼 서로 참조 관계를 통해 정의 된다. 관례상 left_child, right_child로 정의하여 참조한다. 

```Python
class Node 
    def __init__(self, value) : 
        self.value = value 
        self.left_child = None
        self.right_child = None 
```

## Binary Search Tree 

자동으로 이진 트리 구조를 만들고 값을 검색하기 위해 **이진 검색 트리(Binary Search Tree)** 클래스를 생성한다. 일반적으로 부모의 값을 기존으로 작으면 left_child, 크면 right_child에 노드를 재귀적으로 할당한다. 이 속성을 가진 트리 구조를 이진 검색 트리라고 한다. 

### BST Inserting Value 

BST에 값을 할당하는 메소드를 생성하기 위해선 다음의 Workflow가 필요하다. 

1. root에 노드가 존재하지 않는 경우 root에 생성한 노드를 넣는다.
2. root에 노드가 존재하는 경우,
    1. 입력된 값이 노드의 값보다 작거나 같은 경우 왼쪽으로 이동한다.
        1. 현재 노드의 left_child가 None이라면 새로운 노드를 생성해서 현재 노드의 left_child로 설정한다.
        2. 현재 노드의 left_chlid가 None이 아니면 재귀적으로 현재 노드의 left_child로 이동해서 2-1을 수행한다.
    2. 입력된 값이 노드의 값보다 큰 경우 오른쪽으로 이동한다.
        1. 현재 노드의 right_child가 None이라면 새로운 노드를 생성해서 현재 노드의 right_child로 설정한다.
        2. 현재 노드의 right_child가 None이 아니면 재귀적으로 현재 노드의 right_child로 이동해서 2-2를 수행한다.
    3. 이동은 프로세스의 현재 노드에 값이 없을경우 종료한다.

```Python
class BST : 
    def __init__(self) : 
        self.root = None 
    
    def add(self, value) : 
        if self.root is None : 
            self.root = Node(value)
        else : 
            self.add_recursive(self.root, value) 
    
    def add_recursive(self, current_node, value) :
        if value <= current_node.value :
            if current_node.left_child is None :
                current_node.left_child = Node(value)
            else : 
                self.add_recursive(current_node.left_child, value) 
        else : 
            if current_node.right_child is None : 
                current_node.right_child = Node(value) 
            else : 
                self.add_recursive(current_node.right_child, value)      
```

### BST Contains 

이진 트리에 해당 값이 있는지 확인하는 메소드는 add 메소드의 방식과 동일하다. 값을 재귀적으로 비교하면서 노드를 이동하여 해당 값이 있을 경우 True를, 없다면 False를 리턴한다. Workflow는 다음과 같다. 

1. BST에 노드가 없다면 False를 리턴한다.
2. BST에 노드가 있다면 노드를 재귀적으로 이동한다. 
    1. 값이 같을 경우 True를 리턴한다.
    2. 값이 현재 노드의 값보다 작거나 같을 경우 left_chlid로 이동한다. 
    3. 값이 현재 노드보다 클 경우 right_child로 이동한다. 
    
```Python
class BST:
    
    def __init__(self):
        self.root = None
        
    def add(self, value):
        if self.root is None:
            # The root does exist yet, create it
            self.root = Node(value)
        else:
            # Find the right place and insert new value
            self.add_recursive(self.root, value)
            
    def add_recursive(self, current_node, value):
        if value <= current_node.value:
            # Go to the left
            if current_node.left_child is None:
                current_node.left_child = Node(value)
            else:
                self.add_recursive(current_node.left_child, value)
        else:
            # Go to the right
            if current_node.right_child is None:
                current_node.right_child = Node(value)
            else:
                self.add_recursive(current_node.right_child, value)
            
    def contains(self, current_node, value) : 
        if current_node is None : 
            return False 
        else : 
            if value == current_node.value : 
                return True 
            elif value <= current_node.value : 
                return self.contains(current_node.left_child, value)
            else : 
                return self.contains(current_node.right_child, value)
```

## Polishing the Implementation

add_recursive() 메소드는 BST 클래스 내부에서만 사용되는 메소드이기 때문에 클래스 외부에서 사용될 필요가 없으므로 앞에 \_를 붙여 사용되는 것을 방지한다. contains() 메소드 또한 current_node를 BST.root로 고정하기 위해 추가적인 메소드를 사용한다. 

```Python
class BST:
    
    def __init__(self):
        self.root = None
        
    def add(self, value):
        if self.root is None:
            # The root does exist yet, create it
            self.root = Node(value)
        else:
            # Find the right place and insert new value
            self._add_recursive(self.root, value)
            
    def _add_recursive(self, current_node, value):
        if value <= current_node.value:
            # Go to the left
            if current_node.left_child is None:
                current_node.left_child = Node(value)
            else:
                self._add_recursive(current_node.left_child, value)
        else:
            # Go to the right
            if current_node.right_child is None:
                current_node.right_child = Node(value)
            else:
                self._add_recursive(current_node.right_child, value)
                
    def _contains(self, current_node, value):
        if current_node is None:
            return False
        if current_node.value == value:
            return True
        if value < current_node.value:
            return self._contains(current_node.left_child, value)
        return self._contains(current_node.right_child, value)
    
    def contains(self, value) : 
        return self._contains(self.root, value)
```

## Advantages of using BST 

값을 삽입하고 검색한다고 할 때 최악 시간 복잡도는 O(N)으로 트리 구조의 높이가 가장 높을 때를 기준으로 한다. 가장 높이가 낮은 트리의 경우 2번의 검색으로 값을 찾을 수 있다. 

이상적인 나무구조는 계층이 증가할 때마다 자식 노드의 개수가 이전 노드에 비해 두개씩 분할되는 구조이다. 이때 전체 노드의 개수는 각각의 계층에 있는 전체 노드 수의 합이다. 예를 들어 h개의 계층이 존재한다고 할때 저장하고 있는 모든 노드의 수는 다음과 같다.

$$ n = 2^h - 1$$

따라서 최선의 경우에 값을 검색하는 시간 복잡도는 로그 복잡도를 따르고 있음을 알 수 있다.

# Working with Binary Search Trees

## What is AVL Trees 

이진 검색 트리는 데이터의 입력 순서에 따라 트리의 구조가 결정되게 된다. 따라서 로그 시간복잡도에서부터 선형 시간복잡도 까지 다양한 시간 복잡도가 존재하게 된다. AVL Tree 알고리즘은 기존의 BST에서 확장하여 항상 로그 시간복잡도를 갖는 이진 트리 구조를 설계한다.

클래스를 정의할 때 다른 클래스로부터 불러올 경우 super()를 사용한다. 즉 super()은 parent self를 의미한다. AVL Tree를 정의하기 위해 Node를 확장한 AVLNODE 클래스를 정의한다.

```Python
from bst import Node, BST

class AVLNode(Node) : 
    def __init__(self, value) : 
        super().__init__(value)  
        self.height = 1 
        self.imbalance = 0
```

## Node Height and Imbalance 

### Node Height 

**Height of node**는 트리 구조의 높이로 작동하게 된다. 기존의 높이와의 차이점은, 루트가 아닌 특정 노드에서 잎까지의 가장 긴 높이를 가진 노드의 수를 측정하는 것이다. 따라서 한 노드의 왼쪽 오른쪽 자식 노드의 높이를 알고 있다면 그 두 높이중 더 큰 길이를 1에 더함으로써 해당 노드의 높이를 계산할 수 있다.

$$height(node) = 1 + max(height(node.left - chlid), height(node.right - child))$$

### Node Imbalance 

**Node Imbalance**는 왼쪽 하위 나무와 오른쪽 하위 나무의 높이의 차이를 의미한다.

$$imbalance(node) = height(node.left - child) - height(node.right - child)$$

```Python
class AVLNode(Node):
    
    def __init__(self, value):
        super().__init__(value)
        self.height = 1
        self.imbalance = 0
        
    def calculate_height_and_imbalance(self) :
        if self.left_child is None : 
            left_height = 0 
        else : 
            left_height = self.left_child.height
            
        if self.right_child is None : 
            right_height = 0 
        else : 
            right_height = self.right_child.height 
            
        self.height = 1 + max(left_height, right_height) 
        self.imbalance = left_height - right_height
```

## AVL Trees 

### Keeping Height and Imbalance updated 

노드의 높이는 새로운 값을 추가할때마다 변해야한다. 따라서 BST 내부의 self.\_add\_recursive() 메소드를 변경해서 hieght와 imbalance가 업데이트 되도록 해야 한다. Node 클래스를 확장시켜 AVLNode를 생성한 것과 같이 BST클래스를 확장시켜 AVLTree 클래스를 생성한다. 자식 클래스에 부모 클래스를 불러와 작성하면 부모클래스의 메소드위에 덮어 씌워 사용할 수 있다. 

```Python
class AVLTree(BST) : 
    def __init__(self) : 
        super().__init__() 
    
    def _add_recursive(self, current_node, value) : 
        if current_node is None : 
            return AVLNode(value) 
        if value <= current_node.value : 
            current_node.left_child = self._add_recursive(current_node.left_child, value) 
        else : 
            current_node.right_child = self._add_recursive(current_node.right_child, value) 
            
        current_node.calculate_height_and_imbalance()
        return current_node 
    
    def get_height(self) : 
        return self.root.height
```

### Imbalance and Height Relation

AVLNode의 imbalance는 하위 트리의 왼쪽 오른쪽으로 편향을 확인할 수 있다. imbalance가 0일 경우, 왼쪽 오른쪽의 하위 트리는 동일한 높이를 가지고 있다는 뜻이다. 음수와 양수의 경우 각각 왼쪽과 오른쪽으로의 편향을 의미하게 된다. AVLTree의 전략은 모든 노드의 imbalance 값이 -1, 0, 1 중 하나만 가지도록 실행계획을 짜는 것이다. 

### Left Rotation

자동으로 균형적인 트리를 구조하기 위해, **Left Rotation**라는 방법을 사용한다. Left Rotation 방법에서 내부에서 회전하는 오른쪽 노드를 pivot이라고 한다. Left Rotation을 적용하면 회전하는 노드는 pivot 노드의 왼쪽 자식이 되고, pivot 노드의 왼쪽 자식은 node의 오른쪽 자식이 된다. Left Rotation을 적용하기 위해 AVLTree는 다음을 만족해야 한다. 

- Pivot 노드의 value는 node의 value 보다 항상 크다. 따라서 node는 pivot 노드의 왼쪽 자식이 될 수 있다.
- node.left의 값은 node보다 항상 작다.
- pivot.left의 값은 미리 node의 오른쪽 자식에 위치한다.
- pivot.left의 값은 pivot 노드의 값보다 항상 작다. 

```Python
class AVLTree(BST):
    
    def __init__(self):
        super().__init__()
        
    def _add_recursive(self, current_node, value):
        if current_node is None:
            return AVLNode(value)
        if value <= current_node.value:
            current_node.left_child = self._add_recursive(current_node.left_child, value)
        else:
            current_node.right_child = self._add_recursive(current_node.right_child, value)
        current_node.calculate_height_and_imbalance() 
        return current_node
        
    def get_height(self):
        return self.root.height
    
    def _rotate_left(self, node) : 
        pivot = node.right_child
        node.right_child = pivot.left_child
        pivot.left_child = node 
        
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
```

### Right Rotation

Right Rotation은 Left Rotation과 유사하게 작동하며 차이점은 회전하는 노드의 왼쪽 자식에 pivot 노드가 위치하고 있다는 것이다. Right Rotation 내부에서 node의 왼쪽 자식이 pivot이 되며, pivot의 오른쪽 자식이 node의 왼쪽 자식이 된다. 

```Python
class AVLTree(BST):
    
    def __init__(self):
        super().__init__()
        
    def _add_recursive(self, current_node, value):
        if current_node is None:
            return AVLNode(value)
        if value <= current_node.value:
            current_node.left_child = self._add_recursive(current_node.left_child, value)
        else:
            current_node.right_child = self._add_recursive(current_node.right_child, value)
        current_node.calculate_height_and_imbalance() 
        return current_node
        
    def get_height(self):
        return self.root.height
    
    def _rotate_left(self, node):
        pivot = node.right_child
        node.right_child = pivot.left_child
        pivot.left_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
    
    def _rotate_right(self, node):
        pivot = node.left_child
        node.left_child = pivot.right_child
        pivot.right_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
```

## Balancing the Tree 

앞서 Left, Right Rotation을 적용하기 위해 사용했던 트리 구조에서 조건에 따라 적절한 Rotation을 사용하는 메소드를 작성한다고 한다. node의 imbalace값이 2이고, pivot의 imbalance 값이 1이라면, Rotation을 적용하기 위한 imbalance 값의 방정식은 다음과 같다. 

$$height(pivot) = 2 + height(node.right)$$
$$height(pivot.left) = 1 + height(pivot.right)$$

이때, pivot.left의 상위 노드는 pivot이기 떄문에 다음과 같은 방정식을 생성할 수 있다. 

$$ height(pivot) = 1 + height(pivot.left) = 2 + height(pivot.right)$$
$$ height(pivot.right) = height(node.right)$$

따라서 Right Rotation이후에 pivot.right와 node.right의 imbalance 값은 0 임을 알 수 있다. Roation이후의 pivot의 imblance 값은 다음과 같다.

$$ height(node) = 1 + height(pivot.right)$$
$$height(pivot.left) = 1 + height(pivot.rithg)$$
$$height(node) = height(pivot.left)$$

따라서 pivot의 imblance는 0이 되어 밸런싱 된 트리를 생성할 수 있다. 

추가적으로 node의 imbalance가 2이고, pivot의 imblance가 -1인 경우에는 바로 Right Rotation을 적용하면 안된다. 이전과 같이 높이를 기준으로 계산을 해봤을 때, 고정되어 있어야 할 pivot.left의 height가 nod.right와 같기 때문이다. 따라서 이 경우에는 pivot에 대해서 left rotation을 적용해서 새로운 pivot의 imbalance를 1로 변경하고 right rotation을 적용해야 한다. 

```Python
class AVLTree(BST):
    
    def __init__(self):
        super().__init__()
        
    def _add_recursive(self, current_node, value):
        if current_node is None:
            return AVLNode(value)
        if value <= current_node.value:
            current_node.left_child = self._add_recursive(current_node.left_child, value)
        else:
            current_node.right_child = self._add_recursive(current_node.right_child, value)
        current_node.calculate_height_and_imbalance() 
        return current_node
        
    def get_height(self):
        return self.root.height
    
    def _rotate_left(self, node):
        pivot = node.right_child
        node.right_child = pivot.left_child
        pivot.left_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
    
    def _rotate_right(self, node):
        pivot = node.left_child
        node.left_child = pivot.right_child
        pivot.right_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
    
    # Add method here
    def _balance(self, node):
        if node.imbalance == 2:
            pivot = node.left_child
            if pivot.imbalance == 1:
                return self._rotate_right(node)
            else : 
                node.left_child = self._rotate_left(pivot) 
                return self._rotate_right(node)

 

반대로 node의 imbalance가 -2 일때는 앞서 작성했던 코드와 비슷하게 작성을 한다. 다만 self.rotate_left(node)를 적용하고 -2, 1로 imbalance의 값이 일정하지 않을 경우 pviot에 대해 self._rotate_right(pivot)을 적용하고 left rotation을 시행한다.

 

class AVLTree(BST):
    
    def __init__(self):
        super().__init__()
        
    def _add_recursive(self, current_node, value):
        if current_node is None:
            return AVLNode(value)
        if value <= current_node.value:
            current_node.left_child = self._add_recursive(current_node.left_child, value)
        else:
            current_node.right_child = self._add_recursive(current_node.right_child, value)
        current_node.calculate_height_and_imbalance() 
        return current_node
        
    def get_height(self):
        return self.root.height
    
    def _rotate_left(self, node):
        pivot = node.right_child
        node.right_child = pivot.left_child
        pivot.left_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
    
    def _rotate_right(self, node):
        pivot = node.left_child
        node.left_child = pivot.right_child
        pivot.right_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot

    def _balance(self, node):
        if node.imbalance == 2:
            pivot = node.left_child
            if pivot.imbalance == 1:
                return self._rotate_right(node)
            else:
                node.left_child = self._rotate_left(pivot)
                return self._rotate_right(node)
        elif node.imbalance == -2: 
            pivot = node.right_child 
            if pivot.imbalance == -1:
                return self._rotate_left(node)
            else : 
                node.right_child = self._rotate_right(pivot)
                return self._rotate_left(node)
```

## Balancing on Insertion 

값을 삽입했을 때 AVLNode의 height와 imbalance 속성을 자동으로 업데이트 한 것처럼, 자동으로 밸런싱을 진행하도록 AVLTree.\_add\_recursive()메소드 내부에 imblance가 2 이상이 되면 AVLTree.\_balance() 메소드를 통해 imbalance가 -1, 1만을 갖도록 rotation을 진행하도록 한다. 

```Python
class AVLTree(BST):
    
    def __init__(self):
        super().__init__()
        
    def _add_recursive(self, current_node, value):
        if current_node is None:
            return AVLNode(value)
        if value <= current_node.value:
            current_node.left_child = self._add_recursive(current_node.left_child, value)
        else:
            current_node.right_child = self._add_recursive(current_node.right_child, value)
        current_node.calculate_height_and_imbalance() 
        
        if abs(current_node.imbalance) == 2 : 
            current_node = self._balance(current_node)         
        return current_node
        
    def get_height(self):
        return self.root.height
    
    def _rotate_left(self, node):
        pivot = node.right_child
        node.right_child = pivot.left_child
        pivot.left_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot
    
    def _rotate_right(self, node):
        pivot = node.left_child
        node.left_child = pivot.right_child
        pivot.right_child = node
        node.calculate_height_and_imbalance()
        pivot.calculate_height_and_imbalance()
        return pivot

    def _balance(self, node):
        if node.imbalance == 2:
            pivot = node.left_child
            if pivot.imbalance == 1:
                return self._rotate_right(node)
            else:
                node.left_child = self._rotate_left(pivot)
                return self._rotate_right(node)
        else:
            pivot = node.right_child
            if pivot.imbalance == -1:
                return self._rotate_left(node)
            else:
                node.right_child = self._rotate_right(pivot)
                return self._rotate_left(node)

# The AVLTree class is available
import random
test_values = [random.randrange(10000) for _ in range(1000)]

avl = AVLTree()
for value in test_values : 
    avl.add(value)
print(f"Totl height of root node is : {avl.get_height()}")

# Output : Total height of root node is : 12
```

# Implementing Binary Heap 

## What is Binary Heap 

이즌 트리 구조는 O(log(N))의 시간복잡도를 가지고 있기 때문에, 데이터를 삭제하고 검색하는데에 있어 효율적으로 작업을 할 수 있다. **Heap** 자료구조는 O(1)의 시간복잡도로 데이터 셋의 최솟값과 최댓값을 보유하고 있다. 데이터 엔지니어링에서 heap 자료구조는 우선순위를 가지고 있는 작업을 스케듈링하는데 사용된다.

**Min-heap** 구조는 각각의 노드가 왼쪽 자식과 오른쪽 자식의 노드값보다 작거나 같은 값으로 구성되어 있다. 반대로 **Max-heap**의 경우, 각각의 노드가 왼쪽 자식과 오른쪽 자식의 노드값보다 크거나 같은 값으로 구성되어 있다. 

## Min Heap 

Min heap의 경우 노드에 값을 저장하는 대신에 단계별로 배열되어 있는 리스트들에 값을 저장하는 형태로 존재한다. 만일 값을 추가하게 되면, 노드의 값이 10인 노드에 왼쪽 자식부터 값을 넣게 된다. 값은 왼쪽부터 차기때문에 중간에 비어있는 노드가 존재할 수 없게 된다. 

```Python
class MinHeap :
    def __init__(self) : 
        self.values = []      
```

## Indexes of child node

Binary min heap를 list를 사용해서 표현하기 위해, 각각의 노드는 list의 인덱스로 추상화할 수 있다. 예를들어, root 노드의 경우에는 인덱스 0을, root 노드의 left child 노드의 경우 인덱스 1로 매핑할 수 있다. 따라서 노드가 i의 인덱스를 가지고 있다면, 노드의 왼쪽 자식은 2i + 1의 인덱스에, 오른쪽 자식은 2i + 2의 인덱스를 갖게 된다.

```Python
class MinHeap:
    
    def __init__(self):
        self.values = []
        
    def _left_child(self, node):
        return 2 * node + 1

    def _right_child(self, node):
        return 2 * node + 2
```

## Indexes of parent node 

자식 노드가 2i + 1의 인덱스를 갖고 있을 때, 역으로 부모의 인덱스를 계산하려고 한다. 이때 부모의 인덱스는 자식 인덱스 i를 기준으로 [(i - 1)/2]의 인덱를 갖게 된다. 위 notation은 math.floor() 메소드나 // 연산자를 통해 구현할 수 있다. 

```Python
class MinHeap:
    
    def __init__(self):
        self.values = []
        
    def _left_child(self, node):
        return 2 * node + 1

    def _right_child(self, node):
        return 2 * node + 2

    def _parent(self, node) :
        return (node - 1) // 2
```

## Adding Values

Min heap의 부모 노드는 자식 노드들보다 반드시 작아야 한다는 규칙이 존재한다. 따라서 값을 추가할 때 이 규칙을 만족하는 구조를 유지하며 값을 추가해야 한다. 따라서 값을 추가할 때 값이 부모 노드의 값보다 작다면 부모 노드로 재귀적으로 바꾸는 메소드를 추가해야 한다. MinHeap.add() 클래스는 해당 기능을 구현하기 위해 추가적인 내장 메소드들이 필요하다. 

- _swap() : 주어진 두 인덱스에 대해서 리스트 내부의 값을 변경한다.
- _heapify_up() : 마지막 노드에서부터 _swap()메소드를 사용해서 순서를 올바르게 변경한다.
- add() : 리스트 마지막에 입력되는 값에 대해서 _heapify_up() 메소드를 재귀적으로 수행한다.

```Python
class MinHeap:
    
    def __init__(self):
        self.values = []
        
    def _left_child(self, node):
        return 2 * node + 1

    def _right_child(self, node):
        return 2 * node + 2
    
    def _parent(self, node):
        return (node - 1) // 2

    def _swap(self, node1, node2):
        tmp = self.values[node1]
        self.values[node1] = self.values[node2]
        self.values[node2] = tmp

    def add(self, value):
        self.values.append(value)
        self._heapify_up(len(self.values) - 1)
    
    def _heapify_up(self, node): 
        parent = self._parent(node) 
        if (node != 0) and self.values[parent] > self.values[node]:
            self._swap(node, parent) 
```

## Getting the Minimum value 

```Python
class MinHeap:
    
    def __init__(self):
        self.values = []
        
    def _left_child(self, node):
        return 2 * node + 1

    def _right_child(self, node):
        return 2 * node + 2
    
    def _parent(self, node):
        return (node - 1) // 2

    def _swap(self, node1, node2):
        tmp = self.values[node1]
        self.values[node1] = self.values[node2]
        self.values[node2] = tmp

    def add(self, value):
        self.values.append(value)
        self._heapify_up(len(self.values) - 1)
    
    def _heapify_up(self, node):
        parent = self._parent(node)
        if node > 0 and self.values[parent] > self.values[node]:
            self._swap(node, parent)
            self._heapify_up(parent)
    
    def min_value(self): 
        return self.values[0] 
    
heap = MinHeap()
for value in [5, 3, 1, 7, 2, 6] : 
    heap.add(value)
minimum = heap.min_value()
```

## Removing the Mimimum 

Min Heap의 최속값은 self.\_heapify_up() 메소드에 의해 자동으로 루트 노드에 위치하게 된다. 하지만 최솟값을 제거했을 때 새로운 값으로 업데이트해야 한다. 이때 가장 뒤에있는 값과 앞에있는 값을 바꾸는 방식으로 새로운 값을 업데이트 한다. 이때, Min heap의 노드값의 규칙은 자동으로 깨지게 되기 때문에 루트 노드부터 아래로 진행해 구조를 새롭게 업데이트 해야한다. 

self.\_heapify_down() 메소드는 현재 루트 값을 변수에 저장하고 마지막 노드와 값을 바꾼뒤에 리스트의 마지막 원소를 제거하고 적절한 순서로 재배열 한다. 

```Python
class MinHeap:
    
    def __init__(self):
        self.values = []
        
    def _left_child(self, node):
        return 2 * node + 1

    def _right_child(self, node):
        return 2 * node + 2
    
    def _parent(self, node):
        return (node - 1) // 2

    def _swap(self, node1, node2):
        tmp = self.values[node1]
        self.values[node1] = self.values[node2]
        self.values[node2] = tmp

    def add(self, value):
        self.values.append(value)
        self._heapify_up(len(self.values) - 1)
    
    def _heapify_up(self, node):
        parent = self._parent(node)
        if node > 0 and self.values[parent] > self.values[node]:
            self._swap(node, parent)
            self._heapify_up(parent)
            
    def min_value(self):
        return self.values[0]
    
    def pop(self):
        self._swap(0, len(self.values) - 1)
        ret_value = self.values.pop()
        self._heapify_down(0)
        return ret_value
    
    def _heapify_down(self, node): 
        left_child = self._left_child(node)
        right_child = self._right_child(node) 
        min_node = node 
        if left_child < len(self.values) and self.values[left_child] < self.values[node] : 
            min_node = left_child
        if right_child < len(self.values) and self.values[right_child] < self.values[min_node] : 
            min_node = right_child
        if min_node != node : 
            self._swap(node, min_node)
            self._heapify_down(min_node)
```

# Performance Boosts of Using a B-Tree

## What is B-Tree 

**B-Tree**는 데이터베이스와 파일 시스템에서 널리 사용되는 트리 자료 구조의 일종으로, 이진 트리를 확장해 하나의 노드가 가질 수 있는 자식 노드의 최대 숫자가 2보다 큰 트리 구조이다. 방대한 양의 저장된 자료를 검색해야 하는 경우 검색어와 자료를 일일이 비교하는 방식은 비효율적이다. B-Tree는 자료를 정렬된 상태로 보관하고, 삽입 및 삭제를 대수시간으로 할 수 있다. 

B-Tree는 데이터를 key-value 쌍으로 저장하여 dictionary가 허용하지 않는 **범위 탐색(range search)**를 가능하게 해준다. B-Tree 구조는 다음과 같은 쿼리문을 데이터베이스에서 검색하는데 효율적인 방법을 제공한다.

```SQL
SELECT * 
FROM Products
WHERRE price BETWEEN 10 AND 20;
```

## B-Tree Node

B-Tree의 노드는 key와 values를 동일한 길이의 리스트로 입력받는다. 리스트 내부의 인덱스는 각각의 key와 value를 나타낸다. B-Tree에서 하나의 노드는 2개 이상의 자식 노드를 가질 수 있으며, B-Tree의 부모 노드의 인덱스의 수에 따라 자식 노드의 개수가 정해지게 된다. 자식 노드는 부모 노드의 인덱스에 각각 매칭되어 있다. 아래의 메소드는 B-Tree Node를 정의하는 기본적인 메소드이다.
 
- \_\_init\_\_(self, keys, values, children, parent) : 노드를 정의하는 keys, values, children, parent 리스트를 초기화한다.
- set_children(self, children) : 입력받은 children 리스트를 children으로 지정한다. 생성된 children을 parent와 연결한다.
- \_\_len\_\_(self) : Node 클래스가 len() 내장 메소드를 사용할 수 있게 한다.
- is_leaf(self) : 현재 노드가 마지막 노드(leaf)인지 반환한다.
- contains_key(self, key) : B-tree 노드 내부에 key가 존재하는지 확인한다.
- get_value(self, key) : B-tree 노드 내부에 입력받은 key에 대한 value를 가져온다.

```Python
class Node:
    
    def __init__(self, keys = None, values = None, children = None, parent = None):
        self.keys = keys or []
        self.values = values or []
        self.parent = parent 
        self.set_children(children) 
        
    def set_children(self, children):
        self.children = children or []
        for child in self.children :
            child.parent = self 
            
    def __len__(self): 
        return len(self.values)
    
    def is_leaf(self): 
        return len(self.children) == 0 
    
    def contains_key(self, key):
        return key in self.keys 
    
    def get_value(self, key):
        if self.contains_key(key) :
            return self.values[self.keys.index(key)]
        else : 
            return None 
```

## Execution of B-Tree Node 

```Python
# Create the nodes
root = Node([6, 42], ['a', 'b'])

child1 = Node([3], ['c'])
child2 = Node([11], ['d'])
child3 = Node([47], ['e'])

child1_1 = Node([1], ['f'])
child1_2 = Node([4], ['g'])

child2_1 = Node([7, 9], ['h'])
child2_2 = Node([20], ['i'])

child3_1 = Node([45], ['j'])
child3_2 = Node([49, 51], ['k'])

# Connect nodes
root.set_children([child1, child2, child3])
child1.set_children([child1_1, child1_2])
child2.set_children([child2_1, child2_2])
child3.set_children([child3_1, child3_2])
```

## Inserting Values 

B-Tree 내부에서 효율적으로 검색하기 위해서, 각각의 노드의 key들은 정렬되어 있어야 한다. Node.keys 리스트 내부에 새로운 key를 추가한다고 할 때, 이진 탐색 알고리즘을 사용하면 정렬된 리스트에서 값을 삽입하려고 하는 인덱스를 효율적으로 찾을 수 있다. 해당 메소드는 bisect 모듈의 bisect.bisect() 메소드를 통해 쉽게 구현 가능하다.

- get\_insert\_index(self, key) : 현재 엔트리에 삽입할 인덱스를 찾는다. 
- insert\_entry(self, key, value) : self.get\_insert\_index 메소드에서 계산된 인덱스에 엔트리(key, value)를 삽입한다. 

```Python
import bisect 

class Node:
    
    def __init__(self, keys = None, values = None, children = None, parent = None):
        self.keys = keys or []
        self.values = values or []
        self.parent = parent 
        self.set_children(children) 
        
    def set_children(self, children):
        self.children = children or []
        for child in self.children :
            child.parent = self 
            
    def __len__(self): 
        return len(self.values)
    
    def is_leaf(self): 
        return len(self.children) == 0 
    
    def contains_key(self, key):
        return key in self.keys 
    
    def get_value(self, key):
        if self.contains_key(key) :
            return self.values[self.keys.index(key)]
        else : 
            return None 
        
    def get_insert_index(self, key) : 
        return bisect.bisect(self.keys, key)
    
    def insert_entry(self, key, value)
        insert_index = self.get_insert_index(key)
        self.keys.insert(insert_index, key)
        self.values.insert(insert_index, value) 
        return insert_index 
```

## Spliting Node 

- split_no_parent(self) : 현재 노드에 대해서 왼쪽 노드, 부모 노드, 오른쪽 노드를 생성한다.
- insert_child(self, insert_index, child) : 생성된 노드를 현재 노드의 자식 노드에 추가한다.
- split_with_parent(self) : 현재 노드에 대해서 왼쪽 노드, 부모 노드, 오른쪽 노드로 분리한다. 생성된 부모 노드는 현재 부모노드의 엔트리의 값으로 추가하고, 현재 부모 노드의 자식 노드에 생성된 인덱스로 오른쪽 노드를 추가한다.

### Splitting Parentless Node 

B-Tree의 개념 중 하나는 엔트리의 수가 특정 기준을 넘어가면 노드를 두개로 분리하는 것이다. 이 관계는 엔트리의 수를 일정 수 이하로 유지하게 해주며 노드 내부에 엔트리를 삽입할 때 상수 시간 복잡도를 갖게 해준다. Node.split_no_parent() 메소드는 입력받은 엔트리에 대해서 왼쪽노드(self), 부모노드(parent), 오른쪽 노드(right_node)로 분리하여 하나의 트리구조를 생성한다. 

```Python
import bisect 

class Node:
    
    def __init__(self, keys = None, values = None, children = None, parent = None):
        self.keys = keys or []
        self.values = values or []
        self.parent = parent 
        self.set_children(children) 
        
    def set_children(self, children):
        self.children = children or []
        for child in self.children :
            child.parent = self 
            
    def __len__(self): 
        return len(self.values)
    
    def is_leaf(self): 
        return len(self.children) == 0 
    
    def contains_key(self, key):
        return key in self.keys 
    
    def get_value(self, key):
        if self.contains_key(key) :
            return self.values[self.keys.index(key)]
        else : 
            return None 
        
    def get_insert_index(self, key) : 
        return bisect.bisect(self.keys, key)
    
    def insert_entry(self, key, value)
        insert_index = self.get_insert_index(key)
        self.keys.insert(insert_index, key)
        self.values.insert(insert_index, value) 
        return insert_index 
    
    def split_no_parent(self):
        self_index = len(self) // 2
        key_to_move_up = self.keys[self_index]
        value_to_move_up = self.keys[self_index]
        right_node = Node(self.keys[self_index+1:],
                          self.values[self_index+1:],
                          self.children[self_index+1:])
        self.keys = self.keys[:split_index]
        self.values = self.values[:split_index]
        self.children = self.children[:split_index+1]
        parent = Node([key_to_move_up], [value_to_move_up], [self, right_node])
        return parent
```

### Inserting a Child 

부모 노드가 존재하더라도 어떤 노드에 대해서도 분할되는 메소드를 생성하기 위해 일반화하는 메소드를 생성해야 한다. 먼저 특정 인덱스에 child노드를 삽입하는 메소드를 생성해야 한다. 

```Python
import bisect 

class Node:
    
    def __init__(self, keys = None, values = None, children = None, parent = None):
        self.keys = keys or []
        self.values = values or []
        self.parent = parent 
        self.set_children(children) 
        
    def set_children(self, children):
        self.children = children or []
        for child in self.children :
            child.parent = self 
            
    def __len__(self): 
        return len(self.values)
    
    def is_leaf(self): 
        return len(self.children) == 0 
    
    def contains_key(self, key):
        return key in self.keys 
    
    def get_value(self, key):
        if self.contains_key(key) :
            return self.values[self.keys.index(key)]
        else : 
            return None 
        
    def get_insert_index(self, key) : 
        return bisect.bisect(self.keys, key)
    
    def insert_entry(self, key, value)
        insert_index = self.get_insert_index(key)
        self.keys.insert(insert_index, key)
        self.values.insert(insert_index, value) 
        return insert_index 
    
    def split_no_parent(self):
        self_index = len(self) // 2
        key_to_move_up = self.keys[self_index]
        value_to_move_up = self.keys[self_index]
        right_node = Node(self.keys[self_index+1:],
                          self.values[self_index+1:],
                          self.children[self_index+1:])
        self.keys = self.keys[:split_index]
        self.values = self.values[:split_index]
        self.children = self.children[:split_index+1]
        parent = Node([key_to_move_up], [value_to_move_up], [self, right_node])
        return parent
    
    def insert_child(self, insert_index, child):
        self.children.insert(insert_index, child) 
        child.parent = self 
```

### Spliting Nodes

부모 노드가 존재하는 노드를 분리하는 과정도 비슷하다. 차이점은 엔트리의 중간값을 포함하는 새로운 부모 노드를 생성하는 것이 아니라, 기존에 존재하는 부모 노드로 중간값을 옮기는 것이다. 

```Python
import bisect 

class Node:
    
    def __init__(self, keys = None, values = None, children = None, parent = None):
        self.keys = keys or []
        self.values = values or []
        self.parent = parent 
        self.set_children(children) 
        
    def set_children(self, children):
        self.children = children or []
        for child in self.children :
            child.parent = self 
            
    def __len__(self): 
        return len(self.values)
    
    def is_leaf(self): 
        return len(self.children) == 0 
    
    def contains_key(self, key):
        return key in self.keys 
    
    def get_value(self, key):
        if self.contains_key(key) :
            return self.values[self.keys.index(key)]
        else : 
            return None 
        
    def get_insert_index(self, key) : 
        return bisect.bisect(self.keys, key)
    
    def insert_entry(self, key, value)
        insert_index = self.get_insert_index(key)
        self.keys.insert(insert_index, key)
        self.values.insert(insert_index, value) 
        return insert_index 
    
    def split_no_parent(self):
        self_index = len(self) // 2
        key_to_move_up = self.keys[self_index]
        value_to_move_up = self.keys[self_index]
        right_node = Node(self.keys[self_index+1:],
                          self.values[self_index+1:],
                          self.children[self_index+1:])
        self.keys = self.keys[:split_index]
        self.values = self.values[:split_index]
        self.children = self.children[:split_index+1]
        parent = Node([key_to_move_up], [value_to_move_up], [self, right_node])
        return parent
    
    def insert_child(self, insert_index, child):
        self.children.insert(insert_index, child) 
        child.parent = self 
        
    def split_with_parent(self): 
        self_index = len(self) // 2
        key_to_move_up = self.keys[self_index]
        value_to_move_up = self.values[self_index]
        right_node = Node(self.keys[self_index+1:],
                          self.values[self_index+1:],
                          self.children[self_index+1:])
        self.keys = self.keys[:split_index]
        self.values = self.values[:split_index]
        self.children = self.children[:split_index+1]
        insert_index = self.parent.insert_entry(key_to_move_up, value_to_move_up) 
        self.parent.insert_child(insert_index+1, right_node)     
```
 
## Finalizing the Node Implementation 

현재 노드를 분할한다고 할 때, 부모 노드가 없다면 self.split_no_parent() 메소드를, 부모 노드가 존재한다면 self.split_with_parent() 메소드를 실행하는 self.split() 메소드를 추가한다. 

```Python
import bisect 

class Node:
    
    def __init__(self, keys = None, values = None, children = None, parent = None):
        self.keys = keys or []
        self.values = values or []
        self.parent = parent 
        self.set_children(children) 
        
    def set_children(self, children):
        self.children = children or []
        for child in self.children :
            child.parent = self 
            
    def __len__(self): 
        return len(self.values)
    
    def is_leaf(self): 
        return len(self.children) == 0 
    
    def contains_key(self, key):
        return key in self.keys 
    
    def get_value(self, key):
        if self.contains_key(key) :
            return self.values[self.keys.index(key)]
        else : 
            return None 
        
    def get_insert_index(self, key) : 
        return bisect.bisect(self.keys, key)
    
    def insert_entry(self, key, value)
        insert_index = self.get_insert_index(key)
        self.keys.insert(insert_index, key)
        self.values.insert(insert_index, value) 
        return insert_index 
    
    def split_no_parent(self):
        self_index = len(self) // 2
        key_to_move_up = self.keys[self_index]
        value_to_move_up = self.keys[self_index]
        right_node = Node(self.keys[self_index+1:],
                          self.values[self_index+1:],
                          self.children[self_index+1:])
        self.keys = self.keys[:split_index]
        self.values = self.values[:split_index]
        self.children = self.children[:split_index+1]
        parent = Node([key_to_move_up], [value_to_move_up], [self, right_node])
        return parent
    
    def insert_child(self, insert_index, child):
        self.children.insert(insert_index, child) 
        child.parent = self 
        
    def split_with_parent(self): 
        self_index = len(self) // 2
        key_to_move_up = self.keys[self_index]
        value_to_move_up = self.values[self_index]
        right_node = Node(self.keys[self_index+1:],
                          self.values[self_index+1:],
                          self.children[self_index+1:])
        self.keys = self.keys[:split_index]
        self.values = self.values[:split_index]
        self.children = self.children[:split_index+1]
        insert_index = self.parent.insert_entry(key_to_move_up, value_to_move_up) 
        self.parent.insert_child(insert_index+1, right_node)     
        return self.parent 
        
    def split(self):
        if self.parent is None : 
            return self.split_no_parent() 
        else : 
            return self.split_with_parent() 
```

# Implement a B-Tree data structure

## Properties of B-Tree

B-Tree 자료구조는 아래의 속성을 가지고 있다.

- 하나의 노드의 내부에는 정렬된 키의 리스트가 존재한다.
- 리프 노드가 아닌 자식으시 수는 부모 노드의 키의 개수보다 하나 더 많다.
- 따라서 하나의 노드에는 키와 자식 노드가 교차적으로 존재한다.(자식노드, 키, 자식노드, 키, ...)
- 이진 트리 구조에 따라 자식 노드의 키는 범위적인 값을 가진다. 

4번 속성의 의미는 다음과 같다. 루트 노드의 키가 [6,42]가 존재할 때, 자식 노드는 총 3개의 범위로 존재하게 된다. 이때 존재하는 자식 노드의 범위는 각각 child1 < 6, 6 < child2 < 42, child3 > 42로 존재하게 된다. 

## B-Tree 

### B-Tree initialization

B-Tree는 이전에 정의했던 B-Tree Node를 기반으로 구성되었으며, 추가적으로 root, height, size 속성을 보유하고 있다. 

```Python
from node import Node 

class BTree:
    
    def __init__(self):
        self.root = root
        self.height = 0
        self.size = 0 
        
    def __len__(self): 
        return self.size 
```

### Key Lookup

이전의 구조에서 key 9를 찾는다고 한다. 먼저 루트 노드에 존재하는 키 중 9의 값이 존재하는 지 확인한다. 다음 노드를 이동할 때, 루트 노드의 인덱스 0에 매칭되는 자식 노드의 값은 6보다 작다. 따라서 9의 키가 존재하는 자식 노드로 이동하는 방법은 인덱스 1에 해당하는 두번째 자식 노드(6~42)로 이동하면 된다. 이후 동일한 방법으로 두번째 노드에서 왼쪽 자식노드로 이동하면 값을 찾을 수 있다. 

```Python
from node import Node 

class BTree:
    
    def __init__(self):
        self.root = root
        self.height = 0
        self.size = 0
        
    def __len__(self):
        return self.size
    
    def find_node(self, current_node, key):
        if current_node.contains_key(key):
            return current_node
        if current_node.is_leaf():
            return None 
        child_index = current_node.get_insert_index(key)
        current_node = current_node.children[child_index]
        return self.find_node(current_node, key) 
```

self.find_node()는 현재 노드를 기준으로 키의 값이 존재하는지 재귀적으로 조회하는 메소드이다. 따라서 B-Tree 전체에 대해서 루트 노드부터 시작하기 위해 새로운 메소드를 정의해야 한다. self.contains() 메소드는 self.\_find\_node() 메소드에서 B-Tree 내부에 key의 존재 여부를 확인하는 메소드이다. 

```Python
from node import *

class BTree:

    def __init__(self):
        self.root = Node()
        self.height = 0
        self.size = 0

    def __len__(self):
        return self.size
    
    def _find_node(self, current_node, key):
        if current_node.contains_key(key):
            return current_node
        if current_node.is_leaf():
            return None
        child_index = current_node.get_insert_index(key)
        return self._find_node(current_node.children[child_index], key)
    
    def contains(self, key): 
        node = self._find(self.root, key) 
        return not node is None
```

self.get_value() 메소드는 self.\_find\_node() 메소드를 사용해 찾은 노드에 대해서 key에 매칭되는 value를 리턴하는 메소드이다. 

```Python
from node import *

class BTree:

    def __init__(self):
        self.root = Node()
        self.height = 0
        self.size = 0

    def __len__(self):
        return self.size
    
    def _find_node(self, current_node, key):
        if current_node.contains_key(key):
            return current_node
        if current_node.is_leaf():
            return None
        child_index = current_node.get_insert_index(key) 
        return self._find_node(current_node.children[child_index], key)
    
    def contains(self, key):
        node = self._find_node(self.root, key)
        return not node is None
    
    def get_value(self, key): 
        node = self._find_node(self.root, key)
        if node is None : 
            return None 
        else : 
            return node.get_value(key)
```

### Adding Entries 

새로운 엔트리는 기존에 존재하는 키의 순서 속성을 보존하기 위해 아무렇게나 추가되서는 안된다. 이전의 구조에서 키가 46인 새로운 엔트리를 추가한다고 한다. 새로운 엔트리를 추가하는 방법은 B-Tree의 속성을 만족하는 범위의 노드에 값을 추가해야 한다. 

루트 노드의 마지막 키의 범위가 child3 > 42이므로, 새로운 엔트리는 3번째 자식 노드로 이동해야 한다. 세번째 자식 노드에서도 동일한 방법을 이용해서 리프노드에 도착하면 Node.insert_entry() 메소드를 사용해서 엔트리를 추가하면 된다. 

```Python
from node import *

class BTree:

    def __init__(self):
        self.root = Node()
        self.height = 0
        self.size = 0

    def __len__(self):
        return self.size
    
    def _find_node(self, current_node, key):
        if current_node.contains_key(key):
            return current_node
        if current_node.is_leaf():
            return None
        child_index = current_node.get_insert_index(key) 
        return self._find_node(current_node.children[child_index], key)
    
    def contains(self, key):
        node = self._find_node(self.root, key)
        return not node is None
    
    def get_value(self, key):
        node = self._find_node(self.root, key)
        if node is None:
            return None
        return node.get_value(key)
    
    def add(self, current_node, key, value):
        if current_node.is_leaf() : 
            current_node.insert_entry(key, value) 
        else : 
            child_index = current_node.get_insert_index(key)
            return self.add(current_node.chlidren[child_index], key, value)
```

self.\_find\_node() 메소드와 마찬가지로 self.add() 메소드는 current_node에 대해서 재귀적으로 수행한다. 따라서 루트 노드에서 시작하는 새로운 메소드를 추가한다.

```Python
from node import *

class BTree:

    def __init__(self):
        self.root = Node()
        self.height = 0
        self.size = 0

    def __len__(self):
        return self.size
    
    def _find_node(self, current_node, key):
        if current_node.contains_key(key):
            return current_node
        if current_node.is_leaf():
            return None
        child_index = current_node.get_insert_index(key) 
        return self._find_node(current_node.children[child_index], key)
    
    def contains(self, key):
        node = self._find_node(self.root, key)
        return not node is None
    
    def get_value(self, key):
        node = self._find_node(self.root, key)
        if node is None:
            return None
        return node.get_value(key)
    
    def _add(self, current_node, key, value):
        if current_node.is_leaf(): 
            current_node.insert_entry(key, value)
        else:
            child_index = current_node.get_insert_index(key)
            self._add(current_node.children[child_index], key, value)
            
    def add(self, key, value): 
        self._add(self.root, key, value) 
        self.size += 1
```

## Node Spliting 

하나의 노드에 계속해서 값이 추가되면 결국 트리 내부의 엔트리를 조회할 때 O(N)의 시간 복잡도가 발생하게 된다. 이를 해결하고자 할때, Node.split() 메소드를 사용하여 문제를 해결할 수 있다. 노드 내부의 엔트리의 수가 일정한 기준(self.split_threshold)을 넘게 되면, 노드가 쪼게지게 된다(Use Node.split()). 노드가 쪼개지면서 결국에 루트 노드의 엔트리의 수가 기준치를 넘게 되면 루트노드가 쪼개지기 때문에 root속성과 height 속성 변화하기 때문에 업데이트를 해줘야 한다.

```Python
class BTree:

    def __init__(self, split_threshold):
        self.root = Node()
        self.height = 0
        self.size = 0
        self.split_threshold = split_threshold

    def __len__(self):
        return self.size
    
    def _find_node(self, current_node, key):
        if current_node.contains_key(key):
            return current_node
        if current_node.is_leaf():
            return None
        child_index = current_node.get_insert_index(key) 
        return self._find_node(current_node.children[child_index], key)
    
    def contains(self, key):
        node = self._find_node(self.root, key)
        return not node is None
    
    def get_value(self, key):
        node = self._find_node(self.root, key)
        if node is None:
            return None
        return node.get_value(key)
    
    def _add(self, current_node, key, value):
        if current_node.is_leaf(): 
            current_node.insert_entry(key, value)
        else:
            child_index = current_node.get_insert_index(key)
            self._add(current_node.children[child_index], key, value)
        
        if len(current_node) > self.split_threshold : 
            parent = current_node.split()
            if current_node == self.root : 
                self.root = parent 
                self.height += 1
    
    def add(self, key, value):
        self._add(self.root, key, value)
        self.size += 1
```

## Complexity Analysis 

BTree.contains()와 BTree.add() 메소드의 시간 복잡도를 분석한다고 하자. 두 메소드는 루트부터 리프까지 통과하게 된다. 따라서 전체 시간 복잡도는 루트부터 리프까지의 노드의 수에 노드를 처리하는 시간복잡도를 곱하면 된다.

 

루트부터 리프 노드까지 경로상에 존재하는 모든 노드의 수를 O(H)라고 할때, 노드에 저장되어 있는 엔트리를 처리하는데 필요한 시간복잡도를 O(V)라고 하면 전체 시간복잡도는 O(HV)가 된다. H의 최댓값은 트리에 존재하는 모든 엔트리의 수가 된다. 트리 구조에서 H는 log(N)의 시간복잡도를 가지기 때문에 결국 최종적인 시간복잡도는 split_threshold 속성이 고정되어 있는 조건 하에서 O(log(N))의 시간복잡도를 갖게 된다.

# Implementing a CSV Index with a B-Tree 

## Querying with B-Tree

데이터베이스 내부에서 인덱스는 B-Tree를 기반으로 Range Search에 대해서 효율적인 쿼리를 가능하게 한다. 마찬가지로 CSV파일에 대해서도 B-Tree를 사용해서 데이터 탐색이 가능하다. 

## Extending the B-Tree
 
CSV파일 데이터에 대해서 B-Tree Index를 생성하기 위해, B-Tree 클래스를 확장한 CSVIndex 클래스를 생성한다. 클래스를 생성할 때 입력값이 필요한 경우, 상속 클래스에 대해서 입력값을 넣어줘야 한다.

```Python
from btree import BTree

class CSVIndex(BTree): 
    
    def __init__(self, split_threshold):
        super().__init__(split_threshold) 

index = CSVIndex(10) 
```

## Reading the CSV into the Tree

CSVIndex 클래스에는 추가적으로 입력값을 받아야 한다. 첫번째는 CSV 파일명을, 두번째는 Index로 사용할 컬럼의 이름을 명시한다. 각각의 행에 대해서 특정 열이 엔트리의 key가 되고, 전체 행이 엔트리의 value가 된다. 

self.\_\_init\_\_() 메소드 내부에 입력받은 csv_filename에 대해서 파일을 오픈하여 header와 rows로 데이터를 저장한다. 또한 추가로 입력받은 col_name을 self.col_name 속성으로 저장하고 col_index를 생성한다. 이후 for loop를 통해 B-Tree구조로 CSV 파일 데이터를 엔트리로 저장하게 된다.

```Python
from btree import BTree
import csv 

class CSVIndex(BTree): 
    
    def __init__(self, split_threshold):
        super().__init__(split_threshold) 

        with open(csv_filename) as file : 
            reader = csv.reader(file) 
            rows = list(reader)
            header = rows[0]
            rows = rows[1:]
            col_index = header.index(self.col_name) 
            for row in rows : 
                self.add(float(row[col_index]), row)

metacritic_index = CSVIndex(2, 'ratings.csv', 'Metacritic')
print(len(metacritic_index))
```

## Implementing Range Queries

생성된 CSVIndex를 사용해서 CSVIndex.get_value() 메소드를 통해 특정 인덱스의 만족하는 값을 검색한다고 하자. 하지만 엔트리에 저장하기 위한 키값이 중복되는 경우 중복되는 값 중 임의의 하나의 값만 values 속성에 저장되게 된다.

이를 해결하기 위해 range_start, range_end를 사용해 범위 안의 모든 엔트리를 출력하는 메소드를 구성한다. 즉, range_start와 ragne_end가 같게되면 주어진 키에 해당하는 모든 엔트리의 값을 찾을 수 있게 된다. 

이때 B-Tree 구조 속성에 자식 노드의 범위 속성을 중복값을 허용하게 함으로써 모든 중복값의 key와 value를 서로 다른 노드에 저장할 수 있게 되었다. 이때 루트 노드의 범위는 float('-inf') ~ float('inf')를 갖는다. 

### Search keys in current node 

self.\_range\_query() 메소드는 현재 노드에서 min_key, max_key 범위 사이에 검색하고자 하는 range_start ~ range_end와의 교집합을 출력하는 메소드이다. 메소드의 arguments는 다음과 같다. 

- self : the self-reference
- range_start : the minimum of the query range
- range_end : the maximum of the query range. We assume that range_start is smaller than or equal to range_end.
- current_node : the current node where we are searching 
- min_key : the minimum key that can exist in the current subtree (start of the node interval)
- max_key : the maximum key that exist in the current subtree (end of the node interval)

```Python
import csv

class CSVIndex(BTree):

    def __init__(self, split_threshold, csv_filename, col_name):
        super().__init__(split_threshold)
        self.col_name = col_name
        with open(csv_filename) as file:
            rows = list(csv.reader(file))
            header = rows[0]
            rows = rows[1:]
            col_index = header.index(col_name)
            for row in rows:
                self.add(float(row[col_index]), row)

    def _range_query(self, range_start, range_end, current_node, min_key, max_key): 
        if min_key > range_end or max_key < range_start : 
            return [] 
        results = [] 
        for i, key in enumerate(current_node.keys): 
            if range_start <= key and key <= range_end : 
                results.append(current_node.values[i]) 
        return results
```

### Search keys in current_node recursively

현재 노드 뿐만아니라 자식 노드에 대해서도 범위 탐색을 재귀적으로 실행하기 위해선 다음의 방법이 필요하다.

- 탐색을 멈출 조건, 즉 현재 노드의 간격이 쿼리 간격의 교집합을 종료시킨다면 해당 가지에서 탐색을 종료시킨다.
- 현재 노드에서의 키를 저장하여 전체 결과를 출력하는 방법. 

범위 탐색은 루트 노드에서 시작해서 쿼리 범위 내부에 있는 키를 확인하고 해당 엔트리를 결과에 추가해야 한다. 이때 각각의 자식 노드에 대해서도 동일한 과정을 재귀적으로 반복하게 된다.
 
가장 먼저 해야할 일은 쿼리 범위와 노드 범위가 교차하는지 확인하는 것이다. 만약 교집합이 존재하지 않다면 해당 가지에서의 탐색을 중지하게 된다. 교집합이 존재한다면 쿼리 범위에 존재하는 모든 키를 수집하고 재귀적으로 현재 노드의 자식 노드로 이동하여 메소드를 반복하게 된다. 

현재 노드의 자식 노드로의 이동할 경우, 각각의 노드가 가지고 있는 노드 범위를 다시 계산할 필요가 있다. 첫번째 자식 노드(i = 0)는 [min_key, current_node.keys[i]]의 범위를 갖게 되고, 중간의 자식노드(i > 1)은 [current_node.keys[i-1], current_node.keys[i]]의 범위를 갖는다. 마지막 자식 노드는 [current_node.keys[i], max_key]를 갖게 된다. 

따라서 self.\_range\_query() 메소드는 현재 노드의 node interval(min_key, max_key)와 query interval(range_start, range_end)간에 교집합이 없다면 []를 리턴한다. 교집합이 존재할 경우 현재 노드에 존재하는 모든 키에 대해서 query interval 안에 존재하는 key의 value를 results에 저장하게 된다. 이후 현재 노드가 리프 노드가 아니라면, 현재 노드의 모든 자식노드에 대해서 node interval(new_min_key, new_max_key)를 계산하고, 재귀적으로 시행한 결과를 results에 추가(+=)한다. 

```Python
import csv

class CSVIndex(BTree):

    def __init__(self, split_threshold, csv_filename, col_name):
        super().__init__(split_threshold)
        self.col_name = col_name
        with open(csv_filename) as file:
            rows = list(csv.reader(file))
            header = rows[0]
            rows = rows[1:]
            col_index = header.index(col_name)
            for row in rows:
                self.add(float(row[col_index]), row)
                
    def _range_query(self, range_start, range_end, current_node, min_key, max_key):
        if range_start > max_key or range_end < min_key:
            return []
        results = []
        for i, key in enumerate(current_node.keys):
            if range_start <= key and key <= range_end:
                results.append(current_node.values[i])
        if not current_node.is_leaf():
            for i, child in enumerate(current_node.children):
                new_min_key = current_node.keys[i - 1] if i > 0 else min_key
                new_max_key = current_node.keys[i] if i < len(current_node) else max_key
                results += self._range_query(range_start, range_end, child, new_min_key, new_max_key)
        return results 
```

### Polishing the Range Queries method 

생성한 self.\_range\_query() 메소드를 루트 노드부터 시작해서 범위 쿼리를 시행하는 일반화된 메소드를 구성하기 위해 self.\_range\_query(range_start, range_end, self.root, float('-inf'), float('inf'))를 시행하는 메소드를 구성한다. 

```Python
import csv

class CSVIndex(BTree):

    def __init__(self, split_threshold, csv_filename, col_name):
        super().__init__(split_threshold)
        self.col_name = col_name
        with open(csv_filename) as file:
            rows = list(csv.reader(file))
            header = rows[0]
            rows = rows[1:]
            col_index = header.index(col_name)
            for row in rows:
                self.add(float(row[col_index]), row)
                
    def _range_query(self, range_start, range_end, current_node, min_key, max_key):
        if range_start > max_key or range_end < min_key:
            return []
        results = []
        for i, key in enumerate(current_node.keys):
            if range_start <= key and key <= range_end:
                results.append(current_node.values[i])
        if not current_node.is_leaf():
            for i, child in enumerate(current_node.children):
                new_min_key = current_node.keys[i - 1] if i > 0 else min_key
                new_max_key = current_node.keys[i] if i < len(current_node) else max_key
                results += self._range_query(range_start, range_end, child, new_min_key, new_max_key)
        return results 
    
    def range_query(self, range_start, range_end): 
        return self._range_query(range_start, range_end, self.root, float('-inf'), float('inf'))
```

## Complexity of Range Queries 

범위 쿼리의 시간 복잡도는 O(min(N, r * log(N))) 으로, r은 results의 수를, N은 index 엔트리의 수를 의미한다. 만약 모든 경로를 방문하여 검색을 할 경우 O(N)의 시간복잡도를 갖게된다. 모든 키가 고유한 값을 갖고 있다면 중복된 범위를 허용할 필요가 없기 때문에 불필요한 경로가 삭제되어 시간 복잡도가 감소하게 된다. 하지만 중복된 값을 갖고 있다면 시간 복잡도는 당연히 증가하게 된다.

```Python
index = CSVIndex(2, 'ratings.csv', 'Rotten_Tomatoes') 
low_rating = index.range_query(0, 15) 
for result in low_rating : 
    print(result) 
    
high_rating = index.range_query(90, 100) 
for result in high_rating : 
    print(result)
```

## Saving the Index

CSV파일을 생성해서 인덱스를 매번 생성하는 작업을 방지하기 위해 pickle 모듈을 사용해서 생성한 파이썬 객체를 파일로써 저장할 수 있다.

```Python
import pickle
import csv

class CSVIndex(BTree):

    def __init__(self, split_threshold, csv_filename, col_name):
        super().__init__(split_threshold)
        self.col_name = col_name
        with open(csv_filename) as file:
            rows = list(csv.reader(file))
            header = rows[0]
            rows = rows[1:]
            col_index = header.index(col_name)
            for row in rows:
                self.add(float(row[col_index]), row)
                
    def _range_query(self, range_start, range_end, current_node, min_key, max_key):
        if range_start > max_key or range_end < min_key:
            return []
        results = []
        for i, key in enumerate(current_node.keys):
            if range_start <= key and key <= range_end:
                results.append(current_node.values[i])

        if not current_node.is_leaf():
            for i, child in enumerate(current_node.children):
                new_min_key = current_node.keys[i - 1] if i > 0 else min_key
                new_max_key = current_node.keys[i] if i < len(current_node) else max_key
                results += self._range_query(range_start, range_end, child, new_min_key, new_max_key)
        return results 
    
    def range_query(self, range_start, range_end):
        return self._range_query(range_start, range_end, self.root, float('-inf'), float('inf'))
    
    def save(self, filename):
        with open('{}.pickle'.format(filename), 'wb') as f:
            pickle.dump(self, f) 
            
fandango_index = CSVIndex(10, 'ratings.csv', 'Fandango') 
fandango_index.save('fandango')
```

## Loading the Index 

**정적 메소드(static method)**는 클래스의 인스턴스를 생성하지 않고 사용할 수 있는 메소드이다. 정적 메소드의 실행은 some_instance.method_name()이 아니라 **ClassName.method_name()**을 통해 사용할 수 있다. CSVIndex 클래스에 self.save() 메소드를 통해 생성한 인덱스 파일을 로딩하기 위해 정적 메소드 load()를 생성할 수 있다. 정적 메소드를 선언하기 위해선 **\@staticmethod** 라는 메소드 선언을 통해 정의할 수 있다.

```Python
import csv
import pickle 

class CSVIndex(BTree):

    def __init__(self, split_threshold, csv_filename, col_name):
        super().__init__(split_threshold)
        self.col_name = col_name
        with open(csv_filename) as file:
            rows = list(csv.reader(file))
            header = rows[0]
            rows = rows[1:]
            col_index = header.index(col_name)
            for row in rows:
                self.add(float(row[col_index]), row)
                
    def _range_query(self, range_start, range_end, current_node, min_key, max_key):
        if range_start > max_key or range_end < min_key:
            return []
        results = []
        for i, key in enumerate(current_node.keys):
            if range_start <= key and key <= range_end:
                results.append(current_node.values[i])
        # Add code here
        if not current_node.is_leaf():
            for i, child in enumerate(current_node.children):
                new_min_key = current_node.keys[i - 1] if i > 0 else min_key
                new_max_key = current_node.keys[i] if i < len(current_node) else max_key
                results += self._range_query(range_start, range_end, child, new_min_key, new_max_key)
        return results 
    
    def range_query(self, range_start, range_end):
        return self._range_query(range_start, range_end, self.root, float('-inf'), float('inf'))
    
    def save(self, filename):
        with open('{}.pickle'.format(filename), 'wb') as f:
            pickle.dump(self, f)
            
    @staticmethod
    def load(filename): 
        with open('{}.pickle'.format(filename), 'rb') as f:
             return pickle.load(f)
                
loaded_index = CSVIndex.load('fandango')
print(loaded_index.col_name)
```

# Implementing a Key-Values Store

## What is Key-Value Store

**키-값 데이터베이스(Key-Value Database)** 또는 **키-값 스토어(Key-Value Store)**는 오늘날 딕셔너리(dictionary), 해시(hash)로 잘 알려져 있는 자료 구조인 연관 배열의 저장, 검색, 관리를 위해 설계된 데이터 스토리지 패러다임이다. 딕셔너리에는 객체나 레코드의 컬렉션이 포맣되어 있으며 이 안에 각기 다른 수많은 필드가 그 안에 포함되어 있고 각각 데이터를 담고 있다. 

Key-Value Store는 Python Dictionary처럼 작동하는 데이터베이스이다. Dictionary와는 다르게 범위 탐색을 클래스 내부에서 제공한다. 대표적인 오픈 소스 프레임워크는 Redis, CouchDB, Mongo, Cassandra(B-tree를 데이터 구조로써 사용함.)가 존재한다. 

## Key-Value Class 

Key-Value Store 클래스인 KVStore는 BTree 클래스의 메소드와 속성을 상속하게 된다. 추가적으로 KVStore는 Python dictionary처럼 사용하기위해 내장 메소드가 추가적으로 필요하다. 이를 위해 \_\_getitem\_\_() 메소드와 \_\_setitem()\_\_ 메소드를 작성해야 한다.

Dictionary와 동일하게 Key-Value Store는 하나의 키에 두 개 이상의 엔트리를 저장할 수 없다. 동일한 키에 값을 넣게 되면 이전의 값 위에 새로운 값을 덮어 씌우게 된다. 

```Python
from btree import BTree 

class KVStore(BTree): 
    
    def __init__(self): 
        super().__init__(2)
```

## Overriding the Add Method 

BTree 클래스의 add 메소드는 동일한 키에 대해서 여러개의 엔트리를 추가할 수 있도록 허용한다. 이를 해결하기 위해 BTree의 BTree.add() 메소드를 다시 선언해서 변경한 후 재선언해야 한다. KVStore.add() 메소드는 다음의 작업을 수행해야 한다. 

- key가 이미 존재하면 기존의 값에 새로운 값을 덮어 씌운다. key의 존재 여부는 _find_node() 메소드를 통해 확인 가능하다.
- key가 존재하지 않으면 BTree.add() 메소드를 실행한다.

```Python
from btree import BTree 

class KVStore(BTree): 
    
    def __init__(self): 
        super().__init__(2)
        
    def add(self, key, value): 
        node = self._find_node(self.root, key)
        if node is None : 
            super().add(key, value)
        else : 
            for i, node_key in enumerate(node.keys) : 
                if node_key == key:
                    node.values[i] = value
```

## Testing 

### Assertion

컴퓨터 프로그래밍에서 **포명, 가정, 설정문, 어서션(Assertion)**은 프로그램 안에 추가하는 참-거짓을 미리 가정하는 문이다. 개발자는 해당 문이 그 문의 장소에서 언제나 참이라고 간주한다. 런타임 중에 표명이 거짓으로 평가되면 표명실패(Assertion Failure)를 초래하며 이 상황에서는 일반적으로 실행이 중지된다. 

**유닛 테스팅(Unit testing)** 대신 사용하는 방식이다. 파이썬 내부에서 assertion을 사용하는 방법은 assert 키워드 뒤에 확인하도 싶은 코드와 오류문을 작성한다. 

### Testing KVStore

```Python
kv = KVStore() 

# The split threshold of a KVStore equals 2
assert kv.split_threshold == 2, "The split is not eqaul to 2."

# Add entry to kv 
kv.add(2, 'value1')

# Retrievve value with key 2 
assert kv.get_value(2) == 'value1', 'The value of key 2 is not value1'

# Overriding new entry to kv w
kv.add(2, 'value2') 
assert kv.get_value(2) == 'value1', 'The value of key 2 is not value1.'
```

## Implementing the Item Getter and Setter 

Dictionary처럼 [ ]를 사용해서 값을 검색하거나, 값을 추가하는 기능을 추가한다고 할때, \_\_getitem\_\_(), \_\_setitem\_\_() 메소드를 사용하면 된다. 

```Python
from btree import BTree 

class KVStore(BTree): 
    
    def __init__(self): 
        super().__init__(2)
        
    def add(self, key, value): 
        node = self._find_node(self.root, key)
        if node is None : 
            super().add(key, value)
        else : 
            for i, node_key in enumerate(node.keys) : 
                if node_key == key:
                    node.values[i] = value 
                
    def __getitem__(self, key):
        return self.get_value(key)
    
    def __setitem__(self, key, value): 
        self.add(key, value)
```

## Enhancing the Contains Method 

Dictionary의 'in' 연산자는 \_\_contains\_\_() 메소드를 추가함으로써 사용할 수 있다. 

```Python
from btree import BTree 

class KVStore(BTree): 
    
    def __init__(self): 
        super().__init__(2)
        
    def add(self, key, value): 
        node = self._find_node(self.root, key)
        if node is None : 
            super().add(key, value)
        else : 
            for i, node_key in enumerate(node.keys) : 
                if node_key == key:
                    node.values[i] = value 
                
    def __getitem__(self, key):
        return self.get_value(key)
    
    def __setitem__(self, key, value): 
        self.add(key, value)
        
    def __contains__(self, key):
        return self.contains(key)
```

## Range Queries 

범위 탐색을 위한 메소드를 설정하기 위해 CSVIndex에서 사용한 self.\_range\_query() 메소드와 self.range\_query()를 복사하여 사용한다. 하지만 CSVIndex의 경우 key는 반드시 숫자의 범위로 표시되어야 한다. Key-Value Store의 경우 문자열 데이터를 key로 저장할 수 있기 때문에 좀 더 일반화 해야한다. 

```Python
from btree import BTree 

class KVStore(BTree): 
    
    def __init__(self): 
        super().__init__(2)
        
    def add(self, key, value): 
        node = self._find_node(self.root, key)
        if node is None : 
            super().add(key, value)
        else : 
            for i, key in enumerate(node.keys) : 
                node.values[i] = value 
                
    def __getitem__(self, key):
        return self.get_value(key)
    
    def __setitem__(self, key, value): 
        self.add(key, value)
        
    def __contains__(self, key):
        return self.contains(key)
    
    def _range_intersect(self, range_start, range_end, node_min, node_max):
        if not node_min and node_min > range_end : 
            return False
        if not node_max and node_max < ragne_start : 
            return False 
        return True 
    
    def _range_query(self, range_start, range_end, current_node, min_key, max_key):
        if not self._range_intersect(range_start, range_end, min_key, max_key) : 
            return []
        results = []
        for i, key in enumerate(current_node.keys):
            if range_start <= key and key <= range_end:
                results.append(current_node.values[i])
        if not current_node.is_leaf():
            for i, child in enumerate(current_node.children):
                new_min_key = current_node.keys[i - 1] if i > 0 else min_key
                new_max_key = current_node.keys[i] if i < len(current_node) else max_key
                results += self._range_query(range_start, range_end, child, new_min_key, new_max_key)
        return results 

    def range_query(self, range_start, range_end):
        return self._range_query(range_start, range_end, self.root, float('-inf'), float('inf'))
```

## Random Test 

KVStore()의 range_query()가 올바르게 작동하고 있는지 확인하기 위해 dictionary 기반의 DictKVStore()를 생성하여 클래스의 오류 여부를 점검할 수 있다. KVStore()와 DictKVStore()의 메소드의 결과를 비교함으로써 클래스 내부의 오류를 점검할 수 있다. 

```Python
class DictKVStore(dict) : 
    
    def range_query(self, range_start, range_end):
        result = []
        for key in self.keys() : 
            if range_start <= key and key <= range_end : 
                result.append(self[key])
        return result
```

```Python
import random 

dict_kv = DictKVStore() 
kv = KVStore() 

print("Do Random Insertion")
for _ in range(20) : 
    key = random.randint(0, 100)
    value = random.randint(0, 1000)
    dict_kv[key] = value 
    kv[key] = value 
print("Random Inserting is Done. Random Testing will be start.")
print("===============================\n")

print("Testing Length")
assert len(dict_kv) == len(kv), f"Length of key-value store should be {len(dict_kv)}"

print("Testing values")
for key in dict_kv : 
    assert dict_kv[key] == kv[key], f"Wrong value for key {key}. Value should be {dict_kv[key]}" 
    
print("Testing Cotains")
for _ in range(20) : 
    key = random.randint(0, 200)  
    assert (key in dict_kv) == (key in kv), f"Wrong key {key} is or is not in kv."
    
print("Testing Range Queries")
for _ in range(20) : 
    range_start = random.randint(0, 80)
    range_end = random.randint(range_start, 160)
    dict_res = sorted(dict_kv.range_query(range_start, range_end)) 
    kv_res = sorted(kv.range_query(range_start, range_end))
    assert dict_res == kv_res, "Both data structure return the same range query result."
```

## Performance Testing 

KVStore는 데이터를 Dictionary 기반의 Key-Value 쌍으로 저장한다. 하지만 B-Tree를 기반으로 구성되었기 때문에 데이터의 크기가 매우 증가하게 되면 DictKVStore 클래스에 비해 시간면에서 매우 효율적일 것으로 기대된다. DictKVStore 클래스와 KVStore의 range_query() 메소드에 대해 증가하는 범위에 따른 실행시간의 비율을 계산해보면 다음과 같다. 

```Python
import csv 
import time 

dict_kv = DictKVStore()
kv = KVStore() 

# Call entries.csv and add entries into dict_kv, kv instance 

with open('entries.csv', 'r') as file : 
    reader = csv.reader(file) 
    rows = list(reader)[1:]
    for row in rows : 
        key = int(row[0])
        value = int(row[1])
        dict_kv[key] = value 
        kv[key] = value 
        
# Call queries.csv and execute range_query() method with range_start and range_end 
# And then calculate execution time ratio of DictKVStore and KVStore 
        
time_ratios = []
with open('queries.csv', 'r') as file : 
    reader = csv.reader(file) 
    rows = list(reader)[1:] 
    for row in rows : 
        range_start = int(row[0])
        range_end = int(row[1])
        
        start = time.time() 
        kv.range_query(range_start, range_end)
        end = time.time()
        kv_time = end - start
        
        start = time.time() 
        dict_kv.range_query(range_start, range_end)
        end = time.time()
        dict_time = end - start

        time_ratios.append(dict_time/kv_time)
        
# Visualization of time_ratios 

import matplotlib.pyplot as plt
plt.plot(time_ratios)
plt.xlabel('Query range result size')
plt.ylabel('Runtime ratio')
plt.show()
```