## 대표적인 데이터 구조8: 힙

### 1. 힙 (Heap) 이란?
- 힙: 데이터에서 최대값과 최소값을 빠르게 찾기 위해 고안된 완전 이진 트리(Complete Binary Tree)
  - 완전 이진 트리: 노드를 삽입할 때 최하단 왼쪽 노드부터 차례대로 삽입하는 트리

<img src="https://www.fun-coding.org/00_Images/completebinarytree.png" width=300>

- 힙을 사용하는 이유
  - 배열에 데이터를 넣고, 최대값과 최소값을 찾으려면 O(n) 이 걸림
  - 이에 반해, 힙에 데이터를 넣고, 최대값과 최소값을 찾으면, $ O(log n) $ 이 걸림
  - <font color= '#0000FF'>우선순위 큐</font>와 같이 최대값 또는 최소값을 빠르게 찾아야 하는 자료구조 및 알고리즘 구현 등에 활용됨

### 2. 힙 (Heap) 구조
- 힙은 최대값을 구하기 위한 구조 (최대 힙, Max Heap) 와, 최소값을 구하기 위한 구조 (최소 힙, Min Heap) 로 분류할 수 있음
- 힙은 다음과 같이 두 가지 조건을 가지고 있는 자료구조임
  1. 각 노드의 값은 해당 노드의 자식 노드가 가진 값보다 크거나 같다. (최대 힙의 경우)
     - 최소 힙의 경우는 각 노드의 값은 해당 노드의 자식 노드가 가진 값보다 크거나 작음
  2. 완전 이진 트리 형태를 가짐

>즉, 최대 힙의 경우 root node에 반드시 최댓값을 가지고, 최소 힙의 경우 root node에 반드시 최솟값을 가지므로  
> root node에 들어있는 값만 가져오면 바로 최댓값과 최솟값을 구할 수 있다.


### 힙과 이진 탐색 트리의 공통점과 차이점
- 공통점: 힙과 이진 탐색 트리는 모두 이진 트리임
- 차이점: 
  - 힙은 각 노드의 값이 자식 노드보다 크거나 같음(Max Heap의 경우)
  - 이진 탐색 트리는 왼쪽 자식 노드의 값이 가장 작고, 그 다음 부모 노드, 그 다음 오른쪽 자식 노드 값이 가장 큼
  - 힙은 이진 탐색 트리의 조건인 자식 노드에서 작은 값은 왼쪽, 큰 값은 오른쪽이라는 조건은 없음
    - 힙의 왼쪽 및 오른쪽 자식 노드의 값은 오른쪽이 클 수도 있고, 왼쪽이 클 수도 있음
- <font color='#EEEGGG'>이진 탐색 트리는 탐색을 위한 구조, 힙은 최대/최소값 검색을 위한 구조 중 하나로 이해하면 됨 </font> 
<img src="https://www.fun-coding.org/00_Images/completebinarytree_bst.png" width="800" />


### 3. 힙 (Heap) 동작
- 데이터를 힙 구조에 삽입, 삭제하는 과정을 그림을 통해 선명하게 이해하기

### 힙에 데이터 삽입하기 - 기본 동작 
- 힙은 완전 이진 트리이므로, 삽입할 노드는 기본적으로 왼쪽 최하단부 노드부터 채워지는 형태로 삽입  
- 일단 데이터를 완전 이진 트리 형식으로 왼쪽 자식 노드부터 삽입한 다음, 최대/최소 조건에 따라 자식 노드와 부모 노드를 바꿔주는 동작을 함  
<img src="https://www.fun-coding.org/00_Images/heap_ordinary.png">

### 힙에 데이터 삽입하기 - 삽입할 데이터가 힙의 데이터보다 클 경우 (Max Heap 의 예)
- 먼저 삽입된 데이터는 완전 이진 트리 구조에 맞추어, 최하단부 왼쪽 노드부터 채워짐
- 채워진 노드 위치에서, 부모 노드보다 값이 클 경우, 부모 노드와 위치를 바꿔주는 작업을 반복함 (swap)
<img src="https://www.fun-coding.org/00_Images/heap_insert.png">

### 힙의 데이터 삭제하기 (Max Heap 의 예)
- 보통 삭제는 최상단 노드 (root 노드)를 삭제하는 것이 일반적임 (ROOT가 아닌 노드를 삭제할 일은 없다고 보면 됨)  
  - 힙의 용도는 최대값 또는 최소값을 root 노드에 놓아서, 최대값과 최소값을 바로 꺼내 쓸 수 있도록 하는 것임
- 상단의 데이터 삭제시, 가장 최하단부 왼쪽에 위치한 노드 (일반적으로 가장 마지막에 추가한 노드) 를 root 노드로 이동
- root 노드의 값이 child node 보다 작을 경우, root 노드의 child node 중 가장 큰 값을 가진 노드와 root 노드 위치를 바꿔주는 작업을 반복함 (swap)

<img src="https://www.fun-coding.org/00_Images/heap_remove.png">




(1) 20 -> 10 -> 15 -> 5 -> 4 -> 8 순서로 데이터가 삽입되었을 것      
(2) 따라서 가장 마지막 노드인 8을 root node로 올린다      
(3) 최대 힙이므로, 부모 노드와 자식 노드를 비교해 자식 노드의 값이 더 큰 경우 자리를 서로 바꾼다      

### 4. 힙 구현
### 힙과 배열
- 일반적으로 힙 구현시 배열 자료구조를 활용함(힙이 완전 이진 트리의 형태를 띄기 때문에 가능한 것)
- 배열은 인덱스가 0번부터 시작하지만, 힙 구현의 편의를 위해, root 노드 인덱스 번호를 1로 지정하면(즉 배열의 0번은 비워두고 1번부터 채워넣기), 구현이 좀더 수월함
  - 부모 노드 인덱스 번호 (parent node's index) = 자식 노드 인덱스 번호 (child node's index) // 2
  - 왼쪽 자식 노드 인덱스 번호 (left child node's index) = 부모 노드 인덱스 번호 (parent node's index) * 2
  - 오른쪽 자식 노드 인덱스 번호 (right child node's index) = 부모 노드 인덱스 번호 (parent node's index) * 2 + 1
<img src="https://www.fun-coding.org/00_Images/heap_array.png" width=400>

In [4]:
# 예1 - 10 노드의 부모 노드 인덱스
2 // 2

1

In [6]:
# 예1 - 15 노드의 왼쪽 자식 노드 인덱스 번호
1 * 2

2

In [7]:
# 예1 - 15 노드의 오른쪽 자식 노드 인덱스 번호
2 * 2 + 1

5

### 힙에 데이터 삽입 구현 (Max Heap 예)

- 힙 클래스 구현1 

In [1]:
class Heap:
    def __init__(self, data):
        self.heap_array = list()       # python은 배열 구조를 리스트로 표현하는 것이 가장 편함
        self.heap_array.append(None)  # 리스트[0]은 비워두고
        self.heap_array.append(data)  # 배열의 1번부터 데이터를 채워넣음

In [2]:
heap = Heap(1) # 인자로 최초 데이터를 넣으면 그에 맞는 힙 자료 구조를 가진 객체가 생성됨
heap.heap_array

[None, 1]

- 힙 클래스 구현2 - insert1
  - 인덱스 번호는 1번부터 시작하도록 변경

<img src="https://www.fun-coding.org/00_Images/heap_ordinary.png">

In [11]:
# 1. 데이터 들어올 때마다 데이터를 쌓는 과정 구현
# append 메서드는 배열의 맨 끝에 데이터를 추가(즉 index 4번까지 데이터가 있으면, index 5번에 노드가 추가됨 ) - 완전 이진 트리 매커니즘 따르는 것
class Heap:
    def __init__(self, data):
        self.heap_array = list()
        self.heap_array.append(None)
        self.heap_array.append(data)
        
    def insert(self, data):
        if len(self.heap_array) == 0:    # root node가 없는 경우 데이터를 삽입하고 반환하면 끝
            self.heap_array.append(None)
            self.heap_array.append(data)
            return True
        
        self.heap_array.append(data)
        return True           

- 힙 클래스 구현3 - insert2
  - 삽입한 노드가 부모 노드의 값보다 클 경우, 부모 노드와 삽입한 노드 위치를 바꿈
  - 삽입한 노드가 루트 노드가 되거나, 부모 노드보다 값이 작거나 같을 경우까지 반복
---
- 특정 노드의 관련 노드 위치 알아내기
  - 부모 노드 인덱스 번호 (parent node's index) = 자식 노드 인덱스 번호 (child node's index) // 2
  - 왼쪽 자식 노드 인덱스 번호 (left child node's index) = 부모 노드 인덱스 번호 (parent node's index) * 2
  - 오른쪽 자식 노드 인덱스 번호 (right child node's index) = 부모 노드 인덱스 번호 (parent node's index) * 2 + 1

<img src="https://www.fun-coding.org/00_Images/heap_insert.png">

In [3]:
# 1. insert : append만 하면 맨 끝에 데이터가 추가되어 데이터 입력은 간단히 해결됨
# 2. 현재 insert한 데이터의 위치를 기반으로  부모 노드와 비교해서 부모 노드의 값이 더 작다면 반복작업으로 swap 해야 한다.
# 3. swap은 부모노드의 값이 자식노드보다 클 때 or root node까지 도달했을 때 멈춘다.
class Heap:
    def __init__(self, data):
        self.heap_array = list()
        self.heap_array.append(None)
        self.heap_array.append(data)
        
    def move_up(self, inserted_idx):  
        if inserted_idx <= 1:   # index 1번 = root node : 따라서, 최댓값을 가진 노드가 root node까지 이동했다면 더 이상 swap 필요 없다
            return False
        
        parent_idx = inserted_idx // 2
        if self.heap_array[inserted_idx] > self.heap_array[parent_idx]:
            return True    # swap 
        else:
            return False
        
    def insert(self, data):
        if len(self.heap_array) == 0:
            self.heap_array.append(None)
            self.heap_array.append(data)
            return True
        
        self.heap_array.append(data)
        
        inserted_idx = len(self.heap_array) - 1   # 배열의 0번 자리를 비워뒀기 때문에 배열의 길이는 노드 수보다 하나 더 많다.
                                                  # 따라서 length - 1까지 데이터가 쭉 있는 것
        
        while self.move_up(inserted_idx):   # TRUE이면 부모노드(inserted_idx의 부모노드)와 자식노드(inserted_idx)의 값을 계속 바꾼다
            parent_idx = inserted_idx // 2
            
            # swap
            self.heap_array[inserted_idx], self.heap_array[parent_idx] = self.heap_array[parent_idx], self.heap_array[inserted_idx]
            inserted_idx = parent_idx  # swap 하면 자식노드의 인덱스 값이 부모노드의 인덱스 값으로 바뀐다.
        
        return True


In [4]:
# 20이 가장 마지막으로 들어갔음에도 1번 인덱스 자리로 들어가있음을 확인
# 위 그림에 있는 힙 구조((3) Swap 15 for 20)와 동일한 배열이 출력됨
heap = Heap(15)
heap.insert(10)
heap.insert(8)
heap.insert(5)
heap.insert(4)
heap.insert(20)
heap.heap_array

[None, 20, 10, 15, 5, 4, 8]

### 힙에 데이터 삭제 구현 (Max Heap 예)

- 힙 클래스 구현4 - delete1
- 보통 삭제는 최상단 노드 (root 노드)를 삭제하는 것이 일반적임
  - 힙의 용도는 최대값 또는 최소값을 root 노드에 놓아서, 최대값과 최소값을 바로 꺼내 쓸 수 있도록 하는 것임

In [18]:
class Heap:
    def __init__(self, data):
        self.heap_array = list()
        self.heap_array.append(None)
        self.heap_array.append(data)
    
    def pop(self):
        if len(self.heap_array) <= 1:       # 배열에 None 조차 없거나, None만 있는 두 가지 경우
            return None
        
        returned_data = self.heap_array[1]  # root node는 항상 인덱스 1번에 있기 때문에 이를 반환
        return returned_data

- 힙 클래스 구현4 - delete2
  - 상단의 데이터 삭제시, 가장 최하단부 왼쪽에 위치한 노드 (일반적으로 가장 마지막에 추가한 노드) 를 root 노드로 이동
  - root 노드의 값이 child node 보다 작을 경우, root 노드의 child node 중 가장 큰 값을 가진 노드와 root 노드 위치를 바꿔주는 작업을 반복함 (swap)
---
- 특정 노드의 관련 노드 위치 알아내기
  - 부모 노드 인덱스 번호 (parent node's index) = 자식 노드 인덱스 번호 (child node's index) // 2
  - 왼쪽 자식 노드 인덱스 번호 (left child node's index) = 부모 노드 인덱스 번호 (parent node's index) * 2
  - 오른쪽 자식 노드 인덱스 번호 (right child node's index) = 부모 노드 인덱스 번호 (parent node's index) * 2 + 1

<img src="https://www.fun-coding.org/00_Images/heap_remove.png">

In [5]:
# 1. root node에 있는 값을 꺼낸다.
# 2. 가장 마지막에 있는 데이터를 root node 자리로 올려 덮어씌움
# 3. root node로 올라간 후, 자식노드와 비교하여 자식노드가 없을 때 or 자식노드보다 자신의 데이터 값이 클 때까지 반복적으로 swap
class Heap:
    def __init__(self, data):
        self.heap_array = list()
        self.heap_array.append(None)
        self.heap_array.append(data)
    
    def move_down(self, popped_idx):
        left_child_popped_idx = popped_idx * 2
        right_child_popped_idx = popped_idx * 2 + 1
        
        # case1: 왼쪽 자식 노드도 없을 때
        if left_child_popped_idx >= len(self.heap_array): # len - 1까지 데이터있는데, len 이상을 가리키는 것은 데이터가 없는 공간을 가리키는 것
            return False
        # case2: 오른쪽 자식 노드만 없을 때
        elif right_child_popped_idx >= len(self.heap_array):
            if self.heap_array[popped_idx] < self.heap_array[left_child_popped_idx]:
                return True    # 부모 노드보다 자식 노드의 값이 더 크다면 바꿔줘야 한다.
            else:
                return False
        # case3: 왼쪽, 오른쪽 자식 노드 모두 있을 때
        else:
            # 3-1 : 자식 노드끼리 값을 비교 -> 자식 노드의 왼쪽 값이 오른쪽보다 클 때 -> 왼쪽 자식 노드와 부모 노드의 값을 비교
            if self.heap_array[left_child_popped_idx] > self.heap_array[right_child_popped_idx]: 
                if self.heap_array[popped_idx] < self.heap_array[left_child_popped_idx]:
                    return True   # 왼쪽 자식 노드의 값이 부모 노드의 값보다 크니까 swap
                else:
                    return False
            else:     # 자식 노드의 오른쪽 값이 왼쪽 값보다 큰 경우
                if self.heap_array[popped_idx] < self.heap_array[right_child_popped_idx]:
                    return True   # 오른쪽 자식 노드의 값이 부모 노드의 값보다 크니까 swap
                else:
                    return False
    
    def pop(self):  # 위 코드에서 반환값이 true인 경우만 생각하면 됨(위에서 false로 반환되면 바로 pop하면 되기 때문)
        if len(self.heap_array) <= 1:
            return None
        
        returned_data = self.heap_array[1]
        self.heap_array[1] = self.heap_array[-1]  # 맨 마지막 노드를 root node 위치로 바꿔주는 코드
        del self.heap_array[-1]                   # 이제는 비어있는 맨 끝의 공간을 지움
        popped_idx = 1                            # 올려보낸 데이터는 항상 root node에 있기 때문에 swap을 위한 기준은 항상 1번부터 시작
        
        while self.move_down(popped_idx):         
            left_child_popped_idx = popped_idx * 2
            right_child_popped_idx = popped_idx * 2 + 1

            # case2: 오른쪽 자식 노드만 없을 때
            if right_child_popped_idx >= len(self.heap_array):
                if self.heap_array[popped_idx] < self.heap_array[left_child_popped_idx]:
                    self.heap_array[popped_idx], self.heap_array[left_child_popped_idx] = self.heap_array[left_child_popped_idx], self.heap_array[popped_idx]
                    popped_idx = left_child_popped_idx
            # case3: 왼쪽, 오른쪽 자식 노드 모두 있을 때
            else:
                if self.heap_array[left_child_popped_idx] > self.heap_array[right_child_popped_idx]:
                    if self.heap_array[popped_idx] < self.heap_array[left_child_popped_idx]:
                        self.heap_array[popped_idx], self.heap_array[left_child_popped_idx] = self.heap_array[left_child_popped_idx], self.heap_array[popped_idx]
                        popped_idx = left_child_popped_idx
                else:
                    if self.heap_array[popped_idx] < self.heap_array[right_child_popped_idx]:
                        self.heap_array[popped_idx], self.heap_array[right_child_popped_idx] = self.heap_array[right_child_popped_idx], self.heap_array[popped_idx]
                        popped_idx = right_child_popped_idx
        
        return returned_data
    
    def move_up(self, inserted_idx):
        if inserted_idx <= 1:
            return False
        parent_idx = inserted_idx // 2
        if self.heap_array[inserted_idx] > self.heap_array[parent_idx]:
            return True
        else:
            return False

    def insert(self, data):
        if len(self.heap_array) == 1:
            self.heap_array.append(data)
            return True
        
        self.heap_array.append(data)
        inserted_idx = len(self.heap_array) - 1
        
        while self.move_up(inserted_idx):
            parent_idx = inserted_idx // 2
            self.heap_array[inserted_idx], self.heap_array[parent_idx] = self.heap_array[parent_idx], self.heap_array[inserted_idx]
            inserted_idx = parent_idx
        return True    

In [6]:
heap = Heap(15)
heap.insert(10)
heap.insert(8)
heap.insert(5)
heap.insert(4)
heap.insert(20)
heap.heap_array

[None, 20, 10, 15, 5, 4, 8]

In [7]:
heap.pop()

20

In [8]:
# root node에 있던 20을 pop해도, 빈 공간에 남아 있는 데이터 중 최댓값인 15가 정상적으로 올라오는 것을 확인
# 전체 데이터 중 최댓값을 빠르게 가져올 수 있는 힙 구조(이런 점에서는 배열보다 훨씬 효율적)
heap.heap_array

[None, 15, 10, 8, 5, 4]

### 5. 힙 (Heap) 시간 복잡도
  - depth (트리의 높이) 를 h라고 표기한다면,
  - n개의 노드를 가지는 heap 에 데이터 삽입 또는 삭제시, 최악의 경우 root 노드에서 leaf 노드까지 비교해야 하므로 $h = log_2{n} $ 에 가까우므로, 시간 복잡도는 $ O(log{n}) $ 
     - 완전 이진 트리이기 때문에 $h = log_2{n} $  
     - 참고: 빅오 표기법에서 $log{n}$ 에서의 log의 밑은 10이 아니라, 2입니다.
     - 한번 실행시마다, 50%의 실행할 수도 있는 명령을 제거한다는 의미. 즉 50%의 실행시간을 단축시킬 수 있다는 것을 의미함
