<a href="https://colab.research.google.com/github/minkyoJang/AI-BigDataStudy/blob/master/ct-Heap.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# heapq 사용법

# 파이썬에서의 힙 = heapq / PriorityQueue

Python은 [heapq 모듈](https://docs.python.org/3.7/library/heapq.html#module-heapq)과 [Queue 모듈의 PriorityQueue 클래스](https://docs.python.org/3/library/queue.html)을 통해 heapq를 제공합니다. 둘 모두 minheap으로 구현되어 있어, 가장 앞에 있는 원소가 가장 작은 원소입니다.

둘의 공통점과 차이점은 다음과 같습니다.

## 공통점과 차이점

#### 공통점

* 둘 다 minheap으로 구현되어있다. 즉, 가장 앞에 있는 원소가 가장 작은 원소이다.

#### 차이점

* PriortyQueue는 클래스이고, heapq는 모듈이다. 예를 들어, 힙에 데이터를 넣으려면, 
    * PriorityQueue에선 객체를 생성하고 메소드를 불러야 하지만 
    * heapq는 객체를 생성하지 않으며, heapify(리스트 객체)처럼 함수를 호출해 리스트를 힙 형태로 소팅한다.

#### 둘 중 어느 것을 쓰는게 더 좋은가요?

heapq와 PriorityQueue 중에서는 **heapq가 더 빠릅니다**. 데이터 삽입 시 속도 차이가 약 10배 정도 납니다. 뒤에 둘의 퍼포먼스를 비교하는 코드가 있으니 궁금하신 분은 이를 참고하세요.

## 힙은 언제 쓰나요?

1. 힙은 데이터가 **지속적으로 정렬**돼야 하며
2. 데이터의 **삽입/삭제가 빈번**하게 일어날 때 사용하세요.

#### Time Complexity

heapq와 PriorityQueue의 Time Complexity는 다음과 같습니다.

| Operation   | Time Complexity - Worst case |
|-------------|------------------------------|
| Get Item    | O(1)                         |
| Insert Item | O(logn)                      |
| Delete Item | O(logn)                      |
| Search Item | O(n)                         |

<br>



## heapq - heapify

heapq 모듈의 heapify 함수는 주어진 리스트를 힙 정렬합니다. 이때의 Time Complexity는 O(n)입니다.

In [0]:
# 힙정렬 예시

import heapq

my_list = [13, 2, 1, 5, 10]
heapq.heapify(my_list)

# 가장 작은 원소인 1이 가장 앞으로 왔습니다.
my_list

[1, 2, 13, 5, 10]

## heap - heappop(heap)

heap모듈의 heapop 함수는 **힙 정렬된** 리스트에서 

1. 가장 작은 원소를 빼내고
2. 나머지 원소가 힙을 유지하도록 정리합니다.

이 함수를 사용할 때에는 주어진 **리스트가 힙 정렬되어있는지** 반드시 확인하세요. 정렬되지 않은 리스트에 heappop를 사용하면 이상한 결과가 나옵니다.

In [0]:
# heappop 예시 1

import heapq
my_list = [13, 2, 1, 5, 10]
heapq.heapify(my_list)

# 가장 작은 원소인 1이 리턴됩니다. my_list의 길이가 하나 줄어듭니다.
ret_val = heapq.heappop(my_list)

print("리턴된 값:", ret_val)
print("남은 원소:", my_list)

리턴된 값: 1
남은 원소: [2, 5, 13, 10]


In [0]:
# heappop 예시 2 - 빈 리스트가 될때까지 원소 빼내기.

import heapq
my_list = [13, 2, 1, 5, 10]
heapq.heapify(my_list)

# 작은 원소가 먼저 제거됩니다.
while my_list:
    print("리턴된 값:", heapq.heappop(my_list))

리턴된 값: 1
리턴된 값: 2
리턴된 값: 5
리턴된 값: 10
리턴된 값: 13


## heap - heappush(heap, item)

heap모듈의 heappush 함수는 **힙 정렬된** 리스트의 힙 상태를 유지하면서 데이터를 삽입시켜줍니다.

이 함수를 사용할 때에는 주어진 **리스트가 힙 정렬되어있는지** 반드시 확인하세요. 정렬되지 않은 리스트에 heappush를 사용하면 이상한 결과가 나옵니다.


In [0]:
# heappush 예시 1 - 현재의 min 값보다 더 작은 값을 넣음

import heapq
my_list = [13, 2, 1, 5, 10]
heapq.heapify(my_list)

# -1 삽입
heapq.heappush(my_list, -1)

# 가장 작은 원소인 -1이 가장 앞에 위치
print("남은 원소:", my_list)

남은 원소: [-1, 2, 1, 5, 10, 13]


In [0]:
# heappush 예시 2 - 현재의 min값보다 큰 값을 넣음

import heapq
my_list = [13, 2, 1, 5, 10]
heapq.heapify(my_list)

# 100 삽입
heapq.heappush(my_list, 7)

# 기존에 가장 작았던 원소가 계속 앞에 위치
print("남은 원소:", my_list)

남은 원소: [1, 2, 7, 5, 10, 13]


## heap - 가장 작은 원소에 접근하기

heapify를 사용해 리스트를 힙 정렬했다면, 가장 작은 원소는 항상 리스트의 맨 앞에 있습니다. heappop을 이용해도 가장 작은 원소를 얻을 수 있지만, heappop은 리스트에서 원소를 꺼내는 작업도 같이 합니다.

따라서 리스트를 변형하지 않은 채 가장 작은 원소를 알고 싶다면 인덱스 \[0\]을 사용해 리스트에 접근하세요.

In [0]:
# 가장 작은 원소에 접근 예시

import heapq
my_list = [13, 2, 1, 5, 10]
heapq.heapify(my_list)

# heappop을 하지만, 맨 앞 원소가 최솟값임은 변하지 않음
while my_list:
    print("리스트의 맨 앞 원소:", my_list[0])
    heapq.heappop(my_list)

리스트의 맨 앞 원소: 1
리스트의 맨 앞 원소: 2
리스트의 맨 앞 원소: 5
리스트의 맨 앞 원소: 10
리스트의 맨 앞 원소: 13


# PriorityQueue 사용법

PriorityQueue 클래스가 제공하는 메소드와 멤버 변수는 다음과 같습니다. 코딩 테스트에서는 필요하지 않는 메소드/멤버 변수는 언급하지 않겠습니다.


| 구분      | 이름             | 하는 일                               |
|-----------|------------------|---------------------------------------|
| 메소드    | qsize()          | 들어있는 데이터의 길이를 리턴         |
| 메소드    | empty()          | 큐가 비었는지 검사                    |
| 메소드    | put_nowait(item) | item을 큐에 삽입                      |
| 메소드    | get_nowait()     | 가장 작은 원소를 큐에서 제거하고 리턴 |
| 멤버 변수 | queue            | 현재 큐에 들어 있는 데이터            |



## PriorityQueue - put_nowait(item)

안타깝게도 PriorityQueue는 heapify같이 데이터를 한 번에 힙 정렬하는 기능은 없습니다. 따라서 힙 정렬할 데이터가 주어진다면, 데이터 수만큼 데이터를 삽입해야 합니다.

데이터는 put 또는 put_nowait 메소드를 이용해 삽입합니다. 저는 put_nowait를 사용하겠습니다.

In [0]:
# 데이터 삽입 예시
from queue import PriorityQueue

my_list = [13, 2, 1, 5, 10]
pq = PriorityQueue()

# 데이터 삽입
for val in my_list:
    pq.put_nowait(val)
    
# queue 멤버 변수를 통해 현재 어떤 값이 들어있는지 확인 가능
print(pq.queue)

[1, 5, 2, 13, 10]


## PriorityQueue - get_nowait()

데이터를 가져올 때에는 get 또는 get_nowait 메소드를 사용합니다. 저는 get_nowait를 사용하겠습니다.

In [0]:
# 데이터 접근 예시
from queue import PriorityQueue

my_list = [13, 2, 1, 5, 10]
pq = PriorityQueue()
for val in my_list:
    pq.put_nowait(val)

# 가작 작은 값 가져오기
print(pq.get_nowait())

1


In [0]:
# 데이터 접근 예시
from queue import PriorityQueue

my_list = [13, 2, 1, 5, 10]
pq = PriorityQueue()
for val in my_list:
    pq.put_nowait(val)

# 큐가 빌 때까지 가장 작은 값 가져오기
while not pq.empty():
    print(pq.get_nowait())

1
2
5
10
13


## PriorityQueue - qsize()

현재 큐에 들은 원소의 수를 알아낼 때에는 qsize 메소드를 사용합니다.

In [0]:
from queue import PriorityQueue

my_list = [13, 2, 1, 5, 10]
pq = PriorityQueue()

for val in my_list:
    pq.put_nowait(val)
    print('큐 크기:', pq.qsize())

큐 크기: 1
큐 크기: 2
큐 크기: 3
큐 크기: 4
큐 크기: 5


## PriorityQueue - emtpy()

현재 큐가 비었는지 아닌지 알아낼 때에는 empty 메소드를 사용합니다.

In [0]:
from queue import PriorityQueue

pq = PriorityQueue()

print("큐가 비었나?:", pq.empty())

my_list = [13, 2, 1, 5, 10]
for val in my_list:
    pq.put_nowait(val)

print("큐가 비었나?:", pq.empty())


큐가 비었나?: True
큐가 비었나?: False


## heapq 모듈 PriorityQueue 클래스의 속도 차이 비교

heapq 모듈에 비해서 PriorityQueue 클래스의 속도는 조금 떨어지는 편입니다.
아래 코드는 힙에 데이터를 100000 번 넣는 코드인데요.

* heapq 모듈의 heappush는 수행을 완료하는데 약 40ms
* PriorityQueue 클래스의 put_nowait는 약 300ms

가 소요됩니다.

In [0]:
import heapq
from queue import PriorityQueue
import timeit
import random

random.seed(0)

dataset = list(range(0,100000))
random.shuffle(dataset)

In [0]:
def heapq_perform(dataset):
  lst = []
  for data in dataset:
    heapq.heappush(lst, data)

# heapq
print("heapq를 사용했을 때:")
%timeit heapq_perform(dataset)

heapq를 사용했을 때:
10 loops, best of 3: 40.1 ms per loop


In [0]:
def pqclass_perform(dataset):
  pq = PriorityQueue()
  for data in dataset:
    pq.put_nowait(data)

print("PriorityQueue를 사용했을 때:")
%timeit -n 10 pqclass_perform(dataset)

PriorityQueue를 사용했을 때:
10 loops, best of 3: 306 ms per loop


## heapq 모듈과 리스트 간 속도 차이 비교

앞서 말했다시피, heapq는 다음과 같은 상황에서 써야 합니다.

1. 힙은 데이터가 **지속적으로 정렬**돼야 하며
2. 데이터의 **삽입/삭제가 빈번**하게 일어날 때 사용하세요.

왜 이때 리스트보다 heapq를 쓰는 게 좋은 지 실험을 통해서 알아봅시다. 

아래 코드는 "PUSH X" 명령이 들어오면 자료구조에 데이터를 넣고, "POP None" 명령이 들어오면 데이터를 빼는 일을 반복합니다. 물론 이때 빼는 데이터는 자료구조에 들어간 값 중 가장 작은 값입니다.

* heapq 모듈은 수행을 완료하는데 약 32ms
* PriorityQueue 클래스의 put_nowait는 약 233ms

가 소요됩니다. 지금은 몇 배 차이가 안 나지만, n이 커질수록 이 차는 굉장히 늘어날 겁니다.

In [0]:
random.seed(0)

def build_comands(n=100000):
  '''PUSH, POP 명령을 담은 리스트를 만드는 함수'''
  commands = []
  num_inserted = 0
  
  for _ in range(n):
    operation = 'PUSH' if num_inserted == 0 else random.choice(['PUSH', 'POP'])
    if operation == 'PUSH':
      num_inserted += 1
      number = random.randint(0,1000000) 
    else:
      num_inserted -= 1
      number = None
    commands.append((operation, number))
  
  commands.extend([('POP', None)] * (num_inserted - 1))
  return commands

commands = build_comands()
print("commands[:5] => ", commands[:5])

commands[:5] =>  [('PUSH', 885440), ('POP', None), ('PUSH', 794772), ('POP', None), ('PUSH', 42450)]


In [0]:
def heapq_perform(commands):
  hq = []
  for [operation, value] in commands:
    if operation == 'PUSH':
      heapq.heappush(hq, value)
    else:
      heapq.heappop(hq)

%timeit -n 10 heapq_perform(commands)

10 loops, best of 3: 32.2 ms per loop


In [0]:
def list_perform(commands):
  lst = []
  for [operation, value] in commands:
    if operation == 'PUSH':
      lst.append(value)
    else:
      lst.sort(reverse=True)
      lst.pop()
      
%timeit -n 10 list_perform(commands)

10 loops, best of 3: 223 ms per loop
