# 자료구조

------------------

- 해당 내용은 파이썬과 함께하는 자료구조 내용을 토대로 공부한 내용을 정리했습니다.

## 기본개념

***

#### 1. 자료구조의 효율성은 수행되는 연산의 **수행시간**으로 측정


#### 2. 대부분의 알고리즘들이 비슷한 크기의 메모리 공간을 사용하기 때문에 실제로는 **시간복잡도**를 수행시간으로 명시하기도 함

<br>

> **수행시간 = 시간복잡도 * 공간복잡도**


## 표기법(3가지)

***

### Big-Oh 표기법(대표)
> **이보다 너 나쁠 수는 없다.(점근적 상한)**


### Big-Omega 표기법
> 이보다 더 좋을 수는 없다.(점근적 하한)


### Theta 표기법
> Big-Oh 와 Big-Omega 동시 성립


**[!TIP]** 점근적: 점점 가까워짐

### <p style="text-align: center;">[알고리즘의 수행시간]</p>

| 표기     | 시간           | 대표 알고리즘           | 비고 |   |
|----------|----------------|-------------------------|------|---|
| O(1)     | 상수시간       | 배열의 요소, 검색       |      |        |
| O(logN)  | 로그(대수)시간 | 이진탐색                |      |       |
| O(N)     | 선형시간       | 순차탐색                |      |      |
| O(NlogN) | 로그선형시간   | 퀵소트                  |      |      |
| O(N^2)   | 제곱시간       | 버블소트                |      |   |
| O(N^3)   | 세제곱시간     |                       |      |   |
| O(2^N)   | 지수시간       | 하노이, 재귀적 피보나치    |      |   |
| O(N!)    | N팩토리얼      | 모든 경우의 수 계산       |      |   |

<p style="text-align:center;">*(주로 O- 표기를 사용)</p>
<p style="text-align:center;">* 아래로 갈수록 비효율적인 알고리즘</p>

### <p style="text-align: center;">[입력크기에 따른 Big-O 처리]</p>


| Big O 표기 | 10 개 | 100 개 | 1000 개  |
| -------------- | ---------------------------- | ----------------------------- | ------------------------------- |
| **O(1)**       | 1                            | 1                             | 1                               |
| **O(log N)**   | 3                            | 6                             | 9                               |
| **O(N)**       | 10                           | 100                           | 1000                            |
| **O(N log N)** | 30                           | 600                           | 9000                            |
| **O(N^2)**     | 100                          | 10000                         | 1000000                         |
| **O(2^N)**     | 1024                         | 1.26e+29                      | 1.07e+301                       |
| **O(N!)**      | 3628800                      | 9.3e+157                      | 4.02e+2567                      |


-------------------

##  파이썬 언어 기본지식

***


In [1]:
a = [] # 비어있는 리스트 a 선언
b = [None] * 10 # 크기가 10//각 원소가 None 로 초기화 된 리스트
c = [40, 10, 70, 60] # 크기가 4이고, 4개의 정수로 초기화 된 리스트

**[!TIP]**
- 리스트에 들어있는 값을 개수로 하지 않고 **크기**라고 부름
    - **배열은 동일한 타입의 항목**들을 저장
    - **리스트는 다른 타입의 항목**들을 저장
    

### \# 의사난수(Pseudo-random Number) 생성

In [2]:
import random
import time
random.seed(time.time())
a = []
for i in range(100):
    a.append(random.randint(1, 1000))
    
start_time = time.time()


# 같은 포맷팅 방식인데 결과값이 달라보인다.
# new 포맷팅은 e-05 에 주목: 5.62.... 에 ^-5 (마이너스 5승) 으로 보면 된다.
print('--- {} seconds ---'.format((time.time() - start_time)))
print('--- %s seconds ---' % (time.time() - start_time))

In [3]:
# 포맷팅 문서를 보니 포맷팅으로 인덱싱, 슬라이싱이 가능한 것을 확인.
# 언젠가는 사용할 수도 있을 것 같아 기억만 해두자. (*자세한 내용은 관련 문서 참조)

'{:>10}'.format('test')

## 내장함수

***

a 라는 리스트가 있고 이를 lambda 또는 함수로 구현

In [4]:
a = [1, 5, 4, 2, 7, 10, 11, 12]

## **lambda 함수를 사용할 경우**


> - lambda 인자(arguments): 식(expression)


In [5]:
even = list(filter(lambda x: (x%2 == 0), a))
print(even) # type: list

[4, 2, 10, 12]


In [6]:
ten_times = list(map(lambda x: x * 10, a))
print(ten_times) # list a 의 각 숫자 * 10 를 리턴

[10, 50, 40, 20, 70, 100, 110, 120]


In [7]:
b = [[0, 1, 8], [7, 2, 2], [5, 3, 10], [1, 4, 5]]

In [8]:
b.sort(key = lambda x: x[2])
print(b) # list 의 마지막 숫자를 기준으로 정렬 b[[2번째], [4번째], [1번째], [3번째]]

[[7, 2, 2], [1, 4, 5], [0, 1, 8], [5, 3, 10]]


**함수로 사용할 경우**

In [9]:
def even_method(a):
    result = []
    for i in a:
        if i % 2 == 0:
            result.append(i)
#     return result
    print(type(result))
    print(result)

In [10]:
even_method(a)

<class 'list'>
[4, 2, 10, 12]


**리스트 컴프리헨션으로 구현**

In [11]:
[i for i in a if i % 2 == 0] # type: list

[4, 2, 10, 12]

### \# 단순연결리스트

- 단순연결리스트는 **`동적 메모리 할당`**을 이용해 노드들을 한 방향으로 연결하여 리스트를 구현
    - 동적 메모리 할당: 실행 시간동안에 메모리를 사용(C 언어는 가비지 컬렉터가 없어서 직접 해제해야 하지만 파이썬은 자동 해제)

In [12]:
class SList:
    class Node:
        def __init__(self, item, link):
            self.item = item
            self.next = link
            
    def __init__(self):
        self.head = None
        self.size = 0

    def size(self):
        return self.size

    def is_empty(self):
        return self.size == 0

    def insert_front(self, item):  # 첫 노드에 삽입
        # 첫번째 노드가 비어있으면
        if self.is_empty():
            # 새로 만든 Node 객체를 self.head 에 참조
            self.head = self.Node(item, None)
        else:
            # Node 에 데이터가 있다면 이번에 들어오는 Node 값을 head 에 참조
            self.head = self.Node(item, self.head)
        # if, else 문에서 Node 객체가 삽입되었다면 size + 1
        self.size += 1

    def insert_after(self, item, p):    # 지정한 pointer 노드 다음에 삽입
        # pointer.next 에 노드 삽입 = Node 객체 생성(pointer 노드 다음에 item 을 삽입)
        p.next = SList.Node(item, p.next)
        self.size += 1

    def delete_front(self):    # 첫 번째 노드를 삭제할 때
        # 만약 지정한 노드 객체가 없다면
        if self.is_empty():
            # 에러를 발생
            raise EmptyError('Underflow')
        # 지정한 노드(item) 이 있고, 그게 head 라면
        else:
            # self.head 의 다음 노드를 self.head 로 참조
            self.head = self.head.next
            self.size -= 1

    def delete_after(self, p):
        if self.is_empty():
            raise EmptyError('Under Flow')
        else:
            # p.next 가 t 와 동일한 3번째 노드에 있다. 그런데 t 가 4번째 노드로 가서 p.next 를 선언
            # 이렇게 되면 기존의 p.next 는 노드의 연결이 끊기게 됨
            # 한줄요약: t 의 배신

            # 현재 t 와 p.next 는 동일한 곳을 가리키고 있는 상태
            t = p.next
            # t 는 p.next 의 다음 노드를 가리키고 p.next 에 할당
            p.next = t.next
            self.size -= 1

    def search(self, target):
        p = self.head
        # 노드가 5개라면 총 5번을 순회(k: 인덱스)
        for k in range(self.size):
            # 파라미터로 받은 target 과 p.item 을 비교하여
            if target == p.item:
                # 인덱스 값을 반환
                return k
            # 만약 target 과 p.item 이 다르다면 p 를 다음 노드로 이동시킴
            p = p.next
        # 검색에 실패할 경우 None 를 반환
        return None

    def print_list(self):
        p = self.head
        while p:
            if p != None:
                print(p.item, '->', end='')
            else:
                print(p.item)
            p = p.next

class EmptyError(Exception):
    pass


In [13]:
s = SList()
s.insert_front('orange')
s.insert_front('apple')
s.insert_after('cherry', s.head.next)
s.insert_front('pear')
s.print_list()
print('cherry 는 {}번째'.format(s.search('cherry')))
print('kiwi 는'.format(s.search('kiwi')))
s.delete_after(s.head)
s.print_list()
print('첫 노드 삭제 후:\t \t', end='')
s.delete_front()
s.print_list()
print('첫 노드로 망고, 딸기 삽입 후:\t', end='')
s.insert_front('mango')
s.insert_front('strawberry')
s.print_list()
s.delete_after(s.head.next.next)
print('오렌지 다음 노드 삭제 후:\t', end='')
s.print_list()

pear ->apple ->orange ->cherry ->cherry 는 3번째
kiwi 는
pear ->orange ->cherry ->첫 노드 삭제 후:	 	orange ->cherry ->첫 노드로 망고, 딸기 삽입 후:	strawberry ->mango ->orange ->cherry ->오렌지 다음 노드 삭제 후:	strawberry ->mango ->orange ->

### \# 이중연결리스트

이중연결리스트는 각 노드가 두 개의 레퍼런스를 가지고 각각 이전 노드와 다음 노드를 가리키는 연결리스트

In [14]:
class DList:
    class Node:
        def __init__(self, item, prev, link):
            self.item = item
            self.prev = prev
            self.next = link

    def __init__(self):
        self.head = self.Node(None, None, None)
        self.tail = self.Node(None, self.head, None)
        self.head.next = self.tail
        self.size = 0

    def size(self):
        return self.size

    def is_empty(self):
        return self.size == 0

    def insert_before(self, p, item):   # 지정한 p 노드 앞에 삽입
        # t 변수에 지정한 pointer 의 앞 객체를 참조
        t = p.prev
        # Node 객체를 만드는데 prev 는 p.prev, p 는 새로운 Node 가 아닌 '뒤로 밀리게 되는 Node'가 된다
        # 앞과 뒤의 Node 를 연결하고 n 변수에 할당
        n = self.Node(item, t, p)
        # 새로 만들어진 Node 객체 n 의 앞과 뒤를 연결해준다
        p.prev = n
        t.next = n
        # Node 객체가 만들어졌기 때문에 데이터의 크기(size +1) 을 시켜줌
        self.size += 1

    def insert_after(self, p, item):    # 지정한 p 노드 뒤에 삽입
        # t 변수에 지정한 pointer 의 다음 객체를 참조
        t = p.next
        # Node 객체를 만드는데 p 에 현재 지정한 Node, t 에는 현재 지정한 객체의 다음 Node 를 가리킴
        # p 와 t 노드 사이에 n Node 객체를 만들어줌
        n = self.Node(item, p, t)
        # 새로 만들어진 n Node 객체의 앞과 뒤(p와 t)를 n 에 연결시켜준다
        t.prev = n
        p.next = n

    def delete(self, x):    # x 의 연결을 끊고, f 와 r 을 이어줌
        # forward 변수에 x 의 앞 노드를 가리킴
        f = x.prev
        # rear 변수에 x 의 다음 노드를 가리킴
        r = x.next
        # x 노드를 삭제하기 위해 f 노드는 을 가리키고, r 노드는 f 를 가리킴
        # 이로써 x 의 연결이 끊어짐, 연결이 끊어졌다는건 이 연결 리스트에서 제외되었다는 뜻
        f.next = r
        r.prev = f
        self.size -= 1
        # x 의 실제 값을 return 시켜줌
        return x.item

    def print_list(self):
        if self.is_empty():
            print('리스트 비어있음')
        else:
            # pointer 가 self.head 가 아닌 self.head.next 를 가리키는 이유는??
            # 내 생각에는 pointer 가 self.head 를 가리켜야 head 부터 p.item 을 print 할텐데..
            p = self.head.next
            # p 가 tail 이 아니라면 while 문 안에서 무한 순회
            while p != self.tail:
                # pointer 의 next Node 객체가 tail 이 아니라면
                if p.next != self.tail:
                    # p.item(입력한 값)을 출력
                    print(p.item, ' <--> ', end='')
                # self.tail 일 경우에는
                else:
                    # p.item(입력한 값)을 출력, 이 값은 tail 의 값이 되어 while 문 종료
                    print(p.item)
                # 위의 if 문이 true 이면 pointer 는 다음 Node 객체를 가리키게 설정
                p = p.next


class EmptyError(Exception):
    pass


In [15]:
s = DList()
s.insert_after(s.head, 'apple')
s.insert_before(s.tail, 'orange')
s.insert_before(s.tail, 'cherry')
s.insert_after(s.head.next, 'pear')
s.print_list()
print('마지막 노드 삭제 후:\t', end='')
s.delete(s.tail.prev)
s.print_list()
print('맨 끝에 포도 삽입 후:\t', end='')
s.insert_before(s.tail, 'grape')
s.print_list()
print('첫 노드 삭제 후:\t', end='')
s.delete(s.head.next)
s.print_list()
print('첫 노드 삭제 후:\t', end='')
s.delete(s.head.next)
s.print_list()
print('첫 노드 삭제 후:\t', end='')
s.delete(s.head.next)
s.print_list()

apple  <--> pear  <--> orange  <--> cherry
마지막 노드 삭제 후:	apple  <--> pear  <--> orange
맨 끝에 포도 삽입 후:	apple  <--> pear  <--> orange  <--> grape
첫 노드 삭제 후:	pear  <--> orange  <--> grape
첫 노드 삭제 후:	리스트 비어있음
첫 노드 삭제 후:	grape


### \# 원형연결리스트

In [16]:
class CList:
    class _Node:
        def __init__(self, item, link):
            self.item = item
            self.next = link

    def __init__(self):
        self.last = None
        self.size = 0

    # Node 의 size(데이터 크기)를 리턴
    def no_items(self):
        return self.size

    # Node 가 비어있을 때의 상황을 함수화 시켜놓음
    # self.is_empty() 로 메서드를 불러 사용하기 때문에 가독성이 좋아짐
    def is_empty(self):
        return self.size == 0

    def insert(self, item):
        # n 변수에 새로운 Node 객체를 생성
        n = self._Node(item, None)
        # Note List 가 비어있다면
        if self.is_empty():
            # Node 객체의 next 를 자신을 참조하면서, last 로 참조(레퍼런스 카운트 2)
            n.next = n
            self.last = n
        # CList 에 Node 객체가 존재한다면
        else:
            # self.last.next(즉 첫번째 생성한 Node 의 다음) 에 n.next 할당
            n.next = self.last.next
            # 새로 만든 Node 는 첫번째 노드의 다음에 위치한다
            self.last.next = n
        self.size += 1

    def first(self):
        if self.is_empty():
            raise EmptyError('Underflow')
        f = self.last.next
        return f.item

    def delete(self):
        if self.is_empty():
            raise EmptyError('Underflow')
        x = self.last.next
        if self.size == 1:
            self.last = None
        else:
            self.last.next = x.next
        self.size -= 1
        return x.item

    def print_list(self):
        if self.is_empty():
            print('리스트 비어있음')
        else:
            f = self.last.next
            p = f
            while p.next != f:
                print(p.item, ' -> ', end='')
                p = p.next
            print(p.item)


class EmptyError(Exception):
    pass

In [17]:
s = CList()
s.insert('pear')
s.insert('cherry')
s.insert('orange')
s.insert('apple')
s.print_list()
print('s의 길이 =', s.no_items())
print('s의 첫 항목 :', s.first())
s.delete()
print('첫번째 노드 삭제 후: ', end='')
s.print_list()
print('s의 길이 =', s.no_items())
print('s의 첫 항목: ', s.first())
s.delete()
print('첫번째 노드 삭제 후: ', end='')
s.print_list()
s.delete()
print('첫번째 노드 삭제 후: ', end='')
s.print_list()
s.delete()
print('첫번째 노드 삭제 후: ', end='')
s.print_list()

apple  -> orange  -> cherry  -> pear
s의 길이 = 4
s의 첫 항목 : apple
첫번째 노드 삭제 후: orange  -> cherry  -> pear
s의 길이 = 3
s의 첫 항목:  orange
첫번째 노드 삭제 후: cherry  -> pear
첫번째 노드 삭제 후: pear
첫번째 노드 삭제 후: 리스트 비어있음


### \# 스택과 큐

In [18]:
class Node:
    # 전역변수 top 에 생성자함수를 사용한 노드를 생성
    # top = Node(item, top)
    def __init__(self, item, link):
        self.item = item
        self.next = link
        
def push(item):
    # 전역변수 top/size 선언
    global top
    global size
    # 새로운 노드를 push 할 때는 스택구조이기 때문에, 항상 top = new_node
    top = Node(item, top)
    size += 1
    
def peek():
    if size != 0:
        # top 인스턴스의 item 속성에 접근
        return top.item
    
def pop():
    # pop 은 해당 스택에서 최상위에 있는 리스트의 값을 꺼내야 함
    global top
    global size
    if size != 0:
        # 해당 스택에서 top.item 을 임의의 변수 top_item 으로 할당
        # (이 변수에 할당된 값이 return 됨)
        top_item = top.item
        # 바로 아래에 있는 리스트의 값을 새로운 top 으로 포인터 지정
        top = top.next
        size -= 1
        # 위에서 지정한 임의의 변수 top_item 을 리턴
        # 리턴은 함수를 부르면 1번만 실행되기 때문에
        # top_item 이 존재하지 않는다는 에러메시지는 발생하지 않음
        return top_item
    
def print_stack():
    print('top -> ', end='')
    p = top
    while p:
        # stack 구조상 바로 아래에 아이템이 있을 경우 if 처리
        if p.next != None:
            print(p.item, '\n', end='')
        # stack 에서 가장 아래에 아이템일 경우 else 처리
        else:
            print(p.item, '\n', end='')
        # if, else 문에서 처리하고 바로 아래의 item 을 .next 에 할당
        p = p.next
    print()


top = None
size = 0
push('apple')
push('orange')
push('cherry')
print('사과, 오렌지, 체리  push 후\t', end='')
print()

print_stack()
print('top 항목:', end='')
print(peek())
print()

push('pear')
print('[배(pear) push 후]\n', end='')
print_stack()
pop()
push('grape')
print('[pop(), 포도(grape) push 후]\n', end='')
print_stack()

사과, 오렌지, 체리  push 후	
top -> cherry 
orange 
apple 

top 항목:cherry

[배(pear) push 후]
top -> pear 
cherry 
orange 
apple 

[pop(), 포도(grape) push 후]
top -> grape 
cherry 
orange 
apple 



[!TIP]
> 알고리즘의 수행시간은 주로 big-O 표기법(이보다 나쁠 수는 없다.) 로 표현하며, 단순연결리스트로 구현한 stack 에서 push, pop 은 `O(1)` 시간이 소요

> 그러나 우리 눈에는 보이지 않지만 파이썬의 리스트 크기는 동적으로 자동으로 확장/축소 되며, 모든 항목은 새로운 리스트로 복사해야 하기 때문에 `O(N)` 시간이 소요

| 표기     | 시간           | 비고         |
|----------|----------------|----------|
| O(1)     | 상수시간       | 효율적 **(단순연결리스트 push, pop)**   |
| O(logN)  | 로그(대수)시간 |          |
| O(N)     | 선형시간       |          |
| O(NlogN) | 로그선형시간   |          |
| O(N^2)   | 제곱시간       |          |
| O(N^3)   | 세제곱시간     |          |
| O(2^N)   | 지수시간       | 비효율적 |

<p style="text-align: center;">*(주로 O-표기를 사용)</p>

#### \# 스택의 응용

1. 괄호 짝 맞추기
    - 왼쪽 괄호는 스택에 push, 오른쪽 괄호는 스택에 pop 하여 짝이 맞지 않을 경우 에러를 발생


2. 회문(Palindrome)
    - 앞으로부터 읽으나 뒤로부터 읽으나 같은 string type 을 검사  예) RACECAR
    - 전반부의 문자들을 스택에 push, 후반부의 각 문자를 차례로 pop 한 문자와 비교



\# RACECAR

\# RAC 는 stack 에 push 하고, pop은 역순으로 나오기 때문에 CAR 이 나옴

step7. pop(`R`)

step6. pop(`A`)

step5. pop(`C`)

step4. `E` 는 읽고 버림

step3. push(`C`)

step2. push(`A`)

step1. push(`R`)

### \# 큐

- 단순연결리스트로 구현한 큐
    - CPU 의 태스트 스케줄링, 네트워크 프린터, 실시간 시스템의 인터럽트 처리, 다양한 이벤트 구동 방식 컴퓨터 시뮬레이션, 콜 센터의 전화 서비스 처리 등
    - 이진트리의 레벨순회, 그래프의 너비우선탐색

In [19]:
class Node:
    def __init__(self, item, n):
        self.item = item
        self.next = n
        
def add(item):
    # 전역변수로 size, front, rear 선언
    # 전역변수를 선언하면 해당 함수가 종료되도 메모리 공간 어디엔가 존재
    global size
    global front
    global rear
    # 새로운 Node 를 생성하고, link 는 없음
    new_node = Node(item, None)
    if size == 0:
        front = new_node
    else:
        # 이미 Node 가 존재한다면 리스트의 맨 뒤.next 를 새로 만든 Node 로 지정
        rear.next = new_node
    rear = new_node
    size += 1

# remove 는 파라미터를 따로 받지 않고, 전역변수 자체에 접근하여 연산 처리를 진행
def remove():
    global size
    global front
    global rear
    if size != 0:
        # 큐 구조는 맨 처음에 들어간 front 의 값을 return 시킴
        # front.item 을 따로 변수로 지정, front.next 의 값을 front 변수로 지정
        fitem = front.item
        front = front.next
        size -= 1
        if size == 0:
            rear = None
        # return 시킴으로 인해서 리스트의 길이가 -1 됨
        return fitem
    
def print_q():
    p = front
    print('front: ', end='')
    while p:
        if p.next != None:
            print(p.item, '-> ', end='')
        else:
            print(p.item, end='')
        p = p.next
    print(' : rear')

In [20]:
front = None
rear = None
size = 0

add('apple')
add('orange')
add('cherry')
add('pear')
print('사과, 오렌지, 체리, 배 삽입 후: \t', end='')
print_q()
remove()
print('remove한 후:\t\t', end='')
print_q()
remove()
print('remove한 후:\t\t', end='')
print_q()
add('grape')
print('포도 삽입 후:\t\t', end='')
print_q()

사과, 오렌지, 체리, 배 삽입 후: 	front: apple -> orange -> cherry -> pear : rear
remove한 후:		front: orange -> cherry -> pear : rear
remove한 후:		front: cherry -> pear : rear
포도 삽입 후:		front: cherry -> pear -> grape : rear


### \# 데크(Deque)

- (Double-ended Queue, Deque)는 양쪽 끝에서 삽입과 삭제를 허용하는 자료구조
- 데크는 스택과 큐 자료구조를 혼합한 자료구조


In [21]:
from collections import deque
dq = deque('data') # deque 객체 생성, deque(['d', 'a', 't', 'a'])
for elem in dq:
    print(elem.upper())
print()
# 하나의 문자열로 해당 리스트에 삽입
dq.append('r')
dq.appendleft('k')
print(dq)
dq.pop()
dq.popleft()
print(dq[-1])
print('x' in dq)
# 문자열이 아닌 각 문자마다 dq 리스트에 추가
dq.extend('structure')
dq.extendleft(reversed('python'))
print(dq)

D
A
T
A

deque(['k', 'd', 'a', 't', 'a', 'r'])
a
False
deque(['p', 'y', 't', 'h', 'o', 'n', 'd', 'a', 't', 'a', 's', 't', 'r', 'u', 'c', 't', 'u', 'r', 'e'])


### \# 트리

#### 이진트리

**1. 각 노드의 자식 수가 2 이하인 트리**
    - 이진트리는 1. 비어있거나 // 2. 비어있지 않다면 루트와 2개의 이진트리인 왼쪽 서브트리와 오른쪽 서브트리로 구성
    

**2. 이진트리의 형태**
    - 포화이진트리, 완전이진트리(또는 불완전한 이진트리)
    
    
**3. 리스트에 저장해야 효율적인 이진트리와 그렇지 않은 이진트리**
    - 완전이진트리(또는 포화이진트리)는 리스트에 꽉꽉 채워져있어(메모리에 순서대로 저장) 효율적이다.
    - 그렇지만 편향이진트리는 리스트에 듬성듬성 값이 채워져있어(메모리에 듬성듬성 저장) 비효율적이다.


**4. 재귀함수로 호출**
    - 재귀함수로 호출하면 바로 이전의 데이터값은 재귀함수의 호출 위치에 머물러있다가, 재귀함수 호출값이 다음 코드로 넘어갔을 때 그 함수 호출 값을 처리한다......(말로 하니 어렵다)
    
    
**5. 스택프레임에 쌓이는 것은 재귀함수**
    - 레벨순회를 제외하고는 모두 스택 자료구조를 사용
    - 함수의 재귀호출은 시스템 스택을 사용하므로 스택 자료구조를 사용한 것으로 간주
    - 스택에 사용되는 메모리 공간의 크기는 트리의 높이에 비례
    

**6. 이진트리에서 부모와 자식노드를 찾는 공식**
    - a[i] 의 부모는 a[i//2] 에 있다. 단, i > 1 이다.
        - a[11] 의 부모: a[11//2] == 5, 즉 a[5] 가 부모노드이다.
    - a[i] 의 왼쪽자식은 a[2i] 에 있다. 단 2i <= N 이다.
        - a[5] 의 왼쪽자식: a[2*5] == 10, 즉 a[10] 이 왼쪽 자식노드이다.
    - a[i] 의 오른쪽자식은 a[2i + 1] 에 있다. 단 2i + 1 <= N 이다.
        - a[5] 의 오른쪽자식: a[2*5+1] == 11, 즉 a[11] 이 오른쪽 자식노드이다.
        

**7. 이진트리 형태의 한계**
    - 이진트리 형태의 자료구조는 대용량의 데이터 처리에 효율적이지 못하다
        - B 트리 구조가 효율적(노드에 수백개에서 수천 개의 키를 저장하여 트리의 높이를 낮춤


In [22]:
class Node:
    def __init__(self, item, left=None, right=None):
        self.item = item
        self.left = left
        self.right = right
        
class BinaryTree:
    def __init__(self):
        self.root = None
        
    def preorder(self, n):
        # 재귀함수로 root 를 기준으로 계속해서 하위 레벨의 노드를 호출
        # 최하위의 레벨의 노드가 종료되면, 그 부모 레벨의 노드에 대한 print()
        # 즉, 1레벨, 2레벨, 3레벨의 순서로 스택프레임은 쌓였기 때문에 3레벨, 2레벨, 1레벨의 순으로 연산 처리를 진행
        if n != None:
            print(str(n.item), ' ', end='')
            if n.left:
                self.preorder(n.left)
            if n.right:
                self.preorder(n.right)
                
    def inorder(self, n):
        if n != None:
            if n.left:
                self.preorder(n.left) # 루트 노드부터 스택프레임이 차곡차곡 쌓여있음
            print(str(n.item), ' ', end='')
            if n.right:
                self.preorder(n.right)
                
    def postorder(self, n):
        if n != None:
            if n.left:
                self.postorder(n.left)
            if n.right:
                self.postorder(n.right)
            print(str(n.item), ' ', end='')
            
    def levelorder(self, root):
        q = []
        q.append(root)
        # 노드는 while 문을 기준으로 계속 순회한다
        while len(q) != 0:
            t = q.pop(0)
            print(str(t.item), ' ', end='')
            # 부모노드의 자식노드들을 계속해서 q 리스트에 추가, 그러나 print()는 부모 노드가 출력
            if t.left:
                q.append(t.left)
            if t.right:
                q.append(t.right)

    def height(self, root):
        if root == None:
            return 0
        return max(self.height(root.left), self.height(root.right)) + 1
    

In [23]:
t = BinaryTree()
n1 = Node(100)
n2 = Node(200)
n3 = Node(300)
n4 = Node(400)
n5 = Node(500)
n6 = Node(600)
n7 = Node(700)
n8 = Node(800)
n1.left = n2
n1.right = n3
n2.left = n4
n2.right = n5
n3.left = n6
n3.right = n7
n4.left = n8
t.root = n1

print(' 트리 높이 =', t.height(t.root))
print(' 전위순회: \t', end='')
t.preorder(t.root)
print('\n 중위순회: \t', end='')
t.inorder(t.root)
print('\n 후위순회: \t', end='')
t.postorder(t.root)
print('\n 레벨순회: \t', end='')
t.levelorder(t.root)

 트리 높이 = 4
 전위순회: 	100  200  400  800  500  300  600  700  
 중위순회: 	200  400  800  500  100  300  600  700  
 후위순회: 	800  400  500  200  600  700  300  100  
 레벨순회: 	100  200  300  400  500  600  700  800  

### \# 이진힙

1. 최소힙과 최대힙으로 구분
    - 최소힙에서 최소값의 삭제는 루트 노드를 삭제하고, 최하위(최대값)을 루트노드에 삽입하여 자식 노드와 비교하여 결과값 리턴(다운힙)
    
    
2. 이진힙의 사용
    - 우선순위를 가진 데이터를 처리하는 자료구조로서, 관공서, 은행, 병원, 우체국, 대형마켓, 공항 등에서 이루어지는 업무와 관련된 이벤트 처리, 컴퓨터 운영체제의 프로세스 처리, 네트워크 라우터에서의 패킷 처리 등에 적합한 자료구조
    - **실시간 급상승 검색어(데이터 스트림에서 Top k 항목을 유지) 제공을 위한 적절한 자료구조**
    
    
3. 검색어 구현
    - real_time_rank = \[[76, '파이썬'], [43, '자바'], [32, '고']\]
        - 여기서 갑자기 \[[120, '인공지능']\] 검색어가 급상승한다면?? 이진힙에서 최대힙으로 구현
        
        
4. upheap, downheap
    - 삽입할 때는 upheap() 이 사용된다. 즉, 노드 추가는 최하위에 삽입되고 해당 부모노드와 비교하여 작으면 더 위로 올라가게 되는 구조
    - 삭제할 때는 downheap() 이 사용된다. 최상위 노드를 삭제하고, 그 자리에 최하위 노드를 추가하여 둘이서 스와핑을 진행.
        - *스와핑: 최상위, 최하위 = 최하위, 최상위
        - 최하위가 완전부모 노드에 있기 때문에 자식 노드와 비교하면서 아래로 내려가게 되는 자료구조

In [24]:
class BHeap:
    def __init__(self, a): # 이진힙 생성자
        self.a = a # 리스트 a
        self.N = len(a) -1 # 항목 수
        
    def create_heap(self): # 초기힙 생성
        # start 는 항목 수, end 는 모든 항목이 순회할 때까지, step 는 역순으로
        # 즉, 항목 수 -1 해서 역순으로 이진힙을 순회
        for i in range(self.N//2, 0, -1):
            self.downheap(i)
            
    def insert(self, key_value):
        self.N += 1
        self.a.append(key_value)
        self.upheap(self.N)
        
    def delete_min(self): #최소값 삭제
        if self.N == 0:
            print('힙이 비어있음')
            return None
        # 최상위 노드에 있는 루트 노드가 최소값이 되며 이를 minimum 변수에 할당
        # minimum 변수에 해당 값을 할당했으니, a[1] 의 실제값은 레퍼런스 카운트 2
        # a[1] 이 다른 값을 참조해도 minimum 은 최소값을 참조한 상태이다(헷갈리지 말 것!!!!)
        minimum = a[1] 
        self.a[1], self.a[-1] = self.a[-1], self.a[1] # 최소값과 최대값을 스위칭
        del self.a[-1] # 스위칭 된 최소값을 삭제
        self.N -= 1 # 삭제했으니 항목 수도 -1
        self.downheap(1)
        return minimum
    
    def downheap(self, i):
        while 2 * i <= self.N:
            k = 2 * i
            # k 인덱스가 크다면 k+1 인덱스가 최소값으로 지정되어야 함
            if k < self.N and self.a[k][0] > self.a[k+1][0]:
                k += 1
            if self.a[i][0] < self.a[k][0]:
                break
            self.a[i], self.a[k] = self.a[k], self.a[i]
            i = k
            
    def upheap(self, j): # 힙 올라가며 힙속성 회복
        # j 는 항목수(리스트의 개수)
        while j > 1 and self.a[j//2][0] > self.a[j][0]:
            # 부모노드와 자식노드를 교환
            self.a[j], self.a[j//2] = self.a[j//2], self.a[j]
            j = j//2 # 노드가 한 층 올라감
            
    def print_heap(self):
        for i in range(1, self.N+1):
            print('[%2d' % self.a[i][0], self.a[i][1], ']', end='')
        print('\n힙 크기 = ', self.N)
                

In [25]:
a = [None] * 1
a.append([90, 'watermelon'])
a.append([80, 'pear'])
a.append([70, 'melon'])
a.append([60, 'lime'])
a.append([50, 'mango'])
a.append([40, 'cherry'])
a.append([30, 'grape'])
a.append([20, 'orange'])
a.append([10, 'apricot'])
a.append([15, 'banana'])
a.append([45, 'lemon'])
a.append([40, 'kiwi'])
b = BHeap(a)
print('힙 만들기 전:')
b.print_heap()
b.create_heap()
print('최소힙:')
b.print_heap()
print('최솟값 삭제 후')
print(b.delete_min())
b.print_heap()
b.insert([5,'apple'])
print('5 삽입 후')
b.print_heap()

힙 만들기 전:
[90 watermelon ][80 pear ][70 melon ][60 lime ][50 mango ][40 cherry ][30 grape ][20 orange ][10 apricot ][15 banana ][45 lemon ][40 kiwi ]
힙 크기 =  12
최소힙:
[10 apricot ][15 banana ][30 grape ][20 orange ][45 lemon ][40 kiwi ][70 melon ][80 pear ][60 lime ][50 mango ][90 watermelon ][40 cherry ]
힙 크기 =  12
최솟값 삭제 후
[10, 'apricot']
[15 banana ][20 orange ][30 grape ][40 cherry ][45 lemon ][40 kiwi ][70 melon ][80 pear ][60 lime ][50 mango ][90 watermelon ]
힙 크기 =  11
5 삽입 후
[ 5 apple ][20 orange ][15 banana ][40 cherry ][45 lemon ][30 grape ][70 melon ][80 pear ][60 lime ][50 mango ][90 watermelon ][40 kiwi ]
힙 크기 =  12


#### \# 2 차원 리스트

In [26]:
fruit = [[10, 'apple'], [20, 'banana'], [30, 'kiwi', 'steve']]

In [27]:
fruit

[[10, 'apple'], [20, 'banana'], [30, 'kiwi', 'steve']]

In [28]:
a = 2

In [29]:
fruit[a*1][0]

30

In [30]:
fruit[a*1][1]

'kiwi'

In [31]:
fruit[a*1][2] # 세번째 리스트에만 3개의 리스트값을 가지고 있어도 출력된다. 물론 다른 fruit 리스트들을 출력하면 에러 발생

'steve'

### \# 이진탐색

In [32]:
def binary_search(left, right, t):
    if left > right:
        return None # 탐색 실패(즉, t가 리스트에 없음)
    mid = (left + right) // 2 # 리스트에서 탐색할 부분의 중간 항목의 인덱스 계산
    if a[mid] == t:
        return mid # 탐색 성공
    if a[mid] > t:
        binary_search(left, mid-1, t) # 앞부분 탐색
    else:
        binary_search(mid+1, right, t) #뒷부분 탐색

\# **1차원 구조로 되어있고, mid 를 잡고 그 인덱스를 기준으로 반으로 자르고 비교를 해나가는 구조**

\# **각 노드는 바로 양옆에만 참조하고 있기 때문에 운이 없을 경우에는 많은 시간이 소요된다**


1. 기본 전제는 a 리스트의 N 개 값들은 정렬이 되어있다.
2. mid 로 범위를 좁여나간다
3. 최악의 경우에는 리스트에 거의 대부분을 검색하여 return mid 가 된다.
    - 삽입과 삭제가 빈번하면 정렬을 유지하기 위해 시간이 오래 걸린다.
    - O(N): 선형시간(3번째)
    
    

[!TIP]
- binary_search(인덱스 첫번째, 인덱스 마지막, 원하는 검색값)
- binary_esarch(mid, 인덱스 마지막, 원하는 검색값)
- mid 를 +- 하면서 최종적으로는 binary_search(10, 10, 66) # 2개의 범위를 일치
- 조건에 만족하지 않으면 재귀함수로 호출하여 범위를 좁혀 나가는 것 또한 잊지말자.

### \# 이진탐색트리

**이진탐색을 트리구조로 변형시킨 자료구조**

- 이진탐색트리의 특징 중의 하나는 트리를 중위순회(왼쪽, 노드방문, 오른쪽)을 수행하면 정렬된 출력을 얻는다는 것


- `이진탐색트리 조건`

    - 각 노드 n의 키값이 n의 왼쪽 서브트리에 있는 노드들의 키값들보다 크고, n의 오른쪽 서브트리에 있는 노드들의 키값들보다 작다.


- __부모 노드 기준으로 왼쪽은 모두 부모노드의 값보다 작아야 한다.__ 그렇지않으면 이진탐색 트리가 아니므로 주의

    - **노드 값의 크기**

        - n2 < n1 < n3

In [33]:
class Node:
    def __init__(self, key, value, left=None, right=None): # 노드 생성자
        self.key   = key
        self.value = value 
        self.left  = left 
        self.right = right 

class BST:           
    def __init__(self): # 트리 생성자
        self.root = None 

    def get(self, k): # 탐색 연산
        return self.get_item(self.root, k)
    
    def get_item(self, n, k):
        if n == None:
            return None # key를 발견 못함
        if n.key > k: # 왼쪽 서브트리 탐색
            return self.get_item(n.left, k)
        elif n.key < k: # 오른쪽 서브트리 탐색 
            return self.get_item(n.right, k) 
        else:
            return n.value # key를 가진 노드 발견

    def put(self, key, value): # 삽입 연산
        self.root = self.put_item(self.root, key, value)
        
    def put_item(self, n, key, value):
        if n == None:
            return Node(key, value) 
        if n.key > key: # 왼쪽 서브트리에 삽입
            n.left = self.put_item(n.left, key, value)
        elif n.key < key: # 오른쪽 서브트리에 삽입
            n.right = self.put_item(n.right, key, value) 
        else: # 노드 n의 value 갱신
            n.vlaue = value
        return n

    def delete_min(self): # 최솟값 삭제
        if self.root == None:
            print('트리가 비어 있음')
        self.root = self.del_min(self.root)
        
    def del_min(self, n):
        if n.left == None:
            return n.right  # n의 오른쪽자식 리턴
        n.left = self.del_min(n.left) # n의 왼쪽자식으로 재귀호출
        return n

    def delete(self, k): # 삭제 연산
        self.root = self.del_node(self.root, k)
         
    def del_node(self, n, k):
        if n == None:
            return None
        if n.key > k: # 왼쪽자식으로 이동
            n.left = self.del_node(n.left, k)   
        elif n.key < k: # 오른쪽자식으로 이동
            n.right = self.del_node(n.right, k) 
        else: # 삭제할 노드 발견
            if n.right == None: # case 0, 1
                return n.left   
            if n.left == None:  # case 1
                return n.right 
            target = n          # case 2, Line 66-69          
            n = self.minimum(target.right) # 중위 후속자를 찾아서 n이 참조하게 함
            n.right = self.del_min(target.right)
            n.left  = target.left
        return n
    
    def min(self): # 최솟값 가진 노드 찾기
        if self.root == None:
            return None
        return self.minimum(self.root)
    
    def minimum(self, n):
        if n.left == None:
            return n
        return self.minimum(n.left)
    
    def preorder(self, n): # 전위순회
        if n != None:
            print(str(n.key),' ', end='')
            if n.left:
                self.preorder(n.left)
            if n.right:
                self.preorder(n.right)
 
    def inorder(self, n): # 중위순회
        if n != None:
            if n.left:
                self.inorder(n.left)
            print(str(n.key),' ', end='')
            if n.right:
                self.inorder(n.right)

    def postorder(self, n): # 후위순회
        if n != None:
            if n.left:
                self.postorder(n.left)
            if n.right:
                self.postorder(n.right)
            print(str(n.key),' ', end='')
              
    def levelorder(self, root): # 레벨순회
        q = []
        q.append(root)
        while len(q) != 0:  
            t = q.pop(0) 
            print(str(t.key), ' ', end='')
            if t.left != None: 
                q.append(t.left)  
            if t.right != None: 
                q.append(t.right)

In [34]:
t = BST()
t.put(500, 'apple')
t.put(600, 'banana')
t.put(200, 'melon')
t.put(100, 'orange')
t.put(400, 'lime')
t.put(250, 'kiwi')
t.put(150, 'grape')
t.put(800, 'peach')
t.put(700, 'cherry')
t.put(50, 'pear')
t.put(350, 'lemon')
t.put(10, 'plum')
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)
print('\n250: ', t.get(250))
t.delete(200)
print('200 삭제 후:')
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)

전위순회:	500  200  100  50  10  150  400  250  350  600  800  700  
중위순회:	10  50  100  150  200  250  350  400  500  600  700  800  
250:  kiwi
200 삭제 후:
전위순회:	500  250  100  50  10  150  400  350  600  800  700  
중위순회:	10  50  100  150  250  350  400  500  600  700  800  

### \# AVL 트리구조

- AVL 트리는 한쪽으로 치우쳐 자라나는 현상에 대한 균형을 유지

- AVL 트리는 임의의 노드 n 에 대해 n 의 왼쪽 서브트리의 높이와 오른쪽 서브트리의 높이 차이가 1을 넘지 않는 이진탐색트리

- 균형을 잡는 방법은 총 4가지
    - 오른쪽, 왼쪽, 오른쪽과 왼쪽, 왼쪽과 오른쪽처럼 재귀를 통해 값을 비교하여 노드를 재설정

In [35]:
class Node:
    def __init__(self, key, value, height, left=None, right=None):
        self.key = key
        self.value = value
        self.height = height
        self.left = left
        self.right = right
        
class AVL:
    def __init__(self):
        self.root = None
        
    def height(self, n):
        if n == None:
            return 0
        return n.height
    
    def put(self, key, value):
        self.root = self.put_item(self.root, key, value)
        
    def put_item(self, n, key, value):
        """
        노드가 없으면 새로 만들고 바로 리턴해주고
        만약에 노드가 있다면 루트 노드를 시작으로 재귀함수로 n.left, n.right 로 계속 비교 연산
        """
        # 노드가 없을 경우 노드 생성
        if n == None:
            return Node(key, value, 1)
        # 존재하는 노드가 새로 들어오는 key 값보다 크다면
        # 새로 들어오는 key 를 왼쪽으로 할당
        if n.key > key:
            n.left = self.put_item(n.left, key, value)
        elif n.key < key:
            n.right = self.put_item(n.right, key, value)
        else:
            # key 가 이미 트리에 있으므로 value 를 갱신시켜줌
            n.value = value
            return n
        n.height= max(self.height(n.left), self.height(n.right)) + 1
        # 노드 n 의 균형 점검 및 불균형을 바로 잡음
        return self.balance(n)
    
    def balance(self, n):
        if self.bf(n) > 1: # 노드 n의 왼쪽 서브트리가 높아서 불균형 발생
            if self.bf(n.left) < 0: # 노드 n의 왼쪽 자식의 오른쪽 서브트리가 높은 경우
                n.left = self.rotate_left(n.left) # LR-회전
            n = self.rotate_right(n) # LL-회전
            
        elif self.bf(n) < -1: # 노드 n의 오른쪽 서브트리가 높아서 불균형 발생
            if self.bf(n.right) > 0: # 노드 n의 오른쪽 자식의 왼쪽 서브트리가 높은 경우
                n.right = self.rotate_right(n.right) # RL-회전
            n = self.rotate_left(n) # RR-회전
        return n
    
    def bf(self, n):
        return self.height(n.left) - self.height(n.right)
    
    def rotate_right(self, n): # 오른쪽으로 회전
        x = n.left
        n.left = x.right
        x.right = n
        # 높이 갱신
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        # 높이 갱신
        x.height = max(self.height(x.left), self.height(x.right)) + 1
        # 회전 후 x 가 n 의 이전 자리로 이동되었으므로 x 를 리턴
        return x
    
    def rotate_left(self, n): # 왼쪽으로 회전
        x = n.right
        n.right = x.left
        x.right = n
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        n.height = max(self.height(x.left), self.height(x.right)) + 1
        return x
    
    def delete(self, key):
        self.root = self.delete_node(self.root, key)
        
    def delete_node(self, n, key):
        if n == None:
            return None
        # 왼쪽 자식으로 이동
        if n.key > key:
            n.left = self.delete_node(n.left, key)
        # 오른쪽 자식으로 이동
        elif n.key < key:
            n.right = self.delete_node(n.right, key)
        else: # 삭제할 노드 발견
            if n.right == None:
                return n.left
            if n.left == None:
                return n.right
            target = n
            # 중위 후속자를 찾아서 n 이 참조하게 함
            n = self.minimum(target.right)
            n.right = self.del_min(target.right)
            n.left = target.left
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        return self.balance(n)
    
    def delete_min(self):
        if self.root == None:
            print('트리가 비어있음')
        self.root = self.del_min(n.left)
        
    def del_min(self, n):
        # 최소값인 n.left 가 비어있으면 n.right 를 반환
        if n.left == None:
            return n.right
        n.left = self.del_min(n.left)
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        return self.balance(n)
    
    def min(self):
        # 노드가 자체가 없으므로 None 을 반환
        if self.root == None:
            return None
        # 그게 아닐 경우에는 minimum 메서드 실행
        return self.minmum(self.root)
        
    def minimum(self, n):
        if n.left == None:
            return n
        return self.minimum(n.left)
    
    def preorder(self, n):
        print(str(n.key), ' ', end='')
        if n.left:
            self.preorder(n.left)
        if n.right:
            self.preorder(n.right)
            
    def inorder(self, n):
        if n.left:
            self.inorder(n.left)
        print(str(n.key), ' ', end='')
        if n.right:
            self.inorder(n.right)

In [36]:
t = AVL()
t.put(75, 'apple')
t.put(80, 'grape')
t.put(85, 'lime')
t.put(20, 'mango')
t.put(10, 'strawberry')
t.put(50, 'banana')
t.put(30, 'cherry')
t.put(40, 'watermelon')
t.put(70, 'melon')
t.put(90, 'plum')
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)
print('\n75와 85 삭제 후:')
t.delete(75)
t.delete(85)
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)

전위순회:	20  10  40  80  10  40  75  90  
중위순회:	10  40  20  10  40  80  75  90  
75와 85 삭제 후:
전위순회:	20  10  40  80  10  40  75  90  
중위순회:	10  40  20  10  40  80  75  90  

- AVL 트리는 삽입이나 삭제 시 트리의 균형을 유지하여 O(logN) 시간을 보장


**2-3 트리**


- 2-3 트리는 내부노드의 차수가 2 또는 3인 균형탐색트리
    - 2-노드는 자식이 2개, 3-노드는 자식이 3개
    - 2-3 트리는 이파리노드들이 동일한 층에 있어야 하므로 트리가 위로 자라거나 낮아짐
    
    
**레드블랙트리**


- 노드에 빨간색 또는 기본(검정색)을 인스턴스에 부여해서 만드는 트리
    - 색을 부여해서 얻게 되는 장점은 잘 모르겠음..
    
    
**B-트리**

- Balanced Tree
    - 이진트리의 확장판
    - 항상 O(logN)의 검색 성능을 보장
    - 주로 데이터베이스의 기본 자료구조
        - 운전 면허 소지자, 납세자 등 수많은 데이터의 자료구조로 활용
    - 트리구조와 이진탐색의 호환 버전으로 생각
    - B*-트리, B+-트리가 있는데 이 트리들은 B-트리의 개선 버전

- 이진트리구조처럼 1개의 노드가 2개의 자식 노드를 가지는 것이 아니고, 각 내부노드의 자식 수는 [M/2] 이상 M 이하를 가진다.
    - 즉, 트리의 레벨이 깊어질수록 연산 처리가 오래 걸리는데 부모가 많은 자식을 가져서 그 깊이를 최소로 해준다.
    
    
- 삭제 연산을 수행
    - 이파리 삭제 후 underflow 발생
    - 형제노드에 요청해서 조건에 맞는 노드가 넘어감
    - 형제 노드가 underflow 가 발생된다면 부모노드가 도와줌
    - 만약 부모노드가 underflow 가 발생된다면 그 부모노드가 도와줌
    - 이렇게 계속 흘러가서 만약에 루트노드까지 도달한다면 루트노드가 자기 자식노드와 통합되어 루트 노드를 생성
        - 루트 노드는 2개 이상의 노드를 가지게 되는 상태

## 요약

***

### 이진탐색

- 1차원 리스트에 데이터가 정렬되어 있을 때 주어진 데이터를 효율적으로 찾는 알고리즘

- 최악의 경우 O(N) 시간이 소요

**이진탐색**

1. binary_search(left, right, t) 함수와 같이 전체 길이를 설정하고 mid = left+right 를 더한 값 // 2

2. 이 mid 의 값보다 t 가 크면 오른쪽, 작으면 왼쪽으로 재귀함수로 호출하며 mid=t 가 같을 때 return mid

### 이진탐색트리

- 이진탐색트리는 이진탐색을 수행하기 위해 단순연결리스트를 변형시킨 자료구조

- 노드를 기준으로 작으면 왼쪽 서브트리에 크면 오른쪽 서브트리에 값이 있음

- 이진탐색트리의 삭제는 삭제할 노드가 자식이 없는 경우, 하나인 경우, 둘인 경우로 나누어짐


### AVL 트리

- 임의의 노드 n 에 대해 노드 n의 왼쪽 서브트리 높이와 오른쪽 서브트리의 높이가 1을 넘지않는 이진탐색트리

- 트리가 한쪽으로 치우쳐 자란다면 LL, LR, RR, RL 회전으로 균형을 맞춤

- AVL 트리의 탐색, 삽입, 삭제 연산의 수행시간은 각각 O(logN)

### 2-3 트리

- 내부노드의 차수가 2 또는 3인 완전 균형탐색트리(부모 하나에 자식 노드가 최대 3개)

### 2-3-4 트리

- 2-3 트리를 확장한 트리로 4-노드까지 허용

- 차수가 적을수록 탐색하는데 걸리는 소요시간이 적게 걸린다는 장점이 있음

### 레드블랙트리

- 노드의 색을 이용하여 트리의 균형을 유지하며, 탐색, 삽입, 삭제 연산의 수행시간이 각각 O(logN)을 넘지 않는 효율적인 자료구조

### B-트리

- 다수의 키를 가진 노드로 구성되어 다방향 탐색이 가능한 완전 균형트리

- 부모도 자식도 노드를 여러개 가지고 있는 구조로 복잡하지만 가장 효율적인 자료구조 형태를 가지고 있다.

# 해시테이블

***

이진탐색트리의 성능을 개선한 AVL 트리와 레드블랙트리에 대해 살펴보았다.

**이 자료구조들의 삽입과 삭제 연산의 수행시간은 각각 O(logN)이다.**

그렇다면 O(logN) 보다 좋은 성능을 가지는 자료구조는 없을까? - **해시테이블** - O(1)


**해시값을 굳이 뽑아내는 이유는?**

- 원래 key, 즉 리스트의 index 로 1차원 리스트를 만들면 메모리 낭비가 심해진다.
    - i.keys() = 3, 12,.... 89 >> self.M = 90 개의 index 공간이 생기는데 실제값은 그보다 현저히 적음
        - 그렇기 때문에 self.M 보다 작게 해시값을 만들어서 리스트에 저장하는 것이 효율적이다.
        
**무한에 가까운 데이터(키)를 해시값을 통해 정해진 값 안에서 정렬시키기 위해 해시테이블을 사용한다**

해시테이블 - O(logN) 시간보다 빠른 연산을 위해 키와 1차원 리스트의 인덱스와의 관계를 이용하여 키(항목)을 저장

**해싱**

키를 간단한 함수를 사용해 변환한 값을 리스트의 인덱스로 이용하여 항목을 저장하는 것

***

**해시함수**

해싱에 사용되는 함수

***

**해시값 또는 해시주소**

해시함수가 계산한 값

***

**해시테이블**

항목이 해시값에 따라 저장되는 1차원 리스트

***

**한줄정리**

해시함수로 계산한 해시값을 해싱이라는 행위를 통해 해시테이블에 저장

key % 총 인덱스의 크기(리스트의 길이) 로 해시값을 뽑아내고, 이 해시값이 해시테이블에 이미 존재했을 경우에는 다음 인덱스로 +1 시켜서 해시테이블에 저장


***

**조사 방식**

> **개방주소방식**

(그 자리에 값이 없으면 넣고, 아니면 다시 계산해서 다른 위치에 저장 // 리스트에서 한 인덱스 당 하나의 값만 저장)

우선 해시값이 뽑히면 그 해시값(인덱스)를 확인, 그 자리에 이미 다른 값이 존재하면 다시 계산하여 해시테이블의 다른 인덱스에 저장

> **폐쇄주소방식**

해시값이 뽑히고 그 자리에 이미 해시값이 있어도 그 인덱스에 저장


- 선형 조사

- 이차 조사

- 랜덤 조사

- 이중 해싱



## 선형 조사

***

- 충돌이 나면 바로 다음 원소를 검사


In [37]:
## 책에 있는 프로그램은 예상한 값이 나오지 않는다...시간날 때 디버깅 해보기

# class LinearProbing:
#     def __init__(self, size):
#         self.M = size # 테이블 크기
#         self.a = [None for x in range(size+1)] # 해시테이블
#         self.d = [None for x in range(size+1)] # key 관련 데이터 저장

#     def hash(self, key):
#         return self.M % key # 해시테이블의 핵심 메서드
    
#     def put(self, key, data): # 삽입 연산
#         initial_position = self.hash(key)
#         i = initial_position
#         j = 0
#         while True:
#             if self.a[i] == None:
#                 self.a[i] = key # 삽입할 때는 실제 key 값을 저장(해시값이 아님)
#                 self.d[i] = data
#                 return # 아무것도 할 필요가 없기 때문에 return 에는 None 도 필요치 않음
#             if self.a[i] == key: # 이미 해당 해시테이블의 인덱스에 key 가 존재한다면
#                 self.d[i] = data
#                 return
#             j += 1 # 이미 해시테이블에 해시값이 있으므로 다음 인덱스로 이동
#             i = (initial_position + j) % self.M
#             if i == initial_position:
#                 break
                
    
#     def get(self, key): # 탐색 연산
#         initial_position = self.hash(key)
#         i = initial_position
#         j = 1
#         while self.a[i] != None:
#             if self.a[i] == key:
#                 return self.d[i]
#             i = (initial_position + j) % self.M
#             j += 1
#             if i == initial_position:
#                 return None
#         return None
    
#     def print_table(self):
#         for i in range(self.M):
#             print('{:4}'.format(str(i)), ' ', end='')
#         print()
#         for i in range(self.M):
#             print('{:4}'.format(str(self.a[i])), ' ', end='')
#         print()

In [38]:
class LinearProbing: 
    def __init__(self, size): # 생성자
        self.M = size
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장

    def hash(self, key):
        return key % self.M  # 나눗셈 함수
    
    def put(self, key, data): # 삽입 연산
        initial_position = self.hash(key) # 초기 위치 
        i = initial_position
        j = 0
        while True:  
            if self.a[i] == None or self.a[i] == '$': # 삽입 위치 발견
                self.a[i] = key   # key를 해시테이블에 저장
                self.d[i] = data  # key관련 데이터 저장 
                return           
            if self.a[i] == key:  # 이미 key 존재하면
                self.d[i] = data  # 데이터만 갱신
                return  
            j += 1                      
            i = (initial_position + j) % self.M # i의 다음 위치  
            if i == initial_position: # i가 초기위치와 같으면 루프 종료
                break         
           
    def get(self, key): # 탐색 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None: # a[i]가 empty가 아니면
            if self.a[i] == key:
                return self.d[i] # 탐색 성공
            i = (initial_position + j) % self.M  # i의 다음 위치
            j += 1
            if i == initial_position: # i가 초기위치와 같으면 루프 종료
                return None # 탐색 실패                 
        return None # 탐색 실패

    def delete(self, key): # 삭제 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None: # a[i]가 empty가 아니면
            if self.a[i] == key:
                self.a[i] = '$' 
                self.d[i] = None
            i = (initial_position + j) % self.M  # i의 다음 위치
            j += 1   
            if i == initial_position: # i가 초기위치와 같으면 루프 종료
                return None # 삭제 실패             
        return None # 삭제 실패    

    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()

In [39]:
t = LinearProbing(13)
t.put(25, 'grape') 
t.put(37, 'apple')    
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')    
t.put(35, 'lime')       
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시테이블:')
t.print_table() 
t.delete(50)
t.print_table() 
print('63의 data = ', t.get(63))
t.put(9, 'berry')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
50    63    None  55    None  18    None  None  None  22    35    37    25    
0     1     2     3     4     5     6     7     8     9     10    11    12    
$     63    None  55    None  18    None  None  None  22    35    37    25    
63의 data =  watermelon
0     1     2     3     4     5     6     7     8     9     10    11    12    
9     63    None  55    None  18    None  None  None  22    35    37    25    


**모든 key 값을 hash 값으로 변환하면 동일한 hash 값을 가진다.**

In [40]:
table = [25, 37, 18, 55, 22, 35, 50, 63]

def get_hash(length, table):
    result = []
    for i in range(len(table)):
        sub = length % table[i]
        result.append(sub)
        print(table[i], ' ', end='')
    print()
    print(result, '', end='')

In [41]:
get_hash(13, table)

25  37  18  55  22  35  50  63  
[13, 13, 13, 13, 13, 13, 13, 13] 

## 이차조사

***

- `해시테이블`은 **1차 군집화 현상**이 발생 
    - 그래서 이를 해결하기 위해 `이차조사`로 충돌 해결방법을 제시함


- **이차조사**는 __1차 군집화 현상은 피하지만 또 다른 군집화 현상(2차 군집화 현상)이 발생함__


- 이차조사도 **해시함수(key % 사이즈)** 를 사용한다는 것을 기억할 것

In [42]:
class QuadProbing:
    def __init__(self, size):
        self.M = size
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장
        self.N = 0
        
    def hash(self, key):
        return key % self.M
    
    def put(self, key, data):
        initial_position = self.hash(key)
        i = initial_position
        j = 0
        while True:
            if self.a[i] == None:
                self.a[i] = key
                self.d[i] = data
                return
            # 위의 조건문을 성립하면 a[i] 에 key 를 넣었기 때문에
            # 해시테이블에는 해시값이 아닌 실제 key 값이 들어있으므로
            # 인덱스 값이 아니라 key 값이 존재하는지 확인해야 하므로 a[i] == key
            if self.a[i] == key:
                self.d[i] = data
                return
            j += 1
            i = (initial_position + j*j) % self.M
            if self.N > self.M: # 저장된 항목 수가 테이블 크기보다 크면 [저장 실패]
                break
                
    def get(self, key):
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None:
            if self.a[i] == key:
                return self.d[i]
            i = (initial_position + j * j) % self.M
            j += 1
        return None
    
    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()

In [43]:
t = QuadProbing(13)
t.put(25, 'grape')
t.put(37, 'apple')
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')
t.put(35, 'lime')
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시 테이블:')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시 테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  None  50    55    None  18    None  63    None  22    35    37    25    


## 랜덤조사

***

- 충돌이 나면 일정한 규칙 없이 비어 있는 원소를 검사

In [44]:
import random

class RandProbing:
    def __init__(self, size):
        self.M = size
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장
        self.N = 0
        
    def hash(self, key):
        return key % self.M
    
    def put(self, key, data):
        initial_position = self.hash(key)
        i = initial_position
        random.seed(1000) # 1000 은 임의의 값으로 seed() 를 사용하여 랜덤 값을 고정
        while True:
            if self.a[i] == None:
                self.a[i] = key
                self.d[i] = data
                self.N += 1
                return
            if self.a[i] == key: # 이미 key 가 존재하면
                self.d[i] = data # 데이터만 갱신
                return
            j = random.randint(1, 99)
            i = (initial_position + j) % self.M # i 의 다음 위치
            if self.N > self.M: # 저장된 항목 수가 테이블 크기보다 크면 [저장 실패]
                break
                
    def get(self, key):
        initial_position = self.hash(key)
        i = initial_position
        random.seed(1000)
        while self.a[i] != None:
            if self.a[i] == key:
                return self.d[i]
            i = (initial_position + random.randint(1, 99)) % self.M
        return None

    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()

In [45]:
t = RandProbing(13)
t.put(25, 'grape') 
t.put(37, 'apple')    
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')    
t.put(35, 'lime')       
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시테이블:')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  50    None  55    35    18    63    None  None  22    None  37    25    


### random 함수에서 seed() 는 뭐지?

In [46]:
import random

# 의사 난수 생성(랜덤)에서 random.seed()를 지정할 경우
# 랜덤값은 항상 고정되어 있다.
# 아래와 같이 i, a 변수에 랜덤값을 할당했다면 그 값은 고정이 되어 재실행해도 같은 값이 출력된다.

# 간단히 말해 random.seed() 를 설정하지 않으면 i 와 a 는 계~~~속 랜덤값으로 해당 변수에 값이 할당 됨
random.seed(1000)

i = random.randint(1, 99)
print(i)
a = random.randint(1, 99)
print(a)

55
86


## 이중해싱

***

- 충돌이 나면 다른 해시함수의 해시값을 이용하여 원소를 검사


- 쉽게 생각하면 1차 충돌이 나면 j += 1 을 해서 다음 인덱스를 찾는다.
    - **(해시값) + j(1씩 증가) * d값 인데, j * d 값의 간격이 꽤나 크다**
        - ex) 9 + 1 * 7 % self.M(13) = 3
        - ex) 9 + 2 * 7 % self.M(13) = 10

![이중해싱](./image/double_hashing.jpeg)

In [47]:
class DoubleHashing:   
    def __init__(self, size):
        self.M = size           
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장
        self.N = 0  # 항목 수
        
    def hash(self, key): # 나눗셈 함수
        return key % self.M
    
    def put(self, key, data): # 삽입 연산
        initial_position = self.hash(key) # 초기 위치 
        i = initial_position
        d = 7 - (key % 7) # 2번≳ 해시 함수
        j = 0
        while True:  
            if self.a[i] == None: # 삽입 위치 발견
                self.a[i] = key   # key를 해시테이블에 저장
                self.d[i] = data  # key관련 데이터를 동일한 인덱스하에 저장 
                self.N += 1
                return           
            if self.a[i] == key:  # 이미 key 존재하면
                self.d[i] = data  # 데이터만 갱신
                return  
            j += 1                      
            i = (initial_position + j*d) % self.M   # i의 다음 위치  
            if self.N > self.M:   # 테이블이 full이면 
                break         
           
    def get(self, key): # 탐색 연산
        initial_position = self.hash(key)
        i = initial_position
        d = 7 - (key % 7) # 2번≳ 해시 함수
        j = 0
        while self.a[i] != None: # a[i]가 비어있지 않으면
            if self.a[i] == key:
                return self.d[i] # 탐색 성공
            j += 1
            i = (initial_position + j*d) % self.M  # i의 다음 위치                
        return None # 탐색 실패
    
    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()


In [48]:
t = DoubleHashing(13)
t.put(25, 'grape') 
t.put(37, 'apple')    
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')    
t.put(35, 'lime')       
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시테이블:')
t.print_table() 

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  None  None  55    50    18    63    None  None  22    35    37    25    


## 폐쇄주소방식

***

- 해시값이 나오면 그 인덱스에 저장


- 폐쇄주소방식의 장점
    1. 개방주소방식처럼 해시테이블의 empty 원소를 찾는 오버헤드가 없고
    2. 어떠한 군집화 현상도 없으며
    3. 구현이 간결하여 실제로 가장 많이 활용되는 해시방법이라고 함
    
    
- 모든 해시테이블은 해시값을 기준으로 검색하여 연산 처리한다.(해시값으로 인덱스를 뽑아 저장했으니 당연한 개념이므로 까먹지 말자)

In [49]:
class Chaning:
    class Node:
        def __init__(self, key, data, link):
            self.key = key
            self.data = data
            self.next = link
            
    def __init__(self, size):
        self.M = size
        self.a = [None] * size
        
    def hash(self, key):
        return key % self.M
        
    def put(self, key, data):
        i = self.hash(key) # index
        # 만들어진 해시테이블에서 a[9] 에 값이 있다면, 해당 인덱스를 p 변수에 할당
        # self 를 통해서 p 변수에 할당했기 때문에 클래스 객체 자체가 p 에 할당이 되었음
        # 그렇기 때문에 p.key 값에 접근할 수가 있는 것임
        p = self.a[i]
        while p != None:
            if key == p.key:
                return
            p = p.next
        # new_node 생성하는데, 체이닝은 해시테이블 +  SList 개념이므로 self.a[i] 에 head 생성
        self.a[i] = self.Node(key, data, self.a[i])
        
    def get(self, key):
        i = self.hash(key)
        p = self.a[i]
        # 해당 해시테이블에 해당하는 인덱스(해시값)에 해당하는 SList 에서 key 값이 일치할 때까지 순회
        while p != None:
            if key == p.key:
                return p.data
            p = p.next
        return None
    
    def print_table(self):
        for i in range(self.M):
            print('%2d' % (i), end='')
            p = self.a[i]
            while p != None:
                print(' --> [', p.key, ',', p.data, ']',end='')
                p = p.next
            print()

In [50]:
t = Chaning(13)
t.put(25, 'grape')
t.put(37, 'apple')
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')
t.put(35, 'lime')
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시 테이블:')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시 테이블:
 0
 1
 2
 3 --> [ 55 , cherry ]
 4
 5 --> [ 18 , banana ]
 6
 7
 8
 9 --> [ 35 , lime ] --> [ 22 , mango ]
10
11 --> [ 63 , watermelon ] --> [ 50 , orange ] --> [ 37 , apple ]
12 --> [ 25 , grape ]


## 정렬

***

### 선택정렬

- for loop 가 수행될 때마다 정렬 안된 부분(for j loop) 에서 가장 작은 원소를 선택
    - 원소들의 총 비교 횟수는 (N-1) + (N-2) + (N-3) + ....
    
    
- 부모 for loop 와 자식 for loop 의 관계에 대한 이해가 필수
    - 부모 for loop 의 원소가 하나 들어가면 자식 for loop 는 자신의 모든 for loop 를 수행한다.
        - 부모 for loop 1 순회 당, 자식 for loop 는 자신의 length 만큼의 순회를 수행

In [51]:
def selection_sort(a):
    for i in range(0, len(a)-1):
        min_idx = i # 아래의 자식 for loop 를 돌고 가장 작은 값이 minimum 에 저장
        for j in range(i, len(a)): # 부모 for loop 의 포인터가 하나씩 옮겨갈 때마다 자식 for loop 는 부지런하게 끝까지 순회
            if a[min_idx] > a[j]: # 자식 for loop 를 돌면서 가장 작은 값을 찾기
                min_idx = j # 찾았으면 실제 값을 minimum 에 할당
        a[min_idx], a[i] = a[i], a[min_idx] # 자식 for loop 를 다 돌고 가장 작은 값을 minimum 에 할당(저장)
        print(f' ->> 정렬 과정: {a}')

In [52]:
a = [54, 88, 77, 26, 93, 17, 49, 10, 77, 11]
print('정렬 전:\t', end='')
print(a)
print()
selection_sort(a)
print()
print('정렬 후:\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 77, 11]

 ->> 정렬 과정: [10, 88, 77, 26, 93, 17, 49, 54, 77, 11]
 ->> 정렬 과정: [10, 11, 77, 26, 93, 17, 49, 54, 77, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 93, 77, 49, 54, 77, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 93, 77, 49, 54, 77, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 49, 77, 93, 54, 77, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 49, 54, 93, 77, 77, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 49, 54, 77, 93, 77, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 49, 54, 77, 77, 93, 88]
 ->> 정렬 과정: [10, 11, 17, 26, 49, 54, 77, 77, 88, 93]

정렬 후:	[10, 11, 17, 26, 49, 54, 77, 77, 88, 93]


### 삽입정렬

***

- 리스트의 1번째 원소를 현재 원소로 지정하여 정렬을 시작
    - 리스트의 마지막 원소를 이미 정렬되어 있는 앞부분에 삽입했을 때 정렬 종료
    
    
- 입력에 민감한 알고리즘으로 정렬되어 있을 때는 정렬이 빠르지만 역순의 경우에는 느리다는 단점

**삽입정렬을 이해하기 전 for loop 의 이해(start, end, step)**

1. 삽입정렬은 정렬이 되지 않은(뒤에서부터) 앞의 인덱스와 비교한다.

2. 정렬되지 않은 해당 인덱스(포인터)부터 시작해서 앞에 모든 인덱스(값)을 비교하는 방법
    - start=현재 포인터, end=0, step=-1
        - 현재 포인터부터 역순으로 for loop 로 원소를 순회

In [53]:
abc = [0, 1, 2, 3, 4]

In [54]:
# 기본 개념
for i in range(0, len(abc)):
    print()
    print(f'비교하고자 하는 이 index [{i}] 과')
    for j in range(i, 0, -1):
        print(f' \t>> 역순으로 들어오는 이 인덱스를 비교!! [{j}]')


비교하고자 하는 이 index [0] 과

비교하고자 하는 이 index [1] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]

비교하고자 하는 이 index [2] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [2]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]

비교하고자 하는 이 index [3] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [3]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [2]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]

비교하고자 하는 이 index [4] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [4]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [3]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [2]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]


In [55]:
def insertion_sort(a):
    for i in range(1, len(a)): # start=0 은 위에서보면 이해되는데, 정렬(비교)하기 위한 자식 for loop 에 도달하지 못함
        for j in range(i, 0, -1):
            # a[j-1] = 88, a[j] = 77
            # [88, 77] 의 상황이라면 스와핑 진행
            if a[j-1] > a[j]:
                # j 의 바로 앞에 원소 값이 더 작으면 바로 스와핑
                a[j], a[j-1] = a[j-1], a[j]

In [56]:
a = [54, 88, 77, 26, 93, 17, 49, 10, 77, 11]
print('정렬 전:\t', end='')
print(a)
print()
insertion_sort(a)
print()
print('정렬 후:\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 77, 11]


정렬 후:	[10, 11, 17, 26, 49, 54, 77, 77, 88, 93]


### 쉘 정렬

***

- 삽입정렬을 하기 전에 리스트를 뭉텅지게 크게 잘라서 정렬을 미리 시켜놓음
- 만약 h 높이를 h=1 로 잡았을 경우에는 삽입정렬과 동일한 알고리즘 결과를 나타냄
- 쉘 정렬의 수행시간은 아직까지 정확히 증명되지 않았다고 함
- 임베디드 시스템에서 간격에 따른 그룹별 정렬 알고리즘 하드웨어 설계를 통해 구현하는 것이 매우 편리하다고...

In [71]:
def shell_sort(a):
    h = 4       # 3x+1 간격: 1, 4, 13, 40, 121,... 중에서 4 와 1만 사용
    while h >= 1:        
        for i in range(h, len(a)):  # h-정렬 수행
            j = i
            while j >= h and a[j] < a[j-h]: 
                a[j], a[j-h] = a[j-h], a[j]
                j -= h 
        h //= 3

In [72]:
a = [54,88,77,26,93,17,49,10,17,77,11,31,22,44,17,20]
print('정렬 전:\t', end='')
print(a)
shell_sort(a)
print('정렬 후:\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
정렬 후:	[10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 88, 93]


2.0

### 힙정렬

***

최대힙을 이용하여 루트를 힙의 가장 마지막 노드와 교환한 후 힙 크기를 1 감소시키고, 루트로부터 downheap 연산으로 힙 속성을 복원하는 과정을 반복

In [76]:
def downheap(i, size):
    while 2*i <= size:
        k = 2*i
        if k < size and a[k] < a[k+1]:
            k += 1
        if a[i] >= a[k]:
            break
        a[i], a[k] = a[k], a[i]
        i = k
        
def create_heap(a): # 정렬하기 전에 최대힙 만들기
    hsize = len(a) -1
    for i in range(1, hsize//2+1):
        downheap(i, hsize)
        
def heap_sort(a):
    N = len(a) -1
    for i in range(N):
        a[1], a[N] = a[N], a[1]
        downheap(1, N-1)
        N -= 1

In [78]:
a = [-1,54,88,77,26,93,17,49,10,17,77,11,31,22,44,17,20]
print('정렬 전:\t', end='')
print(a)
create_heap(a)
print('최대 힙: \t', end='')
print(a)
heap_sort(a)
print('정렬 후 :\t', end='')
print(a)
print(len(a))

정렬 전:	[-1, 54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
최대 힙: 	[-1, 88, 93, 77, 26, 77, 31, 49, 20, 17, 54, 11, 17, 22, 44, 17, 10]
정렬 후 :	[-1, 10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 93, 88]
17


**heapq 를 이용한 힙정렬**

In [79]:
import heapq
a = [54,88,77,26,93,17,49,10,17,31,22,44,17,20]
print('정렬전:\t', a)

heapq.heapify(a) #최소힙 만들기
print('힙:\t', a)

s = []
while a:
    s.append(heapq.heappop(a)) # 리스트 a의 가장 작은 항목을 삭제하여 리스트 s 의 맨 뒤에 추가
print('정렬후:\t', s)

정렬전:	 [54, 88, 77, 26, 93, 17, 49, 10, 17, 31, 22, 44, 17, 20]
힙:	 [10, 17, 17, 26, 22, 17, 20, 54, 88, 31, 93, 44, 77, 49]
정렬후:	 [10, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 88, 93]


### 합병정렬(Merge sort)

In [29]:
def merge(a, b, low, mid, high):
        i = low
        j = mid+1 # i, j 는 type:int 로 리스트의 인덱스를 가리키면서 비교하고 할당 할당
        print(f'{i, j}')
        for k in range(low, high+1): # a의 앞/뒷부분을 합병하여 b에 저장
            if i > mid:             
                b[k] = a[j] # 앞부분이 먼저 소진된 경우
                j += 1
            elif j > high:
                b[k] = a[i] # 뒷부분이 먼저 소진된 경우
                i += 1
            elif a[j] < a[i]:
                b[k] = a[j] # a[j]가 승자
                j += 1
            else:
                b[k] = a[i] # a[i]가 승자
                i += 1
        for k in range(low, high+1):
            a[k] = b[k]  # b를 a에 복사    
            
def merge_sort(a, b, low, high): # 위치인자로, 4번째 파라미터가 high, (24번째 줄)merger_sort()의 4번째 파라미터 mid..재귀 재귀
    if high <= low: 
        return
    mid = low + (high - low) // 2 # 1//2 == 0
    merge_sort(a, b, low, mid) # 앞부분 재귀호출 # low, mid 를 비우는(?)과정 low=0, mid=0
    merge_sort(a, b, mid + 1, high) # 뒷부분 재귀호출 # 재귀함수로 올라가서 if 문을 비교할 때 mid 는 해당되지 않음
    merge(a, b, low, mid, high) # 합병 수행 # 이제서야 지옥의 관문

In [30]:
a = [54,88,77,26,93,17,49,10,17,77,11,31,22,44,17,20]
b = [None] * len(a)
print('정렬 전:\t', end='')
print(a)
merge_sort(a, b, 0, len(a)-1)   
print('정렬 후 :\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
(0, 1)
(2, 3)
(0, 2)
(4, 5)
(6, 7)
(4, 6)
(0, 4)
(8, 9)
(10, 11)
(8, 10)
(12, 13)
(14, 15)
(12, 14)
(8, 12)
(0, 8)
정렬 후 :	[10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 88, 93]


In [2]:
def merge(a, b, low, mid, high):
    i = low
    j = mid+1
    for k in range(low, high+1):
        if i > mid:
            b[k] = a[j]
            j += 1
        elif j > high:
            b[k] = a[i]
            i += 1
        elif a[j] < a[i]

0