# 자료구조

------------------

- 해당 내용은 파이썬과 함께하는 자료구조 내용을 토대로 공부한 내용을 정리했습니다.

### \# 트리

### \# 이진탐색트리

**이진탐색을 트리구조로 변형시킨 자료구조**

- 이진탐색트리의 특징 중의 하나는 트리를 중위순회(왼쪽, 노드방문, 오른쪽)을 수행하면 정렬된 출력을 얻는다는 것


- `이진탐색트리 조건`

    - 각 노드 n의 키값이 n의 왼쪽 서브트리에 있는 노드들의 키값들보다 크고, n의 오른쪽 서브트리에 있는 노드들의 키값들보다 작다.


- __부모 노드 기준으로 왼쪽은 모두 부모노드의 값보다 작아야 한다.__ 그렇지않으면 이진탐색 트리가 아니므로 주의

    - **노드 값의 크기**

        - n2 < n1 < n3

In [1]:
class Node:
    def __init__(self, key, value, left=None, right=None): # 노드 생성자
        self.key   = key
        self.value = value 
        self.left  = left 
        self.right = right 

class BST:           
    def __init__(self): # 트리 생성자
        self.root = None 

    def get(self, k): # 탐색 연산
        return self.get_item(self.root, k)
    
    def get_item(self, n, k):
        if n == None:
            return None # key를 발견 못함
        if n.key > k: # 왼쪽 서브트리 탐색
            return self.get_item(n.left, k)
        elif n.key < k: # 오른쪽 서브트리 탐색 
            return self.get_item(n.right, k) 
        else:
            return n.value # key를 가진 노드 발견

    def put(self, key, value): # 삽입 연산
        self.root = self.put_item(self.root, key, value)
        
    def put_item(self, n, key, value):
        if n == None:
            return Node(key, value) 
        if n.key > key: # 왼쪽 서브트리에 삽입
            n.left = self.put_item(n.left, key, value)
        elif n.key < key: # 오른쪽 서브트리에 삽입
            n.right = self.put_item(n.right, key, value) 
        else: # 노드 n의 value 갱신
            n.vlaue = value
        return n

    def delete_min(self): # 최솟값 삭제
        if self.root == None:
            print('트리가 비어 있음')
        self.root = self.del_min(self.root)
        
    def del_min(self, n):
        if n.left == None:
            return n.right  # n의 오른쪽자식 리턴
        n.left = self.del_min(n.left) # n의 왼쪽자식으로 재귀호출
        return n

    def delete(self, k): # 삭제 연산
        self.root = self.del_node(self.root, k)
         
    def del_node(self, n, k):
        if n == None:
            return None
        if n.key > k: # 왼쪽자식으로 이동
            n.left = self.del_node(n.left, k)   
        elif n.key < k: # 오른쪽자식으로 이동
            n.right = self.del_node(n.right, k) 
        else: # 삭제할 노드 발견
            if n.right == None: # case 0, 1
                return n.left   
            if n.left == None:  # case 1
                return n.right 
            target = n          # case 2, Line 66-69          
            n = self.minimum(target.right) # 중위 후속자를 찾아서 n이 참조하게 함
            n.right = self.del_min(target.right)
            n.left  = target.left
        return n
    
    def min(self): # 최솟값 가진 노드 찾기
        if self.root == None:
            return None
        return self.minimum(self.root)
    
    def minimum(self, n):
        if n.left == None:
            return n
        return self.minimum(n.left)
    
    def preorder(self, n): # 전위순회
        if n != None:
            print(str(n.key),' ', end='')
            if n.left:
                self.preorder(n.left)
            if n.right:
                self.preorder(n.right)
 
    def inorder(self, n): # 중위순회
        if n != None:
            if n.left:
                self.inorder(n.left)
            print(str(n.key),' ', end='')
            if n.right:
                self.inorder(n.right)

    def postorder(self, n): # 후위순회
        if n != None:
            if n.left:
                self.postorder(n.left)
            if n.right:
                self.postorder(n.right)
            print(str(n.key),' ', end='')
              
    def levelorder(self, root): # 레벨순회
        q = []
        q.append(root)
        while len(q) != 0:  
            t = q.pop(0) 
            print(str(t.key), ' ', end='')
            if t.left != None: 
                q.append(t.left)  
            if t.right != None: 
                q.append(t.right)

In [3]:
t = BST()
t.put(500, 'apple')
t.put(600, 'banana')
t.put(200, 'melon')
t.put(100, 'orange')
t.put(400, 'lime')
t.put(250, 'kiwi')
t.put(150, 'grape')
t.put(800, 'peach')
t.put(700, 'cherry')
t.put(50, 'pear')
t.put(350, 'lemon')
t.put(10, 'plum')
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)
print('\n250: ', t.get(250))
t.delete(200)
print('200 삭제 후:')
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)
t.get_item(t.root, 500)

전위순회:	500  200  100  50  10  150  400  250  350  600  800  700  
중위순회:	10  50  100  150  200  250  350  400  500  600  700  800  
250:  kiwi
200 삭제 후:
전위순회:	500  250  100  50  10  150  400  350  600  800  700  
중위순회:	10  50  100  150  250  350  400  500  600  700  800  

'apple'

### \# AVL 트리구조

- AVL 트리는 한쪽으로 치우쳐 자라나는 현상에 대한 균형을 유지

- AVL 트리는 임의의 노드 n 에 대해 n 의 왼쪽 서브트리의 높이와 오른쪽 서브트리의 높이 차이가 1을 넘지 않는 이진탐색트리

- 균형을 잡는 방법은 총 4가지
    - 오른쪽, 왼쪽, 오른쪽과 왼쪽, 왼쪽과 오른쪽처럼 재귀를 통해 값을 비교하여 노드를 재설정

In [35]:
class Node:
    def __init__(self, key, value, height, left=None, right=None):
        self.key = key
        self.value = value
        self.height = height
        self.left = left
        self.right = right
        
class AVL:
    def __init__(self):
        self.root = None
        
    def height(self, n):
        if n == None:
            return 0
        return n.height
    
    def put(self, key, value):
        self.root = self.put_item(self.root, key, value)
        
    def put_item(self, n, key, value):
        """
        노드가 없으면 새로 만들고 바로 리턴해주고
        만약에 노드가 있다면 루트 노드를 시작으로 재귀함수로 n.left, n.right 로 계속 비교 연산
        """
        # 노드가 없을 경우 노드 생성
        if n == None:
            return Node(key, value, 1)
        # 존재하는 노드가 새로 들어오는 key 값보다 크다면
        # 새로 들어오는 key 를 왼쪽으로 할당
        if n.key > key:
            n.left = self.put_item(n.left, key, value)
        elif n.key < key:
            n.right = self.put_item(n.right, key, value)
        else:
            # key 가 이미 트리에 있으므로 value 를 갱신시켜줌
            n.value = value
            return n
        n.height= max(self.height(n.left), self.height(n.right)) + 1
        # 노드 n 의 균형 점검 및 불균형을 바로 잡음
        return self.balance(n)
    
    def balance(self, n):
        if self.bf(n) > 1: # 노드 n의 왼쪽 서브트리가 높아서 불균형 발생
            if self.bf(n.left) < 0: # 노드 n의 왼쪽 자식의 오른쪽 서브트리가 높은 경우
                n.left = self.rotate_left(n.left) # LR-회전
            n = self.rotate_right(n) # LL-회전
            
        elif self.bf(n) < -1: # 노드 n의 오른쪽 서브트리가 높아서 불균형 발생
            if self.bf(n.right) > 0: # 노드 n의 오른쪽 자식의 왼쪽 서브트리가 높은 경우
                n.right = self.rotate_right(n.right) # RL-회전
            n = self.rotate_left(n) # RR-회전
        return n
    
    def bf(self, n):
        return self.height(n.left) - self.height(n.right)
    
    def rotate_right(self, n): # 오른쪽으로 회전
        x = n.left
        n.left = x.right
        x.right = n
        # 높이 갱신
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        # 높이 갱신
        x.height = max(self.height(x.left), self.height(x.right)) + 1
        # 회전 후 x 가 n 의 이전 자리로 이동되었으므로 x 를 리턴
        return x
    
    def rotate_left(self, n): # 왼쪽으로 회전
        x = n.right
        n.right = x.left
        x.right = n
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        n.height = max(self.height(x.left), self.height(x.right)) + 1
        return x
    
    def delete(self, key):
        self.root = self.delete_node(self.root, key)
        
    def delete_node(self, n, key):
        if n == None:
            return None
        # 왼쪽 자식으로 이동
        if n.key > key:
            n.left = self.delete_node(n.left, key)
        # 오른쪽 자식으로 이동
        elif n.key < key:
            n.right = self.delete_node(n.right, key)
        else: # 삭제할 노드 발견
            if n.right == None:
                return n.left
            if n.left == None:
                return n.right
            target = n
            # 중위 후속자를 찾아서 n 이 참조하게 함
            n = self.minimum(target.right)
            n.right = self.del_min(target.right)
            n.left = target.left
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        return self.balance(n)
    
    def delete_min(self):
        if self.root == None:
            print('트리가 비어있음')
        self.root = self.del_min(n.left)
        
    def del_min(self, n):
        # 최소값인 n.left 가 비어있으면 n.right 를 반환
        if n.left == None:
            return n.right
        n.left = self.del_min(n.left)
        n.height = max(self.height(n.left), self.height(n.right)) + 1
        return self.balance(n)
    
    def min(self):
        # 노드가 자체가 없으므로 None 을 반환
        if self.root == None:
            return None
        # 그게 아닐 경우에는 minimum 메서드 실행
        return self.minmum(self.root)
        
    def minimum(self, n):
        if n.left == None:
            return n
        return self.minimum(n.left)
    
    def preorder(self, n):
        print(str(n.key), ' ', end='')
        if n.left:
            self.preorder(n.left)
        if n.right:
            self.preorder(n.right)
            
    def inorder(self, n):
        if n.left:
            self.inorder(n.left)
        print(str(n.key), ' ', end='')
        if n.right:
            self.inorder(n.right)

In [36]:
t = AVL()
t.put(75, 'apple')
t.put(80, 'grape')
t.put(85, 'lime')
t.put(20, 'mango')
t.put(10, 'strawberry')
t.put(50, 'banana')
t.put(30, 'cherry')
t.put(40, 'watermelon')
t.put(70, 'melon')
t.put(90, 'plum')
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)
print('\n75와 85 삭제 후:')
t.delete(75)
t.delete(85)
print('전위순회:\t', end='')
t.preorder(t.root)
print('\n중위순회:\t', end='')
t.inorder(t.root)

전위순회:	20  10  40  80  10  40  75  90  
중위순회:	10  40  20  10  40  80  75  90  
75와 85 삭제 후:
전위순회:	20  10  40  80  10  40  75  90  
중위순회:	10  40  20  10  40  80  75  90  

- AVL 트리는 삽입이나 삭제 시 트리의 균형을 유지하여 O(logN) 시간을 보장


**2-3 트리**


- 2-3 트리는 내부노드의 차수가 2 또는 3인 균형탐색트리
    - 2-노드는 자식이 2개, 3-노드는 자식이 3개
    - 2-3 트리는 이파리노드들이 동일한 층에 있어야 하므로 트리가 위로 자라거나 낮아짐
    
    
**레드블랙트리**


- 노드에 빨간색 또는 기본(검정색)을 인스턴스에 부여해서 만드는 트리
    - 색을 부여해서 얻게 되는 장점은 잘 모르겠음..
    
    
**B-트리**

- Balanced Tree
    - 이진트리의 확장판
    - 항상 O(logN)의 검색 성능을 보장
    - 주로 데이터베이스의 기본 자료구조
        - 운전 면허 소지자, 납세자 등 수많은 데이터의 자료구조로 활용
    - 트리구조와 이진탐색의 호환 버전으로 생각
    - B*-트리, B+-트리가 있는데 이 트리들은 B-트리의 개선 버전

- 이진트리구조처럼 1개의 노드가 2개의 자식 노드를 가지는 것이 아니고, 각 내부노드의 자식 수는 [M/2] 이상 M 이하를 가진다.
    - 즉, 트리의 레벨이 깊어질수록 연산 처리가 오래 걸리는데 부모가 많은 자식을 가져서 그 깊이를 최소로 해준다.
    
    
- 삭제 연산을 수행
    - 이파리 삭제 후 underflow 발생
    - 형제노드에 요청해서 조건에 맞는 노드가 넘어감
    - 형제 노드가 underflow 가 발생된다면 부모노드가 도와줌
    - 만약 부모노드가 underflow 가 발생된다면 그 부모노드가 도와줌
    - 이렇게 계속 흘러가서 만약에 루트노드까지 도달한다면 루트노드가 자기 자식노드와 통합되어 루트 노드를 생성
        - 루트 노드는 2개 이상의 노드를 가지게 되는 상태

## 요약

***

### 이진탐색

- 1차원 리스트에 데이터가 정렬되어 있을 때 주어진 데이터를 효율적으로 찾는 알고리즘

- 최악의 경우 O(N) 시간이 소요

**이진탐색**

1. binary_search(left, right, t) 함수와 같이 전체 길이를 설정하고 mid = left+right 를 더한 값 // 2

2. 이 mid 의 값보다 t 가 크면 오른쪽, 작으면 왼쪽으로 재귀함수로 호출하며 mid=t 가 같을 때 return mid

### 이진탐색트리

- 이진탐색트리는 이진탐색을 수행하기 위해 단순연결리스트를 변형시킨 자료구조

- 노드를 기준으로 작으면 왼쪽 서브트리에 크면 오른쪽 서브트리에 값이 있음

- 이진탐색트리의 삭제는 삭제할 노드가 자식이 없는 경우, 하나인 경우, 둘인 경우로 나누어짐


### AVL 트리

- 임의의 노드 n 에 대해 노드 n의 왼쪽 서브트리 높이와 오른쪽 서브트리의 높이가 1을 넘지않는 이진탐색트리

- 트리가 한쪽으로 치우쳐 자란다면 LL, LR, RR, RL 회전으로 균형을 맞춤

- AVL 트리의 탐색, 삽입, 삭제 연산의 수행시간은 각각 O(logN)

### 2-3 트리

- 내부노드의 차수가 2 또는 3인 완전 균형탐색트리(부모 하나에 자식 노드가 최대 3개)

### 2-3-4 트리

- 2-3 트리를 확장한 트리로 4-노드까지 허용

- 차수가 적을수록 탐색하는데 걸리는 소요시간이 적게 걸린다는 장점이 있음

### 레드블랙트리

- 노드의 색을 이용하여 트리의 균형을 유지하며, 탐색, 삽입, 삭제 연산의 수행시간이 각각 O(logN)을 넘지 않는 효율적인 자료구조

### B-트리

- 다수의 키를 가진 노드로 구성되어 다방향 탐색이 가능한 완전 균형트리

- 부모도 자식도 노드를 여러개 가지고 있는 구조로 복잡하지만 가장 효율적인 자료구조 형태를 가지고 있다.

# 해시테이블

***

이진탐색트리의 성능을 개선한 AVL 트리와 레드블랙트리에 대해 살펴보았다.

**이 자료구조들의 삽입과 삭제 연산의 수행시간은 각각 O(logN)이다.**

그렇다면 O(logN) 보다 좋은 성능을 가지는 자료구조는 없을까? - **해시테이블** - O(1)


**해시값을 굳이 뽑아내는 이유는?**

- 원래 key, 즉 리스트의 index 로 1차원 리스트를 만들면 메모리 낭비가 심해진다.
    - i.keys() = 3, 12,.... 89 >> self.M = 90 개의 index 공간이 생기는데 실제값은 그보다 현저히 적음
        - 그렇기 때문에 self.M 보다 작게 해시값을 만들어서 리스트에 저장하는 것이 효율적이다.
        
**무한에 가까운 데이터(키)를 해시값을 통해 정해진 값 안에서 정렬시키기 위해 해시테이블을 사용한다**

해시테이블 - O(logN) 시간보다 빠른 연산을 위해 키와 1차원 리스트의 인덱스와의 관계를 이용하여 키(항목)을 저장

**해싱**

키를 간단한 함수를 사용해 변환한 값을 리스트의 인덱스로 이용하여 항목을 저장하는 것

***

**해시함수**

해싱에 사용되는 함수

***

**해시값 또는 해시주소**

해시함수가 계산한 값

***

**해시테이블**

항목이 해시값에 따라 저장되는 1차원 리스트

***

**한줄정리**

해시함수로 계산한 해시값을 해싱이라는 행위를 통해 해시테이블에 저장

key % 총 인덱스의 크기(리스트의 길이) 로 해시값을 뽑아내고, 이 해시값이 해시테이블에 이미 존재했을 경우에는 다음 인덱스로 +1 시켜서 해시테이블에 저장


***

**조사 방식**

> **개방주소방식**

(그 자리에 값이 없으면 넣고, 아니면 다시 계산해서 다른 위치에 저장 // 리스트에서 한 인덱스 당 하나의 값만 저장)

우선 해시값이 뽑히면 그 해시값(인덱스)를 확인, 그 자리에 이미 다른 값이 존재하면 다시 계산하여 해시테이블의 다른 인덱스에 저장

> **폐쇄주소방식**

해시값이 뽑히고 그 자리에 이미 해시값이 있어도 그 인덱스에 저장


- 선형 조사

- 이차 조사

- 랜덤 조사

- 이중 해싱



## 선형 조사

***

- 충돌이 나면 바로 다음 원소를 검사


In [37]:
## 책에 있는 프로그램은 예상한 값이 나오지 않는다...시간날 때 디버깅 해보기

# class LinearProbing:
#     def __init__(self, size):
#         self.M = size # 테이블 크기
#         self.a = [None for x in range(size+1)] # 해시테이블
#         self.d = [None for x in range(size+1)] # key 관련 데이터 저장

#     def hash(self, key):
#         return self.M % key # 해시테이블의 핵심 메서드
    
#     def put(self, key, data): # 삽입 연산
#         initial_position = self.hash(key)
#         i = initial_position
#         j = 0
#         while True:
#             if self.a[i] == None:
#                 self.a[i] = key # 삽입할 때는 실제 key 값을 저장(해시값이 아님)
#                 self.d[i] = data
#                 return # 아무것도 할 필요가 없기 때문에 return 에는 None 도 필요치 않음
#             if self.a[i] == key: # 이미 해당 해시테이블의 인덱스에 key 가 존재한다면
#                 self.d[i] = data
#                 return
#             j += 1 # 이미 해시테이블에 해시값이 있으므로 다음 인덱스로 이동
#             i = (initial_position + j) % self.M
#             if i == initial_position:
#                 break
                
    
#     def get(self, key): # 탐색 연산
#         initial_position = self.hash(key)
#         i = initial_position
#         j = 1
#         while self.a[i] != None:
#             if self.a[i] == key:
#                 return self.d[i]
#             i = (initial_position + j) % self.M
#             j += 1
#             if i == initial_position:
#                 return None
#         return None
    
#     def print_table(self):
#         for i in range(self.M):
#             print('{:4}'.format(str(i)), ' ', end='')
#         print()
#         for i in range(self.M):
#             print('{:4}'.format(str(self.a[i])), ' ', end='')
#         print()

In [38]:
class LinearProbing: 
    def __init__(self, size): # 생성자
        self.M = size
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장

    def hash(self, key):
        return key % self.M  # 나눗셈 함수
    
    def put(self, key, data): # 삽입 연산
        initial_position = self.hash(key) # 초기 위치 
        i = initial_position
        j = 0
        while True:  
            if self.a[i] == None or self.a[i] == '$': # 삽입 위치 발견
                self.a[i] = key   # key를 해시테이블에 저장
                self.d[i] = data  # key관련 데이터 저장 
                return           
            if self.a[i] == key:  # 이미 key 존재하면
                self.d[i] = data  # 데이터만 갱신
                return  
            j += 1                      
            i = (initial_position + j) % self.M # i의 다음 위치  
            if i == initial_position: # i가 초기위치와 같으면 루프 종료
                break         
           
    def get(self, key): # 탐색 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None: # a[i]가 empty가 아니면
            if self.a[i] == key:
                return self.d[i] # 탐색 성공
            i = (initial_position + j) % self.M  # i의 다음 위치
            j += 1
            if i == initial_position: # i가 초기위치와 같으면 루프 종료
                return None # 탐색 실패                 
        return None # 탐색 실패

    def delete(self, key): # 삭제 연산
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None: # a[i]가 empty가 아니면
            if self.a[i] == key:
                self.a[i] = '$' 
                self.d[i] = None
            i = (initial_position + j) % self.M  # i의 다음 위치
            j += 1   
            if i == initial_position: # i가 초기위치와 같으면 루프 종료
                return None # 삭제 실패             
        return None # 삭제 실패    

    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()

In [39]:
t = LinearProbing(13)
t.put(25, 'grape') 
t.put(37, 'apple')    
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')    
t.put(35, 'lime')       
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시테이블:')
t.print_table() 
t.delete(50)
t.print_table() 
print('63의 data = ', t.get(63))
t.put(9, 'berry')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
50    63    None  55    None  18    None  None  None  22    35    37    25    
0     1     2     3     4     5     6     7     8     9     10    11    12    
$     63    None  55    None  18    None  None  None  22    35    37    25    
63의 data =  watermelon
0     1     2     3     4     5     6     7     8     9     10    11    12    
9     63    None  55    None  18    None  None  None  22    35    37    25    


**모든 key 값을 hash 값으로 변환하면 동일한 hash 값을 가진다.**

In [40]:
table = [25, 37, 18, 55, 22, 35, 50, 63]

def get_hash(length, table):
    result = []
    for i in range(len(table)):
        sub = length % table[i]
        result.append(sub)
        print(table[i], ' ', end='')
    print()
    print(result, '', end='')

In [41]:
get_hash(13, table)

25  37  18  55  22  35  50  63  
[13, 13, 13, 13, 13, 13, 13, 13] 

## 이차조사

***

- `해시테이블`은 **1차 군집화 현상**이 발생 
    - 그래서 이를 해결하기 위해 `이차조사`로 충돌 해결방법을 제시함


- **이차조사**는 __1차 군집화 현상은 피하지만 또 다른 군집화 현상(2차 군집화 현상)이 발생함__


- 이차조사도 **해시함수(key % 사이즈)** 를 사용한다는 것을 기억할 것

In [42]:
class QuadProbing:
    def __init__(self, size):
        self.M = size
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장
        self.N = 0
        
    def hash(self, key):
        return key % self.M
    
    def put(self, key, data):
        initial_position = self.hash(key)
        i = initial_position
        j = 0
        while True:
            if self.a[i] == None:
                self.a[i] = key
                self.d[i] = data
                return
            # 위의 조건문을 성립하면 a[i] 에 key 를 넣었기 때문에
            # 해시테이블에는 해시값이 아닌 실제 key 값이 들어있으므로
            # 인덱스 값이 아니라 key 값이 존재하는지 확인해야 하므로 a[i] == key
            if self.a[i] == key:
                self.d[i] = data
                return
            j += 1
            i = (initial_position + j*j) % self.M
            if self.N > self.M: # 저장된 항목 수가 테이블 크기보다 크면 [저장 실패]
                break
                
    def get(self, key):
        initial_position = self.hash(key)
        i = initial_position
        j = 1
        while self.a[i] != None:
            if self.a[i] == key:
                return self.d[i]
            i = (initial_position + j * j) % self.M
            j += 1
        return None
    
    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()

In [43]:
t = QuadProbing(13)
t.put(25, 'grape')
t.put(37, 'apple')
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')
t.put(35, 'lime')
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시 테이블:')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시 테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  None  50    55    None  18    None  63    None  22    35    37    25    


## 랜덤조사

***

- 충돌이 나면 일정한 규칙 없이 비어 있는 원소를 검사

In [44]:
import random

class RandProbing:
    def __init__(self, size):
        self.M = size
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장
        self.N = 0
        
    def hash(self, key):
        return key % self.M
    
    def put(self, key, data):
        initial_position = self.hash(key)
        i = initial_position
        random.seed(1000) # 1000 은 임의의 값으로 seed() 를 사용하여 랜덤 값을 고정
        while True:
            if self.a[i] == None:
                self.a[i] = key
                self.d[i] = data
                self.N += 1
                return
            if self.a[i] == key: # 이미 key 가 존재하면
                self.d[i] = data # 데이터만 갱신
                return
            j = random.randint(1, 99)
            i = (initial_position + j) % self.M # i 의 다음 위치
            if self.N > self.M: # 저장된 항목 수가 테이블 크기보다 크면 [저장 실패]
                break
                
    def get(self, key):
        initial_position = self.hash(key)
        i = initial_position
        random.seed(1000)
        while self.a[i] != None:
            if self.a[i] == key:
                return self.d[i]
            i = (initial_position + random.randint(1, 99)) % self.M
        return None

    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()

In [45]:
t = RandProbing(13)
t.put(25, 'grape') 
t.put(37, 'apple')    
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')    
t.put(35, 'lime')       
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시테이블:')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  50    None  55    35    18    63    None  None  22    None  37    25    


### random 함수에서 seed() 는 뭐지?

In [46]:
import random

# 의사 난수 생성(랜덤)에서 random.seed()를 지정할 경우
# 랜덤값은 항상 고정되어 있다.
# 아래와 같이 i, a 변수에 랜덤값을 할당했다면 그 값은 고정이 되어 재실행해도 같은 값이 출력된다.

# 간단히 말해 random.seed() 를 설정하지 않으면 i 와 a 는 계~~~속 랜덤값으로 해당 변수에 값이 할당 됨
random.seed(1000)

i = random.randint(1, 99)
print(i)
a = random.randint(1, 99)
print(a)

55
86


## 이중해싱

***

- 충돌이 나면 다른 해시함수의 해시값을 이용하여 원소를 검사


- 쉽게 생각하면 1차 충돌이 나면 j += 1 을 해서 다음 인덱스를 찾는다.
    - **(해시값) + j(1씩 증가) * d값 인데, j * d 값의 간격이 꽤나 크다**
        - ex) 9 + 1 * 7 % self.M(13) = 3
        - ex) 9 + 2 * 7 % self.M(13) = 10

![이중해싱](./image/double_hashing.jpeg)

In [47]:
class DoubleHashing:   
    def __init__(self, size):
        self.M = size           
        self.a = [None for x in range(size+1)]  # 해시테이블
        self.d = [None for x in range(size+1)]  # key관련 데이터 저장
        self.N = 0  # 항목 수
        
    def hash(self, key): # 나눗셈 함수
        return key % self.M
    
    def put(self, key, data): # 삽입 연산
        initial_position = self.hash(key) # 초기 위치 
        i = initial_position
        d = 7 - (key % 7) # 2번≳ 해시 함수
        j = 0
        while True:  
            if self.a[i] == None: # 삽입 위치 발견
                self.a[i] = key   # key를 해시테이블에 저장
                self.d[i] = data  # key관련 데이터를 동일한 인덱스하에 저장 
                self.N += 1
                return           
            if self.a[i] == key:  # 이미 key 존재하면
                self.d[i] = data  # 데이터만 갱신
                return  
            j += 1                      
            i = (initial_position + j*d) % self.M   # i의 다음 위치  
            if self.N > self.M:   # 테이블이 full이면 
                break         
           
    def get(self, key): # 탐색 연산
        initial_position = self.hash(key)
        i = initial_position
        d = 7 - (key % 7) # 2번≳ 해시 함수
        j = 0
        while self.a[i] != None: # a[i]가 비어있지 않으면
            if self.a[i] == key:
                return self.d[i] # 탐색 성공
            j += 1
            i = (initial_position + j*d) % self.M  # i의 다음 위치                
        return None # 탐색 실패
    
    def print_table(self):
        for i in range(self.M):
            print('{:4}'.format(str(i)), ' ', end='')
        print()
        for i in range(self.M):
            print('{:4}'.format(str(self.a[i])), ' ', end='')
        print()


In [48]:
t = DoubleHashing(13)
t.put(25, 'grape') 
t.put(37, 'apple')    
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')    
t.put(35, 'lime')       
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시테이블:')
t.print_table() 

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시테이블:
0     1     2     3     4     5     6     7     8     9     10    11    12    
None  None  None  55    50    18    63    None  None  22    35    37    25    


## 폐쇄주소방식

***

- 해시값이 나오면 그 인덱스에 저장


- 폐쇄주소방식의 장점
    1. 개방주소방식처럼 해시테이블의 empty 원소를 찾는 오버헤드가 없고
    2. 어떠한 군집화 현상도 없으며
    3. 구현이 간결하여 실제로 가장 많이 활용되는 해시방법이라고 함
    
    
- 모든 해시테이블은 해시값을 기준으로 검색하여 연산 처리한다.(해시값으로 인덱스를 뽑아 저장했으니 당연한 개념이므로 까먹지 말자)

In [49]:
class Chaning:
    class Node:
        def __init__(self, key, data, link):
            self.key = key
            self.data = data
            self.next = link
            
    def __init__(self, size):
        self.M = size
        self.a = [None] * size
        
    def hash(self, key):
        return key % self.M
        
    def put(self, key, data):
        i = self.hash(key) # index
        # 만들어진 해시테이블에서 a[9] 에 값이 있다면, 해당 인덱스를 p 변수에 할당
        # self 를 통해서 p 변수에 할당했기 때문에 클래스 객체 자체가 p 에 할당이 되었음
        # 그렇기 때문에 p.key 값에 접근할 수가 있는 것임
        p = self.a[i]
        while p != None:
            if key == p.key:
                return
            p = p.next
        # new_node 생성하는데, 체이닝은 해시테이블 +  SList 개념이므로 self.a[i] 에 head 생성
        self.a[i] = self.Node(key, data, self.a[i])
        
    def get(self, key):
        i = self.hash(key)
        p = self.a[i]
        # 해당 해시테이블에 해당하는 인덱스(해시값)에 해당하는 SList 에서 key 값이 일치할 때까지 순회
        while p != None:
            if key == p.key:
                return p.data
            p = p.next
        return None
    
    def print_table(self):
        for i in range(self.M):
            print('%2d' % (i), end='')
            p = self.a[i]
            while p != None:
                print(' --> [', p.key, ',', p.data, ']',end='')
                p = p.next
            print()

In [50]:
t = Chaning(13)
t.put(25, 'grape')
t.put(37, 'apple')
t.put(18, 'banana')
t.put(55, 'cherry')
t.put(22, 'mango')
t.put(35, 'lime')
t.put(50, 'orange')
t.put(63, 'watermelon')
print('탐색 결과:')
print('50의 data = ', t.get(50))
print('63의 data = ', t.get(63))
print('해시 테이블:')
t.print_table()

탐색 결과:
50의 data =  orange
63의 data =  watermelon
해시 테이블:
 0
 1
 2
 3 --> [ 55 , cherry ]
 4
 5 --> [ 18 , banana ]
 6
 7
 8
 9 --> [ 35 , lime ] --> [ 22 , mango ]
10
11 --> [ 63 , watermelon ] --> [ 50 , orange ] --> [ 37 , apple ]
12 --> [ 25 , grape ]


## 정렬

***

### 삽입정렬

***

- 리스트의 1번째 원소를 현재 원소로 지정하여 정렬을 시작
    - 리스트의 마지막 원소를 이미 정렬되어 있는 앞부분에 삽입했을 때 정렬 종료
    
    
- 입력에 민감한 알고리즘으로 정렬되어 있을 때는 정렬이 빠르지만 역순의 경우에는 느리다는 단점

**삽입정렬을 이해하기 전 for loop 의 이해(start, end, step)**

1. 삽입정렬은 정렬이 되지 않은(뒤에서부터) 앞의 인덱스와 비교한다.

2. 정렬되지 않은 해당 인덱스(포인터)부터 시작해서 앞에 모든 인덱스(값)을 비교하는 방법
    - start=현재 포인터, end=0, step=-1
        - 현재 포인터부터 역순으로 for loop 로 원소를 순회

In [53]:
abc = [0, 1, 2, 3, 4]

In [54]:
# 기본 개념
for i in range(0, len(abc)):
    print()
    print(f'비교하고자 하는 이 index [{i}] 과')
    for j in range(i, 0, -1):
        print(f' \t>> 역순으로 들어오는 이 인덱스를 비교!! [{j}]')


비교하고자 하는 이 index [0] 과

비교하고자 하는 이 index [1] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]

비교하고자 하는 이 index [2] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [2]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]

비교하고자 하는 이 index [3] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [3]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [2]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]

비교하고자 하는 이 index [4] 과
 	>> 역순으로 들어오는 이 인덱스를 비교!! [4]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [3]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [2]
 	>> 역순으로 들어오는 이 인덱스를 비교!! [1]


In [55]:
def insertion_sort(a):
    for i in range(1, len(a)): # start=0 은 위에서보면 이해되는데, 정렬(비교)하기 위한 자식 for loop 에 도달하지 못함
        for j in range(i, 0, -1):
            # a[j-1] = 88, a[j] = 77
            # [88, 77] 의 상황이라면 스와핑 진행
            if a[j-1] > a[j]:
                # j 의 바로 앞에 원소 값이 더 작으면 바로 스와핑
                a[j], a[j-1] = a[j-1], a[j]

In [56]:
a = [54, 88, 77, 26, 93, 17, 49, 10, 77, 11]
print('정렬 전:\t', end='')
print(a)
print()
insertion_sort(a)
print()
print('정렬 후:\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 77, 11]


정렬 후:	[10, 11, 17, 26, 49, 54, 77, 77, 88, 93]


### 쉘 정렬

***

- 삽입정렬을 하기 전에 리스트를 뭉텅지게 크게 잘라서 정렬을 미리 시켜놓음
- 만약 h 높이를 h=1 로 잡았을 경우에는 삽입정렬과 동일한 알고리즘 결과를 나타냄
- 쉘 정렬의 수행시간은 아직까지 정확히 증명되지 않았다고 함
- 임베디드 시스템에서 간격에 따른 그룹별 정렬 알고리즘 하드웨어 설계를 통해 구현하는 것이 매우 편리하다고...

In [57]:
def shell_sort(a):
    h = 4       # 3x+1 간격: 1, 4, 13, 40, 121,... 중에서 4 와 1만 사용
    while h >= 1:        
        for i in range(h, len(a)):  # h-정렬 수행
            j = i
            while j >= h and a[j] < a[j-h]: 
                a[j], a[j-h] = a[j-h], a[j]
                j -= h 
        h //= 3

In [58]:
a = [54,88,77,26,93,17,49,10,17,77,11,31,22,44,17,20]
print('정렬 전:\t', end='')
print(a)
shell_sort(a)
print('정렬 후:\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
정렬 후:	[10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 88, 93]


### 힙정렬

***

최대힙을 이용하여 루트를 힙의 가장 마지막 노드와 교환한 후 힙 크기를 1 감소시키고, 루트로부터 downheap 연산으로 힙 속성을 복원하는 과정을 반복

In [59]:
def downheap(i, size):
    while 2*i <= size:
        k = 2*i
        if k < size and a[k] < a[k+1]:
            k += 1
        if a[i] >= a[k]:
            break
        a[i], a[k] = a[k], a[i]
        i = k
        
def create_heap(a): # 정렬하기 전에 최대힙 만들기
    hsize = len(a) -1
    for i in range(1, hsize//2+1):
        downheap(i, hsize)
        
def heap_sort(a):
    N = len(a) -1
    for i in range(N):
        a[1], a[N] = a[N], a[1]
        downheap(1, N-1)
        N -= 1

In [60]:
a = [-1,54,88,77,26,93,17,49,10,17,77,11,31,22,44,17,20]
print('정렬 전:\t', end='')
print(a)
create_heap(a)
print('최대 힙: \t', end='')
print(a)
heap_sort(a)
print('정렬 후 :\t', end='')
print(a)
print(len(a))

정렬 전:	[-1, 54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
최대 힙: 	[-1, 88, 93, 77, 26, 77, 31, 49, 20, 17, 54, 11, 17, 22, 44, 17, 10]
정렬 후 :	[-1, 10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 93, 88]
17


**heapq 를 이용한 힙정렬**

In [61]:
import heapq
a = [54,88,77,26,93,17,49,10,17,31,22,44,17,20]
print('정렬전:\t', a)

heapq.heapify(a) #최소힙 만들기
print('힙:\t', a)

s = []
while a:
    s.append(heapq.heappop(a)) # 리스트 a의 가장 작은 항목을 삭제하여 리스트 s 의 맨 뒤에 추가
print('정렬후:\t', s)

정렬전:	 [54, 88, 77, 26, 93, 17, 49, 10, 17, 31, 22, 44, 17, 20]
힙:	 [10, 17, 17, 26, 22, 17, 20, 54, 88, 31, 93, 44, 77, 49]
정렬후:	 [10, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 88, 93]


***
### 합병정렬(Merge sort)
***

1) a 리스트는 정렬되기 전의 리스트이고, b 리스트는 a 리스트에서 인덱스, 인덱스 +1 값을 비교하여 b 리스트에 저장해둔다.

그리고 merge 에서 두번째 for loop 를 통해서 b 리스트에서 정렬된 값을 a 리스트에 복사한다.

2) a 리스트에서 2개의 값을 비교하여 b 리스트에 인덱스 그대로 복사, a\[0\] 와 a\[2\] 를 비교하여 a\[2\] 값이 더 작으면 b 리스트에 a\[2\] 값을 넣어줌

```
2개를 비교해서 b 리스트에 넣어줌 // 그리고 b 리스트에 a[0] ~ a[3] 에 값을 비교하여 더 작은 값을 b[0] 리스트에 넣어줌
```

In [62]:
def merge(a, b, low, mid, high):
        i = low
        j = mid+1 # i, j 는 type:int 로 리스트의 인덱스를 가리키면서 비교하고 할당 할당
        print(f'{i, j}')
        for k in range(low, high+1): # a의 앞/뒷부분을 합병하여 b에 저장
            if i > mid:             
                b[k] = a[j] # 앞부분이 먼저 소진된 경우
                j += 1
            elif j > high:
                b[k] = a[i] # 뒷부분이 먼저 소진된 경우
                i += 1
            elif a[j] < a[i]:
                b[k] = a[j] # a[j]가 승자, # a[j] 값이 더 작기 때문에 b 리스트에 a[j] 값을 할당
                j += 1
            else:
                b[k] = a[i] # a[i]가 승자
                i += 1
        for k in range(low, high+1):
            a[k] = b[k]  # b를 a에 복사    
            
def merge_sort(a, b, low, high): # 위치인자로, 4번째 파라미터가 high, (24번째 줄)merger_sort()의 4번째 파라미터 mid..재귀 재귀
    if high <= low: 
        return
    mid = low + (high - low) // 2 # 1//2 == 0
    merge_sort(a, b, low, mid) # 앞부분 재귀호출 # low, mid 를 비우는(?)과정 low=0, mid=0
    merge_sort(a, b, mid + 1, high) # 뒷부분 재귀호출 # 재귀함수로 올라가서 if 문을 비교할 때 mid 는 해당되지 않음
    merge(a, b, low, mid, high) # 합병 수행 # 이제서야 지옥의 관문

In [63]:
a = [54,88,77,26,93,17,49,10,17,77,11,31,22,44,17,20]
b = [None] * len(a)
print('정렬 전:\t', end='')
print(a)
merge_sort(a, b, 0, len(a)-1)   
print('정렬 후 :\t', end='')
print(a)

정렬 전:	[54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
(0, 1)
(2, 3)
(0, 2)
(4, 5)
(6, 7)
(4, 6)
(0, 4)
(8, 9)
(10, 11)
(8, 10)
(12, 13)
(14, 15)
(12, 14)
(8, 12)
(0, 8)
정렬 후 :	[10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 88, 93]


## 퀵정렬

***

입력의 맨 왼쪽 원소를 기준으로 피벗보다 작은 원소들과 큰 원소들을 각각 피벗의 좌우로 분할한 후, 피벗보다 작은 부분과 피벗보다 큰 부분을 각각 재귀적으로 정렬하는 알고리즘

In [64]:
def qsort(a, low, high):
    if low < high:
        pivot = partition(a, low, high) # 피벗을 기준으로 분할
        qsort(a, low, pivot-1) # 앞부분 재귀호출
        qsort(a, pivot+1, high) # 뒷부분 재귀호출
        
def partition(a, pivot, high):
    i = pivot + 1
    j = high
    while True:
        while i < high and a[i] < a[pivot]: # a[i] 가 피벗보다 작으면 i 를 1 증가
            i += 1
        while j > pivot and a[j] > a[pivot]: # a[j] 가 피벗보다 작으면 j 를 1감소
            j -= 1
        if j <= i: # 루프 중단
            break
        a[i], a[j] = a[j], a[i] # a[i] 와 a[j] 를 교환
        i += 1
        j -= 1
        
    a[pivot], a[j] = a[j], a[pivot]
    return j # 피벗 인덱스

In [65]:
a = [54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
print('정렬 전:\t', a)
qsort(a, 0, len(a)-1)
print('정렬 후:\t', a)

정렬 전:	 [54, 88, 77, 26, 93, 17, 49, 10, 17, 77, 11, 31, 22, 44, 17, 20]
정렬 후:	 [10, 11, 17, 17, 17, 20, 22, 26, 31, 44, 49, 54, 77, 77, 88, 93]
