# 탐색 (Search)
- 애시당초 저장할때  ‘탐색’ 에 최적화된 형태로 저장
- 자료구조가 중요한 이유.
    - 애시당초 ‘목적’에 맞는 설계를 해야 한다
    - ex) 힙 → 애시당초 저장할때 ‘최댓값, 최솟값’  뽑아내기에 최적화된 형태의 이진트리로 저장됨.





# 이진 탐색 트리 (Binary Search Tree: BST) 
탐색(검색)에 특화된 자료구조

- 이진 탐색 트리의 노드에 저장된 키(key)는 유일! 
- 루트 노드의 키 > 왼쪽 서브 트리를 구성하는 키 
- 루트 노드의 키 < 오른쪽 서브 트리를 구성하는 키 
- 왼쪽과 오른쪽 서브 트리도 이진 탐색 트리!

![bst](https://upload.wikimedia.org/wikipedia/commons/thumb/d/da/Binary_search_tree.svg/200px-Binary_search_tree.svg.png)





# BST 에 새로운 데이터 추가 (insert)
![insert](https://www.techiedelight.com/wp-content/uploads/Insert-into-BST.png)




In [8]:
class NodeBST:
    def __init__(self,value=None):
        self.value = value
        self.left = None
        self.right = None
        
    def __repr__(self):
        return f'{self.value}'
    
    # 주어진 값(value)을 BST에 추가(노드 추가), 재귀적으로 정의
    def _add_next_node(self,value):
        new_node = NodeBST(value)
        
        # 자기보다 값이 크면 right로..
        if value > self.value:
            self.right = self.right and self.right._add_next_node(value) or new_node
            
        # 자기보다 값이 작으면 left로..
        elif value < self.value:
            self.left = self.left and self.left._add_next_node(value) or new_node
            
        else:
            print('중복 노드를 허용하지 않습니다.')
            
        return self
    
    # BST에서 주어진 값(value)의 노드를 찾아서 리턴, 재귀적으로 정의
    # 못찾으면 False 리턴
    def _search_for_node(self, value):
        if self.value == value:
            return self.value # 찾았다!
        elif self.left and value < self.value: # 작으면 왼쪽에서 검색
            return self.left._search_for_node(value)
        elif self.right and value > self.value: # 크면 오른쪽에서 검색
            return self.right._search_for_node(value)
        else:
            return False

In [9]:
class BinarySearchTree:
    def __init__(self):
        self.root = None
        
    # BST에 새로운 노드 추가, 중복되는 값은 추가 안됨.
    def insert(self,value):
        if not self.root: # 루트가 없었다면 걍 추가
            self.root = NodeBST(value)
        else: # 루트로부터 시작하여 BST에 노드 추가
            self.root._add_next_node(value)
            
    # BST에서 특정 노드 값을 찾아서 노드 리턴, 못찾으면 False
    def search(self, value):
        return self.root._search_for_node(value)

In [10]:
bst = BinarySearchTree()
for i in [6,4,8,2,5,7,9,1,3]:
    bst.insert(i)

In [11]:
for i in range(10):
    print(bst.search(i))

False
1
2
3
4
5
6
7
8
9


---
# 성능고찰
이진 탐색트리의 성능(time complexity) 는  **O(log *n*)**  
한번 검색할때마다 검색할 대상이 (대략) 반으로 쪼개지기 때문.

![bst성능](https://dthumb-phinf.pstatic.net/?src=%22http%3A%2F%2Fcfile30.uf.tistory.com%2Fimage%2F2452DE5057DEC4621E28C4%22&type=w2)


# 선형 탐색 (linear search) vs 이진탐색 (binary search)
![linear](https://media.geeksforgeeks.org/wp-content/uploads/Linear.png)
![binary](https://media.geeksforgeeks.org/wp-content/uploads/binary-3.png)






In [12]:
import time
from datetime import timedelta
import random
import copy   # deepcopy 사용할거다

# 랜덤으로 리스트 작성
def gen_rand(num):
    data = [i for i in range(num)]
    random.shuffle(data)
    return data
    
# 오름차순 리스트 작성
def gen_asc(num):
    return [i for i in range(num)]

# 내림차순 리스트 작성
def gen_desc(num):
    return [i for i in range(num - 1, -1, -1)]

def test_search(obj, search_data, title):
    
    start_time = time.time()
    for data in search_data:
        found_data = obj.search(data)

    end_time = time.time()    
    
    elapsed_time = end_time - start_time  # 경과 시간
    
    
    print('%s: 평균검색시간 %s' % (title, str(timedelta(seconds = elapsed_time / len(search_data)))))

    
# times 만큼 같은 데이터에서 같은 조건으로 반복
def test_ntimes(title, gen = "랜덤", size=1000, times=5):
    
    ordered_data = gen_asc(size)  # 오름차순 데이터
    
    if gen == "랜덤":
        input_data = gen_rand(size)
    elif gen == "오름":
        input_data = ordered_data
    elif gen == "내림":
        input_data = gen_desc(size)
    else:
        print('gen 오류')
        return


#     ll = LinkedListFIFO()
    search_ds = BinarySearchTree()
    for data in input_data:
        search_ds.insert(data)
        
    for i in range(times):        
        test_search(search_ds, ordered_data, ("%s-%s %d %d차" % (title, gen, size, i + 1)))
        
    print()

        
        #----------------        
gen_func_list = [
    (gen_rand, "램덤")
    #(gen_asc, "오름"),
    #(gen_desc, "내림")
]   

# # search() 함수 실행
# def test_double_up(func, title, gen_list = gen_func_list, init_size=10000, num_doubles = 3):
#     data_size = init_size
#     for i in range(num_doubles):
#         print(f'■데이터 SIZE : {data_size}■' )
#         for genFunc, genType in gen_list:
#             test_ntimes(genFunc, func, f'{title}-{genType}{data_size}', data_size, 3)
#             print()
            
#         data_size *= 2
        
#     print('[종료]')
        




In [14]:
test_ntimes("BST","랜덤",20000,3)
print()
test_ntimes("BST","랜덤",40000,3)
print()
test_ntimes("BST","랜덤",80000,3)
print()
test_ntimes("BST","랜덤",160000,3)
print()

BST-랜덤 20000 1차: 평균검색시간 0:00:00.000007
BST-랜덤 20000 2차: 평균검색시간 0:00:00.000007
BST-랜덤 20000 3차: 평균검색시간 0:00:00.000007


BST-랜덤 40000 1차: 평균검색시간 0:00:00.000007
BST-랜덤 40000 2차: 평균검색시간 0:00:00.000007
BST-랜덤 40000 3차: 평균검색시간 0:00:00.000007


BST-랜덤 80000 1차: 평균검색시간 0:00:00.000008
BST-랜덤 80000 2차: 평균검색시간 0:00:00.000008
BST-랜덤 80000 3차: 평균검색시간 0:00:00.000009


BST-랜덤 160000 1차: 평균검색시간 0:00:00.000008
BST-랜덤 160000 2차: 평균검색시간 0:00:00.000008
BST-랜덤 160000 3차: 평균검색시간 0:00:00.000008




---
## BST 의 최악의 상황 (Worst case 는 무엇일까?)
**skewed binary search tree (치우친상태)**    vs  **balanced binary search tree (균형잡힌 상태)**

치운친 상태에서는 **O(n)** 에 수렴한다

<img src="http://bluehawk.monmouth.edu/~rclayton/web-pages/s11-503/baltreesf1.png" style="float:left"/><br>





In [17]:
test_ntimes('BST',"오름",100,3)
print()
test_ntimes('BST',"오름",200,3)
print()
test_ntimes('BST',"오름",400,3)
print()
test_ntimes('BST',"오름",800,3)
print()

BST-오름 100 1차: 평균검색시간 0:00:00.000030
BST-오름 100 2차: 평균검색시간 0:00:00.000025
BST-오름 100 3차: 평균검색시간 0:00:00.000020


BST-오름 200 1차: 평균검색시간 0:00:00.000055
BST-오름 200 2차: 평균검색시간 0:00:00.000052
BST-오름 200 3차: 평균검색시간 0:00:00.000040


BST-오름 400 1차: 평균검색시간 0:00:00.000069
BST-오름 400 2차: 평균검색시간 0:00:00.000071
BST-오름 400 3차: 평균검색시간 0:00:00.000072


BST-오름 800 1차: 평균검색시간 0:00:00.000145
BST-오름 800 2차: 평균검색시간 0:00:00.000146
BST-오름 800 3차: 평균검색시간 0:00:00.000187


