* 그래프는 <font color='red'>정점(Vertex)과 간선(Edge)</font>(두 정점을 잇는 선)의 집합이다.
* 그래프의 예로는 통신회선 연결도, 지하철 노선도, 교통지도, 소설네트워크 구성도  등이 있을 수 있다.
* 그래프에서 노드를 탐색하는 것은 그래프에 포함된 모든 노드를 구하거나 사이클이 존재하는 부분을 찾는 것이다.  
* <font color='red'>싸이클은 한 노드에서 출발, 이동하면서 반복되는 노드 없이 출발점으로 돌아오는 것을 말한다.</font> 즉, 여러 정점들을 연결하여 특정 도형모양을 그리고 있을 때, 해당 도형 부분은 싸이클에 해당한다.  싸이클이 없는 상황에서 출발한 곳으로 돌아올 수 있는 방법은 갔던 길을 되돌아 오는 방법 밖에 없다.
* 그래프 자료구조는 보통 <font color='blue'>인접행렬과 인접 리스트</font>로 구현할 수 있지만, 이 수업에선 <font color = "red">딕셔너리</font>로 구현하였다.

<center><img src="https://drive.google.com/uc?id=18yy9GeBzuny3AOnb8cmoyYpy6MqILJEX" width="600" height="300" ></center>

* DFS(Depth First Search)
    *  DFS는 출발선에 출발하여 미로를 탐색하듯이 끝까지 가보고, <font color = "red">끝까지 갔다면 왔던 곳을 되돌아 오면서 다른 방향을 모색하는 방법</font>이다.
    * DFS 알고리즘은 <font color = "red">스택과 'visited'라는 이름의 리스트를 이용</font>하여 출발노드에서 다음 위치로 이동할 때마다 이동한 곳을 스택과 visit 리스트에 기록하고, <font color = "red">막혀서 나올 때는 스택에서 팝하여 되돌아 나온다.</font>
    * 막힌 곳에서 되돌아 나오기 위해 스택을 사용하는 것이다.
    * DFS 과정에서 <font color = "red">특정 노드가 스택에 두번 들어가면</font>, <font color = "red">특정 노드를 기점으로 싸이클이 존재하는 것</font>이다.
    * <font color = "red">스택이 공백이 되면</font> 알고리즘이 끝난다.
    * DFS를 통해 그래프 내 <font color = "red">싸이클의 존재 유무를 파악할 수 있다.</font>


* 알고리즘 <br>
    Step 0: 시작점을 스택에 푸시한다.<br>
    Step 1: 스택에서 노드를 pop 한다.<br>
    Step 2: pop한 노드가 가본 곳이 아니면, <font color = "red">해당 노드의 이웃노드 중 방문하지 않은 노드들을 스택에 푸시하고 팝한 노드를 방문 처리한다.('visitied'라는 list에 append함)</font><br>
    Step 3: <font color = "red">pop한 노드가 이미 가본 곳이면 방문처리할 필요가 없으나 싸이클이 존재하는 것</font>이므로 싸이클이 존재함을 알려준다.<br>
    Step 4: Step 1에서 Step 3를 스택이 empty될 때까지 반복한다.<br>
    
    

In [33]:
class Stack:
    def __init__(self):
        self.s = []

    def push(self, item):
        self.s.append(item)

    def pop(self):
        if self.isEmpty() == False:
            return self.s.pop(-1)
        else:
            return None

    def peek(self):
        if self.isEmpty() == False:
            return self.s[-1]
        else:
            return None

    def isEmpty(self):
        if len(self.s) > 0:
            return False
        else:
            return True

    def size(self):
        return len(self.s)

    def print(self):
        print(self.s)
        
class Graph:
    
    def __init__(self, graph, start):
        
        # self.graph에는 딕셔너리 class type이 저장됨
        self.graph = graph
        
        self.start = start
        
        # self.s에서 pop된 노드의 이웃 노드가 해당 스택에 push되고, pop된 노드는 'self.visited'라는 list에 append된다.
        # (만약 pop된 노드가 이전에 방문했던 곳이라면, 해당 노드를 self.visited에 추가하지않고 싸이클이 존재한다는 것을 알린다.)
        self.s = Stack()
        
        # self.visit에는 방문되어진 노드들이 순서대로 저장된다.
        self.visited = []

    def dfs(self):
        
        # 먼저, 시작점 노드를 스택에 push한다.
        self.s.push(self.start)
        
        # 해당 스택이 비어 있을 때까지 시행한다.
        while self.s.isEmpty() == False: 
            
            # 스택에서 pop한 것을 curNode로 지정
            curNode = self.s.pop()
            
            # curnode는 현재 self.visit에 없어야 후에 self.visit에 추가할 수 있다.
            if curNode not in self.visited:
                
                # curNode의 이웃 노드들의 집합과 self.visited 집합의 '차집합'을 시행하는 것이 핵심!
                for node in set(self.graph[curNode]) - set(self.visited):
                    
                    # curNode의 모든 이웃노드를 스택에 push하는 것이 핵심이다.
                    self.s.push(node)
                    print(curNode,end=" ")
                    self.s.print()
                self.visited.append(curNode)
            else:
                print(curNode,"에 싸이클이 존재합니다." )
        return self.visited

g1 = {}
g1['A'] = ['B','C']
g1['B'] = ['A','D','E']
g1['C'] = ['A','E']
g1['D'] = ['B','G']
g1['E'] = ['B','C','G']
g1['F'] = ['G']
g1['G'] = ['D','E','F']

# g1의 관계를 기반으로하는 그래프를 생성하고, 방문할 첫번째 노드를 "A"로 한다.
dfs = Graph(g1,'A')

print(dfs.dfs())

A ['B']
A ['B', 'C']
C ['B', 'E']
E ['B', 'B']
E ['B', 'B', 'G']
G ['B', 'B', 'F']
G ['B', 'B', 'F', 'D']
D ['B', 'B', 'F', 'B']
B 에 싸이클이 존재합니다.
B 에 싸이클이 존재합니다.
['A', 'C', 'E', 'G', 'D', 'B', 'F']


* BFS(Breadth[폭, 넓이] First Search)
  *  BFS는 <font color = "red">현재 위치(얘는 바로 'selfe.visited'라는 list에 append됨)에서 가까운 이웃노드를 다 돌아보고</font>, 더 이상 갈 곳이 없으면 <font color = "blue">방문한 곳에 연결된 노드를 방문하는 방식이다.</font> 직관적으로는 가까운 친구를 먼저 찾아보고 그 다음에는 친구의 친구를 찾는 방식으로 이해할 수 있다.
  *현재 노드에 연결된 이웃 노드들을 queue에 넣고, 현재 노드를 'self.visited'라는 list에 append 한다. 이후, queue에 들어간 첫번째 자식 노드를 현재 노드로 여기고 앞서 했던 행위를 반복한다.
  * BFS 알고리즘은 <font color = "red">queue와 "self.visited"라는 이름의 list를 이용</font>하여 출발노드에서 가볼 수 있는 곳을 큐에 enQueue 하고 하나씩 deQueue한 다음 방문으로 처리하고, 현재 노드에서 가볼 수 있는 곳을 계속 큐에 넣는다. 
  * 큐가 empty 가 되면 알고리즘이 끝난다.
  * BFS는 가까운 곳을 먼저 방문하기 때문에 <font color = "red">최소경로를 찾을 수 있는 알고리즘</font>이다.

In [35]:
class Queue:
    def __init__(self):
        self.q = []

    def enQueue(self, item):
        self.q.append(item)

    # 해당 queue에 먼저 들어온 객체가 먼저 나간다.
    def deQueue(self):
        if self.isEmpty() == False:
            return self.q.pop(0)

    def size(self):
        return len(self.q)

    def isEmpty(self):
        if len(self.q) > 0:
            return False
        else:
            return True

    def peek(self):
        if self.isEmpty() == False:
            return self.q[0]

    def delete(self, item):
        if item in self.q:
            self.q.remove(item)
        else:
            print("해당 아이템이 존재하지 않습니다.")

In [36]:
class Graph:
    def __init__(self, graph, start):
        self.graph = graph
        self.start = start
        self.visited = []


    
    def bfs(self):
        
        # 일단 첫번째 노드를 visit 리스트에 append하고 시작!
        self.visited.append(self.start)
        
        #visited = [self.start]
        queue = Queue()
        
        # 첫번째 노드의 이웃노드들을 queue에 넣는다.
        for kids in self.graph[self.start]:
            queue.enQueue(kids)
            
        # 해당 queue가 빌때까지 시행한다.
        while queue.isEmpty() == False:
            
            # queue의 첫번째에 위치한 노드가 빠져나오고 현재노드로 전향된다.
            curNode = queue.deQueue()
            
            # 현재노드가 전에 방문했던 곳이 아니면 ...
            if curNode not in self.visited :  
                
                # 해당 노드의 이웃노드들을 queue에 넣는다. 현재 노드로 지정된 노드의 이웃 노드들이 해당 queue에 계속적으로 저장된다.
                for _kids in self.graph[curNode]:
                    queue.enQueue(_kids)
                    
                # 해당 부모노드는 visit 리스트에 append 된다.
                self.visited.append(curNode)
                
        return self.visited

bfs = Graph(g1, 'A')
print(bfs.bfs())


['A', 'B', 'C', 'D', 'E', 'G', 'F']


#### 연결성분 찾기

* 연결성분은 그래프에서 연결된 집합(그룹)을 구하는 것이다.(즉, 작은 단위의 그래프 그룹들을 찾아내는 것이다.)
* 그래프의 키 집합에서 <font color = "red">임의 키를 선정해 DFS를 수행하여 구한 경로를 하나의 집합으로 묶는다.</font> 이후, 묶인 키를 키 집합(해당 집합의 이름은 "remains"이고 class type은 set임)에서 제외한다.
* 키 집합에서 더 이상 남은 키가 없을 때까지 위의 과정을 반복한다.

In [37]:
class Stack:
    def __init__(self):
        self.s = []

    def push(self, item):
        self.s.append(item)

    def pop(self):
        if self.isEmpty() == False:
            return self.s.pop(-1)
        else:
            return None

    def peek(self):
        if self.isEmpty() == False:
            return self.s[-1]
        else:
            return None

    def isEmpty(self):
        if len(self.s) > 0:
            return False
        else:
            return True

    def size(self):
        return len(self.s)

    def print(self):
        print(self.s)


class Graph:
    def __init__(self, graph, start):

        # self.graph에는 딕셔너리 class type이 저장됨
        self.graph = graph
        self.start = start
        # self.s에서 pop된 노드의 이웃 노드가 해당 스택에 push되고, pop된 노드는 list에 append된다.
        self.s = Stack()
        # self.visit에는 방문되어진 노드들이 순서대로 저장된다.
        self.visit = []

    def dfs(self):
        self.s.push(self.start)

        # 해당 스택이 비어 있을 때까지 시행한다.
        while self.s.isEmpty() == False:
            # 스택에서 pop한 것을 curnode로 지정
            curNode = self.s.pop()
            # curnode는 현재 self.visit에 없어야 후에 self.visit에 추가할 수 있다.
            if curNode not in self.visit:
                # curnode 값의 집합과 self.visit 집합의 '차집합'을 시행하는 것이 핵심!
                for node in set(self.graph[curNode]) - set(self.visit):
                    # curnode의 모든 이웃노드를 스택에 push하는 것이 핵심이다.
                    self.s.push(node)
                    print(curNode, end=" ")
                    self.s.print()
                self.visit.append(curNode)
            else:
                print(curNode, "에 싸이클이 존재합니다.")
        return self.visit

g = {}
g[0] = [3]
g[1] = [6,10]
g[2] = [7,11]
g[3] = [0,6,8]
g[4] = [13]
g[5] = [14]
g[6] = [1,3,8,10,11]
g[7] = [2,11]
g[8] = [3,6,10,12]
g[9] = [13]
g[10] = [1,6,8]
g[11] = [2,6,7]
g[12] = [8]
g[13] = [4,9]
g[14] = [5]

def connComponent(g):
    
    # "g"라는 이름의 딕셔너리에서 키들을 전부 가져온 후, 이것들의 리스트를 생성한다.(해당 리스트의 이름은 "keyLists"이다.)
    keyLists = list(g.keys())
    print("keyLists is", keyLists)
    print("keyLists's class type is ", type(keyLists))
    print("*"*130)

    # keyLists를 set class type으로 변형한다.(해당 집합의 이름은 "remains"이다.)
    remains = set(keyLists)
    
    i = 0
    
    # remains내 원소가 없을 때까지 실행한다.
    while len(remains) > 0:
        
        # set class type에는 인덱스 개념이 없기 때문에, 첫번째 노드를 지정할 때만 remains를 list class type으로 잠시 바꿔야 한다.
        dfs = Graph(g, list(remains)[0])
        conns = dfs.dfs()
        
        i = i + 1
        # conns의 class type은 현재 list이다.
        print("Group",i,"is", conns)
        
        # remains(집합)와 conns(집합으로 변환 시켜아함!)의 차집합으로 remains를 업데이트 한다.
        remains = remains - set(conns)# 'conns'(원래 class type은 list임)를 set class type으로 변환시키는 것이 핵심이다!

connComponent(g)

keyLists is [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
keyLists's class type is  <class 'list'>
**********************************************************************************************************************************
0 [3]
3 [8]
3 [8, 6]
6 [8, 8]
6 [8, 8, 1]
6 [8, 8, 1, 10]
6 [8, 8, 1, 10, 11]
11 [8, 8, 1, 10, 2]
11 [8, 8, 1, 10, 2, 7]
7 [8, 8, 1, 10, 2, 2]
2 에 싸이클이 존재합니다.
10 [8, 8, 1, 8]
10 [8, 8, 1, 8, 1]
8 [8, 8, 1, 12]
1 에 싸이클이 존재합니다.
8 에 싸이클이 존재합니다.
8 에 싸이클이 존재합니다.
Group 1 is [0, 3, 6, 11, 7, 2, 10, 1, 8, 12]
4 [13]
13 [9]
Group 2 is [4, 13, 9]
5 [14]
Group 3 is [5, 14]


#### 위상정렬

<center><img src="https://drive.google.com/uc?id=1VrFWDB17Q6IZrG2Ib9xcTQcfcKQW2B2L" width="300" height="200" ></center>

* <font color = "red">시작지점에서 방향에 따라 이동하면서 방문처리한다.(False였던 것을 True로 바꾸면서 방문처리함)</font>(방식이 dfs랑 흡사하다.)
* <font color = "red">끝노드를 만나면 되돌아 나오면서, 끝노드부터 리스트('self.path')에 기록한다.</font>(이 부분이 "정렬"하는 것이다.)
* 예: 파이썬-> 자료구조->운영체제->인공지능->알고리즘->데이터베이스->데이터마이닝->S/W 프로젝트 까지 이동하면서 방문처리하고 이 패스를 거꾸로 리스트에 삽입한다.
리스트에는 [S/W 프로젝트, 데이터마이닝,데이터베이스,알고리즘,인공지능,운영체제,자료구조] 이 삽입된다.
* 파이썬에서 시작할 때, 자료구조로 갔으니까 이번에는 컴퓨터 입문으로 시작해서 위의 프로세스를 반복한다.(dfs랑 흡사하다.)
* 컴퓨터 입문 다음 노드인 자료구조부터는 이미 방문한 노드이므로 자신이 마지막 노드가 되어 리스트에 삽입된다. 
* 리스트에는 [S/W 프로젝트, 데이터마이닝,데이터베이스,알고리즘,인공지능,자료구조, 컴퓨터입문]
* 다음으로 마지막에 파이썬이 리스트에 추가된다. 이제 리스트를 거꾸로 뒤집어 리턴하면 
[파이썬, 컴퓨터입문,자료구조,운영체제,인공지능,알고리즘,데이터베이스,데이터마이닝,S/W 프로젝트]가 된다.

<center><img src="https://drive.google.com/uc?id=1NYySDOxKTbWSc90ZM712CHAA9R6wlHuV" width="500" height="50" ></center>

In [5]:
class Graph:
    def __init__(self, graph, start):
        self.graph = graph
        self.start = start
        self.s = Stack()
        self.visit = []

    def dfs(self):
        self.s.push(self.start)
        while self.s.isEmpty() == False:
            curNode = self.s.pop()
            if curNode not in self.visit:
                for node in set(self.graph[curNode]) - set(self.visit):
                    self.s.push(node)
                    print(curNode,end=" ")
                    self.s.print()
                self.visit.append(curNode)
            else:
                print("Cycle Detected at ", curNode)
        return self.visit

    def bfs(self):
        visit = [self.start]
        queue = Queue()
        for item in self.graph[self.start]:
            queue.enQueue(item)

        while queue.isEmpty() == False:
            item = queue.deQueue()
            if not item in visit:  # 현재 아이템이 가본 곳이 아니면 ...
                for _item in self.graph[item]:
                    queue.enQueue(_item)
                visit.append(item)
        return visit

    # 방향 그래프에 대한 위상정렬
    def topologySort(self):
        
        # 'self.graph'라는 딕셔너리의 '키'들을 원소로 가진 list를 생성함
        keys = list(self.graph.keys())
        print("keys list is", keys)
        print("*"*130)
        
        # 'self.visited'라는 dictionary class type을 생성함
        self.visited = {}
        
        # 'self.visited'라는 dictionary 내부에, '키'를 keys로 구성하고 해당 키들의 '값'을 전부 False로 구성한다. 
        for i in keys:
            self.visited[i] = False
        
        self.path = []
        for node in keys:
            if self.visited[node] == False:
                self._sort(node)
                
        # 해당 리스트 내부 원소들의 순서를 뒤집는다.
        return self.path[::-1]
    
    # curNode에 연결된 노드 중 가보지 않은 노드를 재귀로 방문함
    def _sort(self, curNode): 
        self.visited[curNode] = True
        for node in self.graph[curNode]:
            if not self.visited[node]:
                self._sort(node)
                
        # 끝부터 삽입한다.
        self.path.append(curNode) 
        
g = {}
g['파이썬'] = ['자료구조','컴퓨터입문']
g['자료구조'] = ['운영체제','알고리즘']
g['컴퓨터입문'] = ['자료구조']
g['운영체제'] = ['인공지능']
g ['인공지능'] = ['알고리즘','데이터마이닝']
g ['알고리즘'] = ['데이터베이스']
g ['데이터베이스'] = ['데이터마이닝']
g ['데이터마이닝'] = ['SW프로젝트']
g ['SW프로젝트'] = []

path = Graph(g, '파이썬')

print("sorted result is",path.topologySort())

keys list is ['파이썬', '자료구조', '컴퓨터입문', '운영체제', '인공지능', '알고리즘', '데이터베이스', '데이터마이닝', 'SW프로젝트']
**********************************************************************************************************************************
sorted result is ['파이썬', '컴퓨터입문', '자료구조', '운영체제', '인공지능', '알고리즘', '데이터베이스', '데이터마이닝', 'SW프로젝트']


#### 최소비용신장트리

* <font color = "blue">'신장트리(spanning tree)'는 출발노드부터 목적지 노드까지의 엣지(간선, 경로)가 두 개 이상 존재할 때 한 개의 경로만 남게 되고, 모든 노드가 연결되어 있는 트리이다.</font>
* '최소비용신장트리(minimum spanning tree)'는 간선에 <font color = "red">가중치(두 점 사이의 거리 또는 시간)</font>가 존재하는 가중치 그래프에서, <font color = "red"> 가중치의 합이 최소화되도록</font> 구성한 트리를 말한다.
* 즉, 총 비용이 가장 적은 트리인 것이다.
* <font color = "red">두 노드 사이의 경로 길이는 최단 경로가 아닐 수 있다.</font>
* 최소비용신장트리는 <font color = "blue">두 개의 정점사이에 한개 경로만 존재한다.</font> 그러므로 싸이클도 존재할 수 없다.
* 복잡한 그래프에서 최소비용신장트리를 구성하는 것은 <font color = "red">네트워크가 작동할 수 있는 최소 조건(즉, 가장 빠른 경로)</font>을 구하는 의미가 있다.
* 최소비용신장트리를 구하는 방법으로는 Kruskal 알고리즘, Prim 알고리즘, Sollin 알고리즘 등이 있다.<font color = "blue">(다익스트라는 아님!)</font>

#### Kruskal 알고리즘

* <font color = "red">간선들의 가중값을 정렬한 후</font>, 가장 작은 가중값을 가지는 간선부터 비어있는 Tree class type(변수명은 "Tree"로 되어있음)에 추가해 간다.
* 추가중에 <font color = "red">간선의 수가 n-1이 되면 알고리즘이 종료</font>된다. n은 노드 수다.

<center><img src="https://drive.google.com/uc?id=1udy_0nAYtLq8XrPQt1O1uexRGsMwyS1V" width="500" height="500" ></center>


##### 위 사진을 활용한 알고리즘 분석 사례
* 위의 그림에서 최소 간선 (4,6) 부터 차례대로 빈 트리에 삽입한다.
* 삽입과정에서 (1,4), (2,4), (3,6)은 싸이클이 형성되므로 스킵한다.
* 삽입하다가 삽입된 간선이 6개(노드수-1)가 되면 알고리즘이 종료된다.
* 싸이클을 탐지하는 방법으로 Union-Find 알고리즘을 사용할 수 있다.


##### Union(결합) Find(싸이클을 찾음) Algorithm[kruskal 알고리즘에서 내에서 싸이클을 찾아주는 역할을 수행함]
* <font color = "red">'Union Find'는 엣지들을 결합하면서 싸이클을 찾는 알고리즘이다.</font>
* Union Find 알고리즘은 노드 연결 현황을 나타내는 리스트를 정의하고, 추가 되는 엣지(n1, n2)에 대해 Union(결합) 해 간다.
* 예를 들어, 현재 [[0,1,2],[3,4]] 이 존재할 때(즉, 0, 1, 2가 연결된 그룹과, 3, 4가 연결된 그룹이 존재함), 아래와 같이 처리한다.
  * [[0,1,2],[3,4]] + [5,6] = [[0,1,2],[3,4],[5,6]] # 연결할 수 없으므로 따로 생성
  * [[0,1,2],[3,4]] + [1,5] = [[0,1,2,5],[3,4]]      # 존재하는 곳에 연결함
  * [[0,1,2],[3,4]] + [1,3] = [[0,1,2,5,3,4]]        # n1, n2 모두 존재하므로 두개가 존재하는 서브 리스트를 합친다.
  * [[0,1,2],[3,4]] + [0,2] =  싸이클                 # 0과 2가 모두 0번째로 같은 위치에 존재하므로 추가할 필요가 없고 이때 싸이클이 존재한다.
  

In [39]:
class SpanningTree:
    def __init__(self, graph):
        self.graph = graph
        
        # 'self.nodes'에 모든 극점이 저장됨
        self.nodes = set()
    
        self.union = []
        
        # 그래프의 노드를 구함
        for edge in graph:
            
            # 이어져 있는 두 극점 중 하나의 극점
            self.nodes.add(edge[0])
            
            # 나머지 극점
            self.nodes.add(edge[1])
            
        #  self.nNode에는 해당 그래프 노드의 총 갯수가 담겨진다.
        self.nNode = len(self.nodes)

    def isCycle(self, n1, n2):
        idx1 = idx2 = -1
        for i in range(len(self.union)):
            if n1 in self.union[i]:
                idx1 = i
            if n2 in self.union[i]:
                idx2 = i
                
        # [n1,n2] 이 기존 그룹(리스트)에 없다면 
        if idx1 == -1 and idx2 == -1: 
            self.union.append([n1, n2])
            return False
        
        # [n1,n2] 이 기존 그룹(리스트) 중 한 곳에만 있다면, n2가 기존에 존재하던 어떤 그룹에 이미 속해있고, n1은 속해있지 않을 때
        elif idx1 == -1:
            self.union[idx2].append(n1)
            return False
        
        # [n1,n2] 이 기존 그룹(리스트) 중 한 곳에만 있다면, n1이 기존에 존재하던 어떤 그룹에 이미 속해있고, n2는 속해있지 않을 때
        elif idx2 == -1:
            self.union[idx1].append(n2)
            return False
        
        # [n1,n2] 이 기존 그룹(리스트)에 서로 다른 곳에 존재한다면(idx1 과 idx2 모두 -1이 아니고 서로 다른 수일 때)
        elif idx1 != idx2:
            d1 = self.union[idx1]
            d2 = self.union[idx2]
            union = d1 + d2
            self.union.remove(d1)
            self.union.remove(d2)
            self.union.append(union)
            return False
        
        # [n1, n2]가 기존에 존해하던 어떤 그룹(리스트)에 동시에 속해있을 때, 이 때는 싸이클이 발생한다. 그러므로 최소신장트리에 반영되지 않는다.
        elif idx1 == idx2 and len(self.union[idx1]) > 2:
            print(self.union[idx1])
            return True
        else:
            return False

    def kruskal(self):
        
        # 그래프를 2번째 원소기준(즉, 가중치를 기준)으로 소트한다.
        self.graph.sort(key = lambda t: t[2]) 
        
        # 최소비용신장트리를 담을 리스트를 만든다. 이것은 후에 return 값이 된다.
        tree = []  
        
        # 간선의 총 갯수이다. nedges == self.nNode - 1이면 알고리즘이 끝난다. 반복적으로 +1씩 업데이트 된다.
        nedges = 0 
        
        # i 변수는 이어진 두 극점들의 index를 뜻한다.
        i = 0 
        
        while nedges < self.nNode - 1:
            
            # union find를 통해 싸이클을 형성하지 않는 엣지를 'tree'에 추가한다.
            if self.isCycle(self.graph[i][0],self.graph[i][1]) == False:
                tree.append(self.graph[i])
                nedges += 1
            else:
                print("싸이클 발견",self.graph[i])
            i += 1

        return tree

g = [(0,1,9),(0,2,10),(1,3,10),(1,4,5),(1,6,3),(2,3,9),(2,4,7),(2,5,2),(3,5,4),(3,6,8),(4,6,1),(5,6,6)]
t = SpanningTree(g)
print(t.kruskal())

[4, 6, 1]
싸이클 발견 (1, 4, 5)
[2, 5, 3, 4, 6, 1]
싸이클 발견 (2, 4, 7)
[2, 5, 3, 4, 6, 1]
싸이클 발견 (3, 6, 8)
[(4, 6, 1), (2, 5, 2), (1, 6, 3), (3, 5, 4), (5, 6, 6), (0, 1, 9)]


<center><img src="https://drive.google.com/uc?id=1hegvtRryt6Xe7aa7uunaBS2RJGGMsD1m" width="500" height="200" ></center>

##### Prim 알고리즘
* 프림 알고리즘은 최소비용 엣지를 추가하는데, <font color = "blue">이미 추가된 노드(mst에 이미 저장된 노드들 중 하나)와 연결 가능한 엣지(mst에 저장된 노드 하나와 remains에 저장된 노드 하나를 잇는 간선)중</font> <font color = "red">최소 비용 엣지를 추가하는 방법</font>이다. 
* 그림 (a)와 같이 그룹이 만들어지면 그룹에서 <font color = "red">가장 가까운 노드</font>를 선택해 (b)처럼 그룹에 포함시키는 방식으로, <font color = "red">삽입된 간선이 (노드수-1)개가 되면 알고리즘이 종료</font>된다.
* 이 과정에서도 싸이클이 발생할 수 있다. <font color = "blue">싸이클을 발생시키는 엣지는 스킵한다.</font>

* 알고리즘
  * step 0: 최소비용신장트리 mst를 저장할 리스트를 만든다.
  * step 1: 그래프에서 최소비용 엣지를 선택해 mst에 추가한다.(가중치를 기준으로 sort함)
  * step 2: <font color = "red">그래프의 엣지집합과 mst의 차집합으로 remains로 구하고, mst에 존재하는 노드집합과 연결된 remains 엣지 중 최소비용엣지를 구한다.</font>
  * step 3: step 2에서 구한 최소비용엣지가 mst에 추가될 때, 싸이클이 형성되지 않으면 추가하고 싸이클이 형성되면 스킵한다.
  * step 4: <font color = "red">remains에서 'step 2'에서 구한 최소비용엣지를 삭제하고 갱신된 mst와 remains를 이용하여 최소비용엣지를 찾는 작업을 반복한다.
  * step 5: mst에 추가된 엣지의 수가 그래프 노드 수 - 1 이 되면 알고리즘을 중단하고 mst를 리턴한다.

In [38]:
class SpanningTree:
    def __init__(self, graph):
        self.graph = graph
        
        # 그래프의 노드 집합
        self.nodes = set() 
        
        # 싸이클 여부를 판단하는 리스트
        self.union = [] 
        
        
        # 모든 그래프의 엣지에 대해 노드를 추출해 nodes 집합에 저장한다.
        for edge in graph: 
            self.nodes.add(edge[0])
            self.nodes.add(edge[1])
            
        # 그래프에 존재하는 노드의 수   
        self.nNode = len(self.nodes) 

    # union 리스트에 Union-Find 알고리즘의 결과를 저장하면서 싸이클 발생 여부를 리턴한다.
    # 새로 입력된 엣지 (n1, n2)가 union 리스트에 어느 곳에 있는지를 판단하여 idx1, idx2를 생성한다.

    # idx1, idx2가 모두 -1이면 입력된 엣지가 union 집합에 있는 엣지들과 연결되어 있지 않으므로 새로운 엣지로 추가하고 싸이클 여부는 False다.
    # idx1, idx2 둘 중 하나가 -1이면 하나는 연결되어 있고 하나는 새 노드이므로 연결되어 있는 노드집합에 추가하고 싸이클 여부는 False다.
    # idx1, idx2 둘 다 0 이상이고, 서로 다른 값을 가지면, 두 노드 집합을 연결하고 싸이클 여부는 False다.
    # idx1, idx2 둘 다 0 이상이고, 서로 같은 값을 가지면, 싸이클 여부는 True 이므로 엣지를 추가하지 않는다.
    def isCycle(self, n1, n2):
        idx1 = idx2 = -1
        for i in range(len(self.union)):
            if n1 in self.union[i]:
                idx1 = i
            if n2 in self.union[i]:
                idx2 = i

        if idx1 == -1 and idx2 == -1:
            self.union.append([n1, n2])
            return False
        elif idx1 == -1:
            self.union[idx2].append(n1)
            return False
        elif idx2 == -1:
            self.union[idx1].append(n2)
            return False
        elif idx1 != idx2:
            d1 = self.union[idx1]
            d2 = self.union[idx2]
            union = d1 + d2
            self.union.remove(d1)
            self.union.remove(d2)
            self.union.append(union)
            return False
        elif idx1 == idx2 and len(self.union[idx1]) > 2:
            return True
        else:
            return False

    def kruskal1(self):
        self.graph.sort(key = lambda t: t[2])
        tree = []
        nedges = 0
        i = 0
        while nedges < self.nNode - 1:
            if self.isCycle(self.graph[i][0],self.graph[i][1]) == False:
                tree.append(self.graph[i])
                nedges += 1
            else:
                print("cycle found",self.graph[i] )
            i += 1
        return tree

    # 최소비용신장트리 과정에서 남아 있는 엣지(remains) 들 중에, nodes(mst에 저장된 노드들)에 연결된 최소비용 엣지(최소 가중치를 가진 엣지)를 구해 리턴한다.
    def _minEdge(self, remains, nodes):
        import sys
        mini = sys.maxsize
        for node in nodes:
            for edge in remains:
                if edge[0] == node or edge[1] == node:
                    if edge[2] < mini:
                        minEdge = edge
                        mini = minEdge[2]
        return minEdge

    # 최소비용신장트리 mst에 존재하는 노드의 집합(list class type)을 구해 리턴한다.
    def _getNodes(self, mst):
        
        # 'nodes'라는 list class type에, mst에 존재하는 모든 노드들이 저장됨
        nodes = []
        
        for edge in mst:
            nodes.append(edge[0])
            nodes.append(edge[1])
        return nodes

    # Prim 알고리즘으로 최소비용신장트리를 구한다.
    def prim(self):
        # 최소비용신장트리를 저장할 리스트
        mst = [] 
        
        # 싸이클 여부를 판단할 리스트
        self.union = [] 
        
        # self.graph(list class type)를 소트(가중치를 기준으로 소트)해서 최소비용 엣지하나를 구함
        self.graph.sort(key=lambda t: t[2]) 
        
        
        if self.isCycle(self.graph[0][0], self.graph[0][1]) == False:
            # 첫번째 엣지를 mst에 추가
            mst.append(self.graph[0]) 

        # 그래프(이 부분에선, self.graph가 set class type임)에서 mst(이 부분에선, mst가 set class type임)를 제외한 집합으로, 
        # remains에서 엣지를 선택해 mst에 추가할 것임
        remains = list(set(self.graph) - set(mst)) 
        
        # 현재, mst에 존재하는 노드집합을 구함
        mst_nodes = self._getNodes(mst) 
        
        # 현재, mst에 존재하는 노드와 remains에 존재하는 노드를 연결한 엣지들 중에 최소비용 엣지를 구함
        minEdge = self._minEdge(remains, mst_nodes) 
        
        
        # 최소비용신장트리의 엣지수가 '총 노드의 갯수 - 1'이 되기전까지 반복함
        while len(mst) < self.nNode - 1:
            
            # 최소비용 엣지가 싸이클을 형성하지 않으면 mst에 추가
            if self.isCycle(minEdge[0], minEdge[1]) == False: 
                mst.append(minEdge)
                
            # 싸이클을 형성 여부와 상관없이 remains에서 제거
            remains.remove(minEdge) 
            
            # 업데이트된 mst와 remains를 이용하여 최소비용엣지를 구하고 루프를 반복함
            nodes = self._getNodes(mst) 
            minEdge = self._minEdge(remains, nodes)

        return mst

g = [(0,1,9),(0,2,10),(1,3,10),(1,4,5),(1,6,3),(2,3,9),
     (2,4,7),(2,5,2),(3,5,4),(3,6,8),(4,6,1),(5,6,6)]
t = SpanningTree(g)
print("kruskal is", t.kruskal1())
print("Prim is", t.prim())

cycle found (1, 4, 5)
cycle found (2, 4, 7)
cycle found (3, 6, 8)
kruskal is [(4, 6, 1), (2, 5, 2), (1, 6, 3), (3, 5, 4), (5, 6, 6), (0, 1, 9)]
Prim is [(4, 6, 1), (1, 6, 3), (5, 6, 6), (2, 5, 2), (3, 5, 4), (0, 1, 9)]


### Dijkstra 알고리즘

* <font color = "red">BFS를 사용하여</font> 최소거리 경로를 찾을 수 있다.    
* 다익스트라 알고리즘은 <font color = "red">최소 Cost를 가지는 경로를 찾을 수 있는 알고리즘</font>이다.
* 여기서, Cost는 시간일 수도 있고, 시간, 신호등 수, 주변 경관 등을 적절하게 점수화 한 것일 수도 있다.     
   예를 들어, 시간이 오래 걸리거나 신호등이 많거나 차선이 좁으면 상승하는  Cost  함수를 만들 수 있다면 이 Cost 함수를 최소화 하는 경로를 찾을 수 있다는 의미이다. 
* 이를 이용하면 네비게이션 알고리즘에서 최단경로, 최소시간, 최소비용, 최적 경로라는 이름으로 경로를 탐색하고 사용자는 이 중 적절한 경로를 선택하도록 하는 것이 가능하다.
* 다익스트라 알고리즘은 <font color = "red">현재노드를 통해 연결된 노드로 가는 것과 다른 경로를 통해 가는 Cost를 비교하여 더 작은 Cost가 있을 경우, 업데이트하는 방법</font>이다.
* 아래의 그림에서 A로 가는 방법은 start에서 A로 가는 방법과 start -> B -> A의 방법이 있고 이 중 후자가 더 빠르다. 이 경우, 'A': [5, 'B'] 와 같이 만들어야 한다.

<center><img src="https://drive.google.com/uc?id=17-N_4cqBA_H9BKKVgTeZDuhCgwVKSH8s" width="300" height="150" ></center>

In [31]:
'''#다익스트라
graph = ['start','A', 6],['start','B', 2], ['A', 'finish', 1], ['B', 'finish', 5], ['B', 'A', 3]
nodes = set()
for edge in graph:
    nodes.add(edge[0])
    nodes.add(edge[1])
    
visits = set()
cost = {}
for node in nodes:
    cost[node] = [float("inf"), None]
start = graph[0][0]
end = graph[2][1]

curNode = start
cost[curNode][0] = 0

def _neighbor(curNode):
    neighbor = {}
    for edge in graph:
        if edge[0] == curNode:
            neighbor[edge[1]] = edge[2]
        elif edge[1] == curNode:
            neighbor[edge[0]] = edge[2]
    return neighbor

def _getWeight(n1, n2):
    for edge in graph:
        if edge[0] == n1 and edge[1] == n2:
            return edge[2]
        elif edge[0] == n2 and edge[1] == n1:
            return edge[2]
    return None

neighbors = _neighbor(curNode)

visits.add(curNode)
nodes.remove(curNode)
      
for node in neighbors:
    if cost[curNode][0] + _getWeight(curNode, node) < cost[node][0]:
        cost[node][0] = cost[curNode][0] + _getWeight(curNode, node)
        cost[node][1] = curNode

dictfilt = lambda x, y: dict([(i,x[i]) for i in x if i in set(y)])
curNode = min(dictfilt(cost, nodes), key = dictfilt(cost, nodes).get)

neighbors = _neighbor(curNode)


visits.add(curNode)
nodes.remove(curNode)

for node in neighbors:
    if cost[curNode][0] + _getWeight(curNode, node) < cost[node][0]:
        cost[node][0] = cost[curNode][0] + _getWeight(curNode, node)
        cost[node][1] = curNode

curNode = min(dictfilt(cost, nodes), key=dictfilt(cost, nodes).get)

neighbors = _neighbor(curNode)

visits.add(curNode)
nodes.remove(curNode)

for node in neighbors:
    if cost[curNode][0] + _getWeight(curNode, node) < cost[node][0]:
        cost[node][0] = cost[curNode][0] + _getWeight(curNode, node)
        cost[node][1] = curNode'''
        
#이걸 클래스로 만들어보자.
class dijkstra:
    def __init__(self):
        self.graph = []
        self.nodes = set()
        self.visits = set()
        self.cost = {}
        self.curNode = None
        
    def _neighbor(self,curNode):
        # curNode에 연결된 이웃노드를 리스트로 리턴한다.
        neighbor = {}
        for edge in self.graph:
            if edge[0] == curNode:
                neighbor[edge[1]]= edge[2]
            elif edge[1] == curNode:
                neighbor[edge[0]] = edge[2]
        return neighbor

    def _getWeight(self, n1, n2):
        # 그래프에서 노드 n1, n2의 가중값을 리턴한다.
        for edge in self.graph:
            if edge[0] == n1 and edge[1] == n2:
                return edge[2]
            elif edge[0] == n2 and edge[1] == n1:
                return edge[2]
        return None
        
    # 해당 메소드의 'w' 매개변수는 '가중치'를 뜻한다.    
    def setEdge(self, a, b, w):
        
        #그래프 리스트 만들기
        self.graph.append([a, b, w])
        
        #노드 집합 만들고 코스트 초기화
        if a not in self.nodes and b not in self.nodes:
            self.nodes.add(a)
            self.nodes.add(b)
            self.cost[a] = [float("inf"), None]
            self.cost[b] = [float("inf"), None]
        elif a not in self.nodes:
            self.nodes.add(a)
            self.cost[a] = [float("inf"), None]
        elif b not in self.nodes:
            self.nodes.add(b)
            self.cost[b] = [float("inf"), None]
            
    def getPath(self, start, end):
        start = start
        end = end
        
        self.curNode = start
        self.cost[self.curNode][0] = 0
        
        while True:
            print(self.curNode)
            self.visits.add(self.curNode)
            self.nodes.remove(self.curNode)
            neighbors = self._neighbor(self.curNode)
            
            for node in neighbors:
                if self.cost[self.curNode][0] + self._getWeight(self.curNode, node) < self.cost[node][0]:
                    self.cost[node][0] = self.cost[self.curNode][0] + self._getWeight(self.curNode, node)
                    self.cost[node][1] = self.curNode
                    
            dictfilt = lambda x, y: dict([ (i,x[i]) for i in x if i in set(y) ])
            print(self.cost, self.nodes)
            if len(self.nodes) > 0:
                self.curNode = min(dictfilt(self.cost, self.nodes), key=dictfilt(self.cost, self.nodes).get)
            else:
                break
                
        path = [end]
        while end != start:
            path.append(self.cost[end][1])
            end = self.cost[end][1]
            
        return path[::-1]

dj = dijkstra()
graphs = [(0, 1, 7), (0, 4, 3), (0, 5, 10), (1, 2, 4), (1, 4, 2), (1, 5, 6), (1, 3, 10), (2, 3, 2),(3, 5, 9), (3, 6, 4), (4, 6, 5)]
for i in graphs:
    dj.setEdge(i[0], i[1], i[2])
print(dj.getPath(0, 3))

0
{0: [0, None], 1: [7, 0], 4: [3, 0], 5: [10, 0], 2: [inf, None], 3: [inf, None], 6: [inf, None]} {1, 2, 3, 4, 5, 6}
4
{0: [0, None], 1: [5, 4], 4: [3, 0], 5: [10, 0], 2: [inf, None], 3: [inf, None], 6: [8, 4]} {1, 2, 3, 5, 6}
1
{0: [0, None], 1: [5, 4], 4: [3, 0], 5: [10, 0], 2: [9, 1], 3: [15, 1], 6: [8, 4]} {2, 3, 5, 6}
6
{0: [0, None], 1: [5, 4], 4: [3, 0], 5: [10, 0], 2: [9, 1], 3: [12, 6], 6: [8, 4]} {2, 3, 5}
2
{0: [0, None], 1: [5, 4], 4: [3, 0], 5: [10, 0], 2: [9, 1], 3: [11, 2], 6: [8, 4]} {3, 5}
5
{0: [0, None], 1: [5, 4], 4: [3, 0], 5: [10, 0], 2: [9, 1], 3: [11, 2], 6: [8, 4]} {3}
3
{0: [0, None], 1: [5, 4], 4: [3, 0], 5: [10, 0], 2: [9, 1], 3: [11, 2], 6: [8, 4]} set()
[0, 4, 1, 2, 3]


--------------

# <font color='blue'><div style="text-align: center">Ch 6. Hash Table</font> 
* 이진탐색트리에서 최대성능은 O(log n) 이었다.
* 만약, <font color = "blue">데이터의 키를 1차원 배열의 인덱스로 사용하면 O(1)('O(1)'의 의미는 모든 데이터에 동일한 속도로 접근 가능하다는 것임)도 가능하다.</font>(즉 dict class type 내, 어떤 값(이 값은 원래 list class type에 저장되어 있었음)에 대한 key를 해당 값의 index로 사용한다는 뜻) 
* 이는 공간으로 시간을 사는 개념이다.
    
   <center><img src=" https://drive.google.com/uc?id=1byyWoFLaZlzIq94XJIriGPNrnc4hJzGY" width="500" height="300" ></center>
* <font color = "red">문제는 배열의 공백이 많아 메모리 낭비가 심하다.</font>
* 다른 방법으로 키를 직접 쓰지 말고(딕셔너리를 활용하지 않고),  <font color = "red">키를 특정함수(예: 나머지 함수)에 넣고 결과를 인덱스로 사용</font>해 공백을 줄이는 방법을 사용할 수 있다.
    
   <center><img src=" https://drive.google.com/uc?id=1-o4yddRBgxUs6lyuu4hO7gZDPJ8PX84l" width="500" height="300" ></center>

* <font color = "red">이 경우, 메모리 낭비는 줄일 수 있지만</font>, <font color = "blue">서로 다른 키들이 동일한 해시값을 가질 때 충돌문제가 발생한다.</font>
* 가장 이상적인 해시함수는 키들을 균등하게(Uniformly) 해시테이블의 인덱스로 변환하는 함수다.
* 널리 사용되는 <font color = "red">해시함수는 나눗셈(Division) 함수다. 나눗셈 함수는 키를 M으로 나눈 뒤, 그 나머지를 해시값으로 사용한다.</font>
* <font color = "red">h(key) = key % M이고(해시함수는 함수명이 "h"이고, 해시테이블의 인덱스를 return하는 함수이다.)</font>, <font color = "blue">해시테이블의 인덱스는 '0'부터 'M-1'로 구성됨(인덱스는 총 M개)</font>
* <font color = "red">M은 일반적으로 key 개수의 3배 정도이며 소수(prime number)를 사용한다.</font>
    
#### 충돌 처리
* 충돌이 일어날 경우, 처리하는 방법으로 개방주소방식과 폐쇄 주소방식이 있다.
* 개방 주소방식과 폐쇄 주소방식의 차이는 충돌이 일어날 경우, 충돌지점에서 다른 주소(비어있는 다른 index)까지 개방해서 원소를 삽입할 수 있는 경우가 개방주소방식이고, 폐쇄주소방식은 충돌이 일어난 주소에서 문제를 해결하는 방식('linked list'를 활용하여 해결)이다.

##### 개방주소방식
    
* <font color = "red">개방주소방식은 충돌이 일어난 위치 다음 인덱스로 이동하면서, 처음나오는 빈 주소에 저장하는 방식이다.</font>
* 메모리의 크기가 M개이므로 (h(key)+j) % M 으로 위치를 이동한다. 즉, M번째까지 가면 다시 0번째가 됨을 의미한다.("j"는 해당 위치에서 이동하는 거리를 뜻함)

* x = [25, 37, 18, 55, 22, 35, 50, 63]을 해시 테이블에 저장해보자.(밑에선, 리스트 원소 값을 해당 원소의 key로 사용함)
   * Linear Probing: 충돌시, 해당 인덱스에서 빈곳을 찾아 <font color = "red">순차적으로 이동</font>하다가 빈곳이 나오면 입력한다. (h(key)+j) % M
   * Quad Probing: 충돌시, 해당 인덱스에서 빈곳을 찾을 때, 순차적으로 이동하는 것이 아니고 <font color = "red">제곱으로 이동하여</font> 삽입여부를 결정한다.  (h(key)+j**2) % M
   * Random Probing:  충돌시, 
   해당 인덱스에서 빈곳을 찾을 때, <font color = "red">그 다음 위치를 랜덤하게 이동</font>하여 삽입 여부를 결정한다. <br> 
      <font color = "red">단, 탐색을 위해서는 난수의 seed를 지정해야 한다.</font> (h(key)+randInt) % M <br>
      seed를 시간으로 줄 경우, 찾을 수 없으므로 반드시 일정한 seed를 줘야 한다.
    
   * Linear Probing의 경우, 인덱스가 한쪽으로 뭉치는 현상이 발생하는데 이를 방지하고자 Quad, Random 등의 방법을 사용한다. 
   * Quad Probing의 경우에는 다른쪽에서 뭉침현상이 나타나고 Random Probing은 무작위 위치에서 뭉침현상이 발생한다.

* Linear Probing 설명
   
    <center><img src=" https://drive.google.com/uc?id=1tS5WyNbaFSDuJ4c_AOsO1KfKlGo9yh5E" width="500" height="300" ></center>    
    
    
* 아래 코드는  Linear Probing 을 구현한 것이다.


In [22]:
class Hash_Linear:
    def __init__(self,m):
        
        # 'self.m'에는 '키'를 나누는 수가 저장되어 있음
        self.m = m
        
        # self.h가 해시테이블이 되는 것임. 먼저, self.h 원소값을 전부 None으로 설정함. 후에 [key,item]들이 여기에 저장될 것임
        self.h = [None] * m

    def insert(self, key, item):
        if self.is_full() == True:
            print("Hash Full~~~")
        else:
            
            # idx는 해쉬테이블의 인덱스를 뜻한다.
            idx = key % self.m
            if self.h[idx] == None:
                
                # self.h에는 'key'와 해당 key에 대한 '값'으로 이뤄진 'list'가 들어간다.
                self.h[idx] = [key,item]
                
            # 만약, 해쉬테이블의 어떤 인덱스에 특정 값이 이미 들어가 있다면...    
            else:
                for j in range(1, self.m+1):
                    
                    # 현재 인덱스에서 다음번에 위치한 인덱스를 구함
                    nextIdx = (idx + j) % self.m
                    
                    # 만약 다음번에 위치한 인덱스가 비어있다면, 해당 인덱스에 값을 삽입함
                    if self.h[nextIdx] == None:
                        self.h[nextIdx] = [key,item]
                        break

    def is_full(self):
        
        # self.h 리스트 원소값으로 None이 하나라도 있으면, False를 return함
        if None in self.h:
            return False
        
        # self.h 리스트 원소값으로 None이 아예 없으면, True를 return함
        else:
            return True

        
    # 특정 값의 원래 키를 인자값으로 넣으면, 해당 값이 return되는 메소드임.
    def get(self, key):
        if self.is_in_this_hashtable(key) == True:
            idx = key % self.m
            if self.h[idx][0] == key:
                return self.h[idx][1]
            else:
                j = 1
                while True:
                    nextIdx = (idx + j) % self.m
                    if self.h[nextIdx][0] == key:
                        return self.h[nextIdx][1]
                    else:
                        j += 1
        else :
            return "There is not this key in this hashtable"
                    
            
    # 특정 키가 해당 해쉬테이블 내에 존재하는지 확인하는 메소드
    def is_in_this_hashtable(self, key):

        a = False
        for i in range(len(self.h)):
            if key == self.h[i][0]:
                a = True
        return a
        

x = [25, 37, 18, 55, 22, 35, 50, 63, 95, 32, 1, 13, 17]
h = Hash_Linear(13)
for val in x:
    h.insert(val, 'a'+str(val))

for val in x:
    print(val, h.get(val))

h.insert(98, 'a'+str(98))

print(h.is_in_this_hashtable(22))
print(h.get(26))

25 a25
37 a37
18 a18
55 a55
22 a22
35 a35
50 a50
63 a63
95 a95
32 a32
1 a1
13 a13
17 a17
Hash Full~~~
True
There is not this key in this hashtable


* 아래는 적절한 M 값을 구하는 알고리즘이다. 해시테이블의 사용률이 2/3 정도가 바람직하다고 알려져 있다. 
* <font color = "red">그러므로 M은 키의 3배 정도로 하고 소수를 선택한다.</font>
* <font color = "red">소수를 쓰는 이유는 k % M의 결과값이 M이 소수일 때, 해쉬 테이블의 인덱스가 다양하게 나오기 때문이다. 아래와 같이 간단한 실험을 해보자.</font>

In [6]:
M1 = 7         # 소수인 경우, 다양하게 인덱스가 나온다.
M2 = 8         # 짝수인 경우, 짝수만 나오고 홀수인 경우에는 홀수만 나온다.
res1 = []
res2 = []
#x = [4, 8, 12, 16, 20, 24, 28, 32]
x = [5, 9, 13, 17, 21, 25, 29, 33]
for i in x:
    res1.append(i % M1)
    res2.append(i % M2)
print(res1)
print(res2)

[5, 2, 6, 3, 0, 4, 1, 5]
[5, 1, 5, 1, 5, 1, 5, 1]


* <font color = "red">이중 해시테이블은 두개의 해시함수('h(key)'와 'd(key)')를 사용한다</font>. 첫번째 해시는 인덱스를 찾는데 사용하고 <font color = "red">두번째 해시는 충돌시, 다음 인덱스를 만드는데 사용한다.</font>
* h(key), d(key)는 모두 key로 부터 해시테이블의 인덱스를 return하는 함수이다.
* 아래의 식으로 다음 위치를 찾는다.
$$ (h(key) + j*d(key)) \% M, [j = 0,1,2] \cdots $$
   j = 0 에서 충돌이 일어나지 않으면 그대로 진행하고 충돌이 일어날 경우, j 가 증가하여 다음 위치를 찾는다.

* <font color = "red">Double Hashing은 다음 위치를 지정할 때 key를 seed로 사용하므로 뭉침현상이 일어나지 않는다.</font>
* 일반적으로 h(key) = key % M, <font color = "red">d(key) = C - (key % C) 로 계산하며 C는 보통 테이블 크기인 M보다 약간 작은 소수이다.</font> 

<center><img src=" https://drive.google.com/uc?id=142rcrUHRJHDIV8n7kDK18Mbc2Rpimch0" width="500" height="300" ></center>   

In [28]:
x = [25, 37, 18, 55, 22, 35, 50, 63]

class DoubleHash:
    def __init__(self,x):
        k = len(x)
        # 데이터 수의 3배를 기준으로 소수 2개를 찾아 리스트로 리턴한다.
        _tmp = self._getPrime(3 * k)
        self.m = _tmp[0]
        self.c = _tmp[1]
        
        # None 이라는 원소가 self.m개 들어있는 list를 생성함
        self.h = [None] * self.m

    def _getPrime(self, n):
        # 1~n 사이의 소수를 구하고 가장 큰 두 개의 소수를 리턴한다.
        import numpy as np
        is_prime = np.array(list(range(n+1)))
        N_max = int(np.sqrt(len(is_prime) - 1)) # looping 2 to sqrt(n)

        for j in range(2, N_max + 1):
            is_prime[2*j::j] = 0
        is_prime = np.setdiff1d(is_prime,np.array([0,1])) # is_prime - [0,1]
        return is_prime[-1], is_prime[-2]

    def insert(self, key, item):
        if self.is_full() == True:
            print("Hash Full~~~")
        else:
            idx = key % self.m # h(key)
            if self.h[idx] == None:
                self.h[idx] = [key,item]
            else:
                j = 1
                while True:
                    nextIdx = (idx + j * (self.c - (key % self.c))) % self.m
                    if self.h[nextIdx] == None:
                        self.h[nextIdx] = [key,item]
                        break
                    j += 1

    def is_full(self):
        if None in self.h:
            return False
        else:
            return True

    def get(self, key):
        idx = key % self.m
        if self.h[idx][0] == key: # 그 자리에 키가 있다면 ...
            return self.h[idx][1]
        else:                     # 그 자리에 키가 없다면 ...
            j = 1
            while True:
                nextIdx = (idx + j * (self.c - (key % self.c))) % self.m
                if self.h[nextIdx][0] == key:
                    return self.h[nextIdx][1]
                else:
                    j += 1


h = DoubleHash(x)

for val in x:
    h.insert(val, 'a'+str(val))

print(h.m, h.c, h.h)
print(h.get(22))



23 19 [None, None, [25, 'a25'], None, [50, 'a50'], None, None, None, None, [55, 'a55'], None, None, [35, 'a35'], None, [37, 'a37'], None, None, [63, 'a63'], [18, 'a18'], None, None, None, [22, 'a22']]
a22


##### 폐쇄주소방식(Chain Hash)

* 충돌이 일어날 경우, 다른 메모리(즉, 다른 해쉬테이블 인덱스)에 저장하는 것이 아니고 그 메모리 안에서 해결하는 방법이다.
* 대표적 해결방법으로 Chaining을 사용한다.
* <font color = "red">체이닝은 아래 그림처럼 메모리에 Linked List 객체를 삽입해서,</font> 중복될 경우 리스트를 순차탐색하는 방법을 사용한다.
<center><img src=" https://drive.google.com/uc?id=1Lh4MwcN804EIyFS_qelzdjUK9mLfmegx" width="500" height="300" ></center>  


In [30]:
class Node:
    def __init__(self, key=None, value=None):
        self.key = key
        self.value = value
        self.link = None

# LinkedList Class: Linked List에 노드를 추가(append)하고 노드를 찾는(get) 메소드가 있다.
class LinkedList:
    
    # 생성자로 Node class의 객체를 생성함
    def __init__(self):
        self.root = Node()
        
    # 리스트 마지막에 노드를 삽입한다.
    def append(self, key, value):
        # 추가할 새 노드를 만든다.
        newNode = Node(key, value)
        
        # 현위치를 루트로 지정하고 노드를 추가한다.
        curNode = self.root
        
        cnt = 0
        
        # 현 위치가 비어 있으면 현 위치에 삽입
        if curNode.key == None:
            self.root = newNode
            
        # 현 위치가 비어 있지 않으면, 다음 노드로 옮기는 작업을 마지막 노드가 나타날 때까지 반복한다.
        # 마지막 노드를 만나면, 마지막 노드 다음에 새 노드를 삽입한다.
        else:
            while curNode.link != None:
                cnt += 1
                curNode = curNode.link
            curNode.link = newNode
        return cnt
    
    
    # 인자값 'key'에 해당하는 value를 return 한다.
    def get(self, key):
        curNode = self.root
        if curNode.key == key:
            return curNode.value
        else:
            while curNode.link != None:
                curNode = curNode.link
                if curNode.key == key:
                    return curNode.value
            return None


class ChainHash:
    def __init__(self, x):
        k = len(x)
        
        # self.m은 나누는 수이다. 데이터 수의 3배를 기준으로 소수 리턴한다.
        self.m = self._getPrime(3 * k)
        
        # 'self.h'가 곧 해쉬테이블이다.
        self.h = [None] * self.m

    def _getPrime(self, n):
        # 1~n 사이의 소수를 구하고 가장 큰 두 개의 소수를 리턴한다.
        import numpy as np
        is_prime = np.array(list(range(n+1)))
        N_max = int(np.sqrt(len(is_prime) - 1)) # looping 2 to sqrt(n)

        for j in range(2, N_max + 1):
            is_prime[2*j::j] = 0
        is_prime = np.setdiff1d(is_prime,np.array([0,1])) # is_prime - [0,1]
        return is_prime[-1]

    def insert(self, key, item):
        idx = key % self.m
        
        # 구한 주소가 비어 있으면 해당 주소에 빈 리스트를 만들고 새노드를 추가한다.
        if self.h[idx] == None:
            
            # 해시테이블의 인덱스에 LinkedList class type 객체를 생성한다. 그후 이 자료구조에 key와 item을 append한다.
            self.h[idx] = LinkedList()
            self.h[idx].append(key, item)
            
        # 구한 주소가 비어 있지 않으면, 해당 주소 리스트 루트부터 끝으로 이동하여 마지막 노드 링크에 새 노드를 추가한다.    
        else:
       
            print(key, "충돌")
            curNode = self.h[idx].root
            while curNode.link != None:
                curNode = curNode.link
            curNode.link = Node(key, item)

    def get(self, key):
        idx = key % self.m
        xList = self.h[idx]

        return xList.get(key)


x = [25, 37, 18, 55, 22, 35, 50, 63]

h = ChainHash(x)

for val in x:
    h.insert(val, 'a'+str(val))

y = [26, 38, 19, 56, 23, 36, 51, 64]
for val in y:
    h.insert(val, 'a'+str(val))

print(h.get(64))


64 충돌
a64
