# Linked Lists

## Data Structure

**자료구조(Data Structure)**는 컴퓨터 과학에서 효율적인 접근 및 수정을 가능케 하는 자료의 조직, 관리, 저장을 의미한다. 더 정확히 말해서 자료 구조는 데이터 값의 모임, 또 데이터 간의 관계, 그리고 데이터에 적용할 수 있는 함수나 명령을 의미한다. 다양한 자료구조가 존재하는 이유는 데이터 조작을 위하는 특별한 종류마다 적절한 자료구조의 형태가 다르기 때문이다. 대표적인 자료 구조는 다음과 같다.

- Linked Lists 
- Queues 
- Stacks 
- Dictionaries 

## Node 

**연결 리스트(Linked Lists)**는 List 내부의 원소가 이웃하는 원소를 참조하여 저장하는 데이터 구조이다. 따라서 연결 리스트를 사용할 때 리스트의 인덱스를 참조할 수 없기 때문에 가장 마지막 원소를 읽기 위해서는 처음부터 다음 원소를 참조하며 값을 읽어야 한다.

연결 리스트는 내부에 **노드(Node)**로 구성되어 있다. 각각의 노드는 아래의 정보를 저장하고 있어야 하며 초기화하는 경우 이전 노드와 다음 노드를 None로 설정한다. 

- The data
- The previous node 
- The next node 

```Python
class Node : 
    def __init__(self, data) : 
        self.data = data
        self.prev = None
        self.next = None 
        
node = Node(42)
node.data
```

## Linked Lists

각각의 노드는 Node.data의 값을 저장하고 있다. 각각의 노드를 Node.next 속성을 통해 다음 노드와 연결할 수 있다. 단방향으로 조회되는 Linked List를 Single Linked List, Node.prev를 통해 이전의 노드까지 이동할 수 있는 Linked List를 Double Linked List라고 한다. Linked List는 기존에 생성된 Node를 통해 생성할 수 있으며 Linked List의 제일 첫번째 노드를 head, 제일 마지막 노드를 tail이라고 한다.

## Create LinkedList

```Python
class LinkedList : 
    def __init__(self) : 
        self.head = None 
        self.tail = None 
        self.length = 0
        
lst = LinkedList()
```

## Append Node into LinkedList

생성된 Linked List에 노드를 추가하는 작업은 다음과 같다. 

- Linked List가 비어있는 경우,
    1. 제공된 데이터로 Node 객체를 생성한다.
    2. LinkedList의 head와 tail을 생성된 Node 객체에 할당한다.

- Linked List에 하나 이상의 원소가 존재하는 경우,
    1. 현재 tail의 다음 노드를 생성된 노드로 설정한다.
    2. 새로 생성된 노드의 이전 노드를 self.tail에 연결한다.
    3. 현재 tail을 새로 생성된 Node 객체에 할당한다.
    
```Python
class LinkedList:
    
    def __init__(self) :
        self.head = None
        self.tail = None
        self.length = 0
        
    def append(self, data) : 
        new_node = Node(data) 
        if self.length == 0 : 
            self.head = new_node
            self.tail = new_node 
        else : 
            self.tail.next = new_node
            new_node.prev = self.tail
            self.tail = new_node
        self.length += 1 

lst = LinkedList()
lst.append(10)
print(lst.length, lst.head.data, lst.tail.data)
lst.append(11)
print(lst.length, lst.head.data, lst.tail.data)
```

## Iterate Node in LinkedList

Linked List는 노드로 연결되어 있기 때문에 for loop를 사용하여 값을 조회할 수 없다. 따라서 내부에 아래의 메소드를 정의함으로써 for loop를 사용할 수 있다.

- The __iter__() method : 새로운 반복문을 초기화할 때 사용 
- The __next__() method : 반복문 내부에서 다음 원소로 이동할 때 사용 

\_\_iter\_\_() 메소드는 for loop를 사용하기 위해 초기화 되는 상태이다. self.\_iter_node는 클래스 내부에서만 사용되며 Linked List의 head를 초기값으로 저장하고 있다. \_\_next\_\_() 메소드는 for loop 내부에서 다음 원소로 이동하는 메소드이다. \_iter_node에 저장된 값을 출력하고, \_iter_node의 다음 노드로 이동하여 값을 출력한다. 마지막으로 \_iter_node의 값이 None이면 반복문을 종료하게 된다.

```Python
class LinkedList:
    
    def __init__(self):
        self.head = None
        self.tail = None
        self.length = 0
        
    def append(self, data):
        new_node = Node(data)
        if self.length == 0:
            self.head = self.tail = new_node
        else:
            self.tail.next = new_node
            new_node.prev = self.tail
            self.tail = new_node
        self.length += 1
        
    def __iter__(self):
        self._iter_node = self.head
        return self
    
    def __next__(self):
        if self._iter_node is None:
            raise StopIteration
        ret = self._iter_node.data 
        self._iter_node = self._iter_node.next
        return ret 
    
lst = LinkedList()
lst.append(5)
lst.append(3)
lst.append(8)
for ele in lst : 
    print(ele) 
```

## Prepend elements to LinkedList 

Linked List는 배열 기반으로 시행되기 때문에 값을 추가하더라도 O(1)의 시간복잡도만 갖게된다. 반면 Python의 List 객체는 새로운 길이의 List를 생성해야 하기 때문에 O(N)의 시간복잡도와 O(1)의 분할 시간 복잡도를 가지게 된다. Linked List의 다른 장점은 값을 앞에 O(1)의 시간복잡도로 추가할 수 있다는 것이다.

1. 현재 노드의 이전 노드로 생성된 노드로 연결한다.
2. 생성된 노드의 다음 노드를 현재 노드로 연결한다.
3. 생성된 노드를 Linked List의 head로 설정한다.

```Python
class LinkedList:
    
    def __init__(self):
        self.head = None
        self.tail = None
        self.length = 0
        
    def append(self, data):
        new_node = Node(data)
        if self.length == 0:
            self.head = self.tail = new_node
        else:
            self.tail.next = new_node
            new_node.prev = self.tail
            self.tail = new_node
        self.length += 1
        
    def __iter__(self):
        self._iter_node = self.head
        return self 
    
    def __next__(self):
        if self._iter_node is None:
            raise StopIteration
        ret = self._iter_node.data
        self._iter_node = self._iter_node.next
        return ret
    
    def prepend(self, data) : 
        new_node = Node(data)
        if self.length == 0 :
            self.head = self.tail = new_node 
        else : 
            self.head.prev = new_node 
            new_node.next = self.head
            self.head = new_node
        self.length += 1 
        
lst = LinkedList()
lst.prepend(10)
print(lst.length, lst.head.data, lst.tail.data)
lst.prepend(11)
print(lst.length, lst.head.data, lst.tail.data)
```

## Enable len() built-in function

Linked List의 길이는 LinkedList.length 속성을 통해 확인할 수 있다. 하지만 len() built-in function을 사용해서 Linked List의 길이를 확인하기 위해서는 \_\_len\_\_() method를 추가해야 한다.

```Python
class LinkedList:
    
    def __init__(self):
        self.head = None
        self.tail = None
        self.length = 0
        
    def append(self, data):
        new_node = Node(data)
        if self.length == 0:
            self.head = self.tail = new_node
        else:
            self.tail.next = new_node
            new_node.prev = self.tail
            self.tail = new_node
        self.length += 1
        
    def __iter__(self):
        self._iter_node = self.head
        return self 
    
    def __next__(self):
        if self._iter_node is None:
            raise StopIteration
        ret = self._iter_node.data
        self._iter_node = self._iter_node.next
        return ret
    
    def prepend(self, data):
        new_node = Node(data)
        if self.length == 0:
            self.head = self.tail = new_node
        else:
            self.head.prev = new_node
            new_node.next = self.head
            self.head = new_node
        self.length += 1
        
    def __len__(self) :
        return self.length
    
lst = LinkedList()
lst.append(10)
print(len(lst))
```

## Enable print() built-in function 

Python이 사용하는 default representation은 다른 메소드가 제공되지 않으면 <\_\_main\_\_.LinkeList object at 0x7fc836484190>으로 결과를 출력한다. Python은 print() 내부에 \_\_str\_\_() 메서드를 호출하게 된다. Python List가 값을 표현하는 것처럼 결과를 출력하기 위해선 \_\_str\_\_() 메소드를 클래스 내부에 선언해야 한다.


파이썬에서 어떤 값을 문자열로 변환하는데 사용되는 str()은 내장 함수가 아닌 파이썬 내장 클래스이며, 객체를 만들고 그 객체의 정보를 알고 싶을 때 print()를 사용하게 되는데, 이는 객체 클래스의 \_\_str\_\_ 메서드가 호출되어 반환하는 문자열 정보이다.

```Python
class LinkedList:
    
    def __init__(self):
        self.head = None
        self.tail = None
        self.length = 0
        
    def append(self, data):
        new_node = Node(data)
        if self.length == 0:
            self.head = self.tail = new_node
        else:
            self.tail.next = new_node
            new_node.prev = self.tail
            self.tail = new_node
        self.length += 1
        
    def __iter__(self):
        self._iter_node = self.head
        return self 
    
    def __next__(self):
        if self._iter_node is None:
            raise StopIteration
        ret = self._iter_node.data
        self._iter_node = self._iter_node.next
        return ret
    
    def prepend(self, data):
        new_node = Node(data)
        if self.length == 0:
            self.head = self.tail = new_node
        else:
            self.head.prev = new_node
            new_node.next = self.head
            self.head = new_node
        self.length += 1
        
    def __len__(self):
        return self.length
    
    def __str__(self): 
        return str([value for value in self])
    
lst = LinkedList()
print(lst)
lst.append(1)
print(lst)
lst.append(2)
print(lst)
```

# Queues

## What is Queue 

**큐(Queue)**는 자료구조의 한가지로, 먼저 집어 넣은 데이터가 먼저 나오는 **FIFO(First in, First out)** 구조로 저장하는 형식을 말한다. 나중에 집어넣은 데이터가 먼저  나오는 스택과는 반대되는 개념이다. 프린터 출력처리나 윈도우 시스템의 메시지 처리기, 프로세스 관리 등 데이터가 입력된 시간 순서대로 처리해야할 필요가 있는 상황에 사용된다. 

## Extend LinkedList to Queue 

Linked List를 확장시켜 Queue를 생성시키기 위해 클래스를 생성할 때 해당 클래스를 클래스명 옆에 추가로 작성해준다. 따라서 Queue는 LinkedList의 모든 메소드와 속성을 공유할 수 있다. 

```Python
class Queue(LinkedList) : 
    pass 

queue = Queue()
print(queue.length)
```

## Enqueue method 

LinkedList의 구조에서 tail은 Queue의 앞을, head는 Queue의 뒤를 표현하게 된다. Enqueue는 queue에 원소를 추가할 때 사용하는 메소드로 Linked List의 뒤에 값을 추가하기 때문에 LinkedList.prepend() 메소드를 사용해 동일한 효과를 낼 수 있다. 

```Python
class Queue(LinkedList):
    def enqueue(self, data) : 
        return self.prepend(data) 
    
queue = Queue()
queue.enqueue(1)
queue.enqueue(2)
queue.enqueue(3)
```

## Getting the Front element 

Queue의 첫번째 원소는 Linked List의 tail노드와 동일하기 때문에 Queue의 선입선출 효과는 LinkedList.tail.data를 조작하면 된다. 

```Python
class Queue(LinkedList):
    
    def enqueue(self, data):
        self.prepend(data)
        
    def get_front(self) : 
        return self.tail.data
    
queue = Queue()
for n in [1, 2, 3] : 
    queue.enqueue(n)
print(queue.get_front())
```

## Dequeue methods 

첫번째 원소를 제거하는 메소드를 dequeue 메소드라고 한다. Queue 내부에 단일 원소만 존재하면 비어있는 queue를 출력하므로 head와 tail은 자동으로 None이 된다. 그렇지 않으면 다음 작업을 통해 첫번째 원소를 제거한다.

1. tail 노드에 존재하는 data 속성을 제거한다.
2. tail 노드를 현재 tail의 이전 노드로 업데이트 한다. 
3. 새로운 tail 노드의 next를 None으로 설정한다.
4. self.length 속성을 업데이트 한다. 

```Python
class Queue(LinkedList):
    
    def enqueue(self, data):
        self.prepend(data)
        
    def get_front(self):
        return self.tail.data
    
    def dequeue(self) : 
        ret = self.tail.data
        if self.length == 1 : 
            self.tail = self.head = None 
        else : 
            self.tail = self.tail.prev
            self.tail.next = None 
        self.length -= 1 
        return ret

queue = Queue()
for n in [1, 2, 3] : 
    queue.enqueue(n)
front = queue.dequeue() 
print(queue.get_front())
```

## FCFS Process Scheduling 

Queue는 FCFS(First come, First serve) 프로세스를 처리하는데 매우 유용하다. 실제로 작업이 할당 될때 CPU의 메모리가 비어 있으면 즉시 프로세스를 실행하고, 아니면 Queue에 작업이 순차적으로 누적되게 된다. 이후 CPU가 프로세스를 종료하면 Queue 앞에 있는 작업은 순차적으로 다음 프로세스로 진행된다. 

1. 프로세스가 도착했을 때, 프로세서가 여유롭다면 프로세스를 프로세서에 할당한다. 그렇지 않다면 프로세스를 큐에 할당한다.
2. 프로세스가 실행을 종료하면 큐의 첫번째 프로세스를 CPU에 할당한다.

FCFS process scheduling algorithm을 생성하기 위해 다음의 변수를 초기화 한다.

- cut_time : 각각의 simulation step에 따라 증가함
- num_processes_done : 실행이 종료된 프로세스의 수
- wait_queue : waiting process queue
- cur_pid : CPU에서 실행중인 프로세스의 ID

```Python
import pandas as pd 

processes = pd.read_csv('processes.csv', index_col = 'Pid')

cur_time = 0 
num_processes_done = 0 
wait_queue = Queue() 
cur_pid = None
```

### FSCS Implementation 

cur_time 변수를 증가시키면서 시간을 측정할 때 다음 과정을 통해 진행한다.

- Handle end of the prrocesses : 실행중인 프로세스가 존재하고(cur_pid is not None), 프로세스의 종료시간이 현재시간과 동일하다면(if processes["Start"] + processes["Duration"] == cur_time) 현재 시간을 프로세스의 종료시간에 저장하고(processes["End"] = cur_time) 현재 프로세스를 비운다(cur_pid = None).
- Handle arriving processes : 도착시간과 현재시간이 같은 모든 프로세스(processes[processes["Arrive"] == cur_time])를 추출하여 대기중인 프로세스 큐에 업로드 한다(wait_queue.enqueue(pid))
- Assign a process to the CPU : 실행되고 있는 프로세스가 존재하지 않고(cur_pid is None), 대기중인 프로세스가 존재한다면(len(wait_queue) > 0), 현재 실행중인 프로세스를 대기중인 프로세스의 앞에서 업데이트하고(wait_queue.dequeue()), 프로세스의 시작시간을 현재시간에 저장한다.(processes["Start"] = cur_time)

```Python
cur_time = 0
num_processes_done = 0
wait_queue = Queue()
cur_pid = None

while num_processes_done < processes.shape[0] : 
    if cur_pid is not None : 
        if processes.loc[cur_pid, "Start"] + processes.loc[cur_pid, "Duration"] == cur_time : 
            processes.loc[cur_pid, "End"] = cur_time 
            cur_pid = None 
            num_processes_done += 1
            
    ready_processes = processes[processes["Arrival"] == cur_time]
    for pid in ready_processes.index.values : 
        wait_queue.enqueue(pid)
        
    if cur_pid is None and len(wait_queue) > 0 : 
        cur_pid = wait_queue.dequeue() 
        processes.loc[cur_pid, "Start"] = cur_time 
        
    cur_time += 1
    
print(processes.head())
```

### Evaluate Wait Times 

FSCS process scheduling algorithm의 성능을 확인하는 방법은 두가지이다. 첫번째는 프로세스가 실행을 위해 대기하는 시간의 평균을 측정하는 것으로, processes["Start"] - processes["Arrive"]를 통해 확인가능하다. 두번째는 turnaround time을 측정하는 방법으로, 프로세스가 도착한 시간으로부터 종료되는 시간까지를 측정하는 것이다.(processes["End"] - processes["Arrive"]) 

```Python
# Waiting time
processes["Wait"] = processes["Start"] - processes["Arrival"]
average_wait_time = processes["Wait"].mean()

# Turnarount time 
processes["Turnaround"] = processes["End"] - processes["Arrival"]
average_turnaround_time = processes["Turnaround"].mean()
```

# Stacks

## What is Stacks 

**스택(Stack)**은 제한적으로 접근할 수 있는 나열 구조이다. 그 접근 방식은 언제나 목록의 끝에서만 일어난다. 스택은 한쪽 끝에서만 자료를 넣거나 뺄 수 있는 **선형 구조(Last in, First out; LIFO)으로 되어있다. 자료를 넣는 것을 **푸시(Push)**라고 하고 반대로 넣어둔 자료를 꺼내는 것을 **팝(Pop)**이라고 한다.

## Push Method 

Linked List의 head를 Stack의 bottom으로, tail을 Stack의 top으로 생각한다고 한다. 이때 Stack에 값을 추가하는 메소드를 push라고 할때 값을 tail에 추가하는 것이기 때문에 LinkedList.append 메소드를 사용하는 것과 동일하다.

```Python
class Stack(LinkedList):
    def push(self, data) :
        self.append(data) 
    
stack = Stack() 
for n in [1, 2, 3] : 
    stack.push(n) 
    print(stack)
```

## Peeking a Stack

**peek** 메소드는 Stack의 가장 높게 위치하는 원소를 추출한다. Linked List의 tail data를 return하는 것과 동일하다.

```Python
class Stack(LinkedList):
    
    def push(self, data):
        self.append(data)

    def peek(self) :
        return self.tail.data
    
stack = Stack() 
for n in [1, 2, 3] : 
    stack.push(n) 
print(stack.peek())
```

## Pop Method

Stack의 가장 상위 데이터를 검색하고 지우는 메소드는 pop이다. Queue의 Queue.dequeue() 메소드와 동일하게 Linked List의 tail을 조회하고 값을 제거한다. 

- tail 노드에 존재하는 data 속성을 제거한다.
- tail 노드를 현재 tail의 이전 노드로 업데이트 한다.
- 새로운 tail 노드의 next를 None으로 설정한다.
- self.length 속성을 업데이트 한다.

```Python
class Stack(LinkedList):
    
    def push(self, data):
        self.append(data)

    def peek(self):
        return self.tail.data

    def pop(self) : 
        ret = self.tail.data 
        if self.length == 1 :
            self.tail = None 
        else : 
            self.tail = self.tail.prev
            self.tail.next = None 
        self.length -= 1 
        return ret 
    
stack = Stack() 
for n in [1, 2, 3] : 
    stack.push(n) 
top = stack.pop() 
print(stack.peek())
```

## LCFS Process Scheduling 

Stack은 LCFS(Last come, First served) 프로세스를 처리하는데 사용된다. LCFS 알고리즘은 최근 프로세스가 실행될 가능성을 현저히 높여준다. 이를 사용해 덜 중요한 프로세스가 나중에 처리되도록 프로세서를 설정할 수 있다. LCFS 알고리즘은 CPU 상에서 프로세스를 다음과 같이 계획한다. 

1. 프로세스가 도착하고 프로세서가 비어있다면 프로세스를 CPU에 할당한다. 그렇지 않다면 프로세스를 스택에 쌓는다.
2. 프로세스가 종료되면 대기 스택에서 프로세스를 pop해서 CPU에 할당한다.

LCFS process scheduling algorithm을 생성하기 위해 다음의 변수를 초기화한다. 

- cut_time : 각각의 simulation step에 따라 증가함
- num_processes_done : 실행이 종료된 프로세스의 수
- wait_stack : waiting process stack
- cur_pid : CPU에서 실행중인 프로세스의 ID

```Python
import pandas as pd 

processes = pd.read_csv('processes.csv', index_col = 'Pid')

cur_time = 0 
num_processes_done = 0 
wait_stack = Stack() 
cur_pid = None
```

### LCFS Implementation

LCFS algorithms은 cur_time 변수가 증가함에 따라 시간을 측정하게 된다. 


1. Handle end of the process : 현재 프로세스가 존재하고(if cur_pid is not None) 프로세스의 진행시간이 현재 시간과 동일하다면(if processes["Arrival"] + processes{"Duration"] == cur_time) 프로세스가 종료되었기 때문에 종료 시간을 cur_time으로 설정하고 현재 프로세스를 초기화 한다.(processes["Start"] = cur_time and cur_pid = None)
2. Handle arriving procceses :  현재 시간에 도착한 모든 프로세스를 wait_stack에 push한다.
3. Assign a process to the CPU : 현재 프로세서가 비어있고(cur_pid is None), wait_stack에 대기하고 있는 프로세스가 존재하면 stack 상부의 프로세르를 pop하여 현재 프로세스로 진행시킨다(cur_pid = wait_stack.pop()). 이후 프로세스의 시작 시간을 cur_time으로 할당한다.

```Python
cur_time = 0
num_processes_done = 0
wait_stack = Stack()
cur_pid = None

while num_processes_done < processes.shape[0] : 
    # Handle end of the process 
    if cur_pid is not None : 
        if processes.loc[cur_pid, "Start"] + processes.loc[cur_pid, "Duration"] == cur_time : 
            processes.loc[cur_pid, "End"] = cur_time
            cur_pid = None 
            num_processes_done += 1
    # Handle arriving processes 
    ready_processes = processes[processes["Arrival"] == cur_time]
    for pid in ready_processes.index.values : 
        wait_stack.push(pid)
    # Assign a process to CPU 
    if cur_pid is None and len(wait_stack) > 0 : 
        cur_pid = wait_stack.pop() 
        processes.loc[cur_pid, "Start"] = cur_time 
    
    cur_time += 1 
    
print(processes.head())
```

### Evaluate Wait Times 

Scheduling algorithm의 성능을 평가하기 위해선 average wait time과 average turnaround time을 비교하게 된다. FCFS 알고리즘과 LCFS 알고리즘을 비교했을 때 사실 average wait time은 크게 차이가 나지 않는다. 하지만 각 wait times의 최댓값은 LCFS 알고리즘이 훨씬 큰 것을 확인할 수 있다.  

```Python
# Average wait time 
processes["Wait"] = processes["Start"] - processes["Arrival"]
average_wait_time = processes["Wait"].mean()

fcfs_max_wait = processes["FCFS Wait"].max() 
lcfs_max_wait = processes["Wait"].max()
print(fcfs_max_wait, lcfs_max_wait)

# Average turnaround time
processes["Turnaround"] = processes["End"] - processes["Arrival"]
average_turnaround_time = processes["Turnaround"].mean()
```

# Dictionaries 

## What is Dictionaries 

**딕셔너리(Dictionaries)**는 데이터를 **키-값(Key-Value)**쌍으로 저장하는 자료구조이다. 딕셔너리 내부에서 각 Key-Value 쌍을 **엔트리(entry)**라고 부른다. 

## Create Entry

```Python
class Entry :
    def __init__(self, key, value) :
        self.key = key
        self.value = value 
```

## Internal Structure

딕셔너리를 구현하는 여러가지 방법이 있지만, 딕셔너리 구조를 hash table상에서 구현해보자. 이때 엔트리의 key는 hash table에서 정수값을 가지고 있어야 한다. 즉, 메모리에 할당되는 엔트리의 key가 0이면 hash table index의 값이 0이고, key가 n이면 index n에 저장하게 된다. 이때 다음의 두가지 문제가 발생한다.

1. key 정수는 무한대로 존재할 수 있기 때문에 hash table 또한 무한한 메모리가 필요하다.
2. 정수는 음이 될 수 없다.

이를 해결하기 위해 메모리의 크기(index)는 상수 B로 제한하는 방법을 사용한다. 즉 key 정수를 0~B-1의 인덱스로 매핑하는 것이다. 매핑되는 값은 k % B를 연산하는 압축함수를 통해 매핑한다. 즉, 딕셔너리를 해시 테이블로 구현할 때 B개의 Bucket을 가진 딕셔너리를 생성하여 엔트리를 저장하게 된다. 

```Python
class Dictionary : 
    def __init__(self, num_buckets) :
        self.num_buckets = num_buckets
        self.buckets = [None for _ in range(num_buckets)] 
        self.length = 0 
```

## Separate Chaining 

기존의 k % B를 통헤 엔트리의 키를 압축하는 방식은 하나의 버킷 내부에 여러 개의 엔트리가 저장되는 **충돌(Collision)** 문제가 발생하게 된다. 이를 해결하기 위해 LinkedList 클래스를 사용하는 **Separate Chaining** 방법을 도입하여 해결할 수 있다. 

```Python
class Dictionary:
    
    def __init__(self, num_buckets):
        self.num_buckets = num_buckets
        self.buckets = [LinkedList() for _ in range(num_buckets)]
        self.length = 0
        
```

## Hashing

정수가 아닌 값을 엔트리의 key로 활용하여 bucket index로 매핑하기 위해 정수값으로 변환시켜주는 작업이 필요하다. 문자열 데이터를 정수값으로 변환시켜주는 작업을 **해싱(hashing)** 이라고 한다. **해시함수(hash function)**은 **해시 코드(hash code)**를 출력하는 함수로 hash() 내장 함수를 통해 사용할 수 있다.

해시함수를 사용하기 위해선 객체 내부에 \_\_hash\_\_() 메소드를 추가해야 한다. 해시함수를 적용할 수 있는 키는 **변경할 수 없는 객체(Immutable objects)**만 적용이 가능하다. 따라서 리스트 같은 객체를 key로 사용할 수 없다.

따라서 엔트리 객체의 bucket index를 계산하려면 먼저 key의 hash code를 계산하고, hash code를 압축하여 bucket index를 계산할 수 있다.

```Python
class Dictionary:
    
    def __init__(self, num_buckets):
        self.num_buckets = num_buckets
        self.buckets = [LinkedList() for _ in range(num_buckets)]
        self.length = 0
        
    def _get_index(self, key): 
        hashcode = hash(key) 
        return hashcode % self.num_buckets
```

## Adding an Entry 

Python 내부의 딕셔너리는 기존에 존재하는 키에 새로운 값을 추가하면 기존의 값에 새로운 값을 덮어 씌운다. 마찬가지로 딕셔너리에 새로운 엔트리를 추가할 때, 먼저 bucket 내부의 모든 엔트리를 확인하여 같은 키의 엔트리가 존재하는지 확인해야 한다. Linked List는 for loop를 지원하는 \_\_iter__() 메소드를 가지고 있기 때문에 반복문 내부에서 기존의 키가 존재하는지 확인하고 없을 경우 새로운 엔트리를 추가하는 작업을 수행한다.

```Python
class Dictionary:
    
    def __init__(self, num_buckets):
        self.num_buckets = num_buckets
        self.buckets = [LinkedList() for _ in range(num_buckets)]
        self.length = 0
        
    def _get_index(self, key): 
        hashcode = hash(key) 
        return hashcode % self.num_buckets
    
    def put(self, key, value):
        index = self._get_index(key)
        found_key = False 
        for entry in self.buckets[index]
            if entry.key == key : 
                entry.value = value 
                found_key = True 
        if found_key == False : 
            self.buckets[index].append(Entry(key, value)) 
            self.length += 1
```

## Locating an Entry 

주어진 키를 통해 값을 검색하는 메소드를 구성하려면 입력된 키의 bucket index를 계산하고, bucket 내부의 모든 엔트리를 확인하여 값을 반환하게 된다.매칭되는 값이 없으면 raise statement를 통해 Keyerror를 송출할 수 있다.

```Python
class Dictionary:
    
    def __init__(self, num_buckets):
        self.num_buckets = num_buckets
        self.buckets = [LinkedList() for _ in range(num_buckets)]
        self.length = 0
        
    def _get_index(self, key): 
        hashcode = hash(key) 
        return hashcode % self.num_buckets
    
    def put(self, key, value):
        index = self._get_index(key)
        found_key = False 
        for entry in self.buckets[index]
            if entry.key == key : 
                entry.value = value 
                found_key = True 
        if found_key == False : 
            self.buckets[index].append(Entry(key, value)) 
            self.length += 1
    
    def get_value(self, key) : 
        index = self._get_index(key) 
        for entry in self.buckets[index]
            if entry.key = key
                return entry.value 
        raise KeyError(key) 
```

## Deleting an Entry 

1. key의 bucket index를 계산한다.
2. Empty Linked List를 생성한다.
3. bucket 내부의 모든 entry에 대해서 key값에 해당하지 않는 entry를 Linked List에 추가한다. 
4. 딕셔너리의 길이를 업데이트 한다.
5. bucket의 list를 새로운 list로 업데이트 한다.

```Python
class Dictionary:
    
    def __init__(self, num_buckets):
        self.num_buckets = num_buckets
        self.buckets = [LinkedList() for _ in range(num_buckets)]
        self.length = 0
        
    def _get_index(self, key): 
        hashcode = hash(key) 
        return hashcode % self.num_buckets
    
    def put(self, key, value):
        index = self._get_index(key)
        found_key = False 
        for entry in self.buckets[index]
            if entry.key == key : 
                entry.value = value 
                found_key = True 
        if found_key == False : 
            self.buckets[index].append(Entry(key, value)) 
            self.length += 1
    
    def get_value(self, key) : 
        index = self._get_index(key) 
        for entry in self.buckets[index]
            if entry.key = key
                return entry.value 
        raise KeyError(key) 
        
    def delete(self, key):
        index = self._get_index(key) 
        new_bucket = LinkedList() 
        for entry in self.buckets[index] : 
            if entry.key != key : 
                new_bucket.append(entry) 
        if len(new_bucket) < len(self.buckets[index]) :
            self.length -= 1 
        self.buckets[index] = new_bucket
```

## Polishing the Dictionary

Dictionary를 Polishing하는 작업은 Python dictionary처럼 bracket notation [ ]를 사용해서 값을 접근하게 해주는 방법이다.

Python 내부에서 bracket notation을 사용하기 위해선 __getitem__() 메소드를 사용해 key를 argument로 입력받는다. 이는 기존에 존재하는 get_value() 메소드와 동일한 결과를 출력한다.

Dictionary에서 bracket notation을 사용해서 값을 추가하는 방식은 __setitem__() 메소드를 통해 가능하다. 이는 기존에 존재하는 put() 메소드와 동일한 작업을 수행하게 된다.

```Python
class Dictionary:
    
    def __init__(self, num_buckets):
        self.num_buckets = num_buckets
        self.buckets = [LinkedList() for _ in range(num_buckets)]
        self.length = 0
        
    def _get_index(self, key):
        hashcode = hash(key)
        return hashcode % self.num_buckets
        
    def put(self, key, value):
        index = self._get_index(key)
        found_key = False
        for entry in self.buckets[index]:
            if entry.key == key:
                entry.value = value
                found_key = True
        if not found_key:
            self.buckets[index].append(Entry(key, value))
            self.length += 1
            
    def get_value(self, key):
        index = self._get_index(key)
        for entry in self.buckets[index]:
            if entry.key == key:
                return entry.value
        raise KeyError(key)
    
    def delete(self, key):
        index = self._get_index(key)
        new_bucket = LinkedList()
        for entry in self.buckets[index]:
            if entry.key != key:
                new_bucket.append(entry)
        if len(new_bucket) < len(self.buckets[index]):
            self.length -= 1
        self.buckets[index] = new_bucket
    
    def __getitem__(self, key) : 
        return self.get_value(key)
    
    def __setitem__(self, key, value) : 
        return self.put(key, value) 
    
    def __len__(self) : 
        return self.length 
```

## Dictionary Time Complexity 

### rehasing 

Dictionary의 전체 개수를 N이라고 할때, bucket index를 계산하는 시간 복잡도는 O(1)이다. bucket index를 계산한 뒤에 key에 따른 value를 찾는 시간 복잡도는 최악 시간복잡도를 기준으로 O(N)의 시간복잡도를 갖게 되지만, B개의 index가 존재하므로 기대되는 시간복잡도는 $O(\frac{N}{B})$라고 할 수 있다.

이 비율을 **load factor**라고 부르며, B가 N보다 클 경우 시간복잡도는 O(1)이 된다. 일반적으로 이 비율은 0.75 밑의 값을 가질 때 O(1)을 갖게되며, 근접하게 될 경우 Dictionary의 bucket index의 크기 B를 다시 증가시켜줘야 한다. 해당 작업을 **reshaping**이라고 한다. 

```Python
def plot_times(times):
    plt.plot(times)
    plt.show()

import time
import random
random.seed(0)

times = []
number_of_entries = 1000
keys = range(number_of_entries)

d = dict()

for key in keys : 
    start = time.time()
    d[key] = key
    end = time.time()
    times.append(end-start) 
    
plot_times(times)
```

### bucket numbers 

또 하나의 고려사항은 압축 함수를 고려하는 것이다. 어떤 경우에 특정 bucket이 절대로 쓰이지 않는 경우가 발생할 수도 있다. 예를들어 key의 값의 마지막 두자리가 날짜를 의미하게 되면 32부터 99까지의 bucket은 절대 쓰이지 않게된다.

즉 실제의 load factor은 계산된 load factor보다 높아져 성능 저하를 유발할 수 있다. 따라서 bucket index 계산을 위한 적절한 수의 B를 정하는 기술도 매우 중요하다.

```Python
import matplotlib.pyplot as plt

def plot_buckets_sizes(dictionary):
    plt.bar(range(100), [len(dictionary.buckets[i]) for i in range(100)])
    plt.show()
    
import pandas as pd
employees = pd.read_csv("employees.csv", index_col="Id")

dictionary = Dictionary(100)
for identifier, data in employees.iterrows() : 
    dictionary.put(identifier, data)
    
plot_buckets_sizes(dictionary)
```

실제로 bucket 내부에 저장되어 있는 index는 30개만 사용되고 나머지는 값이 저장되지 않았음을 확인할 수 있다. 만약 B를 101로 설정했다면 결과는 다음과 같다.