<a href="https://colab.research.google.com/github/ksydata/Algorithm_DataStructure/blob/main/BinarySearch_Hashing_SY_231012_231105.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import numpy as np
import pandas as pd
import os
from typing import *
import time
from abc import ABC, abstractmethod

#### 알고리즘 성능 비교(빅오표기법 시간복잡도)

각 복잡도 클래스에 대한 알고리즘에 대한 크기가 N인 문제 인스턴스(행)을 처리하는 데 드는 예상시간은 1시간이다.

| 연번 | 알고리즘 | 1시간 동안 처리 가능한 문제 인스턴스(행) 크기 N |
| --- | --- | --- |
| 0 | O(1) 알고리즘 | 성능이 문제 인스턴스 크기와 무관 |
| 1 | O(logN) 알고리즘 | 문제 인스턴스 크기 2^4096개 이하 |
| 2 | O(N) 알고리즘 | 4096개 이하 |
| 3 | O(NlogN) 알고리즘 | 462개 이하 |
| 4 | O(N^2) 알고리즘 | 64개 이하 |
| 5 | O(2^N) 알고리즘 | 12개 이하 |
| 6 | O(N!) 알고리즘 | 7개 이하 |

| 연번 | 알고리즘 | 상황 |
| --- | --- | --- |
| 0 | 삽입 정렬 알고리즘 | 항목이 몇 개 되지 않는다 |
| 1 | 삽입 정렬 알고리즘 | 항목이 대부분 정렬되어 있다 |
| 2 | 힙 정렬 알고리즘 | 최저 상황을 고려하여야 한다 |
| 3 | 퀵 정렬 알고리즘 | 평균 정렬 결과가 필요하다 |
| 4 | 버킷 정렬 알고리즘 | 항목을 조밀한 모집단에서 가져왔다 |
| 5 | 삽입 정렬 알고리즘 | 가능한 짧은 코드를 선호한다 |

## 이진배열탐색 알고리즘


#### 1.정렬된 리스트에서 Target하는 특정 수를 찾는 이진배열탐색 구현(인덱스 위치)

In [None]:
def binaryArraySearch(Array, target):
  low_index = 0
  high_index = len(Array) - 1

  while low_index <= high_index:
    # 조건을 걸어서 반복 루프를 돌릴 것

    mid_index = (low_index + high_index) // 2
      # 입력받은 배열의 중간값 위치를 몫으로 계산

  # [1] 인덱스 번호 high가 low보다 작아져 교차되면 반복 루프 종료
    if target < Array[mid_index]:
      # target이 중간값보다 작으면 이어서 계속 찾음
      high_index = mid_index - 1
        # 배열의 끝 범위를 high에서 mid_index-1로 제한하는 접근 방식(파이썬은 0부터 시작하니까 1빼주는 것 잊지말 것)
    elif target > Array[mid_index]:
      # targert이 중간값보다 크면 이어서 계속 찾음
      low_index = mid_index + 1
        # 배열의 시작 범위를 low에서 mid_index+1로 제한하는 접근 방식

  # [2] target이 중간값과 같으면 반복 루프 종료
    else:
      return True
        # target = Array[mid_index]

    # SY's Error
      # if low >= Array[mid_index]: Array[mid_index] = low
      # elif high <= Array[mid_index]: Array[mid_index] = high

  return False
    # 배열 크기가 0일 때 인덱스 에러를 방지하는 출력값

In [None]:
binaryArraySearch(Array = [5*n for n in range(0, 100, 5)], target = 25)

True

#### 2.이진배열탐색으로 리스트에서 값 찾은 후 위치 반환하기

In [None]:
def binaryArraySearchValue(Array, target):
  # 그전에 target >= Array[0]이나 target <= Array[-1]인지 확인할 필요가 있나
  # 정렬된 리스트에서 있을 수 없는 목표값을 찾는 의미없는 탐색을 방지하기 위함이나 굳이 할 필요는 없음

  low_index = 0
  high_index = len(Array) - 1

  while low_index <= high_index:
    mid_index = (low_index + high_index) // 2

    if target < Array[mid_index]:
      high_index = mid_index - 1
    elif target > Array[mid_index]:
      low_index = mid_index + 1
    else:
      return mid_index

  return -(low_index + 1)
    # 배열에 없는 값을 탐색할 경우 target을 0을 제외한 모든 인덱스가 될 수 있도록 (low_index + 1)에 음수를 취한 값을 반환

In [None]:
display([5*n for n in range(0, 10, 1)])
binaryArraySearchValue(Array = [5*n for n in range(0, 10, 1)], target = 25)

[0, 5, 10, 15, 20, 25, 30, 35, 40, 45]

5

#### 3.목표에 없는 값(target)을 조회할 때 유효하지 않은 위치 인덱스(-1)을 반환하는 대신 배열에 값을 삽입한다면 해당 위치에 넣을 수 있다는 반환값을 출력하는 알고리즘
floor($log_2(N)$) 이상 순회할 수 없는 이진배열탐색의 while문 반복 루프

In [None]:
def binaryArraySearchNaN(Array, target):

  low_index = 0
  high_index = len(Array) - 1

  while low_index <= high_index:
    mid_index = (low_index + high_index) // 2
    difference = target - Array[mid_index]

    if difference < 0:
      # target < Array[mid_index]:
      high_index = mid_index - 1
    elif difference > 0:
      # target > Array[mid_index]:
      low_index = mid_index + 1
    else:
      return mid_index

  return None

In [None]:
binaryArraySearchNaN(Array = [5*n for n in range(0, 10, 1)], target = 31)

#### 4.1)리스트에서 순열을 생성하기

In [None]:
class PermutationList:
  def __init__(self, Array: List):
    self.Array = Array

  # 팩토리얼(재귀함수)
  def factorial(self, N):
    from scipy.special import factorial

    return self.Array * factorial(N)

  def checkSorted(self):
    for index, value in enumerate(self.Array):
      if index > 0 and value < self.Array[index-1]:
        # 정렬되어 있다면 index와 value가 같은 배열 위치값으로 반환될 것
        return False

    return True

  def permutationSort(self):
    from itertools import permutations

    for attempt in permutations:
      if self.checkSorted(attempt):
        self.Array[:] = attempt[:]
        return

In [None]:
permutationInstance = PermutationList(Array = [5*n for n in range(0, 10, 1)])

In [None]:
# permutationInstance.factorial(N = 10)

#### 4.2)리스트에서 **반복적으로 최댓값을 제거**하여 **정렬하기**

In [None]:
def maxSorted(Array):
  result: List = []

  while len(Array) > 1:
    # 둘 이상의 값을 가져야 최댓값과 최솟값이 존재함
    index_max = max(
        range(len(Array)),
        key = Array.__getitem__
    )
    result.insert(0, Array[index_max])
    Array = list(Array[ :index_max ]) + list(Array[ index_max+1: ])
      # index_max행번호의 원소를 리스트에서 제외함(index_max행번호 위치의 값에 0을 삽입하여 result 리스트에 저장)
    print("\n", index_max, "\n", result, "\n", Array, "\n")

  return Array + result

In [None]:
maxSorted(Array = [5*n for n in range(0, 5, 1)])


 4 
 [20] 
 [0, 5, 10, 15] 


 3 
 [15, 20] 
 [0, 5, 10] 


 2 
 [10, 15, 20] 
 [0, 5] 


 1 
 [5, 10, 15, 20] 
 [0] 



[0, 5, 10, 15, 20]

클래스 연산자 오버로딩 메서드

> Vector Class
> self._x와 같이 nonpublic 멤버변수는 import되지 않고 감춰지므로 좌표값을 참조하기 위해 magic method `__getitem__`, `__setitem__`을 사용
> * `__getitem__`
  self의 k번째 값을 리턴하는 매직 메서드
> * `__setitem__`
  self의 k번째 값에 value값을 대입하는 매직 메서드


> Point Class
> * `__add__`, `__sub__`, `__mul__`, `__mod__`(%), `__truediv__`(/), `__floordiv__`(//)
> * `__iadd__`, `__isub__`, `__imul__`, `__imod__`, `__itruediv__`, `__ifloordiv__`
> * `__lt__`(<), `__le__`(<=), `__gt__`(>), `__ge__`(>=), `__eq__`(==), `__ne__`(!=)
> * dot(p, q) = 두 벡터 p, q의 내적 = p*x * q*x + p*y * q*y
> * dist(p, q) = 두 점 p, q의 길이
> * length(p) = 벡터 p의 길이
> * move(p, dx, dy) = 점 p를 x축으로 dx만큼, y축으로 dy만큼 더해 이동

---

## 해싱과 해시 테이블

* 효율성을 유지하면서 심볼 테이블 크기를 조정하는 방법
* 계산적 해시함수가 키 값을 균일하게 분포시켜 심볼 테이블 구현의 효율성을 보장하는 방법

* 연속적인 호출로 연산의 동작이 변경될 수 있는 경우에 평균 런타임 성능을 결정하기 위한 분할 상환 분석(amortized analysis)
* 기하학적 크기 재조정으로 비용이 큰 크기 조정 연산의 빈도를 줄이는 방법


In [3]:
class HashTable1:
  """entry 구조체는 (key, value)쌍으로 저장하며, HashTable1 클래스는 entry 객체를 M개 저장가능한 table 배열을 구성"""
  def __init__(self, M):
    self.table = [None] * M
    self.M = M

  def get(self, k):
    """key에 대한 해시코드를 계산하는 get 메서드"""
    hashcode = hash(k) % self.M
    # 삽입될 entry를 위해 해시 코드를 계산하기 위한 hash(key) % M을 사용한다
    # 예측 불가능한 salt값이 추가된다.
    return self.table[hashcode].value if self.table[hashcode] else None
    # get(key)에 대한 hashcode로 식별된 버킷에서
    # entry를 찾는데 실패하면 miss
    # get(key)의 인자(파라미터)로 들어오는 key가 일치하는 key의 entry를 찾으면 hit
    # 문제는 두 key에 대한 해시코드가 같은 버킷을 계산하는 경우에 발생하는 충돌을 해결하는 대안이 없다는 것

  def put(self, k, v):
    """key에 대한 해시코드와 연관된 entry의 위치의 value를 수정하는 set 메서드"""
    hashcode = hash(k) % self.M
    # M은 연관된 값을 모두 저장할 공간을 만들기 위한 수로 최소한 예상되는 키의 수만큼 커야 한다.
    entry = self.table
    if entry:
      if entry.key == k:
        entry.value = v
        # k에 대한 해시코드와 연관된 entry의 위치를 찾고, 있으면 값을 덮어씌우고 없으면 새로운 엔트리로 저장한다.
      else:
        raise RuntimeError(
            "Key Collision: {} and {}".format(k, entry.key) )
            # 서로 다른 두 키가 해시코드값으로 식별된 동일한 버킷에 매칭되면 충돌 발생
    else:
      self.table[hashcode] = Entry(k, v)

In [5]:
# help(HashTable1)

In [None]:
class HashTable2:
  """개방주소법 : 실행횟수 N으로 저장된 엔트리 수를 추적하므로 사용하지 않는 버킷이 최소 한 개 있다는 것을 보장한다"""
  def __init__(self, M):
    self.table = [None] * M
    self.M = M
    self.N = 0

  def get(self, k):
    """key가 k인 Entry가 있을 수 있는 첫 번째 버킷에서 시작하여 인덱스를 1씩 증가시키면서 k와 연관된 value를 반환하는 get 메서드"""
    hashcode = hash(k) % self.M
    while self.table[hashcode]:
      # self.table[hashcode] == True:
      if self.table[hashcode].key == k:
        return self.table[hashcode].value
      hashcode = (hashcode + 1) % self.M
      # k와 연관된 값이 아니라면, 다음 버킷으로 이동하며 필요 시 0으로 돌아간다
    return None
    # table[hashcode] 인덱스의 값이 비어있다면 k가 table의 key에 없음을 알 수 있다

  def set(self, k, v):
    hashcode = hash(k) % self.M
    while self.table[hashcode]:
      if self.table[hashcode].key == k:
        self.table[hashcode].value = v
        return
      hashcode = (hashcode + 1) % self.M

      if self.N >= self.M - 1:
        raise RuntimeError("Table is full.")
        # k가 table의 key에서 없는 것을 확인하면, hashcode가 마지막 비어 있는 버킷일경우 RuntimeError를 발생시킨다.

      self.table[hashcode] = Entry(k, v)
      self.N += 1
      # table[hashcode]에 새로운 Entry를 생성하고 key의 개수인 N을 업데이트한다

In [10]:
class HashTable3:
  """분리 연쇄법: table의 같은 hashcode 값 인덱스 번호를 갖는 key node들의 연결 리스트 구현에서 저장할 수 있는 entry 개수 N을 제한하지 않는다"""
  def __init__(self, M):
    self.table = [None] * M
    self.M = M
    self.N = 0

  def get(self, k):
    """k와 일치하는 key를 갖는 Entry를 찾을 때까지 next참조를 순회하는 get 메서드"""
    hashcode = hash(k) % self.M
    entry = self.table[hashcode]
    while entry:
      # self.table[hashcode] == True:
      if entry.key == k:
        return entry.value
      entry = entry.next
    return None
    # table[hashcode] 인덱스의 값이 비어있다면 k가 table의 key에 없음을 알 수 있다

  def set(self, k, v):
    hashcode = hash(k) % self.M
    entry = self.table[hashcode]
    while entry:
      # self.table[hashcode] == True:
      if entry.key == k:
        entry.value = v
        return
      entry = entry.next

      self.table[hashcode] = LinkedEntry(k, v, self.table[hashcode])
      self.N += 1
      # table[hashcode]에 새로운 LinkedEntry(k, v)에 대한 새로운 노드를 생성하고
			# key의 개수인 N을 업데이트한다

  def remove(self, k):
    """연결 리스트에서 엔트리를 삭제하는 remove 메서드"""
    hashcode = hash(k) % self.M
    entry = self.table[hashcode]
    prev = None
    while entry:
      if entry.key == k:
        if prev:
          prev.next = entry.next
          # 제거할 키 값을 가진 엔트리를 찾으면 탐색 동안 이전 노드의 참조 prev를 유지한다
        else:
          self.table[hashcode] = entry.next
          # prev참조가 없으면 엔트리는 첫 노드다.
          # 따라서 table의 hashcode의 값이 연결리스트 내 두 번째 노드를 가리키도록 설정한다
        self.N -= 1
        return entry.value
        # k와 연관된(제거할) value를 반환한다

      prev, entry = entry, entry.next
      # 키를 못 찾은 경우 prev를 엔트리로, entry를 다음 엔트리로 설정하여 계속 while루프를 순회한다
    return None
    # k가 없어 None을 반환한다