이번 장은 Hash값이 같아서 충돌이 일어나는 경우 = hash collision에 대해 알아보겠습니다.

In [54]:
class HashTable:
    def __init__(self):
        self.MAX = 10
        self.arr = [None for i in range(self.MAX)]

    def get_hash(self, key):
        h = 0
        for char in key:
            h += ord(char)
        return h % self.MAX

    def __setitem__(self, key, val):
      h = self.get_hash(key)
      self.arr[h] = val

    def __getitem__(self, key):
      h = self.get_hash(key)
      return self.arr[h]

    def __delitem__(self, key):
      h = self.get_hash(key)
      self.arr[h] = None

In [55]:
t = HashTable()
t.get_hash("march 6")

9

In [56]:
t.get_hash("march 17")

9

In [57]:
t["march 6"] = 120
t["march 8"] = 67
t["march 9"] = 4
t.arr[:20]

[None, 67, 4, None, None, None, None, None, None, 120]

In [58]:
t["march 17"] = 459
t.arr[:20]
print(t["march 6"], t["march 17"])

459 459


같은 hash 인덱스값을 지닌 곳을 건드니까 값이 변해버렸다. 이걸 해시 콜리전이라 부른다. 이런 문제 해결을 위해, chaining, proving 기법을 사용한다

In [59]:
print(t["march 6"], t["march 17"])

459 459


In [105]:
class HashTableNoCollision:
    def __init__(self):
        self.MAX = 10
        self.arr = [[] for i in range(self.MAX)] # [] for ~~ 리스트로 변경

    def get_hash(self, key):
        h = 0
        for char in key:
            h += ord(char)
        return h % self.MAX

    def __setitem__(self, key, val):
      h = self.get_hash(key)
      found = False
      
      # 기존 해시 위치에 값이 있을 경우. Already exists
      # ex) arr[9] = [('march 6', 78)]일때, arr[9]에 속한 ('march 6', 78)이 element에 들어간다.
      for idx, element in enumerate(self.arr[h]): #arr[9]에 이미 들어간 값이 있을 경우에
        if len(element)==2 and element[0] == key: #element가 2개이고, key값이 일치한다면
          self.arr[h][idx] = (key, val) #arr[9][0] = ('march 6', 78) 덮어쓰기
          found=True
          break
      if not found: #hash값은 일치하지만, key값이 다르다면, 리스트에 이어 붙여줌
          self.arr[h].append((key, val))

    def __getitem__(self, key):
        h = self.get_hash(key)
        for element in self.arr[h]:
          if element[0] == key:
            return element[1]

    def __delitem__(self, key):
        h = self.get_hash(key)
        for index, element in enumerate(self.arr[h]):
            if element[0] == key:
                del self.arr[h][index] # [[index=0],[index=1]] 2차원 배열

In [106]:
t2 = HashTableNoCollision()
t2.get_hash("march 6")

9

In [107]:
t2.get_hash("march 17")

9

In [108]:
t2 = HashTableNoCollision()

In [114]:
t2["march 6"] = 120
t2["march 6"] = 78
t2["march 17"] = 24
t2['march 13'] = 33
print(t2.arr)

[[], [], [], [], [], [('march 13', 33)], [], [], [], [('march 6', 78), ('march 17', 24)]]


In [115]:
t2['march 6']

78

In [116]:
t2['march 17']

24

In [117]:
del t2['march 17']

In [118]:
t2.arr

[[], [], [], [], [], [('march 13', 33)], [], [], [], [('march 6', 78)]]