# Algorithm Study - Week 4

## 1. Quick Sort

>설명  

- 병합 정렬(merge sort)와 마찬가지로 퀵 정렬도 분할 정복 (Devide and Conquer) 기법과 재귀 알고리즘을 이용한 정렬 알고리즘
- 항상 정가운데르르 기준으로 분할을 하는 병합 정렬과 달리, pivot이라 불리는 임의의 기준값으로 분할 진행
- 분할된 양쪽 배열들 내에서 다시 pivot 설정 후 분할, 정렬이 완료될 때까지 다음 과정을 반복  
</br>

> 특징  

- 대부분의 프로그래밍 내 내장 정렬 함수들은 퀵 정렬을 기본으로 한다고 함
- 병합정렬은 분할 후 병합의 과정에서 연산, 퀵 정렬은 분할의 단계부터 연산을 발생  
</br>

> 시간복잡도

- 쿽 정렬의 성능은 어떻게 pivot 값을 선택 선택하느냐에 크게 달라짐. pivot 값을 기준으로 동일한 개수의 작은 값들과 큰 값들이 분할되면 병합 정렬과 마찬가지로 O(NlogN)의 시간 복잡도를 가지게 됨.
- 하지만 pivot 값을 기준으로 분할했을 때 값들이 한 편으로 크게 치우치게 되면 퀵 정렬은 성능은 저하되게 되며, 최악의 경우 한 편으로만 모든 값이 몰리게 되어 O(N^2)의 시간 복잡도를 보이게 됨.

In [32]:
# 교재의 quicksort(), partition() 내용 참고하여 만든 퀵 정렬 함수
# partition() : 임의로 설정된 pivot이 왼편에는 pivot 이하, 오른편에는 pivot 초과의 값으로 구성되게 함.


# r = pivot
#p = starting point for partitioning

def partition(A, p, r):
        x = A[r]
        i = p-1 
        for j in range(p, r):
            if A[j] <= x:
                i += 1
                temp1 = A[i]
                A[i] = A[j]
                A[j] = temp1
            
        temp2 = A[i+1]
        A[i+1] = A[r]
        A[r] = temp2

        return i+1
    
def my_quick1(A, p, r):     
    if p < r:
        q = partition(A, p, r)
        my_quick(A, p, q-1)
        my_quick(A, q+1, r)
        
    return A

In [33]:
arr1= [2,8,7,1,3,5,6,4]

my_quick(arr1, 0, 7)

[1, 2, 3, 4, 5, 6, 7, 8]

In [34]:
# 중앙값을 pivot으로 설정하여 퀵 정렬 진행한 다른 방식
# pivot을 임의값으로 설정해도 실행 가능

def my_quick2(A):
    
    if len(A) <= 1:
        return A
    
    pivot = A[len(A) // 2]
    smaller, same, bigger = [], [], []
    for i in A:
        if i < pivot:
            smaller.append(i)
        elif i > pivot:
            bigger.append(i)
        else:
            same.append(i)
    return quick_sort(smaller) + same + quick_sort(bigger)

In [35]:
my_quick2(arr1)

[1, 2, 3, 4, 5, 6, 7, 8]

> review  
- 일반적으로 pivot을 randomized한 방식으로 정하게 되는데 그 과정에서 pivot 기준의 partitioning을 할 때 balanced한 방법을 사용하면 시간 복잡도 상으로 이익일 수 있다는 이론적 설명이 있음. 결국 partition() 부분이 쓸모 없는 부분이 아니라 임의로 설정된 pivot 기준으로 balanced partitioning을 가능하게 하는 함수라고 생각됨.

## 2. Hash Tables

- **Hash Table: 키(Key)에 데이터(Value)를 저장하는 데이터 구조**
</br>

> 특징  

- Key를 통해 바로 데이터를 받아올 수 있으므로, 속도가 획기적으로 빨라짐
- 파이썬 딕셔너리(Dictionary) 타입이 해쉬 테이블의 예 (Key를 가지고 바로 데이터(Value)를 꺼냄)
- 보통 배열로 미리 Hash Table 사이즈만큼 생성 후에 사용 (공간과 탐색 시간을 맞바꾸는 기법)
- 단, 파이썬에서는 해쉬를 별도 구현할 이유가 없음, why? 딕셔너리 타입을 사용하면 됨
- 정확한 구조 및 용어는 [https://jinyes-tistory.tistory.com/10] 참고
- 해쉬 테이블 구현 코드 [https://www.fun-coding.org/Chapter09-hashtable.html]

In [37]:
# Hash Table
class HashTable:
    def __init__(self, table_size):
        self.size = table_size
        self.hash_table = [0 for a in range(self.size)]
        
    def getKey(self, data):
        self.key = ord(data[0])
        return self.key
    
    def hashFunction(self, key):
        return key % self.size

    def getAddress(self, key):
        myKey = self.getKey(key)
        hash_address = self.hashFunction(myKey)
        return hash_address
    
    def save(self, key, value):
        hash_address = self.getAddress(key)
        self.hash_table[hash_address] = value
        
    def read(self, key):
        hash_address = self.getAddress(key)
        return self.hash_table[hash_address]
    
    def delete(self, key):
        hash_address = self.getAddress(key)
        
        if self.hash_table[hash_address] != 0:
            self.hash_table[hash_address] = 0
            return True
        else:
            return False


#Test Code
h_table = HashTable(8)
h_table.save('a', '1111')
h_table.save('b', '3333')
h_table.save('c', '5555')
h_table.save('d', '8888')
print(h_table.hash_table)
print(h_table.read('d'))

h_table.delete('d')

print(h_table.hash_table)

[0, '1111', '3333', '5555', '8888', 0, 0, 0]
8888
[0, '1111', '3333', '5555', 0, 0, 0, 0]


> **문제점: 해시 충돌(Hash Collision)**
- 해시 테이블에는 치명적인 문제점이 있다. 인풋 데이터를 해시 값으로 바꿔주는 과정에서 두 데이터가 다른 문자열임에도 불구하고 같은 숫자로 변환되는 경우가 있다. 이 문제를 해시 충돌이라고 한다.
- 해시 충돌을 해결하는 대표적인 방법에는 오픈 해싱과 클로즈 해싱이 있다.

- **오픈 해싱:** 해시 테이블의 충돌 문제를 해결하는 대표적인 방법중 하나로 체이닝(Separate Chaining) 기법이라고도 한다. 만약 해시 값이 중복되는 경우, 먼저 저장된 데이터에 링크드 리스트를 이용하여 중복 해시 데이터를 연결한다.

파이썬에는 링크드 리스트 대신 슬롯을 이중 리스트 구조로 활용해서 간단하게 구현할 수 있다.

In [36]:
# open hashing

class OpenHash:
    def __init__(self, table_size):
        self.size = table_size
        self.hash_table = [0 for a in range(self.size)]
        
    def getKey(self, data):
        self.key = ord(data[0])
        return self.key
    
    def hashFunction(self, key):
        return key % self.size

    def getAddress(self, key):
        myKey = self.getKey(key)
        hash_address = self.hashFunction(myKey)
        return hash_address
    
    def save(self, key, value):
        hash_address = self.getAddress(key)
        
        if self.hash_table[hash_address] != 0:
            for a in range(len(self.hash_table[hash_address])):
                if self.hash_table[hash_address][a][0] == key:
                    self.hash_table[hash_address][a][1] = value
                    return
            self.hash_table[hash_address].append([key, value])
        else:
            self.hash_table[hash_address] = [[key, value]]
            
    def read(self, key):
        hash_address = self.getAddress(key)
        
        if self.hash_table[hash_address] != 0:
            for a in range(len(self.hash_table[hash_address])):
                if self.hash_table[hash_address][a][0] == key:
                    return self.hash_table[hash_address][a][0]
            return False
        else:
            return False
    
    def delete(self, key):
        hash_address = self.getAddress(key)
        
        if self.hash_table[hash_address] != 0:
            for a in range(len(self.hash_table[hash_address])):
                if self.hash_table[hash_address][a][0] == key:
                    if len(self.hash_table[hash_address]) == 1:
                        self.hash_table[hash_address] = 0
                    else:
                        del self.hash_table[hash_address][a]
                    return
            return False
        else:
            return False
            
            
#Test Code
h_table = OpenHash(8)

h_table.save('aa', '1111')
h_table.read('aa')

data1 = 'aa'
data2 = 'ad'

print(ord(data1[0]))
print(ord(data2[0]))

h_table.save('ad', '2222')
print(h_table.hash_table)

h_table.read('aa')
h_table.read('ad')

h_table.delete('aa')
print(h_table.hash_table)
print(h_table.delete('Data'))
h_table.delete('ad')
print(h_table.hash_table)

97
97
[0, [['aa', '1111'], ['ad', '2222']], 0, 0, 0, 0, 0, 0]
[0, [['ad', '2222']], 0, 0, 0, 0, 0, 0]
False
[0, 0, 0, 0, 0, 0, 0, 0]


- **클로즈 해싱**: 은 해시 테이블의 충돌 문제를 해결하는 방법 중 하나로 Linear Probing, Open Addressing 이라고 부르기도 한다. 해시 중복이 발생하면 해당 해시 값부터 순차적으로 빈 공간을 찾기 시작한다. 가장 처음 찾는 빈 공간에 키와 밸류를 저장한다. 저장 효율을 높이는 방법이다.

In [38]:
#close hashing
class CloseHash:
    def __init__(self, table_size):
        self.size = table_size
        self.hash_table = [0 for a in range(self.size)]
        
    def getKey(self, data):
        self.key = ord(data[0])
        return self.key
    
    def hashFunction(self, key):
        return key % self.size

    def getAddress(self, key):
        myKey = self.getKey(key)
        hash_address = self.hashFunction(myKey)
        return hash_address
    
    def save(self, key, value):
        hash_address = self.getAddress(key)
        
        if self.hash_table[hash_address] != 0:
            for a in range(hash_address, len(self.hash_table)):
                if self.hash_table[a] == 0:
                    self.hash_table[a] = [key, value]
                    return
                elif self.hash_table[a][1] == key:
                    self.hash_table[a] = value
                    return
            return None
        else:
            self.hash_table[hash_address] = [key, value]
            
    def read(self, key):
        hash_address = self.getAddress(key)
        
        for a in range(hash_address, len(self.hash_table)):
            if self.hash_table[a][0] == key:
                return self.hash_table[a][1]
        return None
    
    def delete(self, key):
        hash_address = self.getAddress(key)
        
        for a in range(hash_address, len(self.hash_table)):
            if self.hash_table[a] == 0:
                continue
            if self.hash_table[a][0] == key:
                self.hash_table[a] = 0
                return
        return False
        
        
#Test Code
h_table = CloseHash(8)

data1 = 'aa'
data2 = 'ad'
print(ord(data1[0]), ord(data2[0]))

h_table.save('aa', '3333')
h_table.save('ad', '9999')
print(h_table.hash_table)

h_table.read('ad')

h_table.delete('aa')
print(h_table.hash_table)

h_table.delete('ad')
print(h_table.hash_table)

97 97
[0, ['aa', '3333'], ['ad', '9999'], 0, 0, 0, 0, 0]
[0, 0, ['ad', '9999'], 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0]


---

- 실습

In [39]:
hash_table = list([0 for i in range(10)])
hash_table

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [40]:
def hash_func(key):
    return key % 5

data1 = 'Andy'
data2 = 'Dave'
data3 = 'Trump'

# ord(): 문자의 ASCII(아스키코드)값을 리턴
print (ord(data1[0]), ord(data1[0]) % 5)
print (ord(data2[0]), ord(data2[0]) % 5)
print (ord(data3[0]), ord(data3[0]) % 5)

65 0
68 3
84 4


In [42]:
def storage_data(data, value): #data에 할당되는 value 저장
    key = ord(data[0])
    hash_address = hash_func(key)
    hash_table[hash_address] = value

In [43]:
def get_data(data): # data에 할당된 value 리턴
    key = ord(data[0])
    hash_address = hash_func(key)
    return hash_table[hash_address]

In [44]:
storage_data('Andy', '01032130231')
storage_data('Dave', '01231232222')
storage_data('Trump', '0332323222')

print (get_data('Andy'))

01032130231


In [46]:
hash_table

['01032130231', 0, 0, '01231232222', '0332323222', 0, 0, 0, 0, 0]

- 정리 코드

In [47]:
hash_table = list([0 for i in range(8)]) # 1. 해쉬 테이블을 위한 데이터 저장 공간 생성

def get_key(data): # 2. 내장함수 hash()를 이용하여 data마다 할당되는 key 생성
    return hash(data)

def hash_function(key): # 3. key를 다른 숫자로 변형
    return key % 8

def save_data_hash_table(data, value): # 4. key를 주소로 하여 data마다 짝 지어지는 value 저장
    hash_address = hash_function(get_key(data))
    hash_table[hash_address] = value
    
def get_data_hash_table(data): # 5. key 주소를 이용하여 data에 맞는 value 리턴
    hash_address = hash_function(get_key(data))    
    return hash_table[hash_address]

## 프로그래머스 실습

#### 완주하지 못한 선수

- 1st trial

In [81]:
def solution(participants, completion):
    answer = ''
    
    for i in completion:
        participant.remove(i)

    answer = participant[0]   
    return answer

In [128]:
participant = ['mislav', 'stanko', 'mislav', 'ana']
completion = ['stanko', 'ana', 'mislav']

In [123]:
solution(participant, completion )

'mislav'

- 2nd trial

In [133]:
def solution(participant, completion):
    hash_table = [0 for i in range(100000)]

    for i in participant :
        key1 = hash(i) % 100000
        hash_table[key1] += 1
    
    for j in completion:
        key2 = hash(j) % 100000
        hash_table[key2] -= 1

    for i in participant:
        if hash(i) % 100000 == hash_table.index(1):
            answer = i
            
    return answer

In [134]:
participant = ['mislav', 'stanko', 'mislav', 'ana']
completion = ['stanko', 'ana', 'mislav']

solution(participant, completion)

'mislav'

- 3rd trial

In [144]:
def solution(participant, completion):
    
    p = sorted(participant)
    c = sorted(completion)

    for i in range(len(p)-1):
        if p[i] != c[i]:
            answer = p[i]
            break
        else:
            answer = p[-1]
    return answer

In [145]:
participant = ['mislav', 'stanko', 'mislav', 'ana']
completion = ['stanko', 'ana', 'mislav']

solution(participant, completion)

'mislav'

- other's solution

In [150]:
def solution(participant, completion):
    answer = ''
    temp = 0 # awesome...
    dic = {} # Hmm...
    for part in participant:
        dic[hash(part)] = part
        temp += int(hash(part))
    for com in completion:
        temp -= hash(com)
    answer = dic[temp]

    return answer

In [151]:
participant = ['mislav', 'stanko', 'mislav', 'ana']
completion = ['stanko', 'ana', 'mislav']

solution(participant, completion)

'mislav'

In [152]:
import collections


def solution(participant, completion):
    answer = collections.Counter(participant) - collections.Counter(completion)
    return list(answer.keys())[0]

In [153]:
participant = ['mislav', 'stanko', 'mislav', 'ana']
completion = ['stanko', 'ana', 'mislav']

solution(participant, completion)

'mislav'

In [156]:
collections.Counter(participant)

Counter({'mislav': 2, 'stanko': 1, 'ana': 1})

In [157]:
collections.Counter(participant) - collections.Counter(completion)

Counter({'mislav': 1})

> collections 모듈은 편리한 기능이 많다고 생각됨!

#### 전화번호부

- 1st trial

In [179]:
def solution(phone_book):
    answer = True
    p = list(map(str, sorted(phone_book)))
    
    for i in range(len(p)-1):
        for j in range(i+1, len(p)):
            if p[i] == p[j][:len(p[i])]:
                answer = False
                return answer
    return answer

In [182]:
phone_book1 = [119, 97674223, 1195524421]
phone_book2 = [123,456,789]
phone_book3 = [12,123,1235,567,88]

print(solution(phone_book1), solution(phone_book2), solution(phone_book3))

False True False


- other's solution

In [None]:
def solution(phoneBook):
    phoneBook = sorted(phoneBook)

    for p1, p2 in zip(phoneBook, phoneBook[1:]):
        if p2.startswith(p1):
            return False
    return True

In [None]:
def solution(phone_book): 
    for i in range(len(phone_book)): 
        pivot = phone_book[i] 
        for j in range(i+1, len(phone_book)): 
            strlen = min(len(pivot), len(phone_book[j])) 
        if pivot[:strlen] == phone_book[j][:strlen]: 
                return False 
            
    return True

> 위 답안처럼 startswith의 사용을 생각하지 못한 것이 아쉬움. 하지만 sorted()의 사용이 시간 복잡도 관점에서 좋지 않기 때문에 아래의 방법을 꼭 숙지하는 것이 좋다고 판단됨.

#### 위장

- 1st trial

In [245]:
def solution(clothes):
    answer = 0
    dic = {}

    for i in clothes:
        if i[1] not in dic:
            dic[i[1]] = 1
        else:
            dic[i[1]] += 1
    
    case = 1
    for j in dic.values():
        case *= j+1
    
    answer = case-1   
    return answer

In [246]:
clothes1 = [['yellow_hat', 'headgear'], ['blue_sunglasses', 'eyewear'], ['green_turban', 'headgear']]
clothes2 = [['crow_mask', 'face'], ['blue_sunglasses', 'face'], ['smoky_makeup', 'face']]

print(solution(clothes1))
print(solution(clothes2))

5
3


> ex. (a + 1)(b + 1)(c + 1) - 1 = (a + b + c) + (ab + bc + ca) + abc

- other's solution

In [247]:
def solution(clothes):
    from collections import Counter
    from functools import reduce
    cnt = Counter([kind for name, kind in clothes])
    answer = reduce(lambda x, y: x*(y+1), cnt.values(), 1) - 1
    return answer

In [248]:
clothes1 = [['yellow_hat', 'headgear'], ['blue_sunglasses', 'eyewear'], ['green_turban', 'headgear']]
clothes2 = [['crow_mask', 'face'], ['blue_sunglasses', 'face'], ['smoky_makeup', 'face']]

print(solution(clothes1))
print(solution(clothes2))

5
3


> 누적 합을 위해 reduce() 함수 사용

In [249]:
import collections
from functools import reduce

def solution(c):
    return reduce(lambda x,y:x*y,[a+1 for a in collections.Counter([x[1] for x in c]).values()])-1

In [250]:
clothes1 = [['yellow_hat', 'headgear'], ['blue_sunglasses', 'eyewear'], ['green_turban', 'headgear']]
clothes2 = [['crow_mask', 'face'], ['blue_sunglasses', 'face'], ['smoky_makeup', 'face']]

print(solution(clothes1))
print(solution(clothes2))

5
3
