In [1]:
from typing import List, Dict, Set, Tuple

이번 과제는 hashing 에 대한 과제이다. 다음 모든 문제들은 time complexity $O(n)$으로 해결할 수 있다. 따라서 다음과 같이 두 부류로 test case 를 구성할 것이다. 

1) 입력 리스트의 원소의 개수가 적고, return 값만 맞으면 정답 
2) 입력 리스트의 원소의 개수가 충분히 많은 (107 이상) 경우. 실행 시간이 특정 시간을 넘어가면 return 값에 상관없이 틀림 

여기서 특정 시간은 $O(n)$으로 실행하는 시간보다는 충분히 크고, $O(n^2)$으로 실행하는 시간 보다는 충분히 작은 시간으로 설정할 것이다. $O(n\log n)$으로 해결했을 경우, 정답을 보장할 수 없다. `set` 또는 `dictionary` 를 이용해서 $O(n)$으로 해결해보자.

# P1

0 이상 정수로 이루어진 리스트 `nums`와 1 이상 정수 `k`를 입력으로 받는다. 

리스트의 원소를 둘씩 짝지으려고 하는데, 각각의 쌍의 합이 모두 `k`로 나누어지도록 짝을 지으려 한다. 가능하면 `True`, 불가능하면 `False`를 return 하는 함수를 구현하시오.

(리스트의 길이는 2 이상 짝수이다) 

<img src="./instruction-pdf-hashing1.png" width="75%" height="75%">

In [2]:
def P1(nums:List[int], k:int):
    # 임의의 수에 대해서 k로 나누었을 때 나머지는 0 ~ k-1이다.
    # 따라서, k로 나누어 떨어지는 짝이 있을 가능성은 다음의 두 가지이다.
    # 나머지가 0인 수가 짝수 개인 경우
    # 나머지 i에 대해서, k-i의 나머지를 갖는 수가 존재하고 서로 짝이 맞는 경우
    remain = dict()
    for n in nums:
        r = n % k
        if r in remain:
            remain[r].append(n)
        else:
            remain[r] = [n]

    for key in remain:
        if key == 0:
            if len(remain[key]) % 2 != 0:
                return False
        else:
            if (k-key) not in remain:
                return False
            elif len(remain[key]) != len(remain[k-key]):
                return False
    return True

In [3]:
P1([3, 7, 6, 5, 4, 5], 5)

True

In [4]:
P1([123, 36, 54, 28, 39, 28], 3)

False

In [5]:
P1([123, 36, 54, 28, 39, 28], 2)

True

# P2

0과 1로만 이루어진 리스트 `nums`를 입력으로 받는다. 0과 1의 개수가 같은 부분 리스트의 길이의 최대값을 return하는 함수를 구현하시오. 부분 리스트란, $nums[i:j],\ i\le j\le len(nums)$와 같이 리스트의 연속된 일부분을 뜻한다. 그러한 부분 리스트가 없으면 0을 return하면 된다.  (리스트의 길이는 1 이상이다.)

<img src="./instruction-pdf-hashing2.png" width="75%" height="75%">

In [6]:
from collections import Counter

def P2(nums:List):
    ## O(n^2)로 푸는 방법
    max_cnt = -1
    for i in range(len(nums)-1):
        itm_max = -1
        for j in range(i, len(nums)):
            slce = nums[i:j]
            cnt_dict = Counter(slce)
            if cnt_dict[1] == 0 or cnt_dict[0] == 0:
                cnt = 0
            elif cnt_dict[1] == cnt_dict[0]:
                cnt = 2 * cnt_dict[1]
            else:
                cnt = 2 * min(cnt_dict[1], cnt_dict[0])
            if itm_max < cnt:
                itm_max = cnt
        if max_cnt < itm_max:
            max_cnt = itm_max
    return max_cnt

In [7]:
P2([1, 1, 0, 1, 0, 1])

4

In [8]:
P2([1, 1, 1, 1, 1, 1])

0

In [9]:
P2([1, 1, 0, 1, 1, 1])

2

In [10]:
## O(n)으로 푸는 방법
def P2(nums):
    """
    1. 0을 -1로 변환하고, 1은 그대로 1로 두어 누적 합을 계산합니다.
    2. 누적 합이 같은 두 지점 사이에는 0과 1의 개수가 동일하다는 것을 의미합니다. -> 그 사이에 존재하는 숫자들의 합이 0이기 때문
    3. 따라서 누적 합이 0인 지점까지의 길이나 누적 합이 같은 두 지점 사이의 길이를 찾아 최대 길이를 계산합니다.
    => cum_sum이 처음 나온 위치를 저장한 뒤, 해당 cum_sum이 다시 나올 때마다 처음 나온 위치와 현재 위치 사이의 길이를 계산하는 방법
    """
    # 0을 -1로 변환
    nums = [-1 if num == 0 else 1 for num in nums]
    
    # 누적 합과 해당 지점의 인덱스를 저장할 딕셔너리
    sum_to_index = {0: -1}
    max_len = 0
    cum_sum = 0
    
    for i, num in enumerate(nums):
        cum_sum += num
        
        # 누적 합이 이전에 나왔던 적이 있다면, 그 지점과 현재 지점 사이의 길이를 계산
        if cum_sum in sum_to_index:
            max_len = max(max_len, i - sum_to_index[cum_sum])
        else:
            sum_to_index[cum_sum] = i
        print(f"{i} - cum_sum : {cum_sum}, max_len : {max_len}")
    print(sum_to_index)
    
    return max_len

In [11]:
P2([1, 1, 0, 1, 0, 1])

0 - cum_sum : 1, max_len : 0
1 - cum_sum : 2, max_len : 0
2 - cum_sum : 1, max_len : 2
3 - cum_sum : 2, max_len : 2
4 - cum_sum : 1, max_len : 4
5 - cum_sum : 2, max_len : 4
{0: -1, 1: 0, 2: 1}


4

In [12]:
P2([1, 1, 1, 1, 1, 1])

0 - cum_sum : 1, max_len : 0
1 - cum_sum : 2, max_len : 0
2 - cum_sum : 3, max_len : 0
3 - cum_sum : 4, max_len : 0
4 - cum_sum : 5, max_len : 0
5 - cum_sum : 6, max_len : 0
{0: -1, 1: 0, 2: 1, 3: 2, 4: 3, 5: 4, 6: 5}


0

In [13]:
P2([1, 1, 0, 1, 1, 1])

0 - cum_sum : 1, max_len : 0
1 - cum_sum : 2, max_len : 0
2 - cum_sum : 1, max_len : 2
3 - cum_sum : 2, max_len : 2
4 - cum_sum : 3, max_len : 2
5 - cum_sum : 4, max_len : 2
{0: -1, 1: 0, 2: 1, 3: 4, 4: 5}


2

# P3

0과 1로만 이루어진 리스트 `A`, `B`를 입력으로 받는다. 다음 조건을 만족하는 부분 리스트 길이의 최대값을 return하는 함수를 구현하시오. 그러한 부분 리스트가 없으면 0을 return하면 된다. (`A`와 `B`는 길이가 1 이상이고, 길이가 서로 같다.)

* 조건: `sum(A[i:j]) == sum(B[i:j]) 0<=i<=j<=len(A)`

<img src="./instruction-pdf-hashing3.png" width="75%" height="75%">

In [14]:
## O(n^2)으로 푸는 방법
def P3(A:List, B:List):
    length = len(A)
    sum_dict_A = dict()
    max_sum_A = 0
    for i in range(length):
        for j in range(i, length+1):
            sublist = A[i:j]
            if sum(sublist) in sum_dict_A:
                sum_dict_A[sum(sublist)].append((i, j))
            else:
                sum_dict_A[sum(sublist)] = [(i, j)]
            max_sum_A = max(max_sum_A, sum(sublist))
    
    sum_dict_B = dict()
    max_sum_B = 0
    for i in range(length):
        for j in range(i, length+1):
            sublist = B[i:j]
            if sum(sublist) in sum_dict_B:
                sum_dict_B[sum(sublist)].append((i, j))
            else:
                sum_dict_B[sum(sublist)] = [(i, j)]
            max_sum_B = max(max_sum_B, sum(sublist))
    
    if max_sum_A > max_sum_B:
        to_iterate = sum_dict_B
        opposite = sum_dict_A
    else:
        to_iterate = sum_dict_A
        opposite = sum_dict_B
        
    max_len = 0
    max_pair = None
    for key in to_iterate:
        if key in opposite:
            for pair in to_iterate[key]:
                if pair in opposite[key]:
#                     if max_len < pair[1] - pair[0]:
#                         max_len = pair[1] - pair[0]
#                         max_pair = pair
                    max_len = max(max_len, pair[1] - pair[0])
    print(max_pair)
    return max_len

In [15]:
%%time
A = [0, 1, 1, 0, 1, 0, 1, 1, 1]
B = [0, 0, 0, 1, 0, 1, 0, 1, 0]
P3(A, B)

None
CPU times: user 106 µs, sys: 2 µs, total: 108 µs
Wall time: 109 µs


5

In [16]:
%%time
A = [0, 0, 0, 0, 0, 1]
B = [1, 1, 1, 1, 1, 0]
P3(A, B)

None
CPU times: user 79 µs, sys: 6 µs, total: 85 µs
Wall time: 83 µs


2

In [17]:
%%time
A = [0, 0, 0, 0, 0, 1]
B = [1, 0, 0, 0, 0, 0]
P3(A, B)

None
CPU times: user 73 µs, sys: 4 µs, total: 77 µs
Wall time: 75.8 µs


6

In [18]:
# O(n)으로 푸는 방법 - P2와 같은 아이디어
def P3(A, B):
    """
    1. A와 B의 누적 합을 각각 계산합니다.
    2. 두 리스트의 누적 합의 차이를 계산합니다.
    3. 누적 합의 차이가 같은 두 지점 사이에는 sum(A[i:j]) == sum(B[i:j])라는 조건이 만족됩니다.
    4. 따라서 누적 합의 차이가 0인 지점까지의 길이나 누적 합의 차이가 같은 두 지점 사이의 길이를 찾아 최대 길이를 계산합니다.
    """
    # 누적 합의 차이와 해당 지점의 인덱스를 저장할 딕셔너리
    diff_to_index = {0: -1}
    max_len = 0
    cum_diff = 0
    
    for i in range(len(A)):
        cum_diff += A[i] - B[i]
        
        # 누적 합의 차이가 이전에 나왔던 적이 있다면, 그 지점과 현재 지점 사이의 길이를 계산
        if cum_diff in diff_to_index:
            max_len = max(max_len, i - diff_to_index[cum_diff])
        else:
            diff_to_index[cum_diff] = i
    
    return max_len

In [19]:
%%time
A = [0, 1, 1, 0, 1, 0, 1, 1, 1]
B = [0, 0, 0, 1, 0, 1, 0, 1, 0]
P3(A, B)

CPU times: user 18 µs, sys: 1 µs, total: 19 µs
Wall time: 19.1 µs


5

### Explained

- `i = 0`
    - `cum_diff = A[0] - B[0] = 0`
    - `cum_diff`가 `diff_to_index`에 있으므로 길이 업데이트 
    - `max_len = 1`

- `i = 1`
    - `cum_diff = cum_diff + (A[1] - B[1]) = 0 + 1 = 1`
    - `cum_diff`가 처음 나왔으므로 `diff_to_index[cum_diff] = 1`

- `i = 2`
    - `cum_diff = cum_diff + (A[2] - B[2]) = 1 + 1 = 2`
    - `cum_diff`가 처음 나왔으므로 `diff_to_index[cum_diff] = 2`
    
- `i = 3`
    - `cum_diff = cum_diff + (A[3] - B[3]) = 2 - 1 = 1`
    - `cum_diff`가 `diff_to_index`에 있으므로 길이 업데이트
    - `max_len = 1, i - diff_to_index[cum_diff] = 3 - 1 = 2`
    - `max_len = 2`

- `i = 4`
    - `cum_diff = cum_diff + (A[4] - B[4]) = 1 + 1 = 2`
    - `cum_diff`가 `diff_to_index`에 있으므로 길이 업데이트
    - `max_len = 2, i - diff_to_index[cum_diff] = 4 - 2 = 2`
    - `max_len = 2`
    
- `i = 5`
    - `cum_diff = cum_diff + (A[5] - B[5]) = 2 - 1 = 1`
    - `cum_diff`가 `diff_to_index`에 있으므로 길이 업데이트
    - `max_len = 2, i - diff_to_index[cum_diff] = 5 - 1 = 4`
    - `max_len = 4`
    
- `i = 6`
    - `cum_diff = cum_diff + (A[6] - B[6]) = 1 + 1 - 0 = 2`
    - `cum_diff`가 `diff_to_index`에 있으므로 길이 업데이트
    - `max_len = 4, i - diff_to_index[cum_diff] = 6 - 2 = 4`
    - `max_len = 4`

- `i = 7`
    - `cum_diff = cum_diff + (A[7] - B[7]) = 2 + 1 - 1 = 2`
    - `cum_diff`가 `diff_to_index`에 있으므로 길이 업데이트
    - `max_len = 4, i - diff_to_index[cum_diff] = 7 - 2 = 5`
    - `max_len = 5`

- `i = 8`
    - `cum_diff = cum_diff + (A[8] - B[8]) = 2 + 1 - 0 = 3`
    - `cum_diff`가 처음 나왔으므로 `diff_to_index[cum_diff] = 8`
    
$\therefore$ `max_len = 5`

In [20]:
%%time
A = [0, 0, 0, 0, 0, 1]
B = [1, 1, 1, 1, 1, 0]
P3(A, B)

CPU times: user 16 µs, sys: 1 µs, total: 17 µs
Wall time: 17.9 µs


2

In [21]:
%%time
A = [0, 0, 0, 0, 0, 1]
B = [1, 0, 0, 0, 0, 0]
P3(A, B)

CPU times: user 17 µs, sys: 0 ns, total: 17 µs
Wall time: 19.1 µs


6

# P4

정수로 이루어진 리스트 `nums`를 입력으로 받는다. 여기서 몇 개의 수를 뽑는데, 뽑은 수들이 연속적이어야 한다 (순서는 상관없음). 뽑을 수 있는 최대 개수를 return하는 함수를 구현하시오. (리스트의 길이는 1 이상이다. 리스트 내 숫자는 중복되지 않는다.)

```py
>>> P4([3, 6, 4, 64, 10, 29, 5, 9, 11]) 
4
```
설명: 3, 6, 4, 5를 뽑으면 연속된 4개의 정수가 된다. 뽑는 방법은 여러가지일 수 있고, 최대 개수만 return 하면 된다. 

```py
>>> P4([-1, 5, 2, -6, 8]) 
1 

>>> P4([-3, 2, 0, 1, -2, -1]) 
6
```

In [22]:
def P4(nums:List[int]):
    # sort the list first
    nums.sort()
    
    # get the difference list
    diffs = [nums[i+1] - nums[i] for i in range(len(nums)-1)]
    
    # count the number of consecutive numbers
    cnt = 1
    max_cnt = 1
    for item in diffs:
        if item == 1:
            cnt += 1
        else:
            # 현재까지 나온 consecutive number의 개수를 저장해놓고, 1로 reset
            max_cnt = max(max_cnt, cnt)
            cnt = 1

    # 여태 나온 consecutive number 가운데 최댓값
    max_cnt = max(max_cnt, cnt)
    return max_cnt

In [23]:
%%time
P4([3, 6, 4, 64, 10, 29, 5, 9, 11]) 

CPU times: user 7 µs, sys: 1 µs, total: 8 µs
Wall time: 8.82 µs


4

In [24]:
%%time
P4([-1, 5, 2, -6, 8]) 

CPU times: user 6 µs, sys: 1 µs, total: 7 µs
Wall time: 7.87 µs


1

In [25]:
%%time
P4([-3, 2, 0, 1, -2, -1]) 

CPU times: user 6 µs, sys: 1 µs, total: 7 µs
Wall time: 8.11 µs


6

In [26]:
def P4(nums: list) -> int:

    ### Write code here ###
    maxLen = 0
    s = set(nums)
    
    for num in nums:
        
        if num - 1 not in s:
            next = num

            while next in s:
                next += 1
            
            maxLen = max(maxLen, next - num)

    return maxLen
    ### End of your code ###  

In [27]:
%%time
P4([3, 6, 4, 64, 10, 29, 5, 9, 11]) 

CPU times: user 5 µs, sys: 1 µs, total: 6 µs
Wall time: 7.87 µs


4

In [28]:
%%time
P4([-1, 5, 2, -6, 8]) 

CPU times: user 6 µs, sys: 1 µs, total: 7 µs
Wall time: 7.87 µs


1

In [29]:
%%time
P4([-3, 2, 0, 1, -2, -1]) 

CPU times: user 5 µs, sys: 1 µs, total: 6 µs
Wall time: 7.87 µs


6