## Chapter 1. 문제 해결
- 문제를 해결하는 여러 알고리즘
- 크기가 N인 문제 인스턴스에서 알고리즘의 성능을 고려하는 방법
- 주어진 문제 인스턴스를 해결할 때, 주요 작업이 수행된 횟수를 세는 방법
- 문제 인스턴스를 두 배씩 늘리며 증가 기준을 결정하는 방법
- 크기가 N인 문제 인스턴스에서 알고리즘이 주요 작업을 수행한 횟수를 세어 시간 복잡도를 측정하는 방법
- 크기가 N인 문제 인스턴스에서 알고리즘이 요구하는 메모리 양을 결정해 공간 복잡도를 측정하는 방법

### 1.1 알고리즘이란

알고리즘: 예측 가능한 시간에 정확한 결과를 반환하는, 컴퓨터 프로그램으로 구현된 단계별 문제 해결 방법. 정확성과 성능을 모두 고려하여 작성되어야 한다.

In [11]:
# Python 내장 함수 max() 파헤치기
import random

n = [random.randint(1,100_000) for num in range(100_000)]
N = [random.randint(1,1_000_000) for num in range(1_000_000)]

sorted_n = sorted(n)
sorted_N = sorted(N)

reversed_n = reversed(n)
reversed_N = reversed(N)

In [12]:
# 무작위순에 대해 max 추출
%time max(n)
%time max(N)

# 오름차순에 대해 max 추출

%time max(sorted_n)
%time max(sorted_N)

# 내림차순에 대해 max 추출

%time max(reversed_n)
%time max(reversed_N)

CPU times: user 1.45 ms, sys: 12 µs, total: 1.47 ms
Wall time: 1.47 ms
CPU times: user 11.2 ms, sys: 966 µs, total: 12.1 ms
Wall time: 12.1 ms
CPU times: user 2.44 ms, sys: 0 ns, total: 2.44 ms
Wall time: 2.44 ms
CPU times: user 25 ms, sys: 491 µs, total: 25.5 ms
Wall time: 25.4 ms
CPU times: user 1.01 ms, sys: 319 µs, total: 1.33 ms
Wall time: 1 ms
CPU times: user 7.82 ms, sys: 21 µs, total: 7.84 ms
Wall time: 7.82 ms


1000000

위 결과를 통해 우리는 다음을 알 수 있다.

**- 충분히 큰 N에 대해 파이썬 max 함수를 통해 정렬을 수행할 경우, max()의 수행 시간은 오름차순에 대해서 수행할 때가 내림차순에 대해서 수행할 때보다 항상 크다.**

**- 약간의 편차는 있으나, 리스트의 크기에 비례하여 max 함수의 수행 시간이 늘어난다.**

max() 알고리즘의 동작을 살펴보고, 이와 같은 결과가 발생한 이유를 알아보도록 하자.

### 1.2 리스트에서 가장 큰 값 찾기

In [13]:
# 리스트에서 가장 큰 값을 찾는 코드 - 결함 존재
def flawed(N):
    cur_max = 0
    for num in N:
        if cur_max < num:
            cur_max = num
    return cur_max

위 함수는 비교 연산자 '<'를 이용하여 모든 수에 대한 크기를 비교한다. 따라서 N의 크기만큼의 연산을 수행하게 된다.

다만 위 함수는 N 내 모든 수가 0보다 큰 수라는 가정을 하고 있으므로 결함이 존재한다. (ex: N = [-3, -5, -1, -11]인 경우 잘못된 값 0 반환)

`cur_max`의 값을 0 대신 -inf와 같은 매우 작은 음수값으로 설정할 수도 있지만, 이 경우에도 N이 빈 리스트일 경우 정상적으로 작동하지 않게 된다.

### 1.3 주요 연산 횟수 계산하기

In [14]:
# 리스트에서 가장 큰 값을 찾는 코드 - 수정된 코드
def largest(N):
    cur_max = N[0]
    for idx in range(1, len(N)):
        if cur_max < N[idx]:
            cur_max = N[idx]
    return cur_max

`cur_max`를 N의 인덱스 0 값인 `N[0]`으로 설정하여 리스트 내 값만을 반환할 수 있도록 하였으며, 연산 수행 횟수를 1회 줄였다.

다만, 여전히 빈 리스트에 대해서는 정상적으로 작동하지 않는다.

In [15]:
A = []
largest(A)

IndexError: list index out of range

### 1.4 모델로 알고리즘 성능 예측하기

In [20]:
# N에서 가장 큰 값의 위치를 찾는 다른 접근법
def alternate(N):
    for num in N:
        is_largest = True
        for x in N:
            if num < x:
                is_largest = False
                break
        if is_largest:
            return num
    return None

alternate() 함수는 이중 for문을 활용해 N에서 모든 `x` 값보다 작지 않은 `num` 값을 찾는다. 위와 같은 경우 `num` 보다 큰 `x`가 발견되면 break를 통해 중지하므로 상당수의 경우 기존 방식보다 연산 횟수가 적을 것이다.

하지만, 만약 N이 오름차순 정렬이 되어 있다면 N개 값에 대하여 $(N^2 + 3N -2)/2$번의 비교 연산을 수행하게 되므로 오히려 더 큰 연산 시간을 필요로 하게 된다.

In [25]:
N = [random.randint(1,1_000_000) for num in range(1_000_000)]
sorted_N = sorted(N)

%time largest(N)
%time alternate(N)

CPU times: user 48 ms, sys: 540 µs, total: 48.5 ms
Wall time: 48.5 ms
CPU times: user 263 ms, sys: 1.5 ms, total: 265 ms
Wall time: 264 ms


1000000

위처럼, 수행하는 연산 횟수를 기준으로 알고리즘의 시간 복잡도를 계산할 수 있다.

여기서 약간 흥미로운 점은, `largest()`와 `max()`는 연산 방식이 동일하나, 실제로는 `max()`가 `largest()`보다 빠르게 동작한다. 이는 파이썬이 인터프리터 언어이기 때문인데, 실행 중간에 바이트 코드로 컴파일 되는 `largest()`와 달리 내장 함수인 `max()` 함수는 인터프리터 내에 구현되어 있으므로 소요시간이 더 짧다.

### 1.5 리스트에서 가장 큰 두 수 찾기

In [1]:
def largest_two(N):
    cur_max, second = N[:2]
    if cur_max < second:
        cur_max, second = second, cur_max
        
    for idx in range(2, len(N)):
        if cur_max < N[idx]:
            cur_max, second = N[idx], cur_max
        elif second < N[idx]:
            second = A[idx]
    return (cur_max, second)

처음 두 값을 '가장 큰 두 수'의 초기값으로 설정한 뒤 정렬하고, 새로 찾은 `N[idx]`가 `cur_max`보다 크다면 `cur_max`를 업데이트하고 기존 값을 `second`에 넣는다.

만약 `N[idx]`가 `second`와 `cur_max` 사이라면, `second`만 업데이트 한다.

위 함수는 for 루프 내 if 문의 조건이 True일 때 가장 적은 연산을 수행한다. 즉, N 내 값이 오름차순이면 최적 연산횟수 1 + N-2 = N-1회를 수행하게 된다.

최악의 경우에는 1 + 2 * (N-2) = 2N - 3회 연산을 수행하게 된다. 이는 for 루프마다 두 번의 연산을 수행하게 되기 때문이다.

알고리즘의 선택은 여러 기준에 의해 결정될 수 있지만, 대표적으로 다음과 같은 기준들을 들 수 있다.

1. 필요 추가 저장 공간: 원본 문제 인스턴스의 복사본을 만들 필요가 있는가?

2. 프로그래밍 수고: 프로그래머가 작성해야 하는 코드의 줄 수는?

3. 가변 입력: 해당 알고리즘은 문제 인스턴스에서 제공된 입력 자체를 수정하는가, 혹은 그대로 두는가?

4. 속도: 제공된 입력과 무관하게 준수한 계산 속도를 가지는가?

이제 위 기준들에 근거하여, 가장 큰 두 수를 찾는 연산을 수행하는 세 가지 알고리즘을 평가헤보자.

In [2]:
def sorting_two(N):
    return tuple(sorted(N, reverse=True)[:2])

def double_two(N):
    cur_max = max(N)
    copy = list(N)
    copy.remove(cur_max)
    return (cur_max, max(copy))

def mutable_two(N):
    idx = max(range(len(N)), key = N.__getitem__)
    cur_max = N[idx]
    del N[idx]
    second = max(N)
    N.insert(idx, cur_max)
    return (cur_max, second)

1) `sorting_two()`
    
    위 함수는 리스트 N을 내림차순으로 정렬한 후 가장 앞의 값 두 개를 반환하는 형식으로, 파이썬 내장함수인 `sorted`를 사용했다.

2) `double_two()`
    
    N에서 가장 큰 값을 찾은 후, N의 복사본에서 해당 값을 지운다. 이렇게 만들어진 복사본에서 다시 최댓값을 찾아 두 번째 최대 값을 반환하는 형식으로, 파이썬 내장함수인 `max`를 사용한다.

3) `mutable_two()`
    
    N에서 가장 큰 값의 '위치'를 찾는다. 이후 해당 인덱스의 값을 `cur_max`에 저장하고 원본 리스트에서 해당 값을 제거한다. 가장 큰 값이 제거된 원본 리스트에서 최댓값을 찾아 `second`에 저장한 후, 기존 리스트를 복원하기 위해 `idx`에 `cur_max`를 삽입한다. `double_two()`와 마찬가지로 `max()` 함수를 사용하며, 추가로 `del`과 `insert`를 이용해 원본 리스트를 함수 내에서 조작한다.

위 세 가지 함수 중 `sorting_two()`와 `double_two()`는 불필요한 복사본을 만든다. 또한 가장 큰 값 두 개만 찾으면 되는 상황에서 전체를 정렬하는 일은 과하게 보이기도 한다. 다만 세 번째 함수는 원본 리스트를 수정하기에 조심스럽게 사용할 필요가 있다.

### 1.6 토너먼트 알고리즘

이번에 설명할 `tournament_two()` 함수는 입력에 상관 없이 연산 실행 횟수가 가장 적은 효울적인 알고리즘이다. 이는 스포츠에서 흔히 사용되는 Single-Elimination tournament 방식과 유사하다.