# 3.1 Experimental Studies

별 거 없음...

# 3.2 The Seven Functions Used in This Book

역시나 별 거 없음...

# 3.3 Asymptotic Analysis

Let $f(n)$ and $g(n)$ be functions mapping positive integers to positive real numbers. 

1. We say that $f(n)$ is $O(g(n))$ if there is a real constant $c >0$ and an integer constant $n_o \ge 1$ such that 
$$ f(n) \le cg(n)\quad \text{for }~ n\ge n_o.$$

1. We say that $f(n)$ is $\Omega(g(n))$ if $g(n)$ is $O(f(n))$.

1. We say that $f(n)$ is $\Theta(g(n))$ if $f(n)$ is $O(g(n))$ and $f(n)$ is $\Omega(g(n))$.

## 3.3.3 Examples of Algorithm Analysis

for a list `data`,

* `len(data)` is $O(1)$.
* `data[j]` is $O(1)$.
* `max(data)` is $O(n)$ ($n$ = len(data)).

### Further Analysis of the Maximum-Finding Algorithm

주어진 데이터가 랜덤으로 섞여있을 경우를 생각해보자. 이때 $j$번째 원소가 처음 $j$개의 원소 중 가장 클 확률은 $1/j$ 이다. 따라서 가장 큰 원소를 업데이트할 확률은 $H_n = \sum_j 1/j$, 즉 조화수이다. 그리고 $H_n = O(\log n)$ 임은 자명하다.

### Prefix Averages

길이가 $n$인 수열 $S$가 주어져있을 때, 수열 $A$를 다음과 같이 정의하자.
$$A[j] = \frac{\sum_{i=0}^j S[i]}{j+1}.$$
이 수열을 구하는 알고리즘을 다음 세 방법을 통해 해결해보자.

In [1]:
def method1(S):
    n = len(S)
    A = [0] * n
    for j in range(n):
        total = 0
        for i in range(j+1):
            total += S[i]
        A[j] = total/(j+1)
    return A

이렇게 정의한 함수는 당연히 $O(n^2)$ 이다.

In [2]:
def method2(S):
    n = len(S)
    A = [0] * n
    for j in range(n):
        A[j] = sum(S[0:j+1])/(j+1)
    return A

얘는 좀 나아보이지만, 사실은 `sum(S[0:j+1])` 또한 $O(j+1)$이므로 똑같은 $O(n^2)$ 다.

In [3]:
def method3(S):
    n = len(S)
    A = [0] * n
    total = 0
    for j in range(n):
        total += S[j]
        A[j] = total / (j+1)
    return A

얘는 `total`을 매번 갱신하는 아이디어로 인해 $O(n)$이다!

과연 실제로 그런지 검증해보자.

In [4]:
import numpy as np
S = np.random.randn(1000)
L = np.random.randn(10000)

In [5]:
S_ans1 = method1(S)
S_ans2 = method2(S)
S_ans3 = method3(S)
L_ans1 = method1(L)
L_ans2 = method2(L)
L_ans3 = method3(L)

In [6]:
S_ans1[:5] == S_ans2[:5] == S_ans3[:5]

True

In [7]:
L_ans1[:5] == L_ans2[:5] == L_ans3[:5]

True

In [27]:
%%timeit
method1(S)

71.1 ms ± 107 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [28]:
%%timeit
method2(S)

51.8 ms ± 58.4 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [29]:
%%timeit
method3(S)

348 µs ± 315 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [30]:
%%timeit
method1(L)

7.1 s ± 5.02 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [31]:
%%timeit
method2(L)

5.05 s ± 4.61 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [32]:
%%timeit
method3(L)

3.54 ms ± 7.35 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [34]:
10**(-3)

0.001

In [36]:
res = np.array([[71.1*(10**(-3)), 51.8*(10**(-3)), 348*(10**(-6))],
                [7.1, 5.05, 3.54*(10**(-3))]])

In [39]:
res[1]/res[0]

array([99.85935302, 97.49034749, 10.17241379])

대략 1, 2번이 3번에 비해 제곱 정도로 걸리는 것을 알 수 있다!

### Three-Way Set Disjointness

Q : 세 집합 A, B, C 에 대해 $A \cap B \cap C = \emptyset$을 판정해보자!

In [8]:
def disjoint1(A,B,C):
    for a in A:
        for b in B:
            for c in C:
                if a==b==c:
                    return False
    return True

얘는 당연히 $O(n^3)$ 이다.

In [9]:
def disjoint2(A,B,C):
    for a in A:
        for b in B:
            if a==b:
                for c in C:
                    if a==c:
                        return False
    return True

이 경우는 $O(n^2)$ 이다.

In [13]:
A1 = np.random.randint(low=0, high=1000000, size=100)
A2 = np.random.randint(low=0, high=1000000, size=100)
A3 = np.random.randint(low=0, high=1000000, size=100)
B1 = np.random.randint(low=0, high=1000000, size=1000)
B2 = np.random.randint(low=0, high=1000000, size=1000)
B3 = np.random.randint(low=0, high=1000000, size=1000)

In [14]:
%%timeit
disjoint1(A1,A2,A3)

79.6 ms ± 1.36 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [15]:
%%timeit
disjoint2(A1,A2,A3)

780 µs ± 1.07 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [16]:
%%timeit
disjoint1(B1,B2,B3)

1min 16s ± 694 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [19]:
%%timeit
disjoint2(B1,B2,B3)

75.3 ms ± 147 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [20]:
res = np.array([[79.6*(10**(-3)), 780*(10**(-6))],
                [76,  75.3*(10**(-3))]])

In [21]:
res[1]/res[0]

array([954.77386935,  96.53846154])

대충 1000과 100 이므로 대략 맞는듯!

### Element Uniqueness

Q : 주어진 집합 $S$의 원소가 모두 다른지 여부?

In [17]:
def unique1(S):
    for j in range(len(S)):
        for k in range(j+1, len(S)):
            if S[j]==S[k]:
                return False
    return True

얘는 $O(n^2)$

In [22]:
def unique2(S):
    temp = sorted(S)
    for j in range(1, len(temp)):
        if S[j-1]==S[j]:
            return False
    return True

파이썬의 정렬 알고리즘은 $O(n\log n)$이므로 이 함수는 $O(n \log n)$이다.

In [24]:
%%timeit
unique1(A1)

904 µs ± 3.68 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [26]:
%%timeit
unique2(A1)

34.6 µs ± 139 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [27]:
%%timeit
unique1(B1)

25.1 ms ± 369 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [28]:
%%timeit
unique2(B1)

414 µs ± 696 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [29]:
res = np.array([[904*(10**(-6)), 34.6*(10**(-6))],
                [25.1*(10**(-3)),  414*(10**(-6))]])

In [30]:
res[1]/res[0]

array([27.76548673, 11.96531792])

In [31]:
(res[1]/res[0])[0]/(res[1]/res[0])[1]

2.3204971997776926

In [32]:
np.log(10)

2.302585092994046

대략 맞네요!

# 3.4 Simple Justification Techniques

별 거 없음...

# Exercise

### C-3.39 Show that $\sum_{i=1}^n i/2^i < 2$.

Let $f(n) = \sum_{i=1}^n \frac i{2^i}$. Then clearly $f(1) = 1/2 < 2$. 

Suppose that $f(n)<2$. Then
$$ f(n+1) = \sum_{i=1}^{n+1} \frac i {2^i} = \sum_{i=0}^n  \frac{i+1} {2^{i+1}} = \frac12 \sum_{i=0}^n  \frac{i} {2^{i}} + \frac12 \sum_{i=0}^n  \frac{1} {2^{i}} = \frac 12 f(n)  + \frac12 \sum_{i=0}^n  \frac{1} {2^{i}}.$$

Note that 
$$\frac 12 \sum_{i=0}^n \frac 1 {2^i} = 1 - \frac 1 {2^{n+1}}.$$
Therefore, 
$$ f(n+1) = \frac 12 f(n)  + \frac12 \sum_{i=0}^n  \frac{1} {2^{i}} < 1 + 1 - \frac 1 {2^{n+1}} < 2.$$
