---
<font color='Blue' size="4">
F37.204 컴퓨팅 핵심: 컴퓨터로 생각하기(Core Computing: Thinking with Computers)</font>

---


# Chapter 8. 알고리즘의 효율성과 탐색



:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 알고리즘의 정의와 기술방법을 익혀본다.
  - 알고리즘이 성능 분석 방법을 이해한다.
  - 탐색 알고리즘으로 순차탐색과 이진탐색 알고리즘을 이해한다.

- 기대효과
  - 알고리즘의 효율성을 고려하여 프로세스를 디자인해볼 수 있다.

:::

## 알고리즘이란
- 알고리즘이란 **어떤 문제를 해결하기 위한 효율적인 방법과 절차**를 말한다.
- 예를 들어, 운동장에서 키 순서대로 학생들을 줄 세우는 것도 알고리즘의 한 종류이고, 이름 가나다 순으로 줄을 세우는 것도 알고리즘의 한 종류이다.
- 즉, 어떤 하나의 문제를 해결하기 위해 여러 종류의 알고리즘이 존재할 수 있고 조건이 달라지면 문제를 해결하는 방법도 달라지게 된다.

## 알고리즘 기술 방법
알고리즘을 기술하는 방법으로는
  - 영어, 한국어와 같은 자연어으로 기술
  - 플로우차트(흐름도:flowchart)로 표현
  - 슈도코드(유사코드:pseudo-code)로 표현
  - 특정 프로그래밍 언어로 표현

예를 들어, 최대값을 찾는 알고리즘을 기술하면,

1) 자연어 예시
  - 리스트 A의 첫 번째 요소를 변수 max에 복사한다.
  - 리스트 A의 다음 요소들을 차례대로 max와 비교하여 더 크면 그 값을 max에 복사한다.
  - 리스트 A의 모든 요소들을 비교했다면 max를 반환한다.

2) 플로우차트 예시
<div align="center"><img src="https://haesunbyun.github.io/common/images/search1.png" width=200 height=244></div>

3) 슈도코드 예시
```
//배열 A에 10개의 숫자가 있다고 가정
max = A[0]
for i=1 to 10 // 1 ~ 9까지 차례로 i에 대입
    if (A[i] > max)
        max = A[i]
return max
```

4) 특정 프로그래밍 예시

```python
import random
A=random.sample(range(1,100), 10)
print(A)
def findMax(A):
  max = A[0]
  for i in A:
    if (i > max):
      max = i

  return max

findMax(A)
```

## 알고리즘의 성능 분석 방법
- 어떤 문제를 해결하기 위해 알고리즘을 설계했다면 그 알고리즘이 얼마나 효율적인 알고리즘인가를 검증해야 한다.
- 효율적인 알고리즘이란 실행시간이 빠르고 필요로 하는 메모리를 적게 사용하는 알고리즘이다.
- 알고리즘의 효율성을 평가하기 위해서 직접 프로그래밍을 해서 알고리즘의 실행 시간이나 사용되는 메모리를 측정하고 검사할 수 있겠지만 모든 알고리즘을 직접 프로그래밍 해서 실행하여 측정하기에는 많은 제약이 있다.

- 알고리즘을 직접 프로그래밍으로 구현하지 않고 대략적인 효율성을 살펴보는 것을 **알고리즘 복잡도 분석**(complexity analysis)라고 한다. 복잡도 분석에는
  - 알고리즘의 실행시간을 분석하는 **시간복잡도**(Time complexity) 분석
  - 알고리즘이 사용하는 메모리를 분석하는 **공간복잡도**(space complexity) 분석이 있다.
- 보통 알고리즘의 복잡도를 이야기 할 때 대개는 시간복잡도를 의미한다.

### 시간복잡도

- 알고리즘의 실행시간을 분석하는 시간복잡도에서는 절대적인 실행 시간이 아니라 알고리즘을 이루고 있는 연산들이 몇 번이나 실행되는지를 계산한다. 즉, 계산량을 구하는 기본 단위는 산술, 대입, 비교 등의 명령문을 실행하는 연산의 횟수이다.
- 알고리즘을 실행하는데 필요한 연산의 수는 보통 주어지는 입력의 개수 $n$에 영향을 받는다.
- 이를 시간복잡도 함수인 $ T(n) $으로 나타내는데, $n$개의 크기에 대해 $ T(n) $의 시간이 소요된다는 의미로 시간복잡도(Time complexity)를 계산할 때 이와 같이 표현한다.

- 예를 들어 $n^2$을 구하는 세 개의 알고리즘이 있다고 하자.

1) 알고리즘 A: 연산 횟수는 2이다.
```python
sum = n*n  # 곱셉과 대입 연산
```

2) 알고리즘 B: 연산 횟수는 2n + 1이다.
```python
sum = 0 # 대입 연산 1
for i in range(n):
  sum += n # 덧셈연산 n번, 대입연산 n번
```

3) 알고리즘 C: 연산 횟수는 $ 2n^2$ + 1이다.
```python
sum = 0 # 대입 연산 1
for i in range(n):
  for j in range(n):
    sum += 1 # 덧셈연산 n번, 대입연산 n번에 대해 반복 2번
```

- 위 알고리즘을 $ T(n) $으로 표현하면
  - 알고리즘 A: $ T(n) $ = 2
  - 알고리즘 B: $ T(n) $ = 2n + 1
  - 알고리즘 C: $ T(n) $ =  $ 2n^2$ + 1 이다.

- 시간복잡도 함수인 $ T(n) $은 $n$의 개수에 영향을 많이 받는다.
- 즉, n이 커질수록  $ T(n) $에서 **차수가 가장 큰 항의 영향이 절대적**이고 다른 항들과 계수는 무시해도 될 정도로 작아진다.
- 따라서 시간복잡도 분석에서는 함수의 전체 항이 아니라 최고차항만을 고려한다.

#### 빅오표기법

- 시간복잡도 함수에서 불필요한 모든 항과 모든 계수를 제거하여 알고리즘 분석을 쉽게 할 목적으로 시간 복잡도를 표기하는 방법을 **빅오 표기법**(Big-O notation)이라고 한다.
- 빅오표기법으로 표기하는 방법은 최고차항을 제외한 나머지 모든 항과 모든 계수를 제거하고 남은 시간을 대문자 $O()$ 괄호안에 넣어준다.
- 즉, 알고리즘 A는 $O(1)$, 알고리즘 B는 $O(n)$, 알고리즘 C는 $O(n^2)$와 같이 표기한다. 읽을 때에는 $O(n)$이라면 Order of n이라고 읽는다.
- 아래 그래프는 $n$이 증가할 때 시간 복잡도 함수가 얼마나 증가하는지 보여준다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/search2.png" height=300 style="width:600px;"></div>

https://www.bigocheatsheet.com/


😄 시간 복잡도 함수 $n^2 + 10n + 8$을 빅오표기법으로 표기하시오.


### 공간복잡도
- 알고리즘이 필요로 하는 메모리의 양인 공간복잡도는 시간복잡도보다 중요도가 떨어진다. 왜일까?
- 컴퓨터의 방대한 메모리와 발전덕분에 더 이상 고민하지 않아도 되서??? 아니다.!
- 처리해야할 데이터의 양이 많아질 수록 실행시간이 중요하기 때문이다.
- 여기, 동일한 작업을 하는 프로그램 A와 B가 있고, 프로그램 A의 시간복잡도는 $O(n^2)$, 프로그램 B의 시간복잡도는 $O(2^n)$을 갖는다고 가정해보자.
- 입력 데이터의 개수가 n일 때 프로그램 A와 B의 실행시간이 시간복잡도에 비례하여 커진다고 가정하면 아래와 같이 실행시간의 차이가 발생한다.

|$n$의 개수|프로그램A: $n^2$ |프로그램B: $2^n$|
|:----------:|:----------|:----------|
|n=10| 100s| 1024s |
|n=100|10000s | $ 2^{100} $ = $4 * 10^{22}$ 년|

## 탐색

문제를 해결하고자 할 때 중요한 팩터 가운데 하나는 연산의 속도이다. 얼마나 효율적으로 연산할 것인가하는 계산의 효율성은 아무리 강조해도 지나치지 않을 만큼 중요한 팩터이다.

알고리즘의 계산의 속도에 대해 얘기하기 위해 가장 먼저 탐색에 대해서 알아보자.  
**탐색**이란 여러 개의 자료 중에서 원하는 자료를 찾는 작업이다. 컴퓨터가 가장 많이 하는 작업 중의 하나이므로 탐색을 효율적으로 수행하는 것은 매우 중요하다.


### 순차 탐색
- 순차 탐색(Linear Search)은 정렬되지 않은 리스트를 처음부터 마지막까지 하나씩 검사하는 방법이다.
- 첫 번째 자료부터 하나씩 비교하면서 같은 값이 나오면 그 위치를 결과로 반환하고, 끝까지 찾아도 같은 값이 나오지 않으면 -1을 반환한다.



- 먼저, 순차탐색을 위한 데이터 20개를 0부터 100 사이의 임의의 숫자로 만들어 변수 r에 저장하자.
- 데이터가 랜덤으로 들어가 있는 경우 사실 효율적인 방법이라는 것이 없다. 처음부터 끝까지 순서대로 다 들여다 보는 것이 가장 효율적인 방법이다.

In [None]:
import random

r=[]
for i in range(20):
  r.append( random.randint(0,100) )

print(r)

[64, 10, 35, 98, 85, 33, 14, 78, 3, 71, 61, 45, 67, 45, 54, 33, 49, 25, 73, 29]


- 파이썬에서는 `in`연산자를 이용해서 탐색값이 있는지 없는지 바로 확인가능하다.

```python
print(15 in r)
print(73 in r)
```

- 순차탐색 알고리즘을 코드로 표현해 보자.
  - 첫 번째 자료부터 하나씩 비교하면서 같은 값이 나오면 그 위치를 결과로 반환하고, 끝까지 찾아도 같은 값이 나오지 않으면 -1을 반환한다.

In [None]:
def sequentialSearch(r, x):




x=73
print(sequentialSearch(r,x))

- 순차 탐색에서는 탐색 데이터가 리스트의 앞에 있다면 비교적 빨리 찾을 것이고, 탐색 데이터가 뒷 쪽에 있다면 많은 비교후에 찾게 될 것이다.
- 이와 같이 경우에 따라 계산 횟수가 다를 때에는 **최선의 경우, 평균적인 경우, 최악의 경우**로 나누어서 시간복잡도를 계산하기도 한다.

- 최악의 경우로 봤을 때, 순차 탐색으로 20개의 데이터 중에서 어떤 값을 찾으려면 비교를 최대 20번 해야 하고, 100개의 데이터라면 비교를 최대 100번 해야한다. 데이터가 5천만개라면 최대 5천만번 해야 한다.
- 즉, 순차 탐색은 데이터의 갯수 n에 비례해서 연산수가 선형적으로 증가하기 때문에 최악의 경우 시간 복잡도는 $O(n)$이다.
- 순차 탐색의 비교횟수는 탐색값의 위치에 따라 다르다. 맨 앞에 있으면 1번, 두 번째에 있으면 2번, $k$번째에 있으면 $k$번 비교한다.
- **평균 비교 횟수**는 $(1+2+3+ ...+n)/n$으로 탐색에 성공했을 때는 $ (n+1)/2 $번 비교한다.
  - 예를 들어, n이 5일 때, 평균비교횟수는 3이다.
    - $(1+2+3+ ...+n)/n$ ===> $(1+2+3+4+5)/5$
    - $ (n+1)/2 $ ===> (5+1)/2

😄 탐색값이 나오는 모든 위치를 리스트로 반환하도록 sequentialSearch()함수의 알고리즘을 수정하세요.

### 이진 탐색

- 데이터가 `정렬 되어 있다`이라는 가정을 넣어보면 순차탐색보다 효율적으로 데이터를 찾는 방법이 여럿 존재한다.
- 그 중에 하나가 이진탐색(Binary Search)이다.

In [None]:
r.sort()
print(r)

[3, 10, 14, 25, 29, 33, 33, 35, 45, 45, 49, 54, 61, 64, 67, 71, 73, 78, 85, 98]


- **이진탐색**은 리스트의 중앙에 있는 값을 탐색한다. 이때 탐색값을 찾으면 끝내지만, 탐색값이 아니라면 찾고자 하는 탐색값이 왼쪽 또는 오른쪽 부분 리스트에 있는지를 알아내어 탐색의 범위를 반으로 줄여가며 탐색을 진행한다.
- 예를 들어, 20개의 캔에 0부터 19까지 번호가 적혀있고 각 캔 안에는 데이터(숫자)가 들어있는데 오름차순으로 정렬되어 들어있다고 가정해보자. 이 리스트에서 탐색값 449를 이진탐색으로 찾아보자.
<div align="center"><img src="https://haesunbyun.github.io/common/images/search3.png" style="width:600px;"></div>

- 중앙에 있는 번호인 9번 캔의 데이터를 탐색한다.
- 9번 캔의 숫자는 558이고 탐색값 449가 아니다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/search4.png" style="width:600px;"></div>

- 탐색값 449는 558보다 작다. 10번 캔부터 19번 캔까지는 558보다 더 큰 숫자들만 들어 있으므로 탐색할 필요가 없다.
- 따라서 0번 캔부터 8번 캔으로 탐색 범위를 좁힌다.
- 이때 0과 8의 중앙값인 4를 탐색한다.
- 4번 캔의 숫자는 177이고 탐색값 449가 아니다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/search5.png" style="width:600px;"></div>

- 탐색값 449는 177보다 크다. 0번 캔부터 3번 캔까지는 177보다 더 작은 숫자들만 들어 있으므로 탐색할 필요가 없다.
- 따라서 5번 캔부터 8번 캔으로 탐색 범위를 좁힌다.이때 5과 8의 중앙값인 6를 탐색한다.
- 6번 캔의 숫자는 338이고 탐색값 449가 아니다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/search6.png" style="width:600px;"></div>

- 탐색값 449는 338보다 크다. 따라서 5번 캔은 탐색할 필요가 없다.
- 따라서 7번 캔부터 8번 캔으로 탐색 범위를 좁힌다.이때 중앙값인 7를 탐색한다.
- 7번 캔의 숫자는 385이고 탐색값 449가 아니다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/search7.png" style="width:600px;"></div>

- 8번 캔으로 탐색 범위를 좁힌다.
- 탐색값 449이다. 다섯번의 탐색으로 449를 찾았다.
<div align="center"><img src="https://haesunbyun.github.io/common/images/search8.png" style="width:600px;"></div>

- 이진탐색의 슈도코드

```
1. 배열 r에 1부터 100 사이의 20개의 임의의 숫자가 정렬되어 있다고 가정한다.
2. 탐색 데이터 x가 있다.
3. r의 맨 앞 인덱스를 low로, 맨 뒤 인덱스를 high로 초기값을 설정한다.
4. low와 high를 이용하여 중앙 인덱스를 계산한다.
5. 중앙 인덱스에 들어있는 데이터가 탐색데이터이면 그 인덱스를 반환하고 프로그램을 종료한다.
6. 아니라면 low와 high를 수정한다.
  - r[mid]보다 x가 크다면 low를 mid+1로 바꾼다.
  - r[mid]보다 x가 작다면 high를 mid-1로 바꾼다.
7. 4로 돌아가 중앙 인덱스를 계산하는 작업을 반복한다.
8. low가 high보다 크면 탐색에 실패하여 -1을 반환하고 프로그램을 종료한다.

```

😄 위 슈도코드를 보고 참고하여 binarySearch() 함수를 작성하시오.


In [None]:
import random
r = random.sample(range(1,100),20)
r.sort()
print(r)

[2, 6, 14, 22, 25, 29, 33, 37, 46, 49, 53, 54, 58, 66, 75, 76, 79, 83, 95, 99]


In [None]:
# binary_search를 구현해보세요.
def binarySearch(r, x):
  #Todo
  pass


x = 29
print(binarySearch(r,x))

- 이진탐색에서는 한번 탐색이 이루어질 때마다 비교 횟수는 1이 늘고, 탐색 범위는 ½로 줄어든다.
- 비교횟수를 $k$라 하고, 데이터 집합의 크기를 $n$이라 했을 때
  - k=1, 탐색범위는 $\frac{n}{2}$,
  - k=2, 탐색범위는 $\frac{n}{2^2}$ = $\frac{n}{4}$,
  - k=3, 탐색범위는 $\frac{n}{2^3}$ =$\frac{n}{8}$
  ,  ......,

  - k번 비교횟수에 대해, 탐색범위는 $\frac{n}{2^k}$으로 줄어든다.

- 따라서 최악의 경우, $\frac{n}{2^k}$ = 1이 될 때까지 즉, 탐색범위가 1이 될 때까지 탐색이 이루어진다.
- 이진탐색의 비교횟수 $k= log_2 n+1$이며, 이진탐색의 시간복잡도는 $O(log$ $n)$이다.

- 파이썬에서는 모듈 bisect의 bisect()함수를 통해 이진탐색을 할 수 있다.
- bisect()는 이진탐색의 확장버전으로 생각할 수 있는데, bisect() 괄호안에 데이터와 탐색값을 전달인자로 주면 탐색값을 끼워 넣을 위치를 반환한다.

In [None]:
import bisect
idx = bisect.bisect( r, 72 )
print(idx)

In [None]:
r.insert(idx, 72)
print(r)

In [None]:
x = 36
r.insert( bisect.bisect(r, x), x )

😄 bisect.bisect() 함수처럼 동작하도록 binarySearch() 함수를 수정하시오.
```python
#Todo

x = 24
r.insert(binarySearch(r, x), x )
print(r)
```

## 마무리

- 이 장에서는 알고리즘의 정의, 기술방법, 알고리즘의 성능 분석 방법에 대해서 알아보았다.
- 알고리즘의 성능 분석은 알고리즘의 실행시간을 분석하는 시간복잡도와 알고리즘이 필요로 하는 메모리의 양인 공간복잡도가 있다.
- 보통 알고리즘의 복잡도를 이야기 할 때 대개는 시간복잡도를 의미한다.
- 탐색이란 여러 개의 자료 중에서 원하는 자료를 찾는 작업으로 순차탐색과 이진탐색에 대해 알아보았다.
- 순차 탐색은 정렬되지 않은 리스트에서 처음부터 마지막까지 하나씩 검사하는 방법이다.
- 이진 탐색은 정렬된 리스트에서 검색 범위를 줄여 나가면서 검색 값을 찾는 알고리즘이다.
- 이진 탐색은 정렬된 리스트에만 사용할 수 있다는 단점이 있지만, 검색이 반복될 때마다 검색 범위가 절반으로 줄기 때문에 속도가 빠르다는 장점이 있다.



---
<font color='Grey' size="4">
F37.204 컴퓨팅 핵심: 컴퓨터로 생각하기(Core Computing: Thinking with Computers)</font>

---
서울대학교 학부대학<br>
교수 변해선