## Chapter 4. Recursion
Recursion(재귀)는 함수가 실행 도중 자기 자신을 호출 하거나, 자료 구조가 자기 자신을 표현함에 있어서 같은 타입의 더 작은 인스턴스들에 의존하는 테크닉을 의미한다. 예술이나 자연에는 Recursion의 예시가 많이 존재한다. 예를 들어, 프랙탈 패턴은 자연적으로 Recursive하다. 

![Recursion](https://user-images.githubusercontent.com/20944657/36637991-2dfe575c-1a2b-11e8-8251-ed6a015fcd07.jpg)

컴퓨터의 세계에서 재귀는 반복적인 작업을 할 때 루프에 대한 강력하면서도 우아한 대안을 제시해준다. 사실 몇몇 프로그래밍 언어(e.g. Scheme, Smalltalk)은 명시적으로 루프를 지원하지 않으며 반복을 표현하기 위해 재귀에만 의존하기도 한다. 대부분의 현대 프로그래밍 언어는 재귀 함수를 지원하고 있다. 만약 함수가 재귀 호출을 하는 경우 나머지 함수의 실행은 재귀 호출이 완료될때까지 중단된다. 재귀는 자료구조와 알고리즘의 학습에 있어 중요한 테크닉이다. 앞으로 이는 많이 사용될 것이며 특히 **Tree**와 **Sort** 를 다룰 때 많이 이용될 것이다.

## 4.1.1 The Factorial Function
재귀의 메카니즘을 설명하기 위한 좋은 예제로는 팩토리얼 함수가 있다. 팩토리얼 함수는 n개의 원소에 대한 **순열(permutation)**의 수를 나타낸다는 점에서 중요하다. 팩토리얼 함수의 일반적인 표기는 아래와 같다.

$n!=\left\{ \begin{array}{l}
    1 \quad \text{if $n = 0$}\\
    n \cdot (n-1) \cdot (n-2) \cdots 3 \cdot 2 \cdot 1 \quad \text{if $n \geq 1$}\\
  \end{array} \right.$
  
이를 좀 더 재귀적인 관점에서 본다면 아래와 같이 쓸 수 있을 것이다.

$n!=\left\{ \begin{array}{l}
    1 \quad \text{if $n = 0$}\\
    n \cdot (n-1)!\quad \text{if $n \geq 1$}\\
  \end{array} \right.$
  
이러한 정의는 많은 재귀적 정의의 전형적인 형태라 할 수 있다. 첫째로, 재귀적 정의는 하나 이상의 **종료 조건(base condition)**을 갖는다. 종료 조건이란 재귀적이지 않게 정의된 경우를 의미하는데, 여기에서는 $n = 0$이 종료 조건이 된다. 또한 재귀적 정의는 정의되고 있는 함수의 정의를 이용하는 하나 이상의 **recursive cases**를 갖는다. 이를 파이썬 코드로 구현하면 다음과 같다

```python
def factorial(n):
    if n == 0:
        return 1
    else:
        return n * factorial(n-1)
```

위의 코드는 명시적인 루프를 갖고 있지 않으며, 반복은 함수 내에서 재귀적 호출에 의해서 이루어진다. 이 함수 내에는 순환성(circularity)이 존재하지 않는데, 함수가 호출될 때마다 그 인자가 1씩 작아지며 종료 조건에 도달할 때 더 이상의 재귀 호출이 이루어지지 않기 때문이다. 우리는 재귀 함수의 실행을 **recursion trace**를 이용하여 묘사할 수 있다. 
![figure-4 1](https://user-images.githubusercontent.com/20944657/36638115-0d00e58e-1a2f-11e8-9c4c-beaae434c618.png)

파이썬 내에서는 함수가 실행될 때마다 함수 실행의 진행 과정에 대한 정보를 저장하기 위한 **activation record** 혹은 **frame**이라고 알려진 구조가 생성된다. 이 액티베이션 레코드는 함수 호출의 파라미터와 지역 변수에 대한 네임스페이스를 저장하고 있으며, 현재 함수의 어느 부분이 실행되고 있는지에 대한 정보를 저장한다. 만약 함수의 실행 도중 중첩 함수의 호출이 이루어질 경우, 이전의 호출은 중단되며 액티베이션 레코드는 중첩 함수의 호출이 끝났을 때 어느 부분부터 다시 코드를 실행해야 하는지에 대한 정보를 저장한다. 이러한 프로세스는 재귀 함수 뿐 아니라 일반적인 함수에서 다른 함수를 호출할 때에도 동일하게 실행된다. 중요한 점은 각각의 호출마다 새로운 액티베이션 레코드가 존재한다는 점이다.

## 4.1.2 Drawing an English Ruler
팩토리얼의 경우, 굳이 직접 루프를 이용하지 않고 재귀함수를 써야 할 필요를 느끼기 힘들다. 따라서 더 복잡한 예시로서 자를 그리는 경우를 생각해보자. 밑의 그림에서 매 인치마다 그려지는 길이를 **major tick length**라 하며, 그 사이에서 1/2인치, 1/4인치, ... 마다 그려지는 틱들을 **minor ticks**로 부른다. 인치가 1/2씩 줄어들 때마다 틱의 길이는 1씩 줄어든다.
![figure 4-2](https://user-images.githubusercontent.com/20944657/36638147-fca93d52-1a2f-11e8-9673-96237345e392.PNG)

이러한 자의 패턴은 다양한 수준의 배율을 갖고 있는 재귀적 구조 모양 프랙탈의 간단한 예제이다. major tick length가 5인 (b)를 보자. 0과 1을 나타내는 선을 무시하고, 나머지 그림은 어떻게 그릴 수 있을까? 가운데의 틱(1/2인치)은 길이가 4이다. 이 틱을 기준으로 위 아래를 보면 길이가 3인 틱을 중심으로 하는 동일한 구조를 갖고 있음을 알 수 있다. 이를 일반화하면 다음과 같다.

일반적으로, 가운데에 있는 틱의 길이가 $L \geq 1$인 구간은 다음과 같이 구성된다:
- 가운데에 있는 틱의 길이가 $L - 1$인 구간
- 길이가 $L$인 하나의 틱
- 가운데에 있는 틱의 길이가 $L - 1$인 구간

물론 루프를 통해 이러한 그림을 그릴 수도 있겠지만 recursion을 이용하면 매우 간단하게 그림을 그릴 수 있다. 코드는 다음과 같다.

```python
def draw_line(tick_length, tick_label = ''):
    """Draw one line with given tick length (followed by optional label)"""
    line = '-' * tick_length
    if tick_label:
        line += ' ' + tick_label
    print(line)
    
def draw_interval(center_length):
    """Draw tick interval based upon a central tick length."""
    if center_length > 0:                      # stop when length drops to 0
        draw_interval(center_length - 1)       # recursively draw top ticks
        draw_line(center_length)               # draw center tick
        draw_interval(center_length - 1)       # recursively draw bottom ticks
        
def draw_ruler(num_inches, major_length):
    """Draw English ruler with given number of inches, major tick length."""
    draw_line(major_length, '0')               # draw inch 0 line
    for j in range(1, 1 + num_inches):
        draw_interval(major_length - 1)
        draw_line(major_length, str(j))
```
이를 recursive trace로 나타내면 다음과 같다.
![figure-4 3](https://user-images.githubusercontent.com/20944657/36638194-7fbda0d8-1a31-11e8-82bf-b6215896198f.png)

## 4.1.3 Binary Search
이번엔 고전적인 재귀 알고리즘인 **binary search**를 알아보자. 바이너리 서치는 이미 정렬이 된(sorted) 수열 내에서 목표 값을 효율적으로 찾아내는 알고리즘이다. 이는 컴퓨터 알고리즘에서 가장 중요한 알고리즘 중 하나이고, 이를 위해서 우리는 데이터를 정렬한 채로 저장한다.
![figure-4 4](https://user-images.githubusercontent.com/20944657/36638219-1691430c-1a32-11e8-9f42-3014cbd57f4b.png)

만약 수열이 정렬이 되어 있지 않다면, 목표값을 찾기 위한 표준적인 방법은 목표값을 찾을 때까지 모든 원소에 대해 루프를 실행하는 것이다. 이는 **sequential search** 알고리즘이라 알려져 있으며, 최악의 경우 모든 원소를 조사하게 되므로 $O(n)$의 시간이 걸린다 그러나 수열이 **정렬이 되어있고, 인덱스를 지원한다면,** 훨씬 더 효율적인 알고리즘이 존재한다. 예를 들어 인덱스 $j$를 기준으로 생각해보자. $0,1,...,j-1$ 인덱스를 갖는 값은 모두 $j$ 인덱스의 값보다 작을 것이며, $j+1,...,n-1$을 인덱스로 갖는 값들은 $j$ 인덱스의 값보다 클 것이다. 이를 이용하면 어린 애들이 "high-low" 게임을 하는 것처럼 빠르게 검색해야 할 타겟을 줄여나갈 수 있다. 

이제 어떻게 서치가 이루어지는지 알아보자. 우리는 각각의 단계에서 목표값이 아니라고 배제할 수 없는 원소들을 **후보(candidate)**라 부른다. 알고리즘은 `low`, `high`의 두 파라미터를 갖는다. 현재 후보군에 있는 원소들의 인덱스는 모두 이 `low`와 `high` 값 사이에 존재할 것이다. 처음엔 $low = 0$, $high = n-1$로 시작한다. 이후 목표값과 $data[mid]$를 비교한다. 이 때의 mid는 $mid = \lfloor(low + high)/2\rfloor$로 정의된다. 이제 다음의 세 가지 경우를 따지면 된다.
- 만약 목표값이 $data[mid]$와 같다면 탐색이 중단된다.
- 만약 $target < data[mid]$라면 수열의 앞부분(`low`부터 `mid-1`까지의 구간)에 대해 탐색을 반복한다.
- 만약 $target > data[mid]$라면 수열의 뒷부분(`mid+1`부터 `high`까지의 구간)에 대해 탐색을 반복한다.

만약 $low > high$가 되어 구간 $[low, high]$가 공집합이 된다면 탐색에 실패한 것이다. 이러한 알고리즘을 바이너리 서치라 하며, 바이너리 서치는 $O(n)$의 시간에 이루어진다. 바이너리 서치 알고리즘의 계산 복잡도에 대한 구체적인 분석은 Section 4.2에서 살펴보자. 다음은 바이너리 서치를 파이썬으로 구현한 것이다.

```python
def binary_search(data, target, low, high):
    """Return True if target is found in indicated portion of a Python list.
    
    The search only considers the portion from data[low] to data[high] inclusive.
    """
    if low > high:                                  # interval is empty; no match
        return False
    else:
        mid = (low + high) // 2
        if target == data[mid]:
            return True
        elif target < data[mid]:
            # recur on the portion left of the middle
            return binary_search(data, target, low, mid - 1)
        else:
            # recur on the portion right of the middle
            return binary_search(data, target, mid+1, high)
```

아래의 그림은 주어진 수열에서 22를 찾는 바이너리 서치 알고리즘의 예제이다.
![figure-4 5](https://user-images.githubusercontent.com/20944657/36638278-de9cb89e-1a33-11e8-9a87-aa12bcd750f9.png)

## 4.1.4 File Systems
현대의 운영체제(OS)들은 파일-시스템 디렉토리(폴더)를 재귀적인 형태로 정의한다. 파일 시스템은 가장 상위 레벨에 위치한 디렉토리와 그 디렉토리 안에 들어있는 파일과 다른 디렉토리들로 이루어져있고, 또 그 디렉토리들 안에는 다른 파일들과 디렉토리들이 존재한다. 운영체제는 메모리가 허용하는 한 디렉토리들이 계속해서 중첩되는 것을 허용한다. 물론 위에서 봤듯이 디렉토리 중에는 파일만 포함하고 추가적인 디렉토리는 포함하지 않는, 종료 조건을 만족하는 디렉토리가 반드시 있어야 한다. 아래의 그림을 보면 이해가 될 것이다.
![figure-4 6](https://user-images.githubusercontent.com/20944657/36638301-c1b4d332-1a34-11e8-8800-b30b715995c8.png)

파일 시스템이 재귀적 성질을 갖기 때문에 디렉토리의 복사나 삭제와 같은 동작 또한 재귀 알고리즘에 기반하여 이루어진다. 그 알고리즘 중에서도 우리가 이번에 살펴볼 알고리즘은 운영체제가 어떻게 특정 디렉토리의 총 디스크 사용량을 계산하는가에 대한 것이다. 이를 위해 알아야 할 개념으로는 *immediate* disk usage와 *cumulative* disk usage이다. *immediate* disk usage는 중첩된 요소들에 대한 용량을 제외하고 각 엔트리가 차지하는 용량을 의미하며, *cumulative* disk usage는 중첩된 요소들을 포함한 총 용량을 의미한다. 예를 들어, 아래의 그림에서 `cs016` 디렉토리는 2K만큼의 immediate space를 차지하면서도 249k의 cumulative space를 차지한다.

![figure-4 7](https://user-images.githubusercontent.com/20944657/36638319-43374eb2-1a35-11e8-80e1-8a46d30137d3.png)

cumulative disk space는 간단한 재귀 알고리즘으로 계산할 수 있다. 이는 그 엔트리의 immediate disk space와 중첩된 요소들의 *cumulative* disk space의 합과 같다. 예를 들어 `cs016`의 cumulative disk space는 249K인데, 이는 `cs016`의 2K, `grades`의 8K, `homeworks`의 10K, `programs`의 229K를 합한 것이다. 이를 Pseudo-code로 나타내면 아래와 같다.

**Algorithm** DiskUsage(path):<br>
&nbsp;&nbsp;&nbsp;&nbsp;**Input:** A string designating a path to a file-system entry<br>
&nbsp;&nbsp;&nbsp;&nbsp;**Output:** The cumulative disk space used by that entry and any nested entries<br>
&nbsp;&nbsp;&nbsp;&nbsp;total = size(path)<br>
&nbsp;&nbsp;&nbsp;&nbsp;**if** path represents a directory then<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;**for** each child entry stored within directory path **do**<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;total = total + DiskUsage(child)<br>
&nbsp;&nbsp;&nbsp;&nbsp;**return** total<br>

이제 이 재귀 알고리즘을 파이썬으로 구현해보자. 이를 위해서는 파이썬의 `os` 모듈을 좀 살펴봐야 한다.
- **os.path.getsize(path)**<br>`path` 스트링이 지시하는 파일이나 디렉토리의 immediate disk usage(바이트 단위)를 반환한다
- **os.path.isdir(path)**<br>`path` 스트링이 지시하는 항목이 디렉토리인 경우 True를 반환한다.
- **os.listdir(path)**<br>`path` 스트링이 지시하는 디렉토리 안의 모든 항목들의 이름을 문자열 리스트로 반환한다
- **os.path.join(path, filename)**<br>`path` 문자열과 `filename` 문자열을 해당 OS에 적합하게끔 합쳐준다(e.g. Unix/Linux 시스템은 /, Windows 시스템은 \\). 파일까지의 전체 경로 문자열을 반환한다.

```python
import os

def disk_usage(path):
    """Return the number of bytes used by a file/folder and any descendents."""
    total = os.path.getsize(path)                       # account for direct usage
    if os.path.isdir(path):                             # if this is a directory,
        for filename in os.listdir(path):               # then for each cild:
            childpath = os.path.join(path, filename)    # compose full path to child
            total += disk_usage(childpath)              # add child's usage to total
            
    print('{0:<7}'.format(total, path))                 # descriptive output (optional)
    return total                                        # return the grand total
```

위 코드의 recursion trace는 다음과 같다. 이는 Unix/Linux 유틸리티 `du`에서 `-ak` 옵션을 주고 실행한 결과와 같다.
```bash
8 /user/rt/courses/cs016/grades 
3 /user/rt/courses/cs016/homeworks/hw1 
2 /user/rt/courses/cs016/homeworks/hw2 
4 /user/rt/courses/cs016/homeworks/hw3 
10 /user/rt/courses/cs016/homeworks 
57 /user/rt/courses/cs016/programs/pr1 
97 /user/rt/courses/cs016/programs/pr2 
74 /user/rt/courses/cs016/programs/pr3 
229 /user/rt/courses/cs016/programs 
249 /user/rt/courses/cs016 
26 /user/rt/courses/cs252/projects/papers/buylow 
55 /user/rt/courses/cs252/projects/papers/sellhigh 
82 /user/rt/courses/cs252/projects/papers 
4786 /user/rt/courses/cs252/projects/demos/market 
4787 /user/rt/courses/cs252/projects/demos 
4870 /user/rt/courses/cs252/projects 
3 /user/rt/courses/cs252/grades 
4874 /user/rt/courses/cs252 
5124 /user/rt/courses/ 
```

## 4.2 Analyzing Recursive Algorithms
재귀 알고리즘의 계산 복잡도를 분석하기 위해서는 함수가 실행될 때마다 생성되는 **activation** 안에서의 연산 갯수를 살펴보면 된다. 전체 알고리즘의 연산 수를 알고 싶다면 모든 activation들의 연산 갯수를 더하면 된다. 이러한 방법은 재귀 함수 뿐 아니라 다른 함수를 호출하는 함수의 경우에도 똑같이 적용될 수 있다. 이제 4.1에서 살펴본 4개의 재귀 알고리즘을 분석해보자.

### Computing Factorials
팩토리얼의 경우 함수의 효율성을 분석하기가 매우 쉽다. 우선 activation의 수를 체크해보자. 처음에 n을 인자로 하는 `factorial(n)`의 호출부터, 종료조건인 `factorial(0)`까지 총 activation의 수는 $n+1$개가 된다. 그러면 이제 각각의 activation 안에서는 몇 번의 연산이 이루어지는지만 알면 된다. 위의 코드를 잘 살펴보면 하나의 activation 안에서는 상수개 만큼의 연산만 실행됨을 알 수 있을 것이고, 따라서 `factorial(n)`을 계산하기 위한 전체 연산 수는 $O(n)$ 임을 알 수 있다. $n+1$개의 operation에서 각각 $O(1)$ 만큼의 연산이 이루어지기 때문이다.

### Drawing an English Ruler
우선 살펴봐야 할 것은 `draw_interval(c)`에서 총 몇 개의 선이 그려지느냐 하는 것이다. 소스 코드를 살펴보면 `draw_interval(c)`를 호출할 때 두 번의 `draw_interval(c-1)`, 한 번의 `draw_line` 호출이 이루어짐을 알 수 있다. 이러한 직관을 바탕으로 다음의 명제를 보자.

**Proposition 4.1:** For $c \geq 0$, a call to `draw_interval(c)` results in precisely $2^{c} - 1$ lines of output

**Justification:** 귀납법을 이용해서 증명한다. 귀납법은 재귀적인 프로세스의 효율성과 정확도를 증명하기 위한 자연스러운 방법이다. 자의 경우, `draw_interval(0)`은 어떠한 결과물도 만들어내지 않고, $2^{0} - 1 = 1 - 1 = 0$이 된다. 따라서 $c = 0$ 일 때가 우리의 종료 조건이 된다. 이제 일반적인 경우를 생각해보자. `draw_interval(c)`에 의해서 그려지는 선의 갯수는 `draw_interval(c-1)`에 의해 그려지는 선의 개수 * 2 + 1이 되는 것은 쉽게 알 수 있을 것이다. 이제 귀납법의 가정을 적용하면 `draw_interval(c)`에 의해 그려지는 선의 개수는 $1 + 2 \cdot (2^{c-1} - 1) = 1 + 2^{c} - 2 = 2^{c} - 1$이 되고 증명이 끝난다.

### Performing a Binary Search
바이너리 서치 알고리즘에서는 매 과정마다 상수 갯수만큼의 기초적인 연산이 이루어진다. 따라서 총 계산 시간은 재귀 호출이 몇 번이나 이루어졌는지에 비례하게 된다. 사실, n개의 원소가 있을 때 최대 $\lfloor logn \rfloor + 1$ 만큼의 재귀 호출이 이루어짐을 보일 수 있다.

**Proposition 4.1:** The binary search algorithm runs in $O(logn)$ time for a sorted sequence with $n$ elements

**Justification:** 이를 증명하기 위해 중요한 사실은 각각의 재귀 호출이 이루어질 때 검색해야 할 후보 엔트리의 갯수가 $high - low + 1$로 주어진다는 점이다. 그리고, 매 호출이 이루어질 때마다 이 후보들의 갯수는 최소한 반씩 줄어들게 된다. 이를 수식으로 나타내면 다음과 같다.

$(mid - 1) - low + 1 = \lfloor \frac{low + high}{2} \rfloor - low \leq \frac{high - low + 1}{2}$<br>
or<br>
$high - (mid + 1) + 1 = high - \lfloor \frac{low + high}{2} \rfloor \leq \frac{high - low + 1}{2}$

처음에 후보의 개수는 $n$개이지만 다음 호출엔 최대 $n/2$, 그 다음엔 최대 $n/4$가 되며 계속 반씩 줄어들게 된다. 이를 일반화해서 표현하면, 바이너리 서치의 $j^{th}$ 호출 이후에 남아있는 후보의 개수는 최대 $n/2^{j}$가 된다. 최악의 경우, 재귀 호출은 더 이상 후보가 없을 때 정지하게 된다(원하는 값을 찾지 못한 경우). 따라서 발생할 수 있는 재귀 호출의 최대 횟수는 $\frac{n}{2^{r}} \lt 1$을 만족하는 가장 작은 정수 $r$이 된다. 이를 $log_{2}$를 이용하여 다시 나타내면 $r \gt log(n)$이고, 결국 $r = \lfloor log(n) \rfloor + 1$이 되어 바이너리 서치의 계산 복잡도는 $O(logn)$이라는 결론이 나온다.

### Computing Disk Space Usage
우리가 다루는 파일 시스템 안의 총 엔트리 개수를 $n$이라 두자(예를 들어, 우리가 다룬 예제의 경우에는 19개의 엔트리가 존재한다). 계산 복잡도를 계산하기 위해서는 총 몇번의 재귀 호출이 이루어졌고, 각각의 호출 안에서 몇 번의 연산이 이루어졌는지를 알아야 한다. 사실, 이 경우 정확히 $n$ 번의 재귀 호출이 이루어진다. 이를 증명하기 위해서 각각의 항목에 대해 **중첩 레벨(nesting level)**을 정의해야한다. 첫 항목의 중첩 레벨은 0이고, 바로 그 안에 저장되어 있는 항목의 중첩 레벨은 1이다. 그리고 이 항목들에 저장되어 있는 중첩 레벨은 2이고, 이렇게 하면 전체 항목에 대해 중첩 레벨이 몇인지 계산할 수 있다. 

이제, 귀납법을 이용하면 중첩 레벨이 $k$인 항목들 모두에 대해 한번씩 재귀 호출이 이루어짐을 보일 수 있다. 종료 조건인 $k=0$은 자명한데, 우리가 처음 호출할 때 호출이 한번 이루어지기 때문이다. 이제 귀납 가정으로 중첩 레벨이 $k$인 항목들에 대해 각각 한번씩 재귀 호출이 이루어진다고 하자. 그러면 중첩 레벨이 $k+1$인 항목들에 대해서도 호출이 한번씩만 이루어지는 것은 당연하다. 왜일까? 중첩 레벨이 $k$인 항목 안에 들어있는 항목들은 `for`문에 의해 한번씩만 호출이 되기 때문이다. 쉬운 예로, `music` 폴더 안에 `abc.mp3`, `def.mp3` 파일 두개가 있는 경우를 생각해보자. `music` 폴더가 중첩레벨이 $k$라고 한다면, 귀납 가정에 의해 `music` 폴더에 대한 재귀 호출은 한번만 이루어진다. 다른 폴더에서 `abc.mp3`나 `def.mp3`를 호출할 일은 없으므로 `music` 폴더에 대한 호출 안에서 일어나는 `for` 루프에 의해 중첩 레벨이 $k+1$인 `abc.mp3`, `def.mp3`에 대한 호출 또한 한번씩만 이루어진다. 

이제 이 알고리즘의 전체 계산 시간을 계산해보자. `os.path.getsize` 메소드가 상수 번의 연산만으로 이루어지므로 함수를 한 번 호출할 때마다 $O(1)$만큼의 시간이 걸린다고 할 수 있다면 좋겠지만, 그 항목이 파일이 아니라 디렉토리인 경우에는 `for` 루프문이 돌아가게 된다. 최악의 경우, 하나의 항목이 나머지 $n-1$개의 항목을 모두 포함하고 있는 경우가 생길 수도 있다. 따라서 $O(n)$ 번의 재귀 호출이 있고 각각의 호출이 $O(n)$만큼의 시간이 걸리게 되므로 전체 실행 시간은 $O(n^{2})$가 된다. 이러한 상한(upper bound)의 계산은 기술적인 관점에서 볼 때 틀린 것은 아니다. 그러나 tight upper bound라고 말할 수는 없다. 

놀랍게도, 디스크 사용량 계산 알고리즘은 $O(n)$ 안에 끝난다는 것을 보일 수 있다. 앞서 계산한 방법에서는 각각의 디렉토리가 갖는 항목의 개수에 대한 최악의 경우를 상정했다. 그러나 잘 생각해보면, 몇몇 디렉토리가 n에 비례하는 항목의 갯수를 가질 수도 있긴 하지만 모든 디렉토리가 그럴 수 있는 것은 아니다. 이를 증명하기 위해 모든 재귀 호출에서 일어나는 `for` 루프의 반복 횟수를 생각해보자. 우리는 그런 반복이 총 $n - 1$번 일어날 것임을 보일 수 있다. 어떻게 보일 수 있을까? 이를 보이기 위해서는 각각의 루프 반복때마다 `disk_usage`에 대한 호출이 발생한다는 것을 생각해보면 된다. 우리는 이미 `disk_usage`에 대한 호출이 $n$번 발생할 것이라는 것을 보였다. 그런데 각각의 iteration마다 한번의 `disk_usage` 호출이 발생한다. 그러면 총 반복 횟수는 당연히 $n$개일 수 밖에 없다. 따라서 이 알고리즘에서는 $O(n)$ 번의 재귀 호출이 발생하고 각각의 호출에서는 `for` 루프를 제외하고 $O(1)$ 번의 연산이 이루어진다. 또한, `for`문으로 인해 발생하는 *종합적인* 연산 수는 $O(n)$이다. 따라서 이를 합하면 전체 연산 갯수는 $O(n)$이라는 결론이 나온다.

이렇게, 각각의 경우에 대한 최악의 케이스를 가정하는 것이 아니라 누적되는 효과(cumulative effect)를 고려하여 더 타이트한 상한을 얻어내는 아이디어를 **amortization** 테크닉이라고 부른다. 이는 Section 5.3에서 다시 한번 다룰 것이며, 이 예제에서 다룬 파일 시스템은 **트리(tree)** 자료 구조의 대표적인 예제이다. 또한, 이 알고리즘은 **Tree Traversal**이라는 일반적인 알고리즘의 구체적인 한 형태가 된다. 이는 Section 8에서 트리를 다루면서 더 자세하게 다룰 것이다.

## 4.3.1 Maximum Recursive Depth in Python
재귀를 잘못 이용할 경우의 문제는 **infinite recursion**이다. 만약 종료조건 없이 계속해서 재귀 호출이 또 다른 재귀 호출을 발생시킨다면 무한히 많은 호출이 일어날 것이다. 이는 심각한 에러이다. 이는 CPU를 계속해서 사용할 뿐 아니라 계속해서 액티베이션 레코드를 생성하기 때문에 메모리도 잡아먹게 된다. 
```python
def fib(n):
    return fib(n)
```
위의 예제는 잘못 작성한 잘못된 재귀 함수의 예제이다. 그러나 보통 문제가 생기는 경우는 이렇게 명확하지 않고 좀 더 미묘한 상황일 때가 많다. 예를 들어 바이너리 서치에서 코드가 아래와 같이 짜여졌다고 하자. `mid+1`이 들어가야 할 부분에 `mid`가 들어가게 되면 같은 구간에 대해 계속해서 재귀 호출이 이루어지고 에러에 빠지게 된다.
```python
if ...:
    pass
else:
    # recur on the portion right of the middle (mistake was made so that "mid" is used instead of "mid + 1"
    return binary_search(data, target, mid, high)
```

따라서 프로그래머는 항상 재귀 호출이 종료 조건을 향해서 잘 이루어지고 있는지 확인할 필요가 있다. 또한, 이러한 무한 재귀를 막기 위해서 파이썬의 설계자들은 동시에 활성화될 수 있는 함수 액티베이션의 수에 제한을 두었다. 이 제한의 구체적인 수치는 어떤 배포 버전을 설치했는지에 따라 다르지만 일반적으로는 1000개로 제한되어 있다. 이 제한에 도달하게 되면 파이썬 인터프리터는 `maximum recursion depth exceeded`라는 메세지와 함께 `RuntimeError`를 발생시킨다.

일반적인 경우에 1000개의 제한은 크게 문제가 되지 않는다. 예를 들어 $O(logn)$의 바이너리 서치의 경우 이 제한에 걸리기 위해서는 원소의 개수가 $2^{1000}$개여야 하는데, 이는 우주 전체의 원자의 수보다도 훨씬 많은 숫자이다. 그러나 이후 우리가 논의할 여러 알고리즘 중에서는 재귀의 깊이가 $n$에 비례하는 것들이 있다. 그런 경우 파이썬의 이 제한때문에 문제가 생기기도 한다. 다행히도, 파이썬 인터프리터에서 `sys` 모듈을 이용하면 이러한 제한을 해제하는 것이 가능하다. 

```python
import sys
old = sys.getrecursionlimit()     # perhaps 1000 is typical
sys.setrecursionlimit(1000000)    # change to allow 1 million nested calls
```
