# 빅 오로 코드 속도 올리기

- 빅 오 표기법은 알고리즘을 객관적인 방법으로 측정할 수 있어서 경쟁 알고리즘을 비교할 때 훌륭한 도구가 된다
- 이진 검색이 O(log N)이므로 선형 검색인 O(N)보다 훨씬 빠른 알고리즘이라 할 수 있다
- 일상적으로 작성하는 코드에서도 항상 두 가지 대안이 명확하게 떠오르는 것은 아니다
    - 대부분의 프로그래머가 그러하듯이 아마 머릿속에 가장 먼저 떠오른 방법을 시도할 가능성이 높다
    - 빅 오를 사용하면 내가 만든 알고리즘과 세상에 존재하는 범용 알고리즘을 비교할 기회가 생기며 스스로 자문해 볼 수 있다
- 빅 오에서 내가 만들 알고리즘을 "느린" 알고리즘이라고 꼬리표를 붙였다면 더 빠른 빅 오 카테고리에 들어갈 수 있게 최적화하는 방법을 찾아볼 수 있다

## 버블 정렬

- 빅 오 세계에서 알고리즘 효율성을 표현하는 새로운 카테고리를 배워보자
- "정렬 알고리즘"은 컴퓨터 과학 분야에서 폭넓게 연구된 주제이며, 지난 수년간 수십 개의 정렬 알고리즘이 개발돼 왔다.
    - 이러한 알고리즘 모두 다음의 문제를 해결한다
#### 정렬되지 않은 배열이 주어졌을 때, 어떻게 오름차순으로 정렬할 수 있을까?

- "단순 정렬(simple sort)"이라 알려진 알고리즘 분류
- 매우 기본적인 정렬 알고리즘인 "버블 정렬(bubble sort)"은 다음과 같은 단계를 따른다
    - 1. 배열 내에서 연속된 두 항목을 가리킨다(처음에는 배열의 첫 번쨰 원소부터 시작해서 처음 두 항목을 가리킨다)
        - 첫 번째 항목과 두 번쨰 항목을 비교한다
    - 2. 두 항목의 순서가 뒤바뀌어 있으면(즉, 왼쪽 값이 오른쪽 값보다 크면) 두 항목을 교환(Swap)한다
        - 순서가 올바르다면 2단계에서는 아무것도 하지 않는다
    - 3. "포인터"를 오른쪽으로 한 셀씩 옮긴다
        - 배열의 끝까지 또는 이미 정렬된 어떤 항목까지 1단계와 2단계를 반복한다
    - 4. 더 이상 교환하지 않을 때까지 1단계부터 3단계를 반복한다
        - 더는 교환을 하지 않는다는 것은 배열이 정렬된 상태하는 뜻이다
        
- 1단계부터 3단계까지 반복하는 것을 "패스스루(passthrough)"라고 부른다
    - 알고리즘의 주요 단계들을 "통과"햇다는 의미이며 배열이 완전히 정렬될 때까지 같은 절차를 반복한다

## 버블 정렬 실제로 해보기

- [4, 2, 7, 1, 3]이라는 배열을 정렬
- 현재는 순서가 뒤죽박죽인 데다 중복 값이 포함된 배열을 올바르게 오른차순으로 정렬

#### 첫 번째 패스스루

- 배열의 처음 상태는 다음과 같다
```
[4,2,7,1,3]
```
- 1단계 : 먼저 4와 2를 비교한다.
    - 순서가 맞지 않다
- 2단계 : 4와 2를 교환한다
    - [2,4,7,1,3]
- 3단계 : 다음으로 4와 7을 비교한다
    - 순서가 올바르다. 교환할 필요가 없다.
- 4단계 : 이제 7과 1을 비교한다.
    - [2,4,7,1,3]
- 5단계 : 순서가 맞지 않으므로 교환한다.
    - [2,4,1,7,3]
- 6단계 : 7과 3을 비교한다
    - 순서가 맞지 않다
- 7단계 : 순서가 맞지 않으므로 교환한다
    - [2,4,1,3,7]
- 이제 7은 확실히 배열 내에서 올바른 위치에 있다, 적절한 위치에 도달할 때까지 7을 계속해서 오른쪽으로 옮겼기 때문이다
    - 이 알고리즘을 버블 정렬이라고 부르는 까닭이 바로 여기에 있다
    - 각 패스스루마다 정렬되지 않은 값 중 가장 큰 값,"버블"이 올바른 위치로 가게 된다
    - 첫 번째 패스스루에서 교환을 적어도 한 번 수행했으니 다음 패스스루도 수행해야 한다 
    
#### 두 번째 패스스루

- 7은 이미 올바른 위치에 있다
```
[2,4,1,3,7]
```

- 8단계 : 2와 4를 비교하며 시작한다
    - 올바른 순서이므로 다음 단계로 넘어간다
- 9단계 : 4와 1을 비교한다
    - 순서가 맞지 않다
- 10단계 : 순서가 맞지 않으므로 교환한다
    - [2,1,4,3,7]
- 11단계 : 4와 3을 비교한다
    - 순서가 맞지 않다
- 12단계 : 순서가 맞지 않으므로 교환한다
    - [2,1,3,4,7]
- 첫 번째 패스스루를 통해 7이 이미 올바른 위치라는 것을 알고 있으니 4와 7은 비교할 필요가 없다
    - 이제 4 역시 올바른 위치로 올라갔다
    - 이로써 두 번째 패스스루도 끝났다
    - 두 번째 패스스루에서 교환을 적어도 한 번 수행했으니 다음 패스스루도 수행해야 한다

#### 세 번째 패스스루

- 13단계 : 2와 1을 비교한다
    - 순서가 맞지 않다
- 14단계 : 순서가 맞지 않으니 교환한다
    - [1,2,3,4,7]
- 15단계 : 2와 3을 비교한다
    - 순서가 올바르니 교환할 필요가 없다
- 이제 3이 올바른 위피로 올라갔다.
- 세 번째 패스스루에서 교환을 적어도 한 번 수행했으니 다음 패스스루를 수행해야 한다

#### 네 번째 패스스루

- 16단계 : 1과 2를 비교한다
    - 순서가 올바르니 교환할 필요가 없다
- 나머지 값은 모두 이미 올바르게 정렬되었으니 네 번째 패스스루를 종료할 수 있다
- 어떠한 교환도 하지 않은 패스스루였으므로 이제 이 배열은 완전히 정렬됐다

## 버블 정렬 구현

#### 파이썬으로 구현한 버블 정렬

In [7]:
def bubble_sort(list):
    unsorted_until_index = len(list) - 1
    sorted = False
    
    while not sorted:
        sorted = True
        for i in range(unsorted_until_index):
            if list[i] > list[i+1]:
                sorted = False
                list[i], list[i+1] = list[i+1], list[i]
        unsorted_until_index = unsorted_until_index - 1

In [8]:
list = [65, 55, 45, 35, 25, 15, 10]

In [9]:
len(list)

7

In [10]:
bubble_sort(list)

In [11]:
print(list)

[10, 15, 25, 35, 45, 55, 65]


#### 코드 리뷰
```
unsorted_until_index = len(list) - 1
```
- unsorted_until_index 변수로 어떤 인덱스까지 아직 정렬되지 않았는지 기록한다
    - 처음에는 전체 배열이 정렬되지 않은 상태이므로 배열의 마지막 인덱스로 변수를 초기화한다

------------------------------------------------------------------------------------------------------------------
```
sorted = False
```
- 배열의 정렬 여부를 기록하는 sorted 변수도 생성한다
    - 코드가 처음 실행될 때는 정렬되지 않은 상태다
------------------------------------------------------------------------------------------------------------------
    
```
while not sorted:
    sorted = True
```
- 배열이 정렬될 때까지 계속해서 실행될 while 루프를 시작한다
- 바로 이어서 sorted에 True를 할당한다
- 값을 교환하는 즉시 sorted를 False로 변경할 것이다
- 이렇게 해야 어떤 교환도 하지 않고 전체 패스스루를 통과했다면 배열이 완전히 정렬된 상태임을 알 수 있다.
------------------------------------------------------------------------------------------------------------------

```
for i in range(unsorted_until_index):
    if list[i] > list[i + 1]:
        sorted = False
        list[i], list[i+1] = list[i+1], list[i]
```
- while 루프 내에서 for 루프를 시작 for 루프는 배열의 첫 인덱스부터 아직 정렬되지 않은 인덱스까지 수행된다
- for 루프 내에서는 모든 인접 값 쌍을 비교하고 순서가 뒤바뀌어 있으면 교환한다
    - 또한, 교환하게 되면 sorted를 False로 바꾼다
------------------------------------------------------------------------------------------------------------------

```
unsorted_until_index = unsorted_until_index - 1
```
- 위 코드를 통해 패스스루를 하나 완료했으며 오른쪽으로 올려준 값(버블)이 이제 올바른 위치에 있다고 확신할 수 있다
- 즉 기존에 가리키고 있던 인덱스가 이제 정렬된 상태이므로 unsorted_until_index 값을 1 감소시킨다
- 각 while 루프는 새로운 패스스루를 뜻하며 배열이 완전히 정렬됐음을 알 때까지 while 루프를 실행한다

## 버블 정렬의 효율성

#### 버블 정렬 알고리즘에 포함된 단계는 두 종류다
- 비교 :  어느 쪽이 더 큰지 두 수를 비교한다
- 교환(swap) : 정렬하기 위해 두 수를 교환한다

#### 버블 정렬에서 얼마나 많은 비교가 일어나는지 알아보자
- 예제의 배열은 원소가 5개다 ([4, 2, 7, 1, 3])

- 다시 살펴보면 첫 번째 패스스루에서 두 수의 비교를 4번 해야 했다

- 두 번째 패스스루에서는 마지막 두 수를 비교할 필요가 없었으므로 비교를 3번만 했다
    - 첫 번째 패스스루를 거치면서 마지막 숫자가 올바른 위치로 갔음을 이미 알고 있었기 때문이다

- 세 번째 패스스루에서는 비교를 2번 했고, 네 번째 패스스루에서는 비교를 딱 1번만 했다

#### 따라서,
- 4 + 3 + 2 + 1 = 10번의 비교다

- 좀 더 일반적으로 말하면 원소 N개가 있을 떄,
    - (N - 1) + (N - 2) + (N - 3)+ ... + 1번의 비교를 수행한다

#### 교환(swap)을 분석해보자
- 배열이 단순히 무작위로 섞여 있지 않고 내림차순으로(우리가 원하는 것과 완전히 반대로) 정렬된 최악의 시나리오라면 비교할 때마다 교환을 해야 한다
    - 즉, 이러한 시나리오에서는 비교 10번, 교환 10번이 일어나 총 20단계가 필요하다
------------------------------------------------------------------------------------------------------------------    
- 원소 10개가 역순으로 된 배열에서는
    - 9 + 8 + 7 + 6 + 5 + 4 + 3 + 2 + 1 = 45번의 비교와 45번의 교환이 일어난다. 총 90단계
------------------------------------------------------------------------------------------------------------------
- 원소가 20개인 배열에서는
    - 19 + 18 + 17 + ... + 1 = 190번의 비교와 약 190번의 교환이 일어나므로 총 380단계다
------------------------------------------------------------------------------------------------------------------    
- 얼마나 비효율적인가. 원소 수가 증가할수록 단계 수가 기하급수적으로 늘어난다

- 데이터 원소가 5개 일때, 최대 단계 수는 20, $N^2 = 25$ 
- 데이터 원소가 10개 일때, 최대 단계 수는 90, $N^2 = 100$
- 데이터 원소가 20개 일때, 최대 단계 수는 380, $N^2 = 400$
- 데이터 원소가 40개 일때, 최대 단계 수는 1560, $N^2 = 1600$
- 데이터 원소가 80개 일때, 최대 단계 수는 6320, $N^2 = 6400$
#### 데이터 원소 N개일때, N이 증가할 때마다 단계 수가 얼마씩 늘어나는지 정확히 살펴보면 대략 $N^2$ 만큼 늘어남을 알게 된다
#### 따라서 빅 오 표기법에서는 버블 정렬의 효율성을 $O(N^2)$ 이라 부른다

- 보다 형식적으로 표현하면, $O(N^2)$ 알고리즘은 데이터 원소가 N개일 때 대략 $N^2$단계가 걸린다

- $O(N^2)$은 데이터가 증가할 때 단계 수가 급격히 늘어나므로 비교적 비효율적인 알고리즘으로 간주된다

### 참고로 $O(N^2)$을 "이차 시간(quadratic time)"이라고도 부른다

## 이차 문제

#### 자바스크립트를 통한 설명
- 배열에 중복 값이 있는지 확인하는 자바스크립트 애플리케이션을 작성하고 있다고 해보다

- 머릿속에 가장 먼저 떠오르는 방법 중 하나가 다음과 같이 중첩 for 루프를 사용하는 것이 아닐까 싶다
```
function hasDuplicateValue(array) {
    for(var i = 0; i < array.length; i++) {
        for(var j = 0; j < array.length; j++) {
            if(i !==j && array[i] == array[i]) {
                return true;
            }
        }
    }
    return false;
}
```

- 위 함수는 var i를 사용해 배열 내 각 원소를 순회한다
- 이어서 i 내에서 각 원소를 살펴야 하므로 var j로 배열 내 모든 원소를 순회하는 "두 번째" for 루프를 실행하고 i와 j 인덱스에 있는 두 원소가 같은지 확인한다
    - 같다면 중복 값을 찾았다는 의미이다
- 루프를 모두 실행했는데 어떤 중복 값도 찾지 못했다면 주어진 배열에는 중복이 없음을 뜻하는 false를 반환한다

- 위 코드가 괴연 효율적??
    - 이 함수를 빅 오 표기법으로 어떻게 표현하는지 알아보자
------------------------------------------------------------------------------------------------------------------    
- 빅 오는 데이터량에 비례해 알고리즘에 얼마나 많은 단계가 필요한지 측정하는 도구였다
- 빅 오를 위 코드에 적용하려면 이렇게 물어야 한다
    - hasDuplicateValue 함수에 원소 N개를 포함하는 배열이 주어졌을때, 최악의 시나리오에서 알고리즘에 얼마나 많은 단계가 걸리는가?
    - 이 질문에 답하려면 먼저 무엇을 한 단계로 볼지, 그리고 최악의 시나리오는 어떤 경우인지 알아야 한다
------------------------------------------------------------------------------------------------------------------    
- 위 함수에는 한 종류의 단계, 즉 "비교"가 있다
- 함수는 반복해서 i와 j를 비교함으로써 같은지 확인하고 같으면 중복으로 표시한다
- 최악의 시나리오는 배열이 중복 값을 포함하지 않는 경우다
- 이 경우 코드는 false를 반환하기 전에 모든 루프를 수행해야 하고 가능한 모든 조합을 전부 비교해야 한다
------------------------------------------------------------------------------------------------------------------
- 결론적으로 배열에 원소 N개가 있을 때 함수는 $N^2$번의 비교를 수행할 것이다
    - 바깥 루프는 배열을 전부 살펴보기 위해 무조건 N번을 순회해야 하고, 매 순회마다 안쪽 루프는 다시 N번을 순회하기 때문이다
    - 이는 N단계 * N단계, 바꿔 말해 $N^2$단계이므로 $O(N^2)$의 알고리즘이다

#### 단계 수를 기록하는 코드를 함수에 추가해서 실제로 증명할 수 있다.
```
function hasDuplicateValue(array) {
    var steps = 0;
    for(var i = 0; i < array.length; i++){
        for(var j = 0; j < array.length; j++){
            steps++;
            if(i !== j && array[i] == array[j]){
                return true;
            }
        }
    }
    console.log(steps);
    return false;
}
```

- hasDuplicateValue([1,2,3])을 실행하면 자바스크립트 콘솔에 9번의 비교가 있었음을 뜻하는 9가 출력될 것이다
- 원소 3개를 포함하는 배열에 9단계가 걸리므로 전형적인 $O(N^2)$의 예다
------------------------------------------------------------------------------------------------------------------
- 당연한 소리지만 $O(N^2)$은 중첩 루프를 사용하는 알고리즘의 효율성이다
- 중첩 루프가 보이면 $O(N^2)$ 알람이 머릿속에 울리기 시작해야 한다

- $O(N^2)$은 상대적으로 느린 알고리즘으로 간주된다
- 느린 알고리즘을 마주할 떄는 항상 더 빠른 대안은 없을지 생각하는 데 시간을 투자하는 게 좋다
- 자기 자신이 작성한 함수가 대량의 데이터도 처리할 수 있기를 원한다면 특히 그렇다
- 애플리케이션을 제대로 최적화하지 않으면 끽 소리를 내며 멈출 수도 있다
- 더 나은 방법이 "없을"수도 있지만, 먼저 확실히 해두자

## 선형 해결법

- 위의 예시처럼 중첩 루프를 쓰지 않는 hasDuplicateValue 함수를 구현해 볼 수 있다
- 함수를 분석해서 첫 번쨰 구현보다 더 효율적인지 알아보자

```
function hasDuplicateValue(array) {
    var existingNumbers = [];
    for(var i = 0; i < array.length; i++) {
        if(existingNumber[array[i]] === undefined) {
            existingNumbers[array[i]] = 1;
        } else{
            return true;
        }
    }
    return false;
}
```

- 위 구현에는 루프가 하나이며, 찾아봤던 수를 existingNumbers라는 배열에 기록해둔다
- 함수가 이 배열을 사용하는 방식이 흥미롭다
- 코드가 새로운 수를 찾을 때마다 이 수에 대응하는 existingNumbers 배열의 인덱스에 값 1을 저장하는 식이다
    - 예를 들어 [3,5,8]이라는 array가 있을 떄, 루프가 종료된 후 existingNumbers 배열은 다음과 같을 것이다.
    - [undefined,undefined,undefined,1,undefined,1,undefined,undifened,1]
    - 인덱스 3,5,8에 인덱스 1이 들어 있다 즉, 주어진 array에 3,5,8이 있다는 뜻이다
- 하지만 코드는 적절한 인덱스에 1을 저장하기 전에 이 인덱스에 이미 값 1이 들어 있는지 확인한다.
- 들어 있다면 이미 찾아봤던 수라는 의미이며 따라서 중복 값을 찾은 것이다.

- 빅 오 관점에서 이 새로운 알고리즘의 효율성을 알아내려면 한 번 더 최악의 시나리오일 때 알고리즘에 필요한 단계 수를 알아내야 한다
- 첫 번째 구현처럼 알고리즘에 포함된 단계 중 주요 유형은 비교다
- 즉, 다음 코드처럼 existingNumbers 배열의 특정 인덱스를 찾아가서 그 값이 undefined인지 비교한다

```
if(existingNumbers[array[i]]===undefined)
```

- 최악의 시나리오는 배열에 중복 값이 없을 때다
- 이때 함수는 전체 루프를 모두 수행해야 한다

- 새로운 알고리즘은 데이터 원소가 N개 있을 떄 비교를 N번 하는 듯하다.
- 단 하나의 루프에서 단지 배열에 있는 원소 수만큼 순회하기 때문이다

#### 자바스크립트 콘솔에서 단계 수를 추적함으로써 이 이론이 맞는지 테스트 해보자
```
function hasDuplicateValue(array) {
    var steps = 0;
    var existingNumbers = [];
    for(var i = 0; i < array.length; i++){
        steps++;
        if(existingNumbers[array[i]] === undefined){
            existingNumbers[array[i]] = 1;
        }else{
            return true;
        }
    }
    console.log(steps);
    return false;
}
```

- hasDuplicateValue([1,2,3])을 실행하면 자바스크립트 콘솔에 3이 출력된다. 배열의 원소 수와 같다
- 결론적으로 이 새로운 구현을 빅 오 표기법으로 표현하면 $O(N)$이다
- 알다시피 $O(N)$은 $O(N^2)$보다 훨씬 빠르므로 두 번째 접근법을 사용함으로 hasDuplicateValue를 크게 최적화했다
- 많은 데이터를 처리하는 프로그램이라면 차이가 "클"것이다

#### 빅 오 표기법을 명확히 이해하면 느린 코드를 식별해 내고 두 경쟁 알고리즘 중 더 빠른 알고리즘을 분명하게 골라낼 수 있다
#### 하지만 빅 오 표기법에서는 두 알고리즘이 속도가 같다고 해도 실제로는 어느 한쪽이 더 빠른 상황이 벌어진다