# Data Structure
## Chapter 6

# 6. 긍정적인 시나리오 최적화
- 알고리즘의 효율성을 평가하면서 주로 최악의 시나리오에서 얼마나 많은 단계가 걸리는지에 초점을 맞췄다
    - 그 이유는 최악을 준비하면 모든 일이 순조롭기 때문이다
- 최악의 시나리오 외에도 고려할 가치가 있는 상황들이 있다
    - #### "모든" 시나리오를 고려할 수 있는 능력은 어떤 상황에서든 적절한 알고리즘을 고를 수 있게 해주는 중요한 능력이다

## 6.1 삽입 정렬
- 버블 정렬과 선택 정렬 둘 다 효율성은 $O(N^2)$이지만 선택 정렬이 실제로는 두 배 더 빠르다.
- 정렬 알고리즘으로 삽입 정렬(insersion sort)의 최악의 경우(worst case)가 아닌 다른 시나리오를 분석하는 것에도 장점이 있다.
- #### 삽입 정렬의 수행 순서
    - 1. 첫 번째 패스스루에서 임시로 인덱스 1(두 번째 셀)의 값을 임시 변수에 저장한다
        - 인덱스 1에 값이 없으므로 공백이 생긴다. 이후 각 패스스루마다 다음 인덱스의 값을 삭제한다.
    - 2. 공백 왼쪽에 있는 값이 임시 변수에 있는 값보다 크면 그 값을 오른쪽으로 시프트한다.
        - 값을 오른쪽으로 시프트했으므로 자연히 공백이 왼쪽으로 옮겨진다.
            - 임시로 삭제한 값보다 작은 값을 만나거나 배열의 왼쪽 끝에 도달해야 시프트 단계가 끝난다.
    - 3. 이제 임시로 제거한 값을 현재 공백에 삽입한다
    - 4. 배열이 완전히 정렬될 때까지 1단계부터 3단계를 반복한다.

## 6.2 삽입 정렬해보기
#### 배열 [4, 2, 7, 1, 3]을 삽입 정렬해보자.
#### 인덱스 1의 값을 확인하며 첫 번째 패스스루를 시작.
####인덱스 1에 값 2가 들어있다.
#### 준비 : 임시로 2를 삭제하고 temp_value라는 변수에 저장한다.
- 1단계 : 4와 temp_value에 들어 있는 2를 비교한다.
- 2단계 : 4가 2보다 크므로 4를 오른쪽으로 시프트한다.
    - 공백이 배열의 왼쪽 끝에 있으므로 더 이상 왼쪽으로 시프트할 수 없다.
- 3단계 : temp_value를 다시 배열에 삽입해서 첫 번쨰 패스스루를 끝낸다.
#### 두 번째 패스스루를 시작.
#### 준비 : 두 번쨰 패스스루에서는 인덱스 2의 값을 임시로 삭제한다. 이 값을 temp_value에 저장한다. 이때 temp_value는 7이다.
- 4단계 : 4와 temp_value를 비교한다.
    - 4가 더 작으므로 시프트하지 않는다. tmep_value보다 작은 값에 도달했으므로 시프트 단계를 끝낸다.
- 5단계 : temp_value를 다시 공백에 삽입하고 두 번쨰 패스스루를 끝낸다.
#### 세 번째 패스스루는 다음과 같다.
#### 준비 : 임시로 값 1을 삭제하고 temp_value에 저장한다.
- 6단계 : 7과 temp_value를 비교한다.
- 7단계 : 7은 1보다 크므로 7을 오른쪽으로 시프트한다.
- 8단계 : 4와 temp_value를 비교한다.
- 9단계 : 4는 1보다 크므로 마찬가지로 시프트한다.
- 10단계 : 2와 tmep_value를 비교한다.
- 11단계 : 2가 더 크므로 시프트한다.
- 12단계 : 공백이 배열의 왼쪽 끝에 있으므로 temp_value를 공백에 삽입하고 패스스루를 끝낸다
#### 네 번째 패스스루는 다음과 같다.
#### 준비 : 임시로 인덱스 4의 값을 삭제하고 temp_value에 저장한다. 값은 3이다.
- 13단계 : 7과 temp_value를 비교한다.
- 14단계 : 7이 더 크므로 7을 오른쪽으로 시프트한다.
- 15단계 : 4와 tmep_value를 비교한다.
- 16단계 : 4가 3보다 크므로 4를 시프트한다.
- 17단계 : 2와 temp_value를 비교한다. 2는 3보다 작으므로 시프트 단계를 끝낸다.
- 18단계 : temp_value를 다시 공백에 삽입한다.
    - 이제 배열이 완전히 정렬됐다.

## 6.3 삽입 정렬 구현
#### python code으로 구현한 삽입 정렬

```
def insertion_sort(array):
    for index in range(1, len(array)):
        position = index
        tmep_value = array[index]
        
        while position > 0 and array[position - 1] > temp_value:
            array[position] = array[position - 1]
            position = position - 1
            
        array[position] = temp_value
```

#### code 설명

```
for index in range(1, len(array)):
```
- 먼저 인덱스 1부터 시작해 전체 배열을 순회하는 루프를 시작시킨다. 현재의 인덱스를 index 변수에 저장한다.

```
position = index
temp_value = array[index]
```
- 다음으로 현재 index가 무엇이든 인덱스를 position에 할당한다. 인덱스에 있는 값도 temp_value변수에 할당한다

```
while position > 0 and array[position - 1] > temp_value:
    array[position] = array[position - 1]
    position = position - 1
```
- 이어서 안쪽 while 루프를 시작시킨다. position의 왼쪽에 있는 값이 temp_value보다 큰지 확인한다.
- 크다면 array[position] = array[position - 1]을 사용해 왼쪽 값을 한 셀 오른쪽으로 옮긴 후 position 값을 1 감소시킨다
- 이어서 새 position의 왼쪽 값이 temp_value보다 큰지 확인하고 temp_value보다 작은 값을 찾을 때까지 이 과정을 계속 반복한다.

```
array[position] = temp_value
```
- 끝으로 temp_value를 배열의 공백에 삽입한다.


## 6.4 삽입 정렬의 효율성
- 삽입 정렬에 포함된 단계는 삭제, 비교, 시프트, 삽입 네 종류다.
- 삽입 정렬의 효율성을 분석하려면 각 단계별 총합을 계산해야 한다.
- 비교는 공백 왼쪽에 있는 값과 temp_value를 비교할 때마다 일어난다
- 배열이 역순으로 정렬된 최악의 경우, 각 패스스루마다 temp_value 왼쪽에 있는 모든 수를 temp_value와 비교해야 한다
    - temp_value 왼쪽에 있는 각 값이 항상 temp_value보다 크기 때문이다.
    - 따라서 각 패스스루는 공백이 배열의 왼쪽 끝으로 가야만 끝난다
- 첫 번째 패스스루에서는 인덱스 1의 값이 temp_value인데 temp_value 왼쪽에 값이 하나뿐이므로 최대 1번의 비교가 일어난다
- 마찬가지로 두 번째 패스스루에서는 최대 2번의 비교가 일어난다
- 마지막 패스스루에서는 temp_value와 temp_value를 제외한 배열 내 모든 값을 비교해야 한다.
- #### 다시 말해 배열에 원소 N개가 있으면 마지막 패스스루에서는 최대 N-1번의 비교가 일어난다.
    - 따라서 총 비교 횟수를 다음과 같이 표현할 수 있다.
    - 1 + 2 + 3 + ... + N-1번의 비교
- 이러한 패턴에 따르면 결국 원소가 N개인 배열일 때 "대략 $N^2/2$"번의 비교가 일어나는 것으로 보인다
- "시프트"는 값을 한 셀 오른쪽으로 옮길 떄마다 일어난다.
    - 배열이 역순으로 정렬돼 있다면 비교가 일어날 때마다 값을 오른쪽으로 시프트해야 하므로 비교 횟수만큼 시프트가 일어난다.
#### 최악의 시나리오일 때 비교와 시프트 횟수의 합
- $N^2$/비교 2번 + $N^2$/시프트 2번 = $N^2$ 단계
- 배열로부터 temp_value를 삭제하고 다시 삽입하는 작업은 패스스루 당 한 번 일어난다.
    - 패스스루는 항상 N-1번이므로 결국 N-1번의 삭제와 N-1번의 삽입이 있을 것이다.
#### 따라서 총합은 다음과 같다
- 삭제 N-1번 + 삽입 N-1번 = $N^2+2N-2$ 단계
    - 빅 오에는 상수를 무시한다는 중요한 규칙이 있다
        - 이 규칙을 고려해 일단 $O(N^2 + N)$으로 단순화시킬 수 있다.
- 빅 오에는 중요한 규칙이 또 있다
#### 빅 오 표기법은 가장 높은 차수의 N만 고려한다.
- 즉, $N^4$ + $N^3$ + $N^2$ + $N$단계가 걸리는 알고리즘이 있을 때 $N^4$만 중요하게 여기며 단순히 $O(N^4)$라고 부른다.
- 그 이유는 아래의 정리된 내용을 통해 설명한다
    - N : 2 , $N^2$ : 4 , $N^3$ : 8 , $N^4$ : 16
    - N : 5 , $N^2$ : 25 , $N^3$ : 125 , $N^4$ : 625
    - N : 10 , $N^2$ : 100 , $N^3$ : 1,000 , $N^4$ : 10,000
    - N : 100 , $N^2$ : 10,000 , $N^3$ : 1,000,000 , $N^4$ : 100,000,000
    - N : 1,000 , $N^2$ : 1,000,000 , $N^3$ : 1,000,000,000 , $N^4$ : 1,000,000,000,000
- N이 증가할수록 어떤 N 차수보다 $N^4$이 훨씬 더 중요해진다.
    - N이 1000이면 $N^4$은 $N^3$보다 천 배 더 크다. 이러한 이유로 가장 큰 N 차수만 고려하는 것이다.
- #### 따라서 위 설명에서 $O(N^2+N)$은 단순히 $O(N^2)$이 된다.
- #### 결론적으로 최악의 시나리오에서 삽입 정렬은 버블 정렬이나 선택 정렬과 시간 복잡도가 같다. 셋 모두 $O(N^2)$이다.
- 버블 정렬과 선택 정렬은 둘 다 $O(N^2)$이지만 버블 정렬은 $N^2$단계인데 반해 선택 정렬은 $N^2/2$단계로 선택 정렬이 더 빨랐다.
    - #### 삽입 정렬 역시 $N^2$단계가 걸리므로(실제로는 $N^2 + 2N -2$단계) 언뜻 보기에는 버블 정렬만큼 느리다고 할 수 있겠다.
- 버블 정렬이나 삽입 정렬보다 두 배 더 빠른 선택 정렬이 셋 중 가장 나은 방법이라 생각하고 끝낼 수 있다. "하지만 사실 그렇게 간단하지 않다"

## 6.5 평균적인 경우
- 최악의 시나리오에서는 선택 정렬이 삽입 정렬보다 빠른 게 사실이다. 하지만 "평균 시나리오"도 중요하게 고려해야 한다.
- 정의에 따르면 가장 자주 일어나는 경우가 평균 시나리오다. 최악의 그리고 최선의 시나리오는 드물게 일어난다
- 최선의 그리고 최악의 시나리오는 상대적으로 드물게 발생. 하지만 실제로는 대부분 평균 시나리오가 일어난다
#### 모든 시나리오 관점에서 삽입 정렬을 검토
- 배열이 역순으로 정렬된 최악의 경우 각 패스스루마다 살펴보고 있는 모든 값을 비교하고 시프트했다(총 $N^2$번의 비교와 시프트)
- 데이터가 이미 오름차순으로 정렬된 최선의 시나리오에서는 각 값이 이미 올바른 위치에 있으므로 패스스루당 한 번의 비교만 하며 시프트는 한 번도 일어나지 않는다.
- 하지만 데이터가 임의로 정렬된 경우에는 모든 데이터 혹은 일부 데이터를 비교하고 시프트하거나, 어떤 데이터도 비교하거나 시프트하지 않는 패스스루가 있을 것이다.
- 최악의 시나리오에서는 "모든"데이터를 비교하고 시프트한다
- 최선의 시나리오에서는 (패스스루당 한 번의 비교만 있을 뿐) "어떤" 데이터도 시프트하지 않는다
- 평균 시나리오에서는 대체적으로 데이터의 "반"을 비교하고 시프트할 것이다.
    - 따라서 삽입 정렬이 최악의 시나리오에서 $N^2$단계가 걸린다면 평균 시나리오에서는 약 $N^2/2$단계가 걸린다고 말할 수 있다(하지만 빅 오 관점에서는 두 시나리오 모두 $O(N^2)$이다.)
- #### 예시로 설명
    - 배열 [1, 2, 3, 4]는 이미 정렬된 최선의 경우다. 
    - 같은 데이터에 대해 최악의 경우는  [4, 3, 2, 1]일 것이다
    - 평균적인 경우라면 [1, 3, 4 , 2]등 일것이다.
    - #### 최악의 경우에는 6번의 비교와 6번의 시프트 , 총 12단계
    - #### 평균적인 경우에는 4번의 비교와 2번의 시프트, 총 6단계
    - #### 최선의 경우에는 3번의 비교와 0번의 시프트, 총 3단계
#### 삽입 정렬이 시나리오에 따라 성능이 "크게 좌우됨"을 알았다.
- 최악의 시나리오에서 삽입 정렬은 $N^2$단계가 걸린다
- 평균 시나리오에서는 $N^2/2$단계가 걸린다
- 최선의 시나리오에서는 $N$단계가 걸린다
- #### 이렇게 서로 다른 까닭은 어떤 패스스루에서는 temp_value 왼쪽의 모든 데이터를 비교하는 반면, 어떤 패스스루에서는 temp_value보다 작은 값을 만나면서 패스스루가 일찍 종료되기 때문이다.
#### 선택 정렬은 최악부터, 평균, 최선의 시나리오에 이르기까지 모두 $N^2/2$단계가 걸린다
- 선택 정렬에는 어떤 시점에 미리 패스스루를 끝낼 메커니즘이 전혀 없기 때문이다
    - 각 패스스루마다 무조건 선택된 인덱스의 오른쪽에 있는 모든 값과 비교해야 한다
#### 선택 정렬과 삽입 정렬 중 어떤게 나을까??
- 경우에 따라 다르다
    - 임의로 정렬된 배열 같은 평균적인 경우라면 두 정렬은 유사하게 수행된다
    - 거의 정렬된 데이터를 다룰 거라고 가정할 수 있는 이유가 있다면 "삽입 정렬"이 더 낫다
    - 대부분 역순으로 정렬된 데이터를 다룰 거라고 가정할 수 있는 이유가 있다면 "선택 정렬"이 더 빠르다
    - #### 데이터가 어떨지 전혀 알 수 없다면 기본적으로 평균적인 경우이며 둘 다 같다.

## 6.6 실제 예제
- 두 배열의 교집합을 구하는 자바스크립트 예제
- 교집합은 두 배열에 모두 들어 있는 모든 값들의 리스트다.
    - 예를 들어 배열 [3, 1, 4, 2]와 [4, 5, 3, 6]이 있을 때, 교집합은 두 배열에 공통으로 들어 있는 두 값인 [3, 4]라는 새로운 배열이다
- #### 실제 구현

```
function intersection(first_array, second_array){
    var result = [];
    
    for (var i = 0; 1 <first_array.length; i++){
        for(var j = 0; j < second_array.length; j++){
            if(first_array[i] == second+array[j]){
                result.push(first_array[i]);
            }
        }
    }
    return result;
}
```

- 코드는 간단한 중첩 루프를 실행한다
    - 바깥 루프는 첫 번째 배열의 각 값을 순회한다
    - 안쪽 루프는 첫 번째 배열의 각 값을 가리킨 상태에서 두 번째 배열의 각 값을 확인하며 첫 번째 배열에서 가리키고 있는 값과 일치하는지 확인한다.
- #### 위 알고리즘은 비교와 삽입, 두 종류의 단계를 포함한다.
- 두 배열 내 모든 값을 서로 비교하면서 값이 일치하면 result 배열에 삽입한다.
    - 비교 외에 삽입은 무시해도 좋다
        - 설사 두 배열이 동일하더라도 두 배열 중 하나에 들어 있는 값만큼만 삽입하기 때문이다. 따라서 분석해야 할 주요 단계는 비교다.
- 두 배열이 크기가 같다면 $N^2$번의 비교를 수행한다.
    - 첫 번째 배열의 각 원소에 대해 두 번째 배열의 각 원소를 비교하기 때문이다
        - 예를 들어 두 배열이 각각 5개의 원소를 포함한다면 25번의 비교를 해야 끝난다
- #### 따라서 이러한 교집합 알고리즘의 효율성은 $O(N^2)$이다.
- ####(두 배열이 크기가 다르면, 가령 N과 M이라 하면, 위 함수의 효율성은 $O(N*M)$)이다.
- 이 알고리즘을 향상시킬 방법??
    - 바로 지금이 최악의 경우를 넘어 다른 시나리오를 고려햐 봐야 하는 시점이다.
    - 위 intersection 함수는 모든 종류의 경우에 대해, 즉 두 배열이 공통 값을 하나도 포함하지 않는 경우부터 두 배열이 완전히 동일한 경우까지 모두 $N^2$의 비교를 수행하도록 구현했다
        - 두 배열에 공통 값이 없다면 교집합에 들어갈 값이 없음을 알기 위해 사실상 두 배열 내 모든 값을 하나씩 확인하는 수밖에 없다
        - 하지만 두 배열에 공통 원소가 있다면 첫 번째 배열의 모든 원소를 꼭 두 번째 배열의 모든 원소와 비교하지 않아도 된다
- 예를 들어 위 intersection 함수에 들어갈 배열이 [2,8,1]과 [5,8,3]이라고 가정하자
    - 공통 값인 8을 찾은 후 사실 두 번째 루프를 끝까지 수행할 필요가 없다
        - 이때부터는 무엇을 확인하는 것일까??
            - 첫 번째 배열에서 가리키고 있는 값이 두 번째 배열에 들어 있다는 것을 이미 아는데 필요 없는 단계를 수행하고 있는 것이다.
            - #### 한 단어만 구현에 추가해서 고칠 수 있다.
            
            ```
function intersection(first_array, second_array){
    var result = [];
    
    for (var i = 0; 1 <first_array.length; i++){
        for(var j = 0; j < second_array.length; j++){
            if(first_array[i] == second+array[j]){
                result.push(first_array[i]);
                break;
            }
        }
    }
    return result;
}
            ```
- break를 추가함으로써 안쪽 루프를 짧게 끝낼 수 있고 단계를 (따라서 시간까지) 절약할 수 있다
- 두 원소가 공통 값을 하나도 포함하지 않는 "최악의 시나리오"에서는 어쨌든 $N^2$번의 비교를 수행해야 한다
- 두 배열이 동일한 "최선의 시나리오"에서는 N번의 비교만 수행하면 된다
- 두 배열이 다르지만 일부 값을 공유하는 "평균적인 경우"에는 성능이 N과 $N^2$번의 비교를 수행했으니 이는 intersection 함수에 있어 중요한 최적화다

## 6.7 마무리
- 최선의, 평균, 최악의 시나리오를 구분하는 능력은 기존 알고리즘을 최적화해서 훨씬 빠르게 만드는 것만큼이나 사용자 요규에 맞는 최적의 알고리즘을 고르는 핵심 기술이다.
- 최악의 경우를 대비하는 것도 좋지만 대부분의 평균적인 경우가 일어난다는 점을 명심하자