# 시간 복잡도 최적화

이 노트북에서는 알고리즘의 성능을 개선하는 시간 복잡도 최적화 기법을 다룹니다.

## Big O 표기법
- **O(1)**: 상수 시간 - 입력 크기와 무관하게 일정한 시간 소요 (예: 해시맵 조회)
- **O(n)**: 선형 시간 - 입력 크기에 비례하는 시간 소요 (예: 배열 순회)
- **O(n²)**: 제곱 시간 - 중첩 반복문에서 흔히 발생 (예: 이중 for문)

## 주요 최적화 패턴
1. **해시 기반 최적화**: O(n) 탐색을 O(1)로 개선 (리스트 → 집합/딕셔너리)
2. **공간-시간 트레이드오프**: 추가 메모리를 사용하여 실행 시간 단축
3. **알고리즘 선택**: 문제에 적합한 효율적 알고리즘 사용

이 노트북의 예제들은 비효율적인 O(n²) 알고리즘을 O(n)으로 개선하는 방법을 보여줍니다.

In [11]:
import time
import random


---
## 문제: 배열에서 모든 중복 요소 찾기

**문제 설명:**  
주어진 배열에서 중복되는 모든 요소를 찾는 함수를 구현하세요.

**입력:**  
- 정수로 이루어진 배열 arr

**출력:**  
- 중복되는 모든 값을 리스트로 반환합니다.
- 중복된 값이 없으면 빈 리스트를 반환합니다.


In [44]:
# 중복이 자연스럽게 발생하는 큰 테스트 데이터 생성
test_arr = random.choices(range(1, 1001), k=1000)  # 1~5000 범위에서 20000개 선택 (중복 허용)


## O(n²) 접근법 - 이중 반복문 사용

In [45]:
# O(n²) 접근법 - 이중 반복문 사용
def find_all_duplicates(arr):
    duplicates = []
    for i in range(len(arr)):
        for j in range(i+1, len(arr)):
            if arr[i] == arr[j] and arr[i] not in duplicates:
                duplicates.append(arr[i])
                break  # 같은 값은 한 번만 추가
    return duplicates

## O(n) 접근법 - 해시셋 사용

In [46]:
def find_all_duplicates_optimized(arr):
    seen = set()  # 이미 등장한 요소를 추적하기 위한 빈 세트(해시셋) 생성
    duplicates = set()  # 중복 값도 set으로 관리하여 O(1) 검색
    
    for num in arr:
        if num in seen:  # 현재 요소가 이미 seen 세트에 있는지 확인 (O(1) 연산)
            duplicates.add(num)
        else:
            seen.add(num)
    
    return list(duplicates)  # 결과를 리스트로 변환하여 반환

In [47]:
# 원래 방식 테스트
start = time.time()

result1 = find_all_duplicates(test_arr)

end = time.time()
duration1 = (end - start) * 1000
print(f"원래 방식 (O(n²)) 결과: {result1}")
print(f"실행 시간: {duration1:.2f} ms")


원래 방식 (O(n²)) 결과: [63, 1, 108, 584, 783, 579, 425, 956, 367, 86, 253, 260, 619, 644, 799, 499, 463, 292, 54, 67, 461, 217, 454, 139, 901, 560, 134, 49, 102, 257, 565, 571, 290, 410, 929, 250, 591, 388, 432, 531, 137, 344, 828, 511, 180, 320, 264, 817, 611, 546, 992, 458, 11, 15, 147, 80, 401, 609, 726, 283, 963, 152, 144, 479, 995, 656, 835, 958, 331, 14, 361, 4, 979, 210, 405, 379, 308, 451, 767, 127, 953, 923, 813, 291, 359, 433, 415, 993, 841, 741, 678, 76, 895, 153, 193, 456, 547, 753, 399, 892, 19, 728, 319, 296, 33, 653, 43, 770, 563, 57, 402, 673, 300, 615, 337, 870, 483, 674, 934, 201, 243, 287, 374, 894, 642, 564, 831, 98, 932, 506, 470, 558, 652, 47, 659, 509, 326, 942, 646, 863, 42, 567, 457, 907, 696, 225, 715, 966, 174, 514, 478, 859, 254, 545, 941, 576, 536, 527, 528, 909, 269, 452, 358, 386, 161, 135, 760, 694, 387, 397, 836, 878, 523, 348, 854, 826, 477, 164, 592, 636, 532, 849, 920, 357, 116, 434, 345, 954, 820, 603, 119, 356, 703, 944, 256, 462, 981, 450, 312, 906, 74

In [48]:
# 최적화 방식 테스트
start = time.time()

result2 = find_all_duplicates_optimized(test_arr)

end = time.time()
duration2 = (end - start) * 1000
print(f"최적화 방식 (O(n)) 결과: {result2}")
print(f"실행 시간: {duration2:.2f} ms")

# print("="*30)
# print(f"속도 향상: {duration1/duration2:.1f}배")

최적화 방식 (O(n)) 결과: [1, 514, 4, 5, 519, 8, 523, 11, 12, 14, 527, 528, 529, 15, 19, 532, 531, 20, 536, 28, 544, 33, 546, 547, 545, 42, 43, 555, 45, 558, 47, 560, 49, 563, 564, 565, 54, 55, 567, 57, 571, 63, 576, 579, 67, 69, 584, 76, 591, 80, 592, 82, 597, 86, 602, 90, 603, 606, 609, 98, 611, 102, 615, 619, 108, 109, 626, 116, 629, 628, 119, 123, 636, 124, 126, 127, 640, 637, 642, 643, 644, 130, 134, 135, 646, 137, 128, 139, 652, 653, 141, 144, 656, 147, 659, 663, 152, 153, 673, 674, 161, 164, 678, 174, 686, 690, 691, 180, 694, 184, 696, 189, 703, 193, 706, 711, 199, 201, 714, 715, 205, 210, 726, 214, 728, 217, 219, 223, 225, 227, 741, 744, 233, 745, 237, 750, 749, 238, 753, 754, 243, 756, 246, 760, 250, 253, 254, 767, 256, 257, 770, 766, 260, 264, 269, 783, 271, 784, 275, 276, 792, 794, 283, 285, 287, 288, 799, 290, 291, 292, 296, 300, 813, 817, 308, 820, 312, 826, 827, 828, 316, 831, 320, 319, 835, 836, 326, 839, 841, 330, 331, 337, 849, 338, 854, 344, 856, 345, 859, 348, 863, 356, 357,

## 문제: 중복 없는 랜덤 리스트 생성

1부터 n까지의 숫자 중 랜덤하게 선택하여 중복 없는 리스트를 생성하는 문제입니다.

In [None]:
# O(n²) 접근법 - 리스트에서 중복 확인
def generate_random_list(n):
    result = []
    for i in range(n):
        x = random.randint(1, n)
        if x not in result:
            result.append(x)
    return result

# O(n) 접근법 - 해시셋 사용
def generate_random_list_optimized(n):
    # result = []
    seen = set()  # 이미 추가된 숫자를 저장할 집합 (중복제거)
    
    for i in range(n):
        x = random.randint(1, n)
        if x not in seen:  # 리스트 대신 집합에서 확인 (O(1) 연산)
            seen.add(x)  # 집합에 추가
            # result.append(x)  #만약에 순서가 중요하다면 리스트를 따로 생성해야함
    return list(seen)

In [52]:
# 테스트 (큰 크기)
n = 5000
start = time.time()
generate_random_list(n)
end = time.time()
duration3 = (end - start) * 1000
print(f"\n원래 방식 (O(n²)) - 크기 {n}의 경우")
print(f"실행 시간: {duration3:.2f} ms")

start = time.time()
generate_random_list_optimized(n)
end = time.time()
duration4 = (end - start) * 1000
print(f"최적화 방식 (O(n)) - 크기 {n}의 경우")
print(f"실행 시간: {duration4:.2f} ms")



원래 방식 (O(n²)) - 크기 5000의 경우
실행 시간: 60.65 ms
최적화 방식 (O(n)) - 크기 5000의 경우
실행 시간: 2.83 ms


## 문제: Two Sum 문제

배열에서 합이 target이 되는 두 수의 인덱스를 찾는 문제입니다.

In [53]:
# 테스트 데이터 생성
test_nums = [random.randint(1, 1000) for _ in range(10000)]
test_target = test_nums[100] + test_nums[5000]  # 합이 target이 되는 두 수 보장


In [16]:
# O(n²) 접근법 - 이중 반복문 사용
def two_sum_brute(nums, target):
    for i in range(len(nums)):
        for j in range(i+1, len(nums)):
            if nums[i] + nums[j] == target:
                return [i, j]
    return []

# O(n) 접근법 - 해시맵 사용
def two_sum_optimized(nums, target):
    num_map = {}  # 값 -> 인덱스 매핑
    for i, num in enumerate(nums):
        complement = target - num
        if complement in num_map:
            return [num_map[complement], i]
        num_map[num] = i
    return []


In [18]:
# 원래 방식 테스트
start = time.time()
result1 = two_sum_brute(test_nums, test_target)
end = time.time()
duration1 = (end - start) * 1000
print(f"원래 방식 (O(n²)) 결과: {result1}")
print(f"실행 시간: {duration1:.2f} ms")

원래 방식 (O(n²)) 결과: [2, 1200]
실행 시간: 1.09 ms


In [19]:
# 최적화 방식 테스트
start = time.time()
result2 = two_sum_optimized(test_nums, test_target)
end = time.time()
duration2 = (end - start) * 1000
print(f"최적화 방식 (O(n)) 결과: {result2}")
print(f"실행 시간: {duration2:.2f} ms")

최적화 방식 (O(n)) 결과: [16, 18]
실행 시간: 0.03 ms


## 문제: 대용량 배열에서 윈도우 평균 계산하기

**문제 설명:**  
크기가 매우 큰 시계열 데이터에서 각 지점마다 주변 k개 값의 이동 평균(moving average)을 계산하는 함수를 구현하세요.

**입력:**  
- 1차원 NumPy 배열 `data`: 시계열 데이터를 나타내는 배열
- 정수 `k`: 윈도우 크기 (항상 홀수이며, 현재 위치를 중심으로 양쪽으로 k//2개의 요소를 포함)

**출력:**  
- 각 위치에서의 윈도우 평균을 담은 NumPy 배열

In [56]:
import numpy as np

In [76]:
data = np.array([1, 3, 5, 7, 9, 11, 13, 15, 17])
k = 3

In [77]:
def moving_average_basic(data, k):

    n = len(data)
    # result = np.zeros(n)  # result = [] 보다 더 효율적
    result = []
    half_window = k // 2

    for i in range(n):

        start = max(0, i - half_window)  # 아무리 적어도, 0보다는 크도록
        end = min(n, i + half_window + 1)  # 아무리 커도, n보다는 작도록

        # result[i] =  np.mean(data[start:end])  # result.append() 보다 더 효율적
        result.append(np.mean(data[start:end]))

    return result


In [78]:
moving_average_basic(data, 4)

[3.0, 4.0, 5.0, 7.0, 9.0, 11.0, 13.0, 14.0, 15.0]