<a href="https://colab.research.google.com/github/naljini/gachon-algorithm-2025/blob/main/_01_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EA%B0%9C%EC%9A%94_%EC%99%84%EC%84%B1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 알고리즘 개요



---



## 1.알고리즘이란?

*알고리즘 정의를 입력하세요*



---



## 2.알고리즘 성능 분석의 필요성

- 동일한 문제를 해결하는 다양한 알고리즘이 존재
- 빠른 알고리즘을 선택하면 실행 속도를 크게 단축 가능
- 컴퓨터 자원을 효율적으로 활용



---



## 3.알고리즘 성능 분석 방법
- **연산량**： 알고리즘이 얼마나 적은 연산을 수행하는가?
- **메모리 사용량**： 얼마나 적은 메모리 공간을 사용하는가?

### **@연산량 확인 방법**

|연산량 확인 방법|설명|주요 도구|
|----|----|----|
|연산 횟수 직접 카운팅 |특정 코드에서 연산 횟수를 직접 세어 연산량을 측정 | 변수 사용 (count += 1)|
|Big-O 분석을 위한 타이머 활용 | 실행 시간을 여러 입력 크기에 대해 측정하여 시간 복잡도 분석 | time 모듈 (time.time()) |
|프로파일링 도구 활용 | 함수 실행 횟수, 실행 시간 분석 | cProfile, line-profiler |
|CPU 사용량 확인 |연산량이 CPU 사용률에 미치는 영향 분석 | psutil.cpu_percent() |



#### **1) 연산 횟수 직접 카운팅** **굵은 텍스트**
알고리즘 내에서 수행되는 주요 연산(반복문, 재귀 호출, 비교 연산 등)의 횟수 센다.</br>**(전역 변수 or 데코레이터 활용)**

In [None]:
# 버블 정렬의 연산 횟수 측정
import random

count = 0  # 연산 횟수 카운트

def bubble_sort(arr):
    global count
    n = len(arr)
    for i in range(n):
        for j in range(0, n-i-1):
            count += 1  # 비교 연산 횟수 증가
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]

arr = [random.randint(0, 100) for _ in range(10)]
print(arr)
bubble_sort(arr)
print(f"Total Operations: {count}")

#### **2) Big-O 분석을 위한 타이머 활용**
정렬 알고리즘의 실행 시간을 여러 크기의 입력에서 측정하여 Big-O 복잡도(O(n²), O(n log n) 등)를 분석할 수 있다.

In [None]:
# 정렬 알고리즘의 시간 복잡도 비교
import time
import random

def measure_time(sort_function, size):
    arr = [random.randint(0, 10000) for _ in range(size)]
    start = time.time()  # 시간 측정 시작
    sort_function(arr)
    end = time.time()    # 시간 측정 종료
    return end - start

sizes = [100, 500, 1000, 5000]
for size in sizes:
    print(f"Size {size}: Bubble Sort = {measure_time(bubble_sort, size):.6f} sec")


- 그래프로 표현

In [None]:
import time
import random
import matplotlib.pyplot as plt

def measure_time(sort_function, sizes):
    times = []
    for size in sizes:
        arr = [random.randint(0, 10000) for _ in range(size)]
        start = time.time()
        sort_function(arr)
        end = time.time()
        times.append(end - start)
    return times

sizes = [100, 500, 1000, 2000, 3000, 4000, 5000]
bubble_times = measure_time(bubble_sort, sizes)
plt.plot(sizes, bubble_times, label="Bubble Sort", marker='o')
plt.xlabel("Input Size")
plt.ylabel("Execution Time (seconds)")
plt.legend()
plt.title("Algorithm Complexity Analysis")
plt.show()


#### **3) 프로파일링 도구 활용**
cProfile: 각 함수가 몇 번 호출되었는지와 실행 시간을 출력해 준다.

In [None]:
# cProfile을 이용한 함수 호출 수 측정
import cProfile

def test_function():
    total = 0
    for i in range(1000000):
        total += i
    return total

cProfile.run('test_function()')


- line_profiler: 코드 라인별 연산량 확인

In [None]:
!pip install line-profiler

In [None]:
from line_profiler import LineProfiler

def test_function():
    total = 0
    for i in range(1000000):  # 연산량이 많은 부분
        total += i
    return total

lp = LineProfiler()
lp.add_function(test_function)

lp.enable()   # LineProfiler: 시작
test_function()
lp.disable()  # LineProfiler: 종료

lp.print_stats()


#### **4) CPU 사용량 확인**

In [None]:
import psutil
import time

def test_function():
    total = 0
    for i in range(1000000):
        total += i
    return total

# CPU 및 메모리 사용량 측정
process = psutil.Process()
start_cpu = process.cpu_percent(interval=None)

start_time = time.time()
test_function()
end_time = time.time()

end_cpu = process.cpu_percent(interval=None)

print(f"Execution Time: {end_time - start_time:.6f} seconds")
print(f"CPU Usage: {end_cpu:.2f}%")


### [실습문제] 정렬 알고리즘 시간 성능 분석
- bubble_sort, merge_sort, builtin_sort  사용
- sizes =  [100, 500, 1000, 5000, 10000] 임의의 정수 사용
- 각 알고리즘의 실행 시간(time) 측정하여 하나의 그래프에 시각화하기

In [None]:
# 정렬 알고리즘들 (문자열 정렬을 위해 수정 필요)
def bubble_sort(arr):
    n = len(arr)
    for i in range(n):
        for j in range(0, n-i-1):
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]

def merge_sort(arr):
    if len(arr) <= 1:
        return arr

    mid = len(arr) // 2
    left = merge_sort(arr[:mid])
    right = merge_sort(arr[mid:])

    return merge(left, right)

def merge(left, right):
    result = []
    i = j = 0

    while i < len(left) and j < len(right):
        if left[i] <= right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1

    result.extend(left[i:])
    result.extend(right[j:])
    return result

def builtin_sort(arr):
    return sorted(arr)


In [None]:
# 코드 작성
import time
import random
import matplotlib.pyplot as plt

# 시간 측정 함수
def measure_time(sort_funcs, arr):
    times = []
    for sort_func in sort_funcs:
        arr_copy = arr[:]  # 원본 배열 보호 (정렬 후 배열이 바뀌므로 복사)
        start = time.time()
        sort_func(arr_copy)
        end = time.time()
        times.append(end - start)
    return times


# 벤치마크 함수
def benchmark():
    sizes = [100, 500, 1000, 4000, 5000, 10000]
    sort_funcs = [bubble_sort, merge_sort, builtin_sort]
    func_times = [[] for _ in sort_funcs]  # 동적 리스트 생성

    # 실행 시간 측정
    for size in sizes:
        arr = [random.randint(0, 10000) for _ in range(size)]
        results = measure_time(sort_funcs, arr)
        for idx, val in enumerate(results):
            func_times[idx].append(val)

    # 그래프 그리기
    plt.figure(figsize=(8, 6))
    for idx, sort_func in enumerate(sort_funcs):
        plt.plot(sizes, func_times[idx], label=f"{sort_func.__name__}", marker='o')

    plt.xlabel("Input Size")
    plt.ylabel("Execution Time (seconds)")
    plt.title("Algorithm Time Complexity Analysis")
    plt.legend()
    plt.grid(True)
    plt.show()


# 함수 호출
benchmark()




---



### @메모리 사용량 확인 방법


 |메모리 사용량 확인 방법 | 설명 | 주요 도구 |
 |--------- |---------- |----- |
|(전체 프로세스)메모리 사용량 측정 | 현재 실행 중인 프로세스가 사용하는 전체 메모리 크기 확인  | psutil.memory_info()  |
|(코드 라인별)메모리 사용량 측정 | 특정 코드 라인에서 사용된 메모리 크기를 분석하여 가장 많은 메모리를 차지하는 부분 확인 |memory_profiler |
|메모리 사용량 추적 | 프로그램 실행 중 메모리 변화량을 추적하여 메모리 증가 여부 분석 |tracemalloc |
|Garbage Collector 메모리 수거 확인|Python이 자동으로 해제하지 않은 메모리를 강제로 수거하여 메모리 최적화 확인 |  gc (Garbage Collector)|



#### 1.(전체 프로세스)메모리 사용량 측정

In [None]:
import psutil
import time

def memory_intensive_function():
    data = [i for i in range(10**7)]  # 큰 리스트 생성
    return sum(data)

# 현재 프로세스의 메모리 사용량 측정
# - rss:Resident Set Size, 현재 프로세스가 실제로 물리적 RAM에서 차지하고 있는 메모리 크기
process = psutil.Process()
start_memory = process.memory_info().rss / (1024 * 1024)  # MB 단위

start_time = time.time()
memory_intensive_function()
end_time = time.time()

end_memory = process.memory_info().rss / (1024 * 1024)  # MB 단위

print(f"Memory Usage Before: {start_memory:.2f} MB")
print(f"Memory Usage After: {end_memory:.2f} MB")
print(f"Memory Increased: {end_memory - start_memory:.2f} MB")
print(f"Execution Time: {end_time - start_time:.6f} sec")


#### 2.(코드 라인별)메모리 사용량 측정

In [None]:
!pip install memory_profiler

In [None]:
from memory_profiler import memory_usage
import time

def memory_intensive_function():
    data = [i for i in range(10**6)]  # 큰 리스트 생성
    total = sum(data)
    return total

# 메모리 사용량 측정
mem_usage, _ = memory_usage((memory_intensive_function, ), interval=0.1, retval=True)
print(f"Peak Memory Usage: {max(mem_usage):.2f} MB")


In [None]:
'''
이 코드는 코랩에서는 IPython 환경과 호환되지 않아서 오류가 발생함
PC 파이썬 인터프리터에서 실행
- 각 코드 라인이 얼마나 많은 메모리를 사용하는지 확인 가능
'''
from memory_profiler import profile

@profile
def memory_intensive_function():
    data = [i for i in range(10**6)]  # 큰 리스트 생성
    total = sum(data)
    return total

memory_intensive_function()


#### 3.메모리 사용량 추적

In [None]:
'''
메모리 증가량을 추적하고, 프로그램이 가장 많은 메모리를 사용할 때를 확인 가능
'''
import tracemalloc

def memory_intensive_function():
    data = [i for i in range(10**6)]  # 큰 리스트 생성
    return sum(data)

# 메모리 사용량 추적 시작
tracemalloc.start()

memory_intensive_function()

# 메모리 사용량 확인
current, peak = tracemalloc.get_traced_memory()
print(f"Current memory usage: {current / (1024 * 1024):.2f} MB")
print(f"Peak memory usage: {peak / (1024 * 1024):.2f} MB")

# 메모리 추적 종료
tracemalloc.stop()


#### 4.Garbage Collector 메모리 수거 확인

In [None]:
import gc
import psutil

def create_large_data():
    return [i for i in range(10**6)]  # 큰 리스트 생성

process = psutil.Process()
print(f"Memory Before: {process.memory_info().rss / (1024 * 1024):.2f} MB")

data = create_large_data()

print(f"Memory After: {process.memory_info().rss / (1024 * 1024):.2f} MB")

del data  # 메모리 해제
gc.collect()  # 가비지 컬렉션 실행

print(f"Memory After GC: {process.memory_info().rss / (1024 * 1024):.2f} MB")




---



### [실습문제] 정렬 알고리즘 성능 분석 (시간, 메모리)
- bubble_sort, merge_sort, builtin_sort  사용
- sizes =  [100, 500, 1000, 5000, 10000] 임의의 정수 사용
- 실행 시간(time), 전체 메모리 사용량 측정하여  그래프에 시각화하기

In [None]:
# 코드 작성
import time
import random
import matplotlib.pyplot as plt
import psutil
import gc  # 가비지 컬렉션 추가

# 현재 프로세스의 메모리 사용량 측정
# - rss:Resident Set Size, 현재 프로세스가 실제로 물리적 RAM에서 차지하고 있는 메모리 크기
process = psutil.Process()


# 실행 시간, 메모리 사용량 측정 함수
def measure_time(sort_funcs, arr):
    times = []
    memorys = []
    for sort_func in sort_funcs:
        # 측정 전 가비지 컬렉션 실행
        gc.collect()

        arr_copy = arr[:]  # 원본 배열 보호 (정렬 후 배열이 바뀌므로 복사)

        start_memory = process.memory_info().rss / (1024 * 1024)  # MB 단위

        start = time.time()
        sort_func(arr_copy)
        end = time.time()

        end_memory = process.memory_info().rss / (1024 * 1024)  # MB 단위

        times.append(end - start)
        memorys.append(end_memory - start_memory)

        # 측정 후 명시적으로 변수 삭제
        del arr_copy
        gc.collect()

    return times, memorys



# 벤치마크 함수
def benchmark():
    sizes = [100, 500, 1000, 5000, 10000]
    sort_funcs = [bubble_sort, merge_sort, builtin_sort]
    func_times = [[] for _ in sort_funcs]  # 동적 리스트 생성
    func_memorys = [[] for _ in sort_funcs]

    # 실행 시간 측정
    for size in sizes:
        arr = [random.randint(0, 10000) for _ in range(size)]
        time_results,  memory_results = measure_time(sort_funcs, arr)
        for idx, val in enumerate(time_results):
            func_times[idx].append(val)
            func_memorys[idx].append(memory_results[idx])


    # 그래프 그리기 : 서브플롯 생성 (1행 2열)
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))  # 1행 2열의 그래프
    ax1, ax2 = axes  # 첫 번째 축 (실행 시간), 두 번째 축 (메모리 사용량)
    for idx, sort_func in enumerate(sort_funcs):
        ax1.plot(sizes, func_times[idx], label=f"{sort_func.__name__}", marker='o')
        ax2.plot(sizes, func_memorys[idx], label=f"{sort_func.__name__}", marker='o')

    ax1.set_xlabel("Input Size")
    ax1.set_ylabel("Execution Time (seconds)")
    ax1.set_title("Algorithm Time Complexity Analysis")
    ax1.legend()

    ax2.set_xlabel("Input Size")
    ax2.set_ylabel("Memory Usage (MB)")
    ax2.set_title("Algorithm MemoryUsage Complexity Analysis")
    ax2.legend()
    plt.show()


# 함수 호출
benchmark()

- **문자열 데이터 사용**

In [None]:
import random

# 실제 의미있는 데이터 풀 생성
class RealDataGenerator:
    def __init__(self):
        # 한국 대학교 명단
        self.universities = [
            "서울대학교", "연세대학교", "고려대학교", "성균관대학교", "한양대학교",
            "중앙대학교", "경희대학교", "한국외국어대학교", "서강대학교", "이화여자대학교",
            "홍익대학교", "건국대학교", "동국대학교", "국민대학교", "숭실대학교",
            "세종대학교", "광운대학교", "명지대학교", "단국대학교", "가천대학교"
        ]

        # IT 회사 명단
        self.companies = [
            "삼성전자", "LG전자", "SK하이닉스", "네이버", "카카오", "라인", "쿠팡",
            "배달의민족", "토스", "당근마켓", "야놀자", "마켓컬리", "직방",
            "우아한형제들", "NHN", "엔씨소프트", "넷마블", "스마일게이트",
            "크래프톤", "컴투스", "위메이드", "펄어비스"
        ]

        # 프로그래밍 언어 및 기술
        self.technologies = [
            "Python", "Java", "JavaScript", "TypeScript", "C++", "C#", "Go", "Rust",
            "React", "Vue.js", "Angular", "Node.js", "Spring", "Django", "Flask",
            "Docker", "Kubernetes", "AWS", "Azure", "GCP", "MongoDB", "MySQL",
            "PostgreSQL", "Redis", "Elasticsearch", "Kafka", "RabbitMQ", "Jenkins"
        ]

        # 도시 명단
        self.cities = [
            "서울", "부산", "대구", "인천", "광주", "대전", "울산", "수원", "용인", "고양",
            "창원", "성남", "청주", "안산", "전주", "천안", "남양주", "화성", "평택", "의정부",
            "시흥", "파주", "김해", "순천", "목포", "포항", "구미", "경주", "양산", "진주"
        ]

        # 직무 분야
        self.job_fields = [
            "프론트엔드개발자", "백엔드개발자", "풀스택개발자", "데이터사이언티스트", "AI엔지니어",
            "DevOps엔지니어", "클라우드엔지니어", "보안전문가", "모바일개발자", "게임개발자",
            "데이터엔지니어", "머신러닝엔지니어", "블록체인개발자", "QA엔지니어", "시스템관리자"
        ]

    def generate_university_data(self, size):
        """대학교 관련 데이터 생성"""
        return [
            f"{random.choice(self.universities)}_클라우드공학과_{random.randint(2020, 2024)}학번_학생{i:04d}"
            for i in range(size)
        ]

    def generate_company_data(self, size):
        """회사 관련 데이터 생성"""
        departments = ["개발팀", "AI팀", "데이터팀", "인프라팀", "보안팀", "기획팀"]
        return [
            f"{random.choice(self.companies)}_{random.choice(departments)}_{random.choice(self.technologies)}개발자_{i:05d}"
            for i in range(size)
        ]

    def generate_project_data(self, size):
        """프로젝트 관련 데이터 생성"""
        project_types = ["웹서비스", "모바일앱", "AI시스템", "데이터분석", "클라우드인프라", "게임"]
        return [
            f"{random.choice(project_types)}_{random.choice(self.cities)}지역_{random.choice(self.technologies)}기반_프로젝트{i:06d}"
            for i in range(size)
        ]

    def generate_job_posting_data(self, size):
        """채용공고 관련 데이터 생성"""
        experience_levels = ["신입", "1-3년", "3-5년", "5년이상", "시니어"]
        return [
            f"{random.choice(self.companies)}_{random.choice(self.job_fields)}_{random.choice(experience_levels)}경력_채용공고{i:05d}"
            for i in range(size)
        ]

    def generate_course_data(self, size):
        """강의 관련 데이터 생성"""
        course_types = ["기초", "중급", "고급", "실무", "프로젝트"]
        return [
            f"{random.choice(self.technologies)}_{random.choice(course_types)}과정_{random.choice(self.universities)}_{2024}년{random.randint(1,12):02d}월_수강생{i:04d}"
            for i in range(size)
        ]

In [None]:
# 벤치마크 함수
def benchmark():
    sizes = [100, 500, 1000, 5000, 10000]
    sort_funcs = [bubble_sort, merge_sort, builtin_sort]
    func_times = [[] for _ in sort_funcs]  # 동적 리스트 생성
    func_memorys = [[] for _ in sort_funcs]

    # 실제 데이터 생성기 초기화
    data_generator = RealDataGenerator()

    for size in sizes:
        # 옵션 1: 대학생 데이터
        arr = data_generator.generate_university_data(size)
        print(len(arr), arr)

        # 옵션 2: IT 회사 직원 데이터
        # arr = data_generator.generate_company_data(size)

        # 옵션 3: 프로젝트 관리 데이터
        # arr = data_generator.generate_project_data(size)

        # 옵션 4: 채용공고 데이터
        # arr = data_generator.generate_job_posting_data(size)

        # 옵션 5: 온라인 강의 수강생 데이터
        # arr = data_generator.generate_course_data(size)

        time_results, memory_results = measure_time(sort_funcs, arr)
        for idx, val in enumerate(time_results):
            func_times[idx].append(val)
            func_memorys[idx].append(memory_results[idx])


    # 그래프 그리기 : 서브플롯 생성 (1행 2열)
    fig, axes = plt.subplots(1, 2, figsize=(12, 5))  # 1행 2열의 그래프
    ax1, ax2 = axes  # 첫 번째 축 (실행 시간), 두 번째 축 (메모리 사용량)
    for idx, sort_func in enumerate(sort_funcs):
        ax1.plot(sizes, func_times[idx], label=f"{sort_func.__name__}", marker='o')
        ax2.plot(sizes, func_memorys[idx], label=f"{sort_func.__name__}", marker='o')

    ax1.set_xlabel("Input Size")
    ax1.set_ylabel("Execution Time (seconds)")
    ax1.set_title("Algorithm Time Complexity Analysis")
    ax1.legend()

    ax2.set_xlabel("Input Size")
    ax2.set_ylabel("Memory Usage (MB)")
    ax2.set_title("Algorithm MemoryUsage Complexity Analysis")
    ax2.legend()
    plt.show()


# 함수 호출
benchmark()