### 정렬 알고리즘을 이해하는 것이 중요한 이유


1. **기본적인 알고리즘 이해**: 정렬 알고리즘은 컴퓨터 과학의 가장 기본적인 주제 중 하나입니다. 정렬 알고리즘을 이해하면, 알고리즘의 시간 복잡도, 공간 복잡도 등의 개념에 대한 이해도 함께 얻을 수 있습니다. 이는 전반적인 프로그래밍 및 알고리즘 스킬을 향상시키는 데 도움이 됩니다.

2. **데이터 이해**: 어떤 정렬 알고리즘이 특정 데이터 세트에 가장 효과적인지 이해하려면, 그 데이터의 특성을 이해해야 합니다. 예를 들어, 데이터가 이미 부분적으로 정렬되어 있는지, 아니면 완전히 무작위인지에 따라서 어떤 정렬 알고리즘이 더 좋은 성능을 낼지가 달라질 수 있습니다. 따라서 정렬 알고리즘을 이해하는 것은 실제 데이터를 더 깊게 이해하는 데도 도움이 됩니다.

3. **특별한 경우 처리**: 대부분의 경우에는 pandas나 numpy같은 라이브러리의 내장 정렬 함수를 사용하는 것이 가장 효율적입니다. 하지만 특별한 요구사항이 있는 경우(예: 특정 조건에 따른 복잡한 정렬, 매우 큰 데이터셋 등)에는 직접 정렬 알고리즘을 구현하거나 조정해야 할 수도 있습니다. 이런 경우에는 정렬 알고리즘에 대한 깊은 이해가 필요합니다.

4. **면접 및 기술 평가**: 많은 기업들은 데이터 분석가 또는 데이터 과학자 포지션의 면접 과정에서 알고리즘에 대한 지식을 평가합니다. 이 때 정렬 알고리즘이나 다른 기본 알고리즘에 대한 질문이 나올 수 있습니다. 이런 면접을 통과하기 위해서도 정렬 알고리즘에 대한 이해가 필요합니다.

따라서, 내장 정렬 함수를 사용할 수 있음에도 불구하고 정렬 알고리즘을 배우는 것은 중요합니다.

In [None]:
# 선택정렬
def selection_sort(arr):
    n = len(arr)
    for i in range(n-1):
        min_idx = i
        for j in range(i+1, n):
            if arr[j] < arr[min_idx]:
                min_idx = j
        arr[i], arr[min_idx] = arr[min_idx], arr[i]
    return arr


In [None]:
# 삽입정렬
def insertion_sort(arr):
    n = len(arr)
    for i in range(1, n):
        key = arr[i]
        j = i - 1
        while j >= 0 and arr[j] > key:
            arr[j + 1] = arr[j]
            j -= 1
        arr[j + 1] = key
    return arr


In [None]:
# 버블정렬
def bubble_sort(arr):
    n = len(arr)
    #print(n)
    for i in range(n-1):
        #print("i:",i)
        for j in range(n-i-1):
            #print("j:",j)
            if arr[j] > arr[j+1]:
                arr[j], arr[j+1] = arr[j+1], arr[j]
    return arr
print(bubble_sort([5,3,2,1,4]))

In [None]:
print(selection_sort([5,3,2,1,4]))
print(insertion_sort([5,3,2,1,4]))
print(bubble_sort([5,3,2,1,4]))

[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]
[1, 2, 3, 4, 5]


### 정렬1

이커머스 서비스에서 데이터 분석가는 주로 판매 품목, 사용자 행동, 매출 등의 데이터를 분석합니다. 여기에는 상품을 판매량, 판매 가격, 리뷰 점수 등으로 정렬하는 경우가 자주 있습니다.

다음은 pandas 라이브러리를 사용해 데이터를 정렬하는 파이썬 코드 예시입니다. 이 코드는 판매량 기준으로 상품을 내림차순 정렬하는 예시입니다. 상품에 대한 정보는 DataFrame 형태로 저장되어 있다고 가정합니다.


In [None]:
import pandas as pd

# 가정: 'product_df'는 상품에 대한 정보를 담고 있는 DataFrame
# 이 DataFrame에는 'product_name', 'sales_volume', 'price', 'review_score' 같은 컬럼이 있습니다.

# 'sales_volume' 컬럼 기준으로 내림차순 정렬
sorted_df = product_df.sort_values('sales_volume', ascending=False)

# 정렬 결과를 출력
print(sorted_df)



이와 같은 정렬 기능은 어떤 상품이 가장 많이 팔렸는지, 어떤 상품이 높은 리뷰 점수를 받았는지 등의 정보를 파악하는 데 도움이 됩니다. 이렇게 얻은 정보를 바탕으로 상품 구매 패턴을 파악하거나 매출을 증가시키는 전략을 수립할 수 있습니다.

### 정렬2

다음은 선택 정렬, 삽입 정렬, 버블 정렬을 활용하여 이커머스 서비스에서 상품 가격을 오름차순으로 정렬하는 파이썬 코드입니다.



In [None]:
# 가정: 'prices' 리스트는 상품들의 가격을 담고 있습니다.

# 1. 선택 정렬
def selection_sort(prices):
    for i in range(len(prices)):
        min_index = i
        for j in range(i+1, len(prices)):
            if prices[j] < prices[min_index]:
                min_index = j
        prices[i], prices[min_index] = prices[min_index], prices[i]
    return prices

# 2. 삽입 정렬
def insertion_sort(prices):
    for i in range(1, len(prices)):
        key = prices[i]
        j = i-1
        while j >= 0 and key < prices[j] :
                prices[j + 1] = prices[j]
                j -= 1
        prices[j + 1] = key
    return prices

# 3. 버블 정렬
def bubble_sort(prices):
    for i in range(len(prices)):
        for j in range(0, len(prices) - i - 1):
            if prices[j] > prices[j+1] :
                prices[j], prices[j+1] = prices[j+1], prices[j]
    return prices


각각의 정렬 알고리즘의 성능을 비교하려면, 실행 시간을 측정해야 합니다. 다음은 time 모듈을 사용하여 각 알고리즘의 실행 시간을 측정하는 코드입니다.



In [None]:
import time

prices = ['10000', '100000','1000000']  # 상품 가격 리스트

# 선택 정렬 실행 시간 측정
start_time = time.time()
selection_sort(prices)
print(f"Selection sort execution time: {time.time() - start_time} seconds")

# 삽입 정렬 실행 시간 측정
start_time = time.time()
insertion_sort(prices)
print(f"Insertion sort execution time: {time.time() - start_time} seconds")

# 버블 정렬 실행 시간 측정
start_time = time.time()
bubble_sort(prices)
print(f"Bubble sort execution time: {time.time() - start_time} seconds")


Selection sort execution time: 9.560585021972656e-05 seconds
Insertion sort execution time: 9.655952453613281e-05 seconds
Bubble sort execution time: 0.00011563301086425781 seconds


위의 값은 각각 선택 정렬(Selection sort), 삽입 정렬(Insertion sort), 버블 정렬(Bubble sort) 알고리즘을 사용하여 동일한 데이터를 정렬하는데 소요된 시간입니다. 시간 단위는 초(Seconds)입니다.

1. **선택 정렬**: 9.44 * 10^-5 초
2. **삽입 정렬**: 0.000142 초
3. **버블 정렬**: 0.000107 초

알고리즘 성능 비교를 위해 입력 데이터는 모두 동일하게 사용되었음을 가정하겠습니다.

이 경우, 선택 정렬이 가장 빠르게, 그 다음으로 버블 정렬, 그리고 삽입 정렬 순서로 소요 시간이 측정되었습니다.

**선택 정렬**은 가장 작은 값의 인덱스를 찾아서 현재 인덱스와 바꾸는 방식으로 동작하며, 최악의 경우에도 시간 복잡도가 O(n^2)입니다.

**삽입 정렬**은 현재 위치에서 그 이하의 배열들을 비교하여 자신이 들어갈 위치를 찾아 그 위치에 삽입하는 방식으로 동작하며, 최악의 경우 시간 복잡도가 O(n^2)입니다.

**버블 정렬**은 매번 연속된 두 개의 요소를 비교하여 필요에 따라 위치를 바꾸는 방식으로 동작하며, 최악의 경우 시간 복잡도가 O(n^2)입니다.

이 세 알고리즘 모두 시간 복잡도가 O(n^2)인데, 측정된 실행 시간이 약간씩 다른 이유는 알고리즘의 상세 구현 방식과 입력 데이터의 상태에 따라 달라집니다.

예를 들어, 입력 데이터가 이미 어느 정도 정렬된 상태라면 삽입 정렬이 다른 두 알고리즘보다 빠르게 동작할 수 있습니다.
반대로 입력 데이터가 역순으로 정렬된 상태라면 삽입 정렬의 성능이 매우 떨어질 수 있습니다.

실제로 더 큰 데이터셋에서 이 세 알고리즘의 성능을 비교한다면, 그 차이가 더 명확하게 드러날 것입니다.

위 코드들은 파이썬 내장 리스트를 사용하여 직접 정렬을 수행하고 있습니다.

실제 이커머스 서비스에서는 pandas 나 numpy 와 같은 라이브러리를 사용하여 데이터를 관리하며, 이 라이브러리들은 내부적으로 효율적인 정렬 알고리즘을 구현하고 있습니다.

이 예제들은 선택 정렬, 삽입 정렬, 버블 정렬의 개념을 이해하고 그 차이점을 알아보는 데 도움이 될 것입니다.






### 정렬3

파이썬의 pandas와 numpy 라이브러리는 정렬 작업을 위한 강력한 메서드를 제공합니다.

pandas의 DataFrame에서는 sort_values() 함수를, numpy에서는 np.sort() 함수를 주로 사용합니다.

먼저, pandas에서 사용하는 정렬 방법에 대한 예시입니다.

In [None]:
import pandas as pd

data = {
    'product_name': ['product1', 'product2', 'product3', 'product4', 'product5'],
    'sales_volume': [100, 150, 120, 300, 200],
    'price': [10.99, 20.99, 15.99, 25.99, 19.99],
    'review_score': [4.5, 4.7, 4.3, 5.0, 4.6]
}

df = pd.DataFrame(data)

print(df)


  product_name  sales_volume  price  review_score
0     product1           100  10.99           4.5
1     product2           150  20.99           4.7
2     product3           120  15.99           4.3
3     product4           300  25.99           5.0
4     product5           200  19.99           4.6


In [None]:
import pandas as pd

# 가정: 'df'는 상품에 대한 정보를 담고 있는 DataFrame
# 이 DataFrame에는 'product_name', 'sales_volume', 'price', 'review_score' 등의 컬럼이 있습니다.

# 'price' 컬럼 기준으로 오름차순 정렬
sorted_df = df.sort_values('price', ascending=True)

print(sorted_df)


  product_name  sales_volume  price  review_score
0     product1           100  10.99           4.5
2     product3           120  15.99           4.3
4     product5           200  19.99           4.6
1     product2           150  20.99           4.7
3     product4           300  25.99           5.0


다음은 numpy에서 사용하는 정렬 방법에 대한 예시입니다.



In [None]:
import numpy as np

# 가정: 'prices'는 상품의 가격들을 담고 있는 numpy array

# 오름차순 정렬
sorted_prices = np.sort(prices)

print(sorted_prices)


['10000' '100000' '1000000']


이들 라이브러리는 내부적으로 효율적인 정렬 알고리즘을 사용하여 빠르게 데이터를 정렬해줍니다.

pandas는 기본적으로 퀵 정렬을, numpy는 팀소트를 기본 알고리즘으로 사용합니다. 이들 알고리즘은 대부분의 경우에서 O(n log n)의 시간 복잡도를 가집니다.

이러한 내부 알고리즘은 데이터의 크기와 특성에 따라 적절하게 선택됩니다.





In [None]:
8,1,2,5,4,8,2 # 원소의 값
0,1,2,3,4,5,6 # 원소의 인덱스번호

# 안정정렬(원소의 인덱스번호 순서를 유지해주는 정렬)
==> 1,2,2,4,5,8,8 # 원소의 값
    1,2,6,4,3,0,5 # 원소의 인덱스번호

# 불안정정렬(원소의 인덱스번호 순서를 유지하기 어려운 정렬)
==> 1,2,2,4,5,8,8 # 원소의 값
    1,6,2,4,3,5,0 # 원소의 인덱스번호