## Intro Select

配列中の $k$ 番目の値を $O(N)$ で検索するアルゴリズム

### アルゴリズム $P$
1. 入力配列を $5$ 個の要素からなるグループに分割（余った要素もグループに）
2. グループそれぞれの中央値を求める
3. $\lceil n/5\rceil$ 個の中央値全体の中央値 $x$ を $P$ を用いて再帰的に検索
4. $x$ 未満と $x$ 以上のブロックに分割し、$k$ 番目の要素があるブロックを決定
5. $k$ 番目の要素があるブロックを $P$ で検索

In [237]:
def partition(arr, pivot):
    p_idx = None
    for i, val in enumerate(arr):
        if val == pivot:
            p_idx = i
    if p_idx is None:
        return
    
    # pivotを末尾に
    arr[p_idx], arr[-1] = arr[-1], arr[p_idx]
    p_idx = -1

    # 順に交換
    for i, val in enumerate(arr[:-1]):
        if val <= pivot:
            p_idx += 1
            arr[p_idx], arr[i] = arr[i], arr[p_idx]
    
    # pivotを戻す
    arr[p_idx + 1], arr[-1] = arr[-1], arr[p_idx + 1]

    return p_idx + 1

In [238]:
lst = [5, 3, 7, 5, 3, 1, 2, 2, 3, 4]

i = partition(lst, 2)

print(i, lst)

2 [1, 2, 2, 5, 3, 5, 3, 4, 3, 7]


In [239]:
def select(arr, k):
    """
    配列arrのk番目の要素を取得
    """

    if len(arr) == 1:
        return arr[0]

    # ピボット
    pvt = pivot(arr)

    # ピボットのある位置
    pvt_idx = partition(arr, pvt)

    # ピボットの位置で場合分け
    if pvt_idx < k:
        return select(arr[pvt_idx + 1:], k - pvt_idx - 1)
    elif pvt_idx > k:
        return select(arr[:pvt_idx], k)
    else:
        return arr[k]


def pivot(arr):
    """
    arrを5個ずつに分割した配列の中央値の中央値を求める
    """

    if len(arr) == 1:
        return arr[0]

    size = (len(arr) + 4) // 5
    medians = [0] * size

    for i in range(size):
        sub = arr[5 * i: 5 * (i + 1)]

        # 5この要素の中央値
        med = sorted(sub)[(len(sub) - 1) // 2]

        medians[i] = med
    
    # 中央値の中央値を検索
    return select(medians, (size - 1) // 2)

In [240]:
select([1], 0)

1

In [241]:
select([1, 2, 3, 4, 5, 6], 0)

1

In [242]:
select([5, 6, 3, 1, 3, 2, 0], 2)

2

### ランダムテスト

In [243]:
import random

In [244]:
MAX = 1_000_000_000_000_000_000
SIZE = 200_000
REPEAT = 50

In [245]:
median_expected = []
median_actual = []

In [246]:
%%time

random.seed(0)

for _ in range(REPEAT):
    # ランダムなデータの生成
    random_data = [random.randint(0, MAX) for _ in range(SIZE)]

    # ソート
    random_data.sort()

    # 中央値を取得
    med = random_data[SIZE // 2]
    median_expected.append(med)

CPU times: user 5.83 s, sys: 37.3 ms, total: 5.87 s
Wall time: 5.88 s


In [247]:
%%time

random.seed(0)

for _ in range(REPEAT):
    # ランダムなデータの生成
    random_data = [random.randint(0, MAX) for _ in range(SIZE)]

    # 中央値を取得
    med = select(random_data, SIZE // 2)
    median_actual.append(med)    

CPU times: user 9.07 s, sys: 65.5 ms, total: 9.13 s
Wall time: 9.15 s


In [252]:
assert median_expected == median_actual

In [253]:
lst = [1, 5, 4, 6, 3, 2, 1]

ex = sorted(lst)[7 // 2]
ac = select(lst, 7 // 2)

print(lst, sorted(lst))

ex, ac

[1, 1, 4, 6, 3, 2, 5] [1, 1, 2, 3, 4, 5, 6]


(3, 3)

In [254]:
for i in range(7):
    print(select(lst, i))

1
1
2
3
4
5
6
