# クイックソート

- partition algorithm(ある数より大きいものの集合と小さいものの集合に、切り分ける)
- のちによりシンプルなpartition algorithmの方法を学んだので、最後に記す

In [147]:
# arrを要素が小さい順に並び替える
def quick_sort(arr):
    if len(arr) == 1:
        return arr
    first, last = partition(arr)
    
    if len(first) == 0:
        return [last[0]] + quick_sort(last[1:])
    return quick_sort(first) + quick_sort(last)

In [162]:
# 引数として渡された配列の最初の要素をpivotとして、二つの配列を返す
#
# Returns:
#     first array: pivot未満の要素の配列
#     secod array: pivot以上の要素の配列
def partition(arr):
    pivot = arr[0]
    i, j = 0, len(arr) - 1
    while True:
        is_end = False
        while arr[i] < pivot:
#             print(i,j)
            i += 1
            if i == j:
                is_end = True
                break
        if is_end:
            break
        while arr[j] >= pivot:
            j -= 1
            if i == j:
                is_end = True
                break
        if is_end:
            break
        # make a swap
        ele_i = arr[i]
        arr[i] = arr[j]
        arr[j] = ele_i
    return arr[:i], arr[i:]


#　210110 以下でもいけそう
def partition2(arr):
    while left_idx < right_idx:            
        while (left_idx < right_idx) and (list_[left_idx] < pivot):
            left_idx += 1

        while (left_idx < right_idx) and (list_[right_idx] >= pivot):
            right_idx -= 1

        list_[right_idx], list_[left_idx] = list_[left_idx], list_[right_idx]

In [163]:
# test for partition()
# first_half should be: x < pivot
# second_half should be: x >= pivot

# pivot = 3
first, last = partition([3,1,2,3,4,3])
print(first, last)
assert first == [2,1]
assert last == [3,3,4,3]

# pivot = 4
first, last = partition([4,3,3,2,1])
print(first, last)
assert first == [1,3,3,2]
assert last == [4]

# pivot = 4
first, last = partition([4,5,6,5,6])
assert first == []
assert last == [4,5,6,5,6]

# pivot = 3
# i ==> j
first, last = partition([3,1,2,4,5,1])
print(first, last)
assert first == [1,1,2]
assert last == [4,5,3]

# pivot = 3
first, last = partition([3,2,2,2,2,6,6,1])
print(first, last)

[2, 1] [3, 3, 4, 3]
[1, 3, 3, 2] [4]
[1, 1, 2] [4, 5, 3]
[1] [5, 6, 6, 6, 3]


- やっぱり計算時間はO(nlogn)で、最悪なのは、すでに並んでる場合(降順昇順を問わない)で、O(n^2)かかる
- テスト最高。エッジケースの確認に最高。 

# マージソート

In [11]:
# 引数として渡された整列済みの配列をマージした整列済みの配列を返す
def merge_sorted_arrs(arr1, arr2):
    i = 0
    arr = []
    while True:
        arr_to_pop = arr1 if (arr1[0] < arr2[0]) else arr2
        arr.append(arr_to_pop.pop(0))
        if len(arr1) == 0:
            arr.extend(arr2)
            return arr
        if len(arr2) == 0:
            arr.extend(arr1)
            return arr

In [12]:
merge_sorted_arrs([3,4,4],[2,3,7,8])


[2, 3, 3, 4, 4, 7, 8]

In [17]:
def merge_sort(arr):
    len_arr = len(arr)
    if len_arr <= 1:
        return arr
    return merge_sorted_arrs(merge_sort(arr[:(len_arr//2)]), merge_sort(arr[(len_arr//2):]))

In [18]:
merge_sort([1,2,3,2,1])

[1, 1, 2, 2, 3]

- 計算時間はO(nlogn)
- いつも一定

```
多くの場面では、クイックソートがよい
要素数が小さいときや、ほとんど整列済みに近いときは、挿入ソートも有力
要素数が小さくて、省メモリ性や安定性を重視したいときは、挿入ソートがよい
各要素が整数値であまり大きな絶対値をとらないときは、計数ソートや基数ソートもよい
安定かつ高速なソートが欲しいときは、マージソートがよい
```

```
素朴な感性に基づくソートとしては

挿入ソート (かなり自然です)
選択ソート (貪欲法に基づいていて、とても自然です)
バブルソート (それほど自然ではないかもしれません)
があります。これらは人間にとって自然なものですが、いずれも O(n2)O(n2) の計算時間がかかります。しかし

マージソート (分割統治法パラダイムを学べます)
ヒープソート (ヒープはそれ自体が重要なデータ構造です)
といったより洗練されたアルゴリズムでは O(nlogn)O(nlog⁡n) の計算時間で終わらせることができます。このような OO 記法に不慣れな方向けに以下の記事も書きました:
```

## Partition Algorithm

- leftとrightががっちゃんこ
- piとiが左から右へ動いていく

の２パターンの実装方法がありそう。以下で後者を実装する。

(参考) https://www.youtube.com/watch?v=MZaf_9IZCrc

イメージとしては、先陣きってjを左に進めていき、もし、arr[j]がpivotより小さければ、それをarr[i+1]と交換して、iとjを一個ずつ前に進める。
もし、そうでなければ、jだけ一つ前に進む。


ループの最初の時点、つまりjを一つ右にずらし終わった時点で、**iとそれより前の箇所**はpivotより小さく、iからj-1までの箇所はpivotよりも大きくなっている。

jというpioneerがpivotより小さいものを見つけ、そしたらそれをiの一つ右の箇所に放り投げるイメージ。
iの一つ右の箇所は、すでにjが通り過ぎている＝pivotより大きいので、これと交換する。


```
    x x x x i y y y y j z z z [pivot]


[スタート]

i = -1, j = 0から始める(iを区間の端っこより一つ左のindexから始めるのが肝)

[途中経過(ループの最初の時点で)]
- x x x iの区間は、pivotよりも小さい
- y y y の区間は、pivot よりも大きい
- j はこれから調べる
  - もしj <= pivotならば、i+=1してそれとjの数字を交換、その後j+=1
  - そうでなければただj+=1
- z z zの区間は未開拓


```



In [32]:
# Partition arr mutably　and returns the index of pivot.
# the end element would be chosen as pivot.
# All elements followed by final pivot is smaller than OR EQUALS TO pivot, and
# all elements following final pivot is larger than pivot
def partition(arr, start, end):
    if start < 0 or len(arr) <= end:
        raise Exception
    pivot = arr[end]
    i = start - 1
    j = start
    
    while j < end:
        if arr[j] <= pivot:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
        j += 1
    
#     # the case when all elements are LARGER than pivot   #間違い
#     if i < start:
#         return end
    arr[i+1], arr[end] = arr[end], arr[i+1]
    return i+1

### test

In [43]:
# when only 1 element exists
arr = [1]
assert partition(arr, 0, 0) == 0
assert arr == [1]

In [42]:
# when arr is in ascending order
arr = [1, 2, 3]
assert partition(arr, 0, 1) == 2
assert arr == [1, 2, 3]

In [44]:
# when arr is in decending order
arr = [3, 2, 1]
assert partition(arr, 0, 2) == 0
assert arr == [1, 2, 3]

In [46]:
arr = [1,9,2,5,6,3,8,4]
assert partition(arr, 0, 7) == 3
assert arr == [1, 2, 3, 4, 6, 9, 8, 5]

## pivotのランダム選択要素を入れる

In [47]:
def partition(arr, start, end):
    if start < 0 or len(arr) <= end:
        raise Exception
    
    # randomにpivotを選んで、それを末尾の要素とswapする
    rand_idx = random.randrange(start_idx, end_idx+1)
    points[end_idx], points[rand_idx] = points[rand_idx], points[end_idx]

    pivot = arr[end]
    i = start - 1
    j = start
    
    while j < end:
        if arr[j] <= pivot:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
        j += 1
    
#     # the case when all elements are LARGER than pivot   #間違い
#     if i < start:
#         return end
    arr[i+1], arr[end] = arr[end], arr[i+1]
    return i+1

In [49]:
import time

In [50]:
def init_string(cnt):
    t = time.time()
    s = 's' * cnt
    return(time.time() - t)

In [59]:
print(init_string(1000000000))
print(init_string(2000000000))
print(init_string(3000000000))
print(init_string(4000000000))

0.43766307830810547
0.8412730693817139
1.0948667526245117
1.3987321853637695
