https://twitter.com/kdjp20/status/1389817538062680066

# クイックソート

- partition algorithm(ある数より大きいものの集合と小さいものの集合に、切り分ける)
- のちによりシンプルなpartition algorithmの方法を学んだので、最後に記す

In [16]:
# Quick Sort
def sortArray(nums):
    # Sorts given list in the range of [left, right] internally.
    def sort(l, left, right):
        if left >= right:
            return
        pivot_idx = self.partition(l, left, right)
        sort(l, left, pivot_idx-1)
        sort(l, pivot_idx+1, right)

    sort(nums, 0, len(nums)-1)
    return nums

# This methods mutates list `l` internally.
# Returns idx which satisfies both of:
#         left <= idx <= right
#         l[:idx] < l[idx] < l[idx+1:]
def partition(l, left, right):
    pivot = l[right]
    orig_right = right

    while left < right:
        while (left < right) and (l[left] < pivot):
            left += 1
        while (left < right) and (pivot <= l[right]): # pivotであるl[orig_right]は一番最初にskipされてright pointerは左に進む
            right -= 1
        l[left], l[right] = l[right], l[left]  # left = rightの時もswapされるが問題ない

    l[left], l[orig_right] = l[orig_right], l[left] # 最後にpivotをleftの位置に持ってくる
    return left

In [22]:
# test for partition()
# first_half should be: x < pivot
# second_half should be: x >= pivot

# pivot = 3
nums = [3,1,2,3,4,3]
pivot_idx = partition(nums, 0, len(nums)-1)
print(pivot_idx, nums)

# pivot = 4
nums = [4,3,3,2,1]
pivot_idx = partition(nums, 0, len(nums)-1)
print(pivot_idx, nums)

# pivot = 4
nums = [4,5,6,5,6]
pivot_idx = partition(nums, 0, len(nums)-1)
print(pivot_idx, nums)

# pivot = 3
nums = [3,1,2,4,5,1]
pivot_idx = partition(nums, 0, len(nums)-1)
print(pivot_idx, nums)

# pivot = 3
nums = [3,2,2,2,2,6,6,1]
pivot_idx = partition(nums, 0, len(nums)-1)
print(pivot_idx, nums)

2 [2, 1, 3, 3, 4, 3]
0 [1, 3, 3, 2, 4]
3 [4, 5, 5, 6, 6]
0 [1, 1, 2, 4, 5, 3]
0 [1, 2, 2, 2, 2, 6, 6, 3]


- やっぱり計算時間はO(nlogn)で、最悪なのは、すでに並んでる場合(降順昇順を問わない)で、O(n^2)かかる
- テスト最高。エッジケースの確認に最高。 

# マージソート

In [11]:
# # 引数として渡された整列済みの配列をマージした整列済みの配列を返す
# # <注>2 pointersを使う実装に書き換えよう
# def merge_sorted_arrs(arr1, arr2):
#     i = 0
#     arr = []
#     while True:
#         arr_to_pop = arr1 if (arr1[0] < arr2[0]) else arr2
#         arr.append(arr_to_pop.pop(0))        ### <要修正>やばいことやってる。O(Nかかる)
#         if len(arr1) == 0:
#             arr.extend(arr2)
#             return arr
#         if len(arr2) == 0:
#             arr.extend(arr1)
#             return arr

In [5]:
def merge_sorted_arrs(arr1, arr2):
    ret = []
    p1, p2 = 0, 0
    while p1 <= len(arr1)-1 and p2 <= len(arr2)-1:
        if arr1[p1] <= arr2[p2]:
            ret.append(arr1[p1])
            p1 += 1
        else:
            ret.append(arr2[p2])
            p2 += 1
    
    if p1 <= len(arr1)-1:
        ret.extend(arr1[p1:])
    if p2 <= len(arr2)-1:
        ret.extend(arr2[p2:])
        
    return ret

In [6]:
merge_sorted_arrs([3,4,4],[2,3,7,8])


[2, 3, 3, 4, 4, 7, 8]

In [7]:
def merge_sort(arr):
    len_arr = len(arr)
    if len_arr <= 1:
        return arr
    return merge_sorted_arrs(merge_sort(arr[:(len_arr//2)]), merge_sort(arr[(len_arr//2):]))

In [8]:
merge_sort([1,2,3,2,1])

[1, 1, 2, 2, 3]

- 計算時間はavgもworstも、O(nlogn)
- spaceは、O(3n) = O(n) ([nlognではない](https://www.quora.com/Algorithms-How-does-merge-sort-have-space-complexity-O-n-for-worst-case))

```
多くの場面では、クイックソートがよい
要素数が小さいときや、ほとんど整列済みに近いときは、挿入ソートも有力
要素数が小さくて、省メモリ性や安定性を重視したいときは、挿入ソートがよい
各要素が整数値であまり大きな絶対値をとらないときは、計数ソートや基数ソートもよい
安定かつ高速なソートが欲しいときは、マージソートがよい
```

```
素朴な感性に基づくソートとしては

挿入ソート (かなり自然です)
選択ソート (貪欲法に基づいていて、とても自然です)
バブルソート (それほど自然ではないかもしれません)
があります。これらは人間にとって自然なものですが、いずれも O(n2)の計算時間がかかります。しかし

マージソート (分割統治法パラダイムを学べます)
ヒープソート (ヒープはそれ自体が重要なデータ構造です)
といったより洗練されたアルゴリズムでは O(nlogn)の計算時間で終わらせることができます。このような OO 記法に不慣れな方向けに以下の記事も書きました:
```

## Partition Algorithm

- leftとrightががっちゃんこ
- piとiが左から右へ動いていく

の２パターンの実装方法がありそう。以下で後者を実装する。

(参考) https://www.youtube.com/watch?v=MZaf_9IZCrc

イメージとしては、先陣きってjを左に進めていき、もし、arr[j]がpivotより小さければ、それをarr[i+1]と交換して、iとjを一個ずつ前に進める。
もし、そうでなければ、jだけ一つ前に進む。


ループの最初の時点、つまりjを一つ右にずらし終わった時点で、**iとそれより前の箇所**はpivotより小さく、iからj-1までの箇所はpivotよりも大きくなっている。

jというpioneerがpivotより小さいものを見つけ、そしたらそれをiの一つ右の箇所に放り投げるイメージ。
iの一つ右の箇所は、すでにjが通り過ぎている＝pivotより大きいので、これと交換する。


```
    x x x x i y y y y j z z z [pivot]


[スタート]

i = -1, j = 0から始める(iを区間の端っこより一つ左のindexから始めるのが肝)

[途中経過(ループの最初の時点で)]
- x x x iの区間は、pivotよりも小さい
- y y y の区間は、pivot よりも大きい
- j はこれから調べる
  - もしj <= pivotならば、i+=1してそれとjの数字を交換、その後j+=1
  - そうでなければただj+=1
- z z zの区間は未開拓


```



In [32]:
# Partition arr mutably　and returns the index of pivot.
# the end element would be chosen as pivot.
# All elements followed by final pivot is smaller than OR EQUALS TO pivot, and
# all elements following final pivot is larger than pivot
def partition(arr, start, end):
    if start < 0 or len(arr) <= end:
        raise Exception
    pivot = arr[end]
    i = start - 1
    j = start
    
    while j < end:
        if arr[j] <= pivot:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
        j += 1
    
#     # the case when all elements are LARGER than pivot   #間違い
#     if i < start:
#         return end
    arr[i+1], arr[end] = arr[end], arr[i+1]
    return i+1

### test

In [43]:
# when only 1 element exists
arr = [1]
assert partition(arr, 0, 0) == 0
assert arr == [1]

In [42]:
# when arr is in ascending order
arr = [1, 2, 3]
assert partition(arr, 0, 1) == 2
assert arr == [1, 2, 3]

In [44]:
# when arr is in decending order
arr = [3, 2, 1]
assert partition(arr, 0, 2) == 0
assert arr == [1, 2, 3]

In [46]:
arr = [1,9,2,5,6,3,8,4]
assert partition(arr, 0, 7) == 3
assert arr == [1, 2, 3, 4, 6, 9, 8, 5]

## pivotのランダム選択要素を入れる

In [47]:
def partition(arr, start, end):
    if start < 0 or len(arr) <= end:
        raise Exception
    
    # randomにpivotを選んで、それを末尾の要素とswapする
    rand_idx = random.randrange(start_idx, end_idx+1)
    points[end_idx], points[rand_idx] = points[rand_idx], points[end_idx]

    pivot = arr[end]
    i = start - 1
    j = start
    
    while j < end:
        if arr[j] <= pivot:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]
        j += 1
    
#     # the case when all elements are LARGER than pivot   #間違い
#     if i < start:
#         return end
    arr[i+1], arr[end] = arr[end], arr[i+1]
    return i+1

In [49]:
import time

In [50]:
def init_string(cnt):
    t = time.time()
    s = 's' * cnt
    return(time.time() - t)

In [59]:
print(init_string(1000000000))
print(init_string(2000000000))
print(init_string(3000000000))
print(init_string(4000000000))

0.43766307830810547
0.8412730693817139
1.0948667526245117
1.3987321853637695
