## 第5章 データの並べ替えにかかる時間を比べる
#### keyword: 

並べ替え（ソート）のアルゴリズムはループや条件分岐、リストの扱い、関数の作成、再帰呼び出しなど基本を学べる。

### 5.2 選択ソート

- リストの中から最も小さい要素を選んで前に移動する。
- 比較回数はn(n-1)/2なので、計算量はO(n^2)

In [None]:
# select_sort.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]


for i in range(len(data)):
    min = i
    for j in range(i + 1, len(data)):
        if data[min] > data[j]:
            min = j
            
    data[i], data[min] = data[min], data[i]
        
print(data)

### 5.3 挿入ソート

- 先頭部分をソート済みとして、残りを適切な位置に挿入していく。  
- 最悪の場合比較回数はn(n-1)/2でO(n^2)だが、一度も交換が発生しない場合はO(n)

In [None]:
# insert_sort.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

for i in range(1, len(data)):
    temp = data[i]
    j = i - 1
    while (j >= 0) and (data[j] > temp):
        data[j + 1] = data[j]
        j -= 1
    data[j + 1] = temp
    
print(data)

### 5.4 バブルソート

- リストの隣り合ったデータを比較して並べ替えていく。
- 比較・交換回数はn(n-1)/2なので、計算量はO(n^2)

In [None]:
# bubble_sort.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

for i in range(len(data)):
    for j in range(len(data) - i - 1):
        if data[j] > data[j + 1]:
            data[j], data[j + 1] = data[j + 1], data[j]
            
print(data)

- バブルソートの改良。処理中に要素の交換がされなかったときに処理を打ち切る。

In [None]:
# bubble_sort2.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

change = True
for i in range(len(data)):
    if not change:
        break
    change = False
    for j in range(len(data) - i - 1):
        if data[j] > data[j + 1]:
            data[j], data[j + 1] = data[j + 1], data[j]
            change = True
        
print(data)

### *20210126*

### 5.5 ヒープソート

データを先頭か末尾から出し入れ
- スタック: 最後に格納したデータから取り出す構造。スタックにデータを格納することをプッシュ、取り出すことをポップという。

In [None]:
# stack.py

stack = []

stack.append(3)
stack.append(5)
stack.append(2)

temp = stack.pop()
print(temp)

temp = stack.pop()
print(temp)

stack.append(4)

temp = stack.pop()
print(temp)

- キュー: 格納した順にデータを取り出す構造。キューにデータを格納することをエンキュー、取り出すことをデキューという。  
  `queue`モジュールが用意されている。ファイル名queue.pyのようにするとモジュール読み込めないので注意。

In [None]:
# queue_sample.py

import queue

q = queue.Queue()

q.put(3)
q.put(5)
q.put(2)

temp = q.get()
print(temp)

temp = q.get()
print(temp)

q.put(4)

temp = q.get()
print(temp)

> `queue`モジュールには`LifoQueue`(スタックのような使い方ができる)や`SimpleQueue`というクラスも用意されている。

ヒープ: 木構造で構成されるデータ。子ノードの値が親ノードより常に大きいか等しい。  
- 要素追加は木構造の最後。追加した後で親の要素と比較して、親より小さければ交換。入れ替えがなくなるまで繰り返し。  
- 要素取り出しはルートから。再構成のために最後尾（右下）の要素を移す。子の数字と比較してより小さいほうと交換。入れ替えがなくなるまで繰り返し。
- 計算量はO(logn)、最初にヒープを構成するのにもn個のデータに処理を行うので合わせてO(nlogn)

In [None]:
# heap_sort.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

# ヒープ
for i in range(len(data)):
    j = i
    while (j > 0) and (data[(j - 1) // 2] < data[j]):
        data[(j - 1) // 2], data[j] = data[j], data[(j - 1) // 2]
        j = (j - 1) // 2
        
# ソート
for i in range(len(data), 0, -1):
    data[i - 1], data[0] = data[0], data[i - 1]
    j = 0
    while ((2 * j + 1 < i - 1) and (data[j] < data[2 * j + 1]))\
    or ((2 * j + 2 < i - 1) and (data[2 * j + 2] > data[2 * j + 2])):
        if (2 * j + 2 == i - 1) or (data[2 * j + 1] > data[2 * j + 2]):
            data[j], data[2 * j + 1] = data[2 * j + 1], data[j]
            j = 2 * j + 1
        else:
            data[j], data[2 * j + 2] = data[2 * j + 2], data[j]
            j = 2 * j + 2
            
print(data)

- `heapify` というヒープを構成する再帰関数を作成してみる。

In [None]:
# heap_sort2.py

def heapify(data, i):
    left = 2 * i + 1

### 5.6 マージソート

データが入ったリストを２分割にすることを繰り返し、バラバラの状態から統合（マージ）する際に小さい順に並べる。

In [None]:
# merge_sort.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

def merge_sort(data):
    if len(data) <= 1:
        return data
    
    mid = len(data) // 2
    left = merge_sort(data[:mid])
    right = merge_sort(data[mid:])
    
    return merge(left, right)


def merge(left, right):
    result = []
    i, j = 0, 0
    
    while (i < len(left)) and (j < len(right)):
        if left[i] <= right[j]:
            result.append(left[i])
            i += 1
        else:
            result.append(right[j])
            j += 1
            
    if i < len(left):
        result.extend(left[i:])
    if j < len(right):
        result.extend(right[j:])
    return result

print(merge_sort(data))

> `.extend()`: 末尾に別のリストやタプルを結合

### *20210130*

### 5.7 クイックソート

リストから適当にデータを１つ選んで、これを基準として小さい要素大きい要素に分割する。これを繰り返してソートする。  
- 基準となるデータをピボットという。  
- うまく選ぶと高速に処理できるが選んだ値によっては選択ソートなどど同じくらい時間がかかる。

In [None]:
# quick_sort.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

def quick_sort(data):
    if len(data) <= 1:
        return data
    
    pivot = data[0]
    left, right, same = [], [], 0
    
    for i in data:
        if i < pivot:
            left.append(i)
        elif i > pivot:
            right.append(i)
        else:
            same += 1
            
    left = quick_sort(left)
    right = quick_sort(right)
    
    return left + [pivot] * same + right

print(quick_sort(data))

- ピボットでの分割処理を、リスト内包表記を使ってシンプルに実装

In [None]:
# quick_sort2.py

data = [6, 15, 4, 2, 8, 5, 11, 9, 7, 13]

def quick_sort(data):
    if len(data) <= 1:
        return data
    
    pivot = data[0]
    left = [i for i in data[1:] if i <= pivot]
    right = [i for i in data[1:] if i > pivot]
    
    left = quick_sort(left)
    right = quick_sort(right)
    
    return left + [pivot] + right

print(quick_sort(data))

> 並列処理: 1台のCPUで複数の処理を同時に実行   
> 並行処理: 同時には１つの処理のみで、見た目上同時に実行されてみえる処理

### *20210131*

### 5.8 処理速度を比較する

Pythonの標準ライブラリの`sort`関数は内部でC言語のプログラムが動いているため高速

第5章 理解度check

In [None]:
# binsort

data = [9, 4, 5, 2, 8, 3, 7, 8, 3, 2, 6, 5, 7, 9, 2, 9]

def binsort(data):
    cnt = [0] * 10
    for i in range(len(data)):
        for j in range(10):
            if data[i] == j:
                cnt[j] += 1
    print(cnt)
                
    result = []
    for i in range(10):
        for j in range(cnt[i]):
            result.append(i)
    return result

print(binsort(data))