<a href="https://colab.research.google.com/github/yukinaga/minnano_cs/blob/main/section_4/01_sort.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ソート
**ソート**（sort）は、データを昇順、もしくは降順に並び替えるアルゴリズムです。  
ソートのアルゴリズムは多く存在しますが、それぞれ計算量が異なります。  
今回は、以下の4つの有名なソートのアルゴリズムを解説します。  
* 選択ソート
* バブルソート
* マージソート
* クイックソート

## ◎選択ソート
**選択ソート**（selection sort）は、並んだ複数の要素から最小値（最大値）を探し最初（最後）の要素と入れ替えを行うソートのアルゴリズムです。  
直感的でシンプルなのですが、時間計算量（平均、最悪ともに）が$\mathcal{O}(n^2)$となり、データのサイズが大きい場合は計算に時間がかかるのが欠点です。  
空間計算量は、$\mathcal{O}(1)$となります。  
以下は、Pythonによる選択ソートの実装です。

In [None]:
data = [3, 5, 2, 1, 4]  # ソート対象のデータ

# ----- 選択ソート -----
for i in range(0, len(data)):
    min_idx = i
    for j in range(i+1, len(data)):
        if data[j] < data[min_idx]:
            min_idx = j
    # 値の交換
    min = data[min_idx]
    data[min_idx] = data[i]
    data[i] = min

print(data)

## ◎バブルソート
**バブルソート**（bubble sort）は、隣接した要素の大小を比較しながら整列させるソートのアルゴリズムです。  
アルゴリズムがシンプルで並列処理に向いているのですが、選択ソートと同様に時間計算量（最悪）が$\mathcal{O}(n^2)$となり、データのサイズが大きい場合は計算に時間がかかるのが欠点です。  
空間計算量は、$\mathcal{O}(1)$となります。  
以下は、Pythonによるバブルソートの実装です。

In [None]:
data = [3, 5, 2, 1, 4]  # ソート対象のデータ

# ----- バブルソート -----
for i in range(0, len(data)):
    min_idx = i
    for j in range(0, len(data)-i-1):
        if data[j] > data[j+1]:
            larger = data[j]
            data[j] = data[j+1]
            data[j+1] = larger

print(data)

## ◎クイックソート
**クイックソート**（quick sort）は、ピボットと呼ぶ要素を用いてデータの分割を繰り返すことによりソートを行うアルゴリズムです。  
比較と交換の回数が少なく、しばしば実用上最も高速であるとされるソートのアルゴリズムです。   
  
クイックソートは以下の手順で表すことができます。    
1. 要素数が1以下であれば、データをそのまま返す
2. 要素を1つ選択し、ピボットとする
3. ピボットの値以下のグループと、ピボットの値より大きいグループにデータを分割する
4. 分割された各グループに1-３を再帰的に適用し、最後に全てのグループを結合する
  
平均時間計算量は$\mathcal{O}(n\log n)$ですが、データのサイズや並びによっては計算に時間がかかることもあり、最悪時間計算量は$\mathcal{O}(n^2)$となります。  
空間計算量は、$\mathcal{O}(n)$となります。  
以下は、Pythonによるクイックソートの実装例です。

In [None]:
def quick_sort(data):
    if len(data) <= 1:
        return data

    pivot = data[0]  # ピボット
    less = []  # ピボット以下の要素
    more = []  # ピボットより大きい要素

    for i in range(1, len(data)):
        if data[i] <= pivot:
            less.append(data[i])
        else:
            more.append(data[i])

    return quick_sort(less) + [pivot] + quick_sort(more)

data = [3, 5, 6, 7, 2, 1, 4, 5, 1]  # ソート対象のデータ
print(quick_sort(data))

なお、クイックソートのような分割を繰り返すことでソートする手法は、**分割統治法**（divide-and-conquer method）と呼ばれます。

## @ 演習

分割統治法の一種、**マージソート**（merge sort）を実装しましょう。  
マージソートはデータを2つに分割して、それぞれをソートして結合（マージ）し、1つのソート済みデータとします。  
クイックソートと比べると最悪計算量は少ないですが、ランダムに並んだでデータでは一般的にクイックソートの方が高速です。
  
マージソートは以下の手順で表すことができます。    
1. データをA、B2つに分割する
2. A、Bをそれぞれマージソートする
3. A、Bを結合する

上記2.では再帰的な処理時が行われます。  
3.のデータの結合は以下の手順で行われます。  

1. A、Bの先頭要素を比較して、小さい方の要素を抜き出してデータCの末尾に加える
2. A、Bどちらかの要素が無くなるまで1.を繰り返す
3. 余った要素をC末尾に加え、Cを結合済みのデータとする
  
平均時間計算量は$\mathcal{O}(n\log n)$で、最悪時間計算量は$\mathcal{O}(n\log n)$となります。  
空間計算量は、$\mathcal{O}(n)$です。    
以下のセルにPythonのコードを追記し、マージソートを実装してください。

In [None]:
def merge_sort(data):  
    if len(data) <= 1:
        return data

    center = len(data) // 2  # 中央のインデックス
    data_a = data[:center]  # A
    data_b = data[center:]  # B

    return   # ←コードを追記

def merge(data_a, data_b):  # 結合
    merged = []
    a_idx = 0
    b_idx = 0

    while a_idx < len(data_a) and b_idx < len(data_b):  # どちらかの要素が無くなるまで繰り返す
        if data_a[a_idx] < data_b[b_idx]:  # 先頭要素を比較
              # ←コードを追記
            a_idx += 1
        else:
              # ←コードを追記
            b_idx += 1

    return merged + data_a[a_idx:] + data_b[b_idx:]  # 余った要素を末尾に加える

data = [3, 5, 6, 7, 2, 1, 4, 5, 1]  # ソート対象のデータ
print(merge_sort(data))

## @解答例

In [None]:
def merge_sort(data):  
    if len(data) <= 1:
        return data

    center = len(data) // 2  # 中央のインデックス
    data_a = data[:center]  # A
    data_b = data[center:]  # B

    return merge(merge_sort(data_a), merge_sort(data_b))  # ←コードを追記

def merge(data_a, data_b):  # 結合
    merged = []
    a_idx = 0
    b_idx = 0

    while a_idx < len(data_a) and b_idx < len(data_b):  # どちらかの要素が無くなるまで繰り返す
        if data_a[a_idx] < data_b[b_idx]:  # 先頭要素を比較
            merged.append(data_a[a_idx])  # ←コードを追記
            a_idx += 1
        else:
            merged.append(data_b[b_idx])  # ←コードを追記
            b_idx += 1

    return merged + data_a[a_idx:] + data_b[b_idx:]  # 余った要素を末尾に加える

data = [3, 5, 6, 7, 2, 1, 4, 5, 1]  # ソート対象のデータ
print(merge_sort(data))