# 第9回 アルゴリズム入門：データの整列

___
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tsuboshun/begin-python/blob/gh-pages/_sources/workbook/lecture09.ipynb)

___

## この授業で学ぶこと

今回から第11回にかけて、アルゴリズムの基礎について学ぶ。
アルゴリズムとは、問題を解決するための手順のことを言う。アルゴリズムの主な目的は、問題を正確かつ効率的に解くことである。

実はこれまでのテキストでも、練習問題や課題を通じて、アルゴリズムと言えるような手順をプログラムに起こす経験を積んできている。
特に、どのような入力に対しても正しい答えを出力するようなプログラムを多く書いたと思うが、これがまさに問題を正確に解くということである。

一方で、問題を効率的に解くことについては、これまであまり考えてこなかった。
今回の授業では、データの整列を題材にいくつかの解法を紹介し、それらの実行速度に差があることを見る。

### 準備

In [None]:
pip install faker

In [None]:
import time
import random
import itertools
from faker import Faker

In [None]:
fake = Faker()

N = 10**5
data = []
for i in range(N):
    data.append(fake.name())

## ソートとは

データをとある規則にもとづいて順番に並び替えることを**ソート**という。
例えば、整数のリスト
<pre>[8, 4, 5, 1, 2]</pre>
について、これを小さい順（**昇順**）にソートすると
<pre>[1, 2, 4, 5, 8]</pre>
となる。また大きい順（**降順**）にソートすると
<pre>[8, 5, 4, 2, 1]</pre>
となる。

文字列データを辞書順にソートする操作もよく行われる。
例えば、英単語のリスト
<pre>["carrot", "onion", "eggplant", "beet"]</pre>
を辞書順にソートすると
<pre>["beet", "carrot", "eggplant", "onion"]</pre>
となる。

今回は簡単のため数値データについては昇順、文字列データについては辞書順に並べることのみを考える。

ソートは利用頻度の高い基本的な操作なので、数多くのアルゴリズムが考案されている。
今回はその中から**挿入ソート**と**クイックソート**を紹介する。

## 挿入ソート

挿入ソートは、簡単に言えば左から順に揃える方法である。

In [None]:
def insert_sort(x):
    for i in range(1, len(x)):
        # ソートされていない要素を取り出す
        key = x[i]
        # ソート済みの部分から、挿入する場所を探す
        j = i - 1
        while j >= 0 and x[j] > key:
            x[j + 1] = x[j]
            j -= 1
        # 見つかった場所に要素を挿入する
        x[j + 1] = key
    return x

In [None]:
x = data[:10**4]

start = time.time()
insert_sort(x)
end = time.time()

print(f"実行時間: {end - start:.4f}秒")

## クイックソート

In [None]:
def quick_sort(x):
    if len(x) <= 1:
        return x
    
    # 右端を pivot とする
    pivot = x[-1]
    
    # pivot未満のデータを左から詰めていくため、indexを0で初期化
    i = 0 
    for j in range(len(x) - 1):
        if x[j] < pivot:
            x[i], x[j] = x[j], x[i]
            i += 1 # i 番目より左は常にpivot未満のデータが入っていることに注意
            
    # pivotの値をi番目と交換することで、 xの中身は[pivot未満のデータ], pivot, [pivot以上のデータ] という順になる
    x[i], x[-1] = x[-1], x[i] 
    
    quick_sort(x[:i])
    quick_sort(x[i+1:])

In [None]:
x = data[:10**4]

start = time.time()
quick_sort(x)
end = time.time()

print(f"実行時間: {end - start:.4f}秒")