# アルゴリズム基礎

《学修項目》
*   アルゴリズムと表現方法
*   データの並べ替え（ソートアルゴリズム）
*   データの探索（サーチアルゴリズム）

《キーワード》
> アルゴリズム、擬似コード、表現方法、フローチャート、計算量、ソートアルゴリズム、バブルソート、挿入ソート、マージソート、選択ソート、クイックソート、探索アルゴリズム、リスト探索、線形探索、木構造、二分探索


《参考文献，参考書籍》
*   [1] [東京大学MIセンター公開教材 「1-7 アルゴリズム基礎」](http://www.mi.u-tokyo.ac.jp/pdf/1-7_algorithm.pdf)[《利用条件CC BY-NC-SA》](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.ja)
*   [2] [応用基礎としてのデータサイエンス（講談社 データサイエンス入門シリーズ）](https://www.kspub.co.jp/book/detail/5307892.html)
*   [3] [Pythonで学ぶアルゴリズムとデータ構造（講談社 データサイエンス入門シリーズ）](https://www.kspub.co.jp/book/detail/5178034.html)
*   [4] [Pythonによるあたらしいデータ分析の教科書 第2版（翔泳社）](https://www.shoeisha.co.jp/book/detail/9784798178776)
*   [5] [数理・データサイエンス・AI公開講座（放送大学）](https://www.ouj.ac.jp/booklet/2022/29_2022_MDS-AI.pdf)

## 1. アルゴリズムと表現方法

### 1.1 アルゴリズム [1][2]

コンピュータで何らかの問題を解きたいと思ったら、プログラムを作る必要がある。
現在広く使われている構造化プログラミング言語は、順次実行、条件分岐、繰り返しを基本的な構成要素としている。
これらの構成要素の有限個の集まりを使って、課題となっている問題を有限ステップ以内で解き、値を出力する手順を考える必要がある。
アルゴリズム(algorithm) とは、ある問題を解くことができる一連の手順のことを指す[2]。

#### 1.1.1 ユークリッドの互除法

2つの数の最大公約数を求めるアルゴリズムとして、ユークリッドの互除法が知られている。

自然数 $a$ と $b$について、最大公約数 gcd($a,b$) を求めるための手順は以下の通り：

1.   $a$ を $b$ で割った余りを $r$ とする
2.   $r$ が $0$ ならば， $b$ を 最大公約数として出力して終了する
3.   $a = b$， $b = r$ を代入して、1.に戻る

ユークリッドの互除法の計算量は、 $a\geq b$ としたとき、$O(\log b)$ である。
対数オーダーであり、非常に高速である。


### 1.2 アルゴリズムの表現方法 [2]

#### 1.2.1 擬似コード





疑似コードとは、アルゴリズムや関数などのコードを自然言語とプログラミング言語の要素を組み合わせたものである。実際には実行できないことから、「疑似」コードと呼ばれる。

コーディングのロジックを説明したり、他のメンバーも交えて計画を立てる際に有用である。
誰もが理解しやすい方法でプログラムの手順を記述しつつ、特定のプログラミング言語に後で変換できるよう、ある程度まで詳細化する。

疑似コードの簡単な例として、サイトやアプリの訪問者に対して、名前付きのメッセージを表示する基本的なロジックを以下に示す[*]。

```
PROCESS GreetUser
    INPUT userName
    DISPLAY "Hello, " + userName + "!"
END
```
PROCESS（処理）、DISPLAY（表示）、+のような、簡単な言葉やプログラミング要素で構成し、プラットフォームに独立した形で自然語として誰でも理解できるようになっている。

* [Kinsta | 疑似コードとは](https://kinsta.com/jp/knowledgebase/what-is-pseudocode/)


#### 1.2.2 フローチャート

自然語や擬似コードではなく、アルゴリズムを図で表現する方法がある。
下図はユークリッドの互除法をフローチャート(flowchart)で表現したものである。

フローチャートは、長方形が処理、ひし形が条件判定を表現する。
簡単なアルゴリズムをフローチャートで記述できると視覚的にわかりやすいが、
アルゴリズムが複雑になるとフローチャートも複雑になるため、最近ではこれを用いて設計
する機会は非常に少ない。それに代わって、UMLふるまい図（アクティビティ図、シーケンス図、
あるいはステートマシン図）を用いて上位設計を行うことがある。

<figure>
<img src='https://raw.githubusercontent.com/MDASH-shinshu/MDASH-T-DS/main/6/figures/fig2.2.9.jpg' alt='アルゴリズム' width='480' border='1'>
<figcaption>ユークリッドの互除法 フローチャート（[2]より引用）</figcaption>
</figure>


## 2. データの並べ替え（ソートアルゴリズム）

### 2.1 Pythonのソート関数

数値、文字列、日付や日時でデータを並べ替えることはよくある。これはソート(sort)と呼ばれる。
多くのプログラミング言語では， sorted関数, sortメソッドでソートの機能が提供されている[*]。
現在のPython実装のsort機能は TimSortで大規模データにおいて高速である。

* [Python Documantation - sort HOW TO](https://docs.python.org/ja/3/howto/sorting.html)

ソートを目的とした様々なアルゴリズムが提案されてきた。
バブルソート、挿入ソート、選択ソート、マージソート、クイックソートなどがある。

In [None]:
# Python ソート関数によるインプレース操作
sorted([5, 2, 3, 1, 4])

[1, 2, 3, 4, 5]

In [None]:
# operator モジュール関数を使った操作（安定ソート）
from operator import itemgetter, attrgetter
data = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4)]
sorted(data, key=itemgetter(0))

[('blue', 2), ('blue', 4), ('red', 1), ('red', 3)]

In [None]:
# numpyによる整数配列の生成とソート（ソート手法はデフォルトでquick sort）
import numpy as np
a = np.random.randint(0, 100, size=20)
print(a)
print(np.sort(a))

[96 12 12 88 54 37 63 30 86 69 81 54 42 48  2 68 59 38 47 89]
[ 2 12 12 30 37 38 42 47 48 54 54 59 63 68 69 81 86 88 89 96]


### 2.2 バブルソート（Bubble Sort）

バブルソートは隣り合う要素で大小が逆になっているものを交換していく。
列の先頭（あるいは末尾）から要素の交換を行っていく場合、列の先頭から順にソートされていくイメージ。平均計算時間、最悪計算時間はともに$O(n^2)$。安定ソートアルゴリズム[*]。

* [コード引用 Qiita 基本的なソートアルゴリズムとPythonによる実装例](https://qiita.com/maebaru/items/be275a1453f6ba55e972)


In [None]:
# バブルソート（Bubble Sort）
def bubble_sort(a):
    # (要素数−1)回繰り返す
    for i in range(len(a) - 1):
        # 列の先頭2要素を最初の比較対象に選ぶ
        l = 0
        r = 1
        # rが末尾に達するまで、隣り合う要素の大小を比較する
        while r < len(a):
            # 隣り合う要素の大小が逆であれば交換する
            if a[l] > a[r]:
                a[l], a[r] = a[r], a[l]
            # 比較対象のindexをインクリメントする
            l += 1
            r += 1

### 2.3 挿入ソート（Insertion Sort）

挿入ソートは手に持ったトランプの並べ替え方に例えられる手法。
配列をソート済みの部分と未ソートの部分に分けて考え、未ソート部分の要素をソート部分の然るべき位置に挿入していく。平均計算時間・最悪計算時間はともに$O(n^2)$であるが、ある程度整列されたデータに対しては高速に動作する。安定ソートアルゴリズム[*]。

* [コード引用 Qiita 基本的なソートアルゴリズムとPythonによる実装例](https://qiita.com/maebaru/items/be275a1453f6ba55e972)


In [None]:
# 挿入ソート（Insertion Sort）
def insertion_sort(a):
    for i in range(len(a) - 1):
        # a[i]の一つ右の要素: a[j]をソート対象に定める
        j = i + 1

        # a[j]がソート済みの位置に収まるまで繰り返す
        while i >= 0:
            # a[j]を一つ左の要素と比較し、a[j]の方が小さければ交換する
            if a[j] < a[i]:
                a[i], a[j] = a[j], a[i]
                # 比較対象が左に移動しているので、indexを1ずつ減らす
                i -= 1
                j -= 1
            else:
                break

### 2.4 クイックソート（Quick Sort）

一般的に最も高速なソートアルゴリズムである。
最悪計算量 $O(n^2)$ から最良計算量 $O(n\log n)$ まで幅がある。

配列全体に対して以下の動作を繰り返す。
部分配列に対する操作の繰り返しであるので、部分配列長が急速に短縮されるので一般的には高速になる[*]。

*   ピボットを選ぶ(中央値がいいが今回は部分配列の最後の要素とする)
*    パーティションを用いて部分配列をさらに二つの部分配列にする
> 1.  パーティションの基準点を $x$ として配列の要素を $i$ までの範囲に $x$ 以下の要素を $i+1$ から $j$ までの範囲に $x$ 以上の要素を移動させる．
> 2.  $i$ までの要素の配列と $i+1$ から $j$ までの要素の配列の二つに分割する

* [コード引用 pythonでクイックソートを実装してみた](https://tech-shelf.hatenablog.com/entry/algorithm/quicksort)

In [None]:
# パーティションの実装
def partition(A, start, end):
    pivot = A[end]
    i = start - 1
    for j in range(start, end):
        if A[j] <= pivot:
            i += 1
            A[i], A[j] = A[j], A[i]
    A[i+1], A[end] = A[end], A[i+1]
    print(A)
    return i+1

# クイックソートの実装
def quicksort(A, start, end):
    if start < end:
        pivot_position = partition(A, start, end)
        quicksort(A, start, pivot_position -1)
        quicksort(A,pivot_position + 1, end)

a = np.random.randint(0, 100, size=16)
print(a)
quicksort(a, 0, len(a)-1)
print(a)

[69 69 30 90 25 43 42 61 28 30 65  1 52 12 82 81]
[69 69 30 25 43 42 61 28 30 65  1 52 12 81 82 90]
[ 1 12 30 25 43 42 61 28 30 65 69 52 69 81 82 90]
[ 1 12 30 25 43 42 61 28 30 65 69 52 69 81 82 90]
[ 1 12 30 25 43 42 28 30 52 65 69 61 69 81 82 90]
[ 1 12 30 25 28 30 43 42 52 65 69 61 69 81 82 90]
[ 1 12 25 28 30 30 43 42 52 65 69 61 69 81 82 90]
[ 1 12 25 28 30 30 42 43 52 65 69 61 69 81 82 90]
[ 1 12 25 28 30 30 42 43 52 61 69 65 69 81 82 90]
[ 1 12 25 28 30 30 42 43 52 61 65 69 69 81 82 90]
[ 1 12 25 28 30 30 42 43 52 61 65 69 69 81 82 90]
[ 1 12 25 28 30 30 42 43 52 61 65 69 69 81 82 90]


## 3. データの探索（サーチアルゴリズム）

### 3.1 配列とデータの探索[2]

### 3.2 探索のためのデータ構造[2]



### 3.3 ハッシュを使った探索[2]

# memo