# 第11回 アルゴリズム入門：データの探索

___
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tsuboshun/begin-python/blob/gh-pages/_sources/workbook/lecture11.ipynb)

___

## この授業で学ぶこと

準備中

## 探索とは

データの集合の中から、特定の条件に適合する要素を見つけることを **探索** という。
このテキストでは、次の問題に限定して考える： 数値のリストと数値のキーが与えられるとき、リストの中にキーと一致する要素が存在するかを判定し、存在するときはそのインデックスを1つ求める。

このアルゴリズムを関数として実装しよう。
リストとキーを引数として受け取り、リストの中にキーが存在すればそのインデックスを返し、存在しなければ `None` を返す関数を作成する。

例えば、次のリストとキーのペアに対しては、インデックスの3を返す。

<pre>
data = [5, 1, 3, 7, 2]
key = 7
</pre>

次のリストとキーのペアに対しては、`None` を返す。
<pre>
data = [5, 1, 3, 7, 2]
key = 4
</pre>

探索は使用頻度の高い基本的な操作なので、数多くのアルゴリズムが考案されている。
今回はその中から代表的な線形探索と二分探索を紹介する。

なお、探索プログラムはリストの `index()` メソッドを使えば、次のように実装することができる。
ここではアルゴリズムの学習のため、`index()` メソッドには頼らずに、1からプログラムを作成することを考える。

In [None]:
def search(data, key):
    if key in data:
        return data.index(key)
    else:
        return None

In [None]:
data = [5, 1, 3, 7, 2]
key = 7
print(search(data, key))

data = [5, 1, 3, 7, 2]
key = 4
print(search(data, key))

## 線形探索

線形探索は、前から順に探すという単純なアルゴリズムである。
実装としては、for文により前から要素を1つずつ調べていき、キーに一致する要素を見つけたところでそのインデックスをreturn文で返す。
最後までキーに一致する要素が見つからなかった場合は、`None` をreturn文で返す。

以下に、未完成の `linear_search()` 関数を用意した。練習として、プログラムを完成させてみてほしい。

In [None]:
def linear_search(data, key):
    for i in range(len(data)):
        pass   # ここを書き換える
    return None

In [None]:
data = [5, 1, 3, 7, 2]
key = 7
print(linear_search(data, key))

data = [5, 1, 3, 7, 2]
key = 4
print(linear_search(data, key))

線形探索の計算量は、リストの要素数を $N$ として最悪も平均も $O(N)$ である。
最悪の場合は、キーと一致する要素がリストの最後にあるか、存在しない場合である。
このときfor文の処理を $N$ 回繰り返すことになるので、最悪計算量は $O(N)$ となる。
平均的な場合は、for文の処理を $N/2$ 回繰り返すことになる。
計算量を表す際には、定数は無視されるため、平均計算量も $O(N)$ となる。

$O(N)$ は計算量として十分小さいので、実用上はこれで十分なことが多い。
ちなみに、リストの `index()` メソッドも線形探索を実装したものとなっている。

## 二分探索

二分探索は、リストがソートされているという前提のもとで、より効率的な探索を実現するアルゴリズムである。

リストがソートされているとき、要素とキーの大小関係を調べることにより、キーがあるとしたら要素より右か左かが判明する。
二分探索ではこの性質を利用し、さらに大小関係を調べる要素を探索範囲の中央から選ぶことで、なるべく少ないステップで探索範囲を絞り込んでいく。

例としてキーが7のとき、二分探索が探索範囲を絞り込んでいく様子を次の図に示す。

```{figure} ./pic/binary_search.png
---
width: 700px
name: binary_search
---
キーが7のときの二分探索の様子
```

両端の灰矢印が、探索範囲を表している。これらの中央の青矢印が、大小関係を調べる要素である。
1行目の比較では、青矢印の13よりキーの7の方が小さいので、キーがあるとしたらこれより左側にあると判断できる。
したがって、右の灰矢印を青矢印の1つ左に移動させて、次の行に移る。

2行目も同様にして、青矢印の5とキーの7を比較する。今度はキーの方が大きいので、左の灰矢印を青矢印の1つ右に移動させる。3行目までくると、探索範囲は2つ（7と11）に絞り込めている。このように探索範囲のサイズが偶数のときは、ちょうど中央の位置に要素はないので、中央の左隣か右隣の要素を比較対象に選ぶ（ここでは左隣を選択している）。このとき青矢印の要素はキーと一致するので、青矢印のインデックスを返して探索を終了する。

キーに一致する要素がない場合は、上記操作をくり返すと、いずれ灰矢印の位置が逆転する。このとき `None` を返して探索を終了する。

以下に、未完成の `binary_search()` 関数を用意した。
左の灰矢印に相当するのが `left`、右の灰矢印に相当するのが `right`、真ん中の青矢印に相当するのが `mid` である。
上の説明を参考に、プログラムを完成させてみてほしい。

In [None]:
def binary_search(data, key):
    left = 0
    right = len(data) - 1
    while left <= right:
        mid = (left + right) // 2
        if data[mid] == key:
            pass # ここを書き換える
        elif data[mid] > key:
            pass # ここを書き換える
        else:
            pass # ここを書き換える
    return None

In [None]:
data = [5, 1, 3, 7, 2]
key = 7
print(binary_search(data, key))

data = [5, 1, 3, 7, 2]
key = 4
print(binary_search(data, key))

二分探索の計算量は、リストの要素数を $N$ として最悪も平均も $O(\log N)$ である。
二分探索ではキーと要素を比較するたびに探索範囲が約半分になる。
例えば、上図の例では探索範囲は$11\rightarrow 5\rightarrow 2$と移り変わっている。
最悪の場合は、探索範囲が1となるまでキーと一致する要素が見つからない場合であるが、この場合でも約 $\log N$ のステップ数で処理を終えることができる（前回のテキストから引き続き対数の底は2とする）。よって、最悪計算量は $O(\log N)$ になる。
平均的な場合においても、毎回のステップで探索範囲が約半分になるという性質は変わらないため、$O(\log N)$ であることを示すことができる。

ここまでに紹介した3つの探索方法について、実際に計算時間を比較してみよう。
ここでは自明な例ではあるが、$0$ から $N-1$ まで整数が順に並んだリスト `data` を `list(range(N))` により作成し、それに対して探索を実行している。

In [None]:
import time

def exec_time(func, data, key):
    start = time.time()
    func(data, key)
    end = time.time()
    return end - start

In [None]:
N = 10**7
data = list(range(N))
key = N // 3  # 適当な要素

print(exec_time(search, data, key))
print(exec_time(linear_search, data, key))
print(exec_time(binary_search, data, key))

## ファイルの入出力