# 5 探索

## 5.1 探索：問題にチャレンジする前に


`[8, 13, 5, 7, 21, 11]`の中で7は何番目に現れるか？

In [None]:
A = [8, 13, 5, 7, 21, 11]
print(A.index(7))

3は？

In [None]:
print(A.index(3))

このように，探索は簡単に実現できる。ではなぜ探索について学ぶのか。（再）

> プログラミングのほぼ**すべて**の重要な側面がソートや探索の文脈中のどこかに現れているはずだ。（TAOCP Vol. 3「序」）

概要

| 手法     | 探索の計算量 | ライブラリを使う場合    | ライブラリを使わない場合               |
|------------------|------------------|------------------|------------------|
| 線形探索 | $O(n)$       | A.index(key)              | 関数`lenearSearch(A, key)`を実装する。 |
| 二分探索 | $O(\log n)$  | `bisect_left(A, key)`   | 関数`binarySearch(A, key)`を実装する。 |
| ハッシュ | $O(1)$       | `key in A`（`A`は集合） | クラス`Table`を実装する。              |

目標：次のプロンプトで何を調べようとしているかがわかるようになる。

> n=1000000, m=1000とする。0以上10^8未満の整数をランダムに重複なくn個生成してリストA，ランダムに重複なくm個生成してリストBとする。AとBの共通部分を次の五つの方法で数えて，実行時間を比較する。<br>
> 1：Aについてのfor文と線形探索（in）を使う。<br>
> 2：Bについてのfor文と線形探索（in）を使う。<br>
> 3：Aをソートしてから，Bについてのfor文と二分探索（bisect_left）を使う。<br>
> 4：Bをソートしてから，Aについてのfor文と二分探索（bisect_left）を使う。<br>
> 5：AとBを集合に変換して共通部分の要素数を数える。

生成されるコードの例を示す。

In [None]:
import random
import time
from bisect import bisect_left

# パラメータ
n = 10**6
m = 10**3
MAX_VALUE = 10**8

# 重複なしのリスト生成
A = random.sample(range(MAX_VALUE), n)
B = random.sample(range(MAX_VALUE), m)

print(f"データ準備完了: A={n}件, B={m}件, 範囲=[0,{MAX_VALUE})")

# 方法1: Aをforで回して、Bに対してin探索（線形）
start = time.time()
count1 = 0
for a in A:
    if a in B:
        count1 += 1
end = time.time()
print(f"方法1: A→B 線形探索: 共通要素数 = {count1}, 時間 = {end - start:.4f}秒")

# 方法2: Bをforで回して、Aに対してin探索（線形）
start = time.time()
count2 = 0
for b in B:
    if b in A:
        count2 += 1
end = time.time()
print(f"方法2: B→A 線形探索: 共通要素数 = {count2}, 時間 = {end - start:.4f}秒")

# 方法3: Aをソート → Bに対して二分探索
A_sorted = sorted(A)
start = time.time()
count3 = 0
for b in B:
    i = bisect_left(A_sorted, b)
    if i < len(A_sorted) and A_sorted[i] == b:
        count3 += 1
end = time.time()
print(f"方法3: Aソート＋B二分探索: 共通要素数 = {count3}, 時間 = {end - start:.4f}秒")

# 方法4: Bをソート → Aに対して二分探索
B_sorted = sorted(B)
start = time.time()
count4 = 0
for a in A:
    i = bisect_left(B_sorted, a)
    if i < len(B_sorted) and B_sorted[i] == a:
        count4 += 1
end = time.time()
print(f"方法4: Bソート＋A二分探索: 共通要素数 = {count4}, 時間 = {end - start:.4f}秒")

# 方法5: 集合で共通部分を数える
start = time.time()
count5 = len(set(A) & set(B))
end = time.time()
print(f"方法5: setで共通部分: 共通要素数 = {count5}, 時間 = {end - start:.4f}秒")

## 5.2 線形探索

### 問題1


問題：[AD02](https://atcoder.jp/contests/tessoku-book/tasks/tessoku_book_b) (Linear Search)

In [None]:
%%writefile input.dat
5 40
10 20 30 40 50

#### ライブラリを使う場合


`in`を使う。

In [None]:
N, X = map(int, input().split())
A = list(map(int, input().split()))

# あとは自分で書く

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

♠入力を整数にする必要はあるだろうか。

#### ライブラリを使わない場合


線形探索を行う関数`linearSearch(A, key)`を実装する（探索には`in`を使わない）。

In [None]:
N, X = map(int, input().split())
A = list(map(int, input().split()))

def linearSearch(A, key):
  # あとは自分で書く

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

♠線形探索は O(n)のアルゴリズムですが、番兵を使った実装は定数倍の高速化が見込まれ、大きなデータに対して効果が期待できます。 （教科書p.121）

### 問題2


問題：[ALDS1_4_A](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_A) (Linear Search)

In [None]:
%%writefile input.dat
5
1 2 3 4 5
3
3 4 1

#### ライブラリを使う場合


**集合**の**共通部分**を求める。

In [None]:
%%writefile test.py
n = int(input())
S = set(map(int, input().split()))
q = int(input())
T = set(map(int, input().split()))

print(len(S.intersection(T)))

In [None]:
!python3 test.py < input.dat

#### ライブラリを使わない場合


関数`linearSearch(A, key)`を再利用する。

## 5.3 二分探索

### 問題1


問題：[A11](https://atcoder.jp/contests/tessoku-book/tasks/tessoku_book_k) (Binary Search 1)

In [None]:
%%writefile input.dat
15 47
11 13 17 19 23 29 31 37 41 43 47 53 59 61 67

#### ライブラリを使う場合


線形探索でもオンラインジャッジはACになるが，二分探索で解く。

`bisect`モジュールを使う。指定した値が挿入される位置を返す`bisect_left`を使う。使い方：

In [None]:
from bisect import bisect_left

X = 5
A = [2, 3, 5, 7]
p = bisect_left(A, X)
print(p)
if p < len(A) and A[p] == X: print("Yes")

print(bisect_left(A, 1))
print(bisect_left(A, 4))
print(bisect_left(A, 8))

In [None]:
%%writefile test.py
N, X = map(int, input().split())
A = list(map(int, input().split()))

# あとは自分で書く

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

#### ライブラリを使わない場合


線形探索を行う関数`binarySearch(A, key)`を実装する。

> **`left`は探索範囲の先頭の要素を指し，`right`は末尾の次の要素を指します。**（教科書p.123）

In [None]:
%%writefile test.py
N, X = map(int, input().split())
A = list(map(int, input().split()))

def binarySearch(A, key):
  # あとは自分で書く

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

### 問題2


二分探索は線形探索に比べて圧倒的に速いが，対象はソート済みでなければならない。

対象がソート済みでない場合，①そのまま線形探索を行うか，②ソートしてから二分探索を行うかを選ぶ。線形探索の計算量が $O(n)$ であるのに対して，ソート＋二分探索の計算量は $O(n\log n)+O(\log n)=O(n\log n)$ だから，1回探索して終わりなら，ソートは時間の無駄である。何回も探索することがわかっているなら，最初にソートするとよいだろう。

問題：[B11](https://atcoder.jp/contests/tessoku-book/tasks/tessoku_book_cj) (Binary Search 2)

In [None]:
%%writefile input.dat
15
83 31 11 17 32 19 23 37 43 47 53 61 67 5 55
5
10
20
30
40
50

次のような線形探索ではTLE（time limit exceeded）になる。

In [None]:
%%writefile input.dat
n = int(input())
A = list(map(int, input().split()))
Q = int(input())

for _ in range(Q):
  X = int(input())
  c = 0
  for a in A:
    if a <= X: c += 1
  print(c)

In [None]:
!python3 test.py < input.dat

提出してみる。

#### ライブラリを使う場合


`bisect_left`を使う。

In [None]:
%%writefile test.py
n = int(input())
A = sorted(map(int, input().split()))
Q = int(input())

from bisect import bisect_left

#あとは自分で書く

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

#### ライブラリを使わない場合


関数`binarySearch(A, key)`を再利用する。

In [None]:
%%writefile test.py
n = int(input())
A = sorted(map(int, input().split()))
Q = int(input())

def binarySearch(A, key):
  # 再利用

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

### 問題3


問題：[ALDS1_4_B](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_B) (Binary Search)

入出力の形式は[ALDS1_4_A](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_A)と同じだが，同じコードを提出するとTLEになる（**試してみる**）。

In [None]:
%%writefile input.dat
5
1 2 3 4 5
3
3 4 1

#### ライブラリを使う場合


`bisect_left`を使う。

In [None]:
%%writefile test.py
n = int(input())
S = list(map(int, input().split()))
q = int(input())
T = list(map(int, input().split()))

from bisect import bisect_left

#あとは自分で書く

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

#### ライブラリを使わない場合


関数`binarySearch(A, key)`を再利用する。

In [None]:
%%writefile test.py
N, X = map(int, input().split())
A = list(map(int, input().split()))

def binarySearch(A, key):
  # 再利用

In [None]:
!python3 test.py < input.dat

問題なさそうなら提出する。

### ♠二分探索の有名なバグ


アルベルト・サボイア「ビューティフル・テスト」（Andy Oram, Greg Wilson編『ビューティフルコード』（オライリー・ジャパン, 2008）の第7章）より：

> 2分探索木は，非常に単純でありながら，実装を間違いやすいので，格好の例題です。ベントリーは『珠玉のプログラミング』の中で，何年も掛けて何百人ものプログラマに，基本的なアルゴリズムの説明を与えて2分探索木を実装してもらった様子を報告しています。ベントリーはそのプログラムを書くのに気前良く2時間も与えた上，好きな高水準言語（擬似コードも含みます）を選んでよいとさえしています。その結果ですが，驚いたことに，プログラムのたったの1割程度しか，2分探索を正しく実装できなかったのです。
>
> さらに驚くべきことがあります。ドナルド・クヌース（Donald Knuth）は『Sorting and Searching』（Donald Knuth, The Art of Computer Programming, Vol.3: Sorting and Searching, Second Edition, Addison-Wesley, 1988）において，2分探索木のアイデアは1946年に最初に公表されたにも関わらず，バグのない2分探索木のコードがはじめて公表されたのは12年以上も経ってからであると指摘しています。
>
> しかし，最も驚くべきことは，何千回も実装され作り変えられてきた（と思わざるを得ない），ベントリーの公式の証明済みアルゴリズムでさえ，配列が十分大きくアルゴリズムが固定小数点演算を使用した言語で実装されているときに出現する問題がある，と判ったことです。
> Javaでは，バグは例外ArrayIndexOutOfBoundsExceptionが投げられるという形で現れます。しかしCでは，添字が配列の範囲をはみ出しても実行が続き，予期できない結果をもたらします。この最後のバグについては，ジョシュア・ブロック（Josyua Bloch）のブログ（[http://googleresearch.blogspot.com/2006/06/extra-extra-read-all-about-it-nearly.html](https://research.google/blog/extra-extra-read-all-about-it-nearly-all-binary-searches-and-mergesorts-are-broken/)）を見てください。
>
> 有名なバグのあるJava版の実装を示します。
> （後略）

参考：https://bugs.java.com/bugdatabase/view_bug?bug_id=5045582

In [None]:
%%writefile BinarySearch.java
public class BinarySearch {
  public static int binarySearch(int[] a, int key) {
    int low = 0;
    int high = a.length - 1;

    while (low <= high) {
      int mid = (low + high) / 2;
      // int mid = low + ((high - low) / 2);
      int midVal = a[mid];

      if (midVal < key)
        low = mid + 1;
      else if (midVal > key)
        high = mid - 1;
      else
        return mid; // key found
    }
    return -(low + 1);  // key not found.
  }

  public static void main(String[] args) {
    int N = Integer.MAX_VALUE - 2;
    //N = 100;
    int[] array = new int[N];
    for (int i = 0; i < N; i++) {
      array[i] = i;
    }

    int key = N;
    int result = binarySearch(array, key);

    if (result >= 0)
      System.out.println("Element found at index " + result);
    else
      System.out.println("Element not found");
  }
}

利用可能メモリを10Gにして実行する。

In [None]:
!javac BinarySearch.java
!java -Xmx10g BinarySearch

## 5.4 ハッシュ


アルゴリズム図鑑（チェイン法）

問題：[ALDS1_4_C](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_C) (Dictionary)

In [None]:
%%writefile input.dat
6
insert AAA
insert AAC
find AAA
find CCC
insert CCC
find CCC

線形探索を試す。

In [None]:
%%writefile test.py
n = int(input())

A = []
for _ in range(n):
  com, s = input().split()
  if com[0] == "i": A.append(s)
  else:
    if s in A: print("yes")
    else: print("no")

In [None]:
!python3 test.py < input.dat

提出してみる。TLEになるはず。

### ライブラリを使う場合


データを集合で管理する。集合への追加はメソッド`add`，検索は演算子`in`を使う。

In [None]:
%%writefile test.py
A = set()

n = int(input())

for _ in range(n):
  com, s = input().split()
  if com[0] == "i": A.add(s)
  else:
    if s in A: print("yes")
    else: print("no")

In [None]:
!python3 test.py < input.dat

問題がなければ提出する。

### ライブラリを使わない場合


文字列を数値に変換する方法を用意する。例として，文字列`"ACGT"`→文字列`"1234"`→整数1234なら，次のようになる。

In [None]:
mapping = {'A': '1', 'C': '2', 'G': '3', 'T': '4'}

key = "ATCG"
int(''.join(mapping[c] for c in key))

10000個の領域で管理するなら（♠素数がよいが，ここでは話を簡単にするために10000とする）

In [None]:
n = 10000
key = "ATCG"
int(''.join(mapping[c] for c in key)) % n

異なる文字列が同じ数値に変換される，**衝突**の問題がある。

In [None]:
key = "GATCG"
int(''.join(mapping[c] for c in key)) % n

衝突に対応する方法：

-   **チェイン法**：衝突したデータを連結リストで管理する。
-   **オープンアドレス法**：衝突したデータを別の場所に保存する。
    -   線形探索法：衝突したデータを次の空いている場所に保存する。
    -   二次探索法：衝突したデータを次の空いている場所に保存する。探索の間隔を2, 4, 6, …と増やしていく。
    -   ダブルハッシュ法：衝突したデータを次の空いている場所に保存する。探索の間隔を別のハッシュ関数で決める。（教科書の方法）

教科書のダブルハッシュ法ではなく，実装が単純なチェイン法を試す。

ライブラリを使う場合のコードの変更が最小限になるようにする。

> ACGTの4文字からなる文字列の集合をハッシュで管理するPythonのクラスTableを作る。チェイン法を使う。扱うデータは最大1000000件。集合への入力はメソッドadd，集合の検索は演算子inで行う。他のメソッドは不要。

生成されるコードを修正した例を示す。

In [None]:
%%writefile Table.py
class Table:
  def __init__(self, size=1048576):
    self.size = size
    self.table = [[] for _ in range(self.size)]

  def _hash(self, key):
    mapping = {'A': '1', 'C': '2', 'G': '3', 'T': '4'}
    return int(''.join(mapping[c] for c in key)) % self.size

  def add(self, key):
    h = self._hash(key)
    if key not in self.table[h]:
      self.table[h].append(key)

  def __contains__(self, key):
    h = self._hash(key)
    return key in self.table[h]

`Table`の定義を追加して，`A = set()`を`A = Table()`に変えれば動くはず。

In [None]:
%%writefile test.py
# Tableの定義

A = Table()

n = int(input())

for _ in range(n):
  com, s = input().split()
  if com[0] == "i": A.add(s)
  else:
    if s in A: print("yes")
    else: print("no")

In [None]:
!python3 test.py < input.dat

問題がなければ提出する。

♠オープンアドレス法（線形探索法，二次探索法，ダブルハッシュ法）を試す。ダブルハッシュ法ならACになるだろう。

## ♠グローバーのアルゴリズム


暗記：線形探索は $O(n)$，ソート済みの対象での二分探索は $O(\log n)$ である。

**グローバーのアルゴリズム**：ソート済みでないにもかかわらず，$O(\sqrt n)$で探索できる**量子アルゴリズム**

> 0以上15以下の整数から，一つの整数を，グローバーのアルゴリズムで探索する。次の例において，探索のステップごとに確率がどのように変化するかを棒グラフで表示するPythonのコード。例1：{2, 3, 5, 7, 11, 13}から11を探索する。例2：{2, 3, 5, 7, 11, 13}から10を探索する。データの種類は0から15の16個を想定して

## 宿題


-   [AD02](https://atcoder.jp/contests/tessoku-book/tasks/tessoku_book_b) (Linear Search)
-   [ALDS1_4_A](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_A) (Linear Search)
-   [A11](https://atcoder.jp/contests/tessoku-book/tasks/tessoku_book_k) (Binary Search 1)
-   [B11](https://atcoder.jp/contests/tessoku-book/tasks/tessoku_book_cj) (Binary Search 2)
-   [ALDS1_4_B](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_B) (Binary Search)
-   [ALDS1_4_C](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_C) (Dictionary)
-   ♠[ALDS1_4_D](https://onlinejudge.u-aizu.ac.jp/courses/lesson/1/ALDS1/4/ALDS1_4_D) (Allocation)