# 教養としてのアルゴリズムとデータ構造

二分探索を実現するモジュール `bisect` について説明します。

参考

- https://docs.python.org/ja/3/library/bisect.html

▲の内容は発展的な内容で、必修ではありません。

# 二分探索

Pythonにおいて二分探索を扱うには `bisect` というモジュールを使います。

In [2]:
import bisect

## 二分探索の実行

二分探索を行うには<b>昇順に整列されているリスト</b>が必要です。その様なリストに対して二分探索を行うには、関数 **`bisect_left`** を用います。

`bisect_left` は昇順に整列されているリスト `リストA` に要素 `要素B` が含まれていれば、そのインデックスを返します。

---
```Python
bisect.bisect_left(リストA, 要素B)
```
---

In [3]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 7
insert_index = bisect.bisect_left(list1, item1)
print(insert_index)

3


実は厳密には `bisect_left` は「`要素B` を `リストA` に挿入した後でも（`要素B` を含む） `リストA` の要素が昇順となる様な `要素B` を挿入するべき位置のインデックスの値」を返します。

例えば、 `要素B` が `リストA` の中に含まれていない場合は次の様になります。

In [4]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 4
insert_index = bisect.bisect_left(list1, item1)
print(insert_index) # 3（インデックス1の値）と5（インデックス2の値）の間に挿入するべき

2


In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 21
insert_index = bisect.bisect_left(list1, item1)
print(insert_index) # 19（インデックス9）の後ろに挿入するべき

そのため、 `リストA` に `要素B` が含まれているかどうか調べるには、一般に返り値を使って `リストA` の値を調べますが、前例の様にリストの長さの値が返ることがあるので注意して下さい。

In [5]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
#リストに含まれている値の例
item1 = 7
insert_index = bisect.bisect_left(list1, item1)
#リストに含まれているかどうか調べる
if list1[insert_index] == item1:
    print(item1, True)
else:
    print(item1, False)
#リストに含まれていない値の例
item1 = 4
insert_index = bisect.bisect_left(list1, item1)
#リストに含まれているかどうか調べる
if list1[insert_index] == item1:
    print(item1, True)
else:
    print(item1, False)
#リストに含まれていない値の例
item1 = 0
insert_index = bisect.bisect_left(list1, item1)
#リストに含まれているかどうか調べる
if list1[insert_index] == item1:
    print(item1, True)
else:
    print(item1, False)
#リストに含まれていない値の例（リストの長さの値が返ってくる例）
item1 = 20
insert_index = bisect.bisect_left(list1, item1)
#リストに含まれているかどうか調べる→エラー
if list1[insert_index] == item1:
    print(item1, True)
else:
    print(item1, False)

7 True
4 False
0 False


IndexError: list index out of range

 `リストA` の中に `要素B` の値が複数個含まれている場合は一番小さいインデックスの値を返します。

In [None]:
list1 = [0, 1, 1, 2, 2, 2, 3, 4, 4, 6, 7, 7]
item1 = 2
insert_index = bisect.bisect_left(list1, item1)
print(insert_index)

 `リストA` が<b>昇順に整列していない場合には正しい結果が得られない</b>ので注意して下さい。

In [None]:
import random
random.seed(a=0)
list1 = [random.randint(0, 10) for i in range(10)]
print(list1)
item1 = 2
insert_index = bisect.bisect_left(list1, item1)
print(insert_index)

降順に整列してあったとしてもやはり正しい結果は得られません。

In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
list1.sort(reverse=True) # 降順に並べ替える
print(list1)
item1 = 11
insert_index = bisect.bisect_left(list1, item1)
print(insert_index)

昇順に整列されていない場合は、 `sorted` 関数や `sort` メソッドなどで整列してから利用する様にしましょう。

In [None]:
import random
random.seed(0)
list1 = [random.randint(0, 10) for i in range(10)]
print(list1)
list1 = sorted(list1) # 並べ替え：list1.sort()などでも可
print(list1)
item1 = 2
insert_index = bisect.bisect_left(list1, item1)
print(insert_index)

参考までに `bisect_right` という関数もあります。`bisect_right` は `リストA` の中に `要素B` の値が含まれている場合、その値のインデックスの1つ大きい値を返します。また、`要素B` の値が含まれていない場合、その値を挿入するべきインデックスを返すのは `bisect_left` と同じです。 

---
```Python
bisect.bisect_right(リストA, 要素B)
```
---

In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 7
insert_index = bisect.bisect_right(list1, item1)
print(insert_index)
item1 = 6
insert_index = bisect.bisect_right(list1, item1)
print(insert_index)

 `bisect_right` は `リストA` の中に `要素B` の値が複数個含まれている場合でも一番大きいインデックスの値より1つ大きい値を返します。

In [None]:
list1 = [0, 1, 1, 2, 2, 2, 3, 4, 4, 6, 7, 7]
item1 = 2
insert_index = bisect.bisect_right(list1, item1)
print(insert_index)

## ▲部分リストの二分探索

リストの特定の範囲だけを二分探索することも可能です。

`リストA` のインデックス `left1` から、`right1+1` の範囲のみを探索したい場合は次の様に実行します。

---
```Python
bisect.bisect_right(リストA, 要素B, left1, right1)
```
---

もしくは

---
```Python
bisect.bisect_right(リストA, 要素B, lo=left1, hi=right1)
```
---


In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 8
insert_index = bisect.bisect_right(list1, item1, 2, 5)
print(insert_index)
insert_index = bisect.bisect_right(list1, item1, lo=2, hi=5)
print(insert_index)

In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 0
insert_index = bisect.bisect_right(list1, item1, 2, 5)
print(insert_index)
item1 = 20
insert_index = bisect.bisect_right(list1, item1, 2, 5)
print(insert_index)

リストの一部を探索する場合、スライスを作成してから二分探索を実行したくなります。

In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
sublist1 = list1[2:5] # スライスで部分リストを作成する
item1 = 8
insert_index = bisect.bisect_right(sublist1, item1)
print(insert_index)

しかし、スライスはリストを複製しますのでその分余計な時間がかかってしまいます。比較してみましょう

In [None]:
import random
random.seed(a=0)
size1 = 1000 # テスト用リストサイズ
list1 = list(range(size1)) # テスト用リスト作成
num1 = 100 # テスト回数
item1 = random.randint(0, size1) # 探索する値を適当に決める（固定）
list_leftright = [sorted([random.randint(0, size1), random.randint(0, size1)]) for _ in range(num1)] #探索対称の部分リストの範囲を作成

In [None]:
%%timeit -n 10 -r 10
# スライスを使用しない
for left1, right1 in list_leftright:
    insert_index = bisect.bisect_right(list1, item1, left1, right1)

In [None]:
%%timeit -n 10 -r 10
# スライスを使用する
for left1, right1 in list_leftright:
    insert_index = bisect.bisect_right(list1[left1: right1], item1)

## 多重リストの二分探索

リストを要素とするリスト（多重リスト）に対しても二分探索を実行することが出来ます。

この場合もリストを予め昇順に整列しておく必要があります。

In [None]:
list1 = [[20, 3], [100, 21], [20, 7], [20, 9], [40, 10], [10, 5], [50, 13], [40, 15]]
list1.sort()
print(list1)
item1 = 3
index1 = bisect.bisect_left(list1, [item1, 2])
print("リスト [", item1, ", 2] をlist1に挿入するべきインデックスの値：", index1)
item1 = 15
index1 = bisect.bisect_left(list1, [item1, 10])
print("リスト [", item1, ", 10] をlist1に挿入するべきインデックスの値：", index1)
item1 = 20
index1 = bisect.bisect_left(list1, [item1, 0])
print("リスト [", item1, ", 0] をlist1に挿入するべきインデックスの値：", index1)
item1 = 20
index1 = bisect.bisect_left(list1, [item1, 8])
print("リスト [", item1, ", 8] をlist1に挿入するべきインデックスの値：", index1)
item1 = 40
index1 = bisect.bisect_left(list1, [item1, 30])
print("リスト [", item1, ", 30] をlist1に挿入するべきインデックスの値：", index1)
item1 = 105
index1 = bisect.bisect_left(list1, [item1, 2])
print("リスト [", item1, ", 2] をlist1に挿入するべきインデックスの値：", index1)

多重リストを `sort` や `sorted` で整列した場合、後ろの要素から順に整列を行った順序になることに注意して下さい。

上のセルで扱ったリスト `list1 = [[20, 3], [100, 21], [20, 7], [20, 9], [40, 10], [10, 5], [50, 13], [40, 15]] ` だと、まず第2要素 (`3`, `21`, `7`, `9`, `10`, `5`, `13`, `15`) の小さい順にリスト `list1` の要素を整列した後に、第1要素の小さい順にリストを整列します。

そして `bisect_left` や `bisect_right` はその順序に従って返す値（挿入するべきインデックスの値）を計算します。

## ▲要素の挿入

昇順に整列されているリストに対して二分探索を行ったあと、対象の要素を挿入するには、関数 **`insort_left`** を用います。

`insort_left` は昇順に整列されているリスト `リストA` に要素 `要素B` を挿入します。

この関数は破壊的です。

---
```Python
bisect.insort_left(リストA, 要素B)
```
---

In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 7
bisect.insort_left(list1, item1)
print(list1)
item1 = 6
bisect.insort_left(list1, item1)
print(list1)

`insort_left` は `bisect_left` とリストのメソッド `insert` を合わせて用いた場合と同じ結果になります。

In [None]:
list1 = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
item1 = 7
insert_index = bisect.bisect_left(list1, item1)
list1.insert(insert_index, item1)
print(list1)
item1 = 6
insert_index = bisect.bisect_left(list1, item1)
list1.insert(insert_index, item1)
print(list1)

`bisect_right` に対応する **`insort_right`** も使用可能です。この関数も破壊的です。

---
```Python
bisect.insort_right(リストA, 要素B)
```
---

In [None]:
list1 = [0, 1, 1, 2, 2, 2, 3, 4, 4, 6, 7, 7]
item1 = 5
bisect.insort_right(list1, item1)
print(list1)
item1 = 1
bisect.insort_right(list1, item1)
print(list1)

## 練習

整数を要素とするリスト `list1` と `list_items` を引数として取り、リスト `list2` を返す関数 `insert_items` を作成して下さい。ただし、以下の点に注意して下さい。

1. `list1` は昇順に整列しています。
2. `list2` は、 `list1` と `list_items` の要素から構成されます。
3. `list2` の要素は昇順に整列しています。
4. `bisect` を使ってみましょう。

以下のセルの `...` のところを書き換えて解答して下さい。

In [None]:
import ...
def insert_items(list1, list_items):
    ...

上のセルで解答を作成した後、以下のセルを実行し、実行結果が全て `True` になることを確認して下さい。

In [None]:
list1 = [0, 1, 1, 2, 2, 2, 3, 4, 4, 6, 7, 7]
list_items = [-1, 4, 8, 5, 3]
print(insert_items(list1, list_items) == [-1, 0, 1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 5, 6, 7, 7, 8])

## 練習の解答

In [None]:
import bisect
def insert_items(list1, list_items):
    list2 = list1
    for item1 in list_items: # m回繰り返す
        index1 = bisect.bisect_left(list2, item1) # 最悪O(log_2(n+m))
        list2.insert(index1, item1) # ここの計算量は？
    return list2 # list1を返しても同じ結果になります

以下を実行すると実行時間が表示されます。

In [None]:
import random
random.seed(a=0)
maxval = 10000
size1 = 10000000
size2 = 10
sortedlist1 = list(range(size1))
list_items1 = [random.randint(0, maxval) for i in range(size2)]

In [None]:
%%timeit -r 1 -n 1
insert_items(sortedlist1, list_items1)

参考までに、`sort` を使った場合と実行時間を比較してみましょう。

In [None]:
def insert_items_sort(list1, list_items):
    list1 += list_items # O(m)
    list1.sort() # O((n+m)log_2 (n+m))
    return list1

In [None]:
import random
random.seed(a=0)
sortedlist1 = list(range(size1))
list_items1 = [random.randint(0, maxval) for i in range(size2)]

In [None]:
%%timeit -r 1 -n 1
insert_items_sort(sortedlist1, list_items1)

挿入先のリスト `sortedlist1` の要素数を $n$ (`=len(sortedlist1)`)、挿入する整数のリスト `list_items1` の要素数を $m$ (`=len(list_items1)`) として計算量を考えてみましょう。

`insert_items_sort` では 最初に `list1` (`sortedlist1`) と `list_items` (`=list_items1`) を連結し、それから `sort` を実行します。授業では勉強していませんが、`sort` にかかる計算量は $O((n+m) \log_2 (n+m))$ 程度になります。

一方、二分探索を用いた場合、最初の方の探索が1回当たり $O(\log_2 n)$ 程度、最後の方の探索が $O(\log_2 (n+m)$ 程度の計算量なので、全ての要素を探索するのにかかる計算量は最悪でも $O(m \log_2 (n+m))$ 程度の計算量になるはずです。

しかし、`list_items1` の数が余程少なくない限り、`sort` を用いた方が高速になります。何故だと思いますか？　

実は、模範解答の6行目 `list2.insert(index1, item1)` の計算量が最悪で $O(n+m)$ になるからです。`insert` は元のリストの値を書き換える為、非常に時間がかかる操作になります。最悪の場合、$m$ 回の挿入で合計 $O((m(n+m))$ の計算量となります（`insert` の計算量について詳しく？は、note_complexity.ipynb参照して下さい)。

ついでに `sorted` を使った場合と実行時間を比較してみましょう。

`sorted` は元のリストを破壊せずに、元のリストを複製して新しくリストを作成しますのでその分遅くなります。

In [None]:
def insert_items_sorted(list1, list_items):
    list1 += list_items  # O(m)
    return sorted(list1) # O(n+m) + O((n+m)log_2 (n+m))

In [None]:
import random
random.seed(a=0)
sortedlist1 = list(range(size1))
list_items1 = [random.randint(0, maxval) for i in range(size2)]

In [None]:
%%timeit -r 1 -n 1
insert_items_sorted(sortedlist1, list_items1)