# Pythonにおける文字列検索の実装

## 検索用メソッドの実装

[The stringlib Library](http://effbot.org/zone/stringlib.htm)

CPythonでは文字列操作のうち`__contains__`や`find`の実装に、Boyer-Moore法をベースとしたアルゴリズム (BMHBNFS) を使用している。  
実装は[fastsearch.h](https://github.com/python/cpython/blob/v3.8.3/Objects/stringlib/fastsearch.h)を参照。  
これにより、文字列検索を平均計算量 $\mathcal{O}(n/m)$、最悪計算量 $\mathcal{O}(nm)$ で行うことが可能となっている。

In [None]:
has_string = "ssi" in "mississippi"
print(has_string)

## 辞書の実装と文字列検索

[Python の dict の実装詳解](http://dsas.blog.klab.org/archives/python-dict-internal.html)  
[pythonの辞書型の実装 - stackoverflow](https://ja.stackoverflow.com/questions/7703/python%E3%81%AE%E8%BE%9E%E6%9B%B8%E5%9E%8B%E3%81%AE%E5%AE%9F%E8%A3%85)

CPythonにおいては、辞書はハッシュテーブルとして実装されている。  
辞書のキーには文字列を使うことを前提として高速化が図られており、文字列用のハッシュが[pyhash.c](https://github.com/python/cpython/blob/v3.8.3/Python/pyhash.c#L145-L191)で実装されている。

例えば同一部分文字列の出現判定を`dict`で実装する際に、ローリングハッシュの代わりに文字列そのものをキーに指定することで、同程度の検索性能を得ることができる場合がある。

In [None]:
from pprint import pprint
from collections import defaultdict

S = "mississippi"
N = len(S)
# 長さ3の文字列を検索
size = 3

d = defaultdict(list)
for i in range(N-size+1):
    d[S[i:i+size]].append(i)
pprint(d)