In [1]:
def is_match(text1, text2):
    return text1==text2

In [2]:
def is_match(text1, text2):
    # 文字列の長さが異なる場合はFalse
    if len(text1) != len(text2):
        return False
    
    # 1文字ずつ検査を行い, 異なっている場合はFalseを返す
    idx = 0
    while idx < len(text1):
        if text1[idx] != text2[idx]:
            return False
        idx += 1
    
    return True

result = is_match("abcd", "abcd")
print(result)

True


## 力任せ法

In [4]:
def my_naive_search_text(text, pattern):
    """
    力任せ法による文字列検索
    """

    # パターンとの照合回数を記録
    cnt = 0

    # パターン末尾のインデックス
    p_end_idx = len(pattern) - 1

    #テキスト側の照合開始位置を表すインデックス
    t_start_idx = 0
    while t_start_idx < len(text):
        # パターンとの照合回数をインクリメント
        cnt += 1
        
        # テキスト側の照合中の位置を表すインデックス
        t_idx = t_start_idx

        # パターン側の照合中の位置を表すインデックス
        p_idx = 0
        while t_idx < len(text) and text[t_idx] == pattern[p_idx]:
            if p_idx == p_end_idx:
                # パターン末尾まで一致していた場合、一部分の先頭位置を返す
                print(cnt, "回パターンと照合しました")
                return t_start_idx
            
            # 照合位置を右側に一つずつ移動
            t_idx += 1
            p_idx += 1
        
        # テキスト側の照合開始位置を一つ移動
        t_start_idx += 1
    
    # 見つからない場合は-1を返す
    print(cnt, "回パターンと照合しました")
    return -1


def main():
    text = "simple is better than complex."
    pattern = "tha"
    idx = my_naive_search_text(text, pattern)
    print(idx)


main()


18 回パターンと照合しました
17


## ボイヤー・ムーア法

In [5]:
def build_skip_table(pattern):
    skip_table = dict()
    pattern_length = len(pattern)
    for idx, char in enumerate(pattern[:-1]):
        skip_table[char] = pattern_length - idx - 1
    
    return skip_table


In [6]:
st1 = build_skip_table("abcd")
print(st1)
st2 = build_skip_table("abad")
print(st2)

{'a': 3, 'b': 2, 'c': 1}
{'a': 1, 'b': 2}


In [9]:
def my_bm_search_text(text, pattern):
    # パターンとの照合回数を記録
    cnt = 0

    # スキップテーブルの構築
    skip_table = build_skip_table(pattern)

    # パターンの長さ
    pattern_length = len(pattern)

    # パターン末尾のインデックス
    p_end_idx = len(pattern) - 1

    # テキスト側の照合位置のインデックス
    t_idx = len(pattern) - 1

    # 照合処理
    while t_idx < len(text):
        # パターンとの照合回数をインクリメント
        cnt += 1

        # パターン側の照合位置のインデックス(末尾からインクリメントする)
        p_idx = p_end_idx
        while text[t_idx] == pattern[p_idx]:
            if p_idx == 0:
                # パターンの末尾から1文字ずつ称号を行い先頭まで同じ場合は一致したと判定
                print(cnt, "回パターンと照合しました")
                return t_idx
            
            # 照合する位置を左側にひとつずつ移動
            t_idx -= 1
            p_idx -= 1
        
        # テキスト側の照合するインデックスをスキップテーブルの値に基づいて取得
        # ただし, スキップ後に位置が照合開始位置より左側になる場合はpattern_length - p_idxをスキップ数とする
        skip_num = max(skip_table.get(text[t_idx], pattern_length), pattern_length - p_idx)

        # スキップ数分照合位置をスキップする
        t_idx += skip_num
    
    # 見つからない場合は-1を返す
    print(cnt, "回パターンと照合しました")
    return -1

In [10]:
def main():
    text = "simple is better than complex."
    pattern = "tha"
    idx = my_bm_search_text(text, pattern)
    print(idx)


main()

7 回パターンと照合しました
17


## 不一致文字規則のパフォーマンス

In [11]:
import time 
import random
import string

def main():
    start_time = time.perf_counter()
    for _ in range(1000):
        text = "".join(random.choices(string.ascii_letters, k=100000))
        pattern = "abc"
        my_bm_search_text(text, pattern)
    end_time = time.perf_counter()
    elapsed_time = end_time - start_time
    print(elapsed_time)


main()


34224 回パターンと照合しました
34193 回パターンと照合しました
34216 回パターンと照合しました
34196 回パターンと照合しました
32483 回パターンと照合しました
34242 回パターンと照合しました
2695 回パターンと照合しました
33157 回パターンと照合しました
34195 回パターンと照合しました
29084 回パターンと照合しました
34252 回パターンと照合しました
34224 回パターンと照合しました
34177 回パターンと照合しました
34247 回パターンと照合しました
24925 回パターンと照合しました
34266 回パターンと照合しました
23023 回パターンと照合しました
1292 回パターンと照合しました
29514 回パターンと照合しました
8443 回パターンと照合しました
7900 回パターンと照合しました
29824 回パターンと照合しました
14833 回パターンと照合しました
13777 回パターンと照合しました
8956 回パターンと照合しました
34211 回パターンと照合しました
5919 回パターンと照合しました
25584 回パターンと照合しました
34223 回パターンと照合しました
27830 回パターンと照合しました
34236 回パターンと照合しました
27905 回パターンと照合しました
11828 回パターンと照合しました
6018 回パターンと照合しました
34273 回パターンと照合しました
27146 回パターンと照合しました
19656 回パターンと照合しました
34220 回パターンと照合しました
33202 回パターンと照合しました
12667 回パターンと照合しました
26660 回パターンと照合しました
34259 回パターンと照合しました
11223 回パターンと照合しました
34226 回パターンと照合しました
34249 回パターンと照合しました
3743 回パターンと照合しました
34187 回パターンと照合しました
24592 回パターンと照合しました
34227 回パターンと照合しました
34237 回パターンと照合しました
28207 回パターンと照合しました
34200 回パターンと照合しました
1459 回パターンと照合しました
22

## Pythonの文字列検索

In [12]:
my_text = "simple is better than complex."

index = my_text.find("complex")
print(index)

22
