보이어-무어법은 KMP법보다 더 효율적이어서 실제 문자열 검색에서 널리 사용하는 알고리즘입니다.

## 보이어-무어법 알아보기

보이어-무어법은 이론이나 실제 효율 면에서 KMP법보다 뛰어난 알고리즘입니다. 패턴의 끝문자에서 시작하여 앞쪽을 향해 검사를 수행합니다.

이 과정에서 일치하지 않는 문자를 발견하면 미리 준비한 표를 바탕으로 패턴이 이동하는 값을 결정합니다.

**패턴에 포함되지 않는 문자를 만난 경우**
- 패턴 이동량이 곧 n입니다.

**패턴에 포함되는 문자를 만난 경우**
- 마지막에 나오는 위치의 인덱스가 k이면 이동량은 n - k - 1입니다.

In [3]:
# 보이어-무어법으로 문자열 검색하기(문자열 길이는 0 ~ 255개)

def bm_match(txt: str, pat: str) -> int:
    """보이어-무어법으로 문자열 검색"""
    skip = [None] * 256                       # 건너뛰기 표
    
    # 건너뛰기 표 만들기
    for pt in range(256):
        skip[pt] = len(pat)
    for pt in range(len(pat)):
        skip[ord(pat[pt])] = len(pat) - pt - 1
        
    # 검색하기
    while pt < len(txt):
        pp = len(pat) - 1
        while txt[pt] == pat[pp]:
            if pp == 0:
                return pt
            pt -= 1
            pp -= 1
        pt += skip[ord(txt[pt])] if skip[ord(txt[pt])] > len(pat) - pp \
              else len(pat) - pp
    
    return -1

if __name__ == '__main__':
    s1 = input('텍스트를 입력하세요.: ')      # 텍스트용 문자열
    s2 = input('패턴를 입력하세요.: ')        # 패턴용 문자열
    
    idx = bm_match(s1, s2)                    # 문자열 s1 ~ s2를 보이어-무어법으로 검색
    
    if idx == -1:
        print('텍스트 안에 패턴이 존재하지 않습니다')
    else:
        print(f'{(idx + 1)}번째 문자가 일치합니다.')

텍스트를 입력하세요.: DMAKWLDNLGO
패턴를 입력하세요.: DN
7번째 문자가 일치합니다.


## 문자열 검색 알고리즘의 시간 복잡도

- 브루트 포스법 <br>
이 알고리즘의 시간 복잡도는 O(mn)이지만 일부러 꾸며 낸 패턴이 아니라면 O(n)이 된다고 알려져 있습니다. 단순한 알고리즘이지만 실제로는 아주 빠르게 동작합니다.


- KMP법 <br>
이 알고리즘의 시간 복잡도는 최악의 경우에도 O(n)입니다. 다만 처리하기 복잡하고 패턴 안에 반복이 없으면 효율은 좋지 않습니다. 그러나 검색 과정에서 주목하는 곳을 앞으로 되돌릴 필요가 전혀 없으므로 파일을 차례로 읽어 들이면서 검색할 때 사용하면 좋습니다.


- 보이어-무어법 <br>
이 알고리즘의 시간 복잡도는 최악의 경우라도 O(n)이고 평균 O(n / m)입니다. 보이어-무어법 실습에서는 배열을 1개만 사용했지만 배열 2개로 알고리즘을 구현하면 KMP법과 마찬가지로 배열을 만드는 데 복잡한 처리 과정이 필요하므로 효율성이 떨어집니다. 보이어-무어법은 배열을 1개만 사용해도 충분히 빠릅니다.

### 문자 코드를 다루는 ord() 함수와 chr() 함수

내장 함수 ord()는 단일한 문자를 전달받아 그 문자의 유니코드(unicode) 코드 포인트를 정수로 변환합니다.

이를 거꾸로 수행하는 내장 함수는 chr()입니다.