# 브루트 포스법
- 가장 기초적인 선형검사법
- 검사 위치를 기억하지 못하여 효율이 극악
- 시간복잡도 O(MN)

In [1]:
""" 브루트 포스법 """
def bf_match(txt, pat):
    pt = 0 # txt 를 따라가는 커서
    pp = 0 # pat 를 따라가는 커서
    
    while pt != len(str) and pp != len(pat):
        if txt[pt] == pat[pp]:
            pt += 1
            pp += 1
        else: 
            pt = pt - pp + 1
            pp = 0
    
    return pt - pp if pp == len(pat) else -1 # 패턴을 찾은 txt의 인덱스 반환


In [2]:
""" in , not in 연산자
    pattern in text
"""
"abc" in "abcaccccc"
"abc" not in "abcaccccc"


False

In [4]:
""" find, index """
# 문자열에 포함되어 있는 문자열을 검색(index 계열 함수)

txt = input('문자열 txt: ')
ptn = input('문자열 ptn: ')

c = txt.count(ptn)

if c == 0:                                                  # 포함된 문자가 없음
    print('ptn은 txt에 포함되어 있지 않습니다.')
elif c == 1:                                                # 포함된 문자가 １개만 있는 경우
    print('ptn이 txt에 포함되어 있는 인덱스: ', txt.index(ptn))
else:                                                       # 포함된 문자가 2개 이상 있는 경우
    print('ptn이 txt에 포함되어 있는 맨 앞 인덱스: ', txt.index(ptn))
    print('ptn이 txt에 포함되어 있는 맨 끝 인덱스: ', txt.rindex(ptn))

문자열 txt: asdasda
문자열 ptn: da
ptn이 txt에 포함되어 있는 맨 앞 인덱스:  2
ptn이 txt에 포함되어 있는 맨 끝 인덱스:  5


In [5]:
# 문자열에 포함되어 있는 문자열을 검색(find 계열 함수）

txt = input('문자열 txt: ')  # 문자열 나열
ptn = input('문자열 ptn: ')  # 검색할 문자

c = txt.count(ptn)

if c == 0:                                                  # 포함된 문자가 없음
    print('ptn은 txt에 포함되어 있지 않습니다.')
elif c == 1:                                                # 포함된 문자가 １개만 있는 경우
    print('ptn이 txt에 포함되어 있는 인덱스: ', txt.find(ptn))
else:                                                       # 포함된 문자가 2개 이상 있는 경우
    print('ptn이 txt에 포함되어 있는 맨 앞 인덱스: ', txt.find(ptn))
    print('ptn이 txt에 포함되어 있는 맨 끝 인덱스: ', txt.rfind(ptn))

문자열 txt: asdasdasd
문자열 ptn: da
ptn이 txt에 포함되어 있는 맨 앞 인덱스:  2
ptn이 txt에 포함되어 있는 맨 끝 인덱스:  5


# KMP법
- 건너뛰기 표(Skip Table)을 생성하여 몇번째 부터 다시 검색할지 결정하여 브루트포스법보다 향상된 기법
- 복잡하지만 보이어무어법보다 성능면에서 같거나 낮은수준이라 실제로는 잘 쓰이지 않음
- 시간복잡도 O(M+N) = O(N)

In [8]:
def kmp_match(txt, pat):
    pt = 1  # txt 커서
    pp = 0  # pat 커서
    skip = [0] * (len(pat) + 1)  # 건너뛰기 표

    # 건너뛰기 표 만들기
    skip[pt] = 0
    while pt != len(pat):
        if pat[pt] == pat[pp]:
            pt += 1
            pp += 1
            skip[pt] = pp
        elif pp == 0:
            pt += 1
            skip[pt] = pp
        else:
            pp = skip[pp]
    print(skip)
    # 문자열 검색
    pt = pp = 0
    while pt != len(txt) and pp != len(pat):
        if txt[pt] == pat[pp]:
            pt += 1 
            pp += 1
        elif pp == 0:
            pt += 1
        else:
            pp = skip[pp]

    return pt - pp if pp == len(pat) else -1

In [9]:
kmp_match("abcabba", "abcabd")

[0, 0, 0, 0, 1, 2, 0]


-1

# 보이어 무어법
- 가장 효율적이라 실제 문자열검색에서 널리쓰임
- 패턴의 끝문자부터 앞쪽으로 검사
- 시간복잡도 일반적으로 O(N) 이하. 최학일땐 O(MN) 

In [1]:
for i in range(3):
    pass
print(i)

2


In [10]:
# [Do it! 실습 7-3] 보이어 무어법으로 문자열 검색하기(0~255 문자)


def bm_match(txt: str, pat: str) -> int:
    """보이어 무어법에 의한 문자열 검색"""
    skip = [None] * 256  # 건너뛰기 표
    n = len(pat)
    # 건너뛰기 표 만들기
    for pt in range(256): # 일단 모든 것은 n으로(패턴에 없는 것은 len(pat)으로 빠르게)
        skip[pt] = n
    for pt in range(n): # pat에 있는 문자는 n-k-1로 만들기
        skip[ord(pat[pt])] = n - pt - 1

    # 검색하기
    while pt < len(txt): # 
        pp = n - 1
        
        #탐색 중 문자가 같다면
        while txt[pt] == pat[pp]: # txt 와 pat 틀릴 때까지 끝에서부터 비교
            if pp == 0: # 끝까지 비교했는데 같다면 pt(text의 pointer) 반환
                return pt
            pt -= 1
            pp -= 1
            
        skip_t = skip[ord(txt[pt])] # txt의 문자에 해당하는 스킵 테이블 원소 호출
        # 스킵만큼 text pointer 이동 #스킵시 더많이 이동하기 위한 if 문으로 빼도 기능문제x
        pt += skip_t #if skip_t >= n - pp else len(pat) - pp 

    return -1 # 못찾으면 -1


if __name__ == '__main__':
    s1 = input('텍스트를 입력하세요.: ')  # 텍스트 문자열
    s2 = input('패턴을 입력하세요.: ')  # 패턴 문자열

    idx = bm_match(s1, s2)  # 문자열 s1~s2를 KMP법으로 검색

    if idx == -1:
        print('텍스트 안에 패턴이 존재하지 않습니다.')
    else:
        print(f'{(idx + 1)}번째 문자에서 일치합니다.')

텍스트를 입력하세요.: dsdsdadsadasd
패턴을 입력하세요.: das
10번째 문자에서 일치합니다.
