# 문자열 검색이란?

- 어떤 문자열 안에 다른 문자열이 포함되어 있는지 검사하고, 만약 포함되어 있다면 어디에 위치하는지 찾아내는 것

# 브루트 포스법

- 선형 검색을 단순하게 확장한 알고리즘으로, 단순법이라고 함.

In [1]:
# 브루트 포스법으로 문자열 검색하기

def bf_match(txt: str, pat: str) -> int:
  """브루트 포스법으로 문자열 검색"""
  pt = 0                                # txt를 따라가는 커서
  pp = 0                                # pat를 따라가는 커서

  while pt != len(txt) and pp != len(pat):
    if txt[pt] ==pat[pp]:
      pt += 1
      pp += 1
    else:
      pt = pt - pp + 1
      pp = 0

  return pt - pp if pp == len(pat) else -1

if __name__ == '__main__':
  s1 = input('텍스트를 입력하세요.: ')  # 텍스트용 문자열
  s2 = input('패턴을 입력하세요.: ')    # 패턴용 문자열

  idx = bf_match(s1, s2)                # 문자열 s1 ~ s2를 브루트 포스법으로 검색

  if idx == -1:
    print('텍스트 안에 패턴이 존재하지 않습니다.')
  else:
    print(f'{(idx +1)}번째 문자가 일치합니다.')

텍스트를 입력하세요.: ABABCDEFGHA
패턴을 입력하세요.: ABC
3번째 문자가 일치합니다.


# KMP법

- 검사했던 결과를 버리지 않고 효율적으로 활용하는 알고리즘

In [None]:
# KMP법으로 문자열 검색하기

def kmp_match(txt: str, pat: str) -> int:
  """KMP법으로 문자열 검색"""
  pt = 1                        # txt를 따라가는 커서
  pp = 0                        # pat를 따라가는 커서
  skip = [0] * (len(pat) + 1)   # 건너뛰기 표

  # 건너뛰기 표 만들기
  skip[pt] = 0
  while pt != len(pat):
    if pat[pt] == pat[pp]:
      pt += 1
      pp += 1
      skip[pt] = pp
    elif pp == 0:
      pt += 1
      skip[pt] = pp
    else:
      pp = skip[pp]

  # 문자열 검색하기
  pt = pp = 0
  while pt != len(txt) and pp != len(pat):
    if txt[pt] == pat[pp]:
      pt += 1
      pp += 1
    elif pp == 0:
      pt += 1
    else:
      pp : skip[pp]

  return pt - pp if pp ==len(pat) else -1

if __name__ == '__main__':
  s1 = input('텍스트를 입력하세요.: ')  # 텍스트용 문자열
  s2 = input('패턴을 입력하세요.: ')    # 패턴용 문자열

  idx = kmp_match(s1, s2)                # 문자열 s1 ~ s2를 브루트 포스법으로 검색

  if idx == -1:
    print('텍스트 안에 패턴이 존재하지 않습니다.')
  else:
    print(f'{(idx +1)}번째 문자가 일치합니다.')

# 보이어·무어법

- 이론이나 실제 효율면에서 KMP법보다 뛰어난 알고리즘

In [2]:
# 보이어·무어법으로 문자열 검색하기(문자열 길이는 0 ~255개)

def bm_match(txt: str, pat: str) -> int:
  skip = [None] * 256                       # 건너뛰기 표

  # 건너뛰기 표 만들기
  for pt in range(256):
    skip[pt] = len(pat)
  for pt in range(len(pat)):
    skip[ord(pat[pt])] = len(pat) - pt - 1

  # 검색하기
  while pt < len(txt):
    pp = len(pat) - 1
    while txt[pt] == pat[pp]:
      if pp == 0:
        return pt
      pt -= 1
      pp -= 1
    pt += skip[ord(txt[pt])] if skip[ord(txt[pt])] > len(pat) - pp else len(pat) - pp

  return -1

if __name__ == '__main__':
  s1 = input('텍스트를 입력하세요.: ')  # 텍스트용 문자열
  s2 = input('패턴을 입력하세요.: ')    # 패턴용 문자열

  idx = bm_match(s1, s2)                # 문자열 s1 ~ s2를 브루트 포스법으로 검색

  if idx == -1:
    print('텍스트 안에 패턴이 존재하지 않습니다.')
  else:
    print(f'{(idx +1)}번째 문자가 일치합니다.')

텍스트를 입력하세요.: ABABCDEFGHA
패턴을 입력하세요.: ABC
3번째 문자가 일치합니다.
