# String Algorithm
0508(월)

**문자열 탐색 (String Searching) 알고리즘**
- 브루트포스 (Brute Force) 알고리즘 
- KMP (Knuth-Morris-Pratt) 알고리즘 
- 보이어-무어 (Boyer-Moore) 알고리즘 
- Rabin-Karp 알고리즘

---

**브루트포스 (Brute Force)**

- 정의 : 완전 탐색 (brute force) 유형으로, 가능한 경우의 수를 모두 검사해보는 탐색 방법.
- 장점 : 알고리즘을 설계하고 구현하기 쉽다.
- 단점 : 완전 탐색 알고리즘은 비효율적인 시간 복잡도를 가지고 있으며, 데이터 수가 큰 경우에 정상적으로 작동하지 않을 수 있다.
> 확인할 전체 데이터의 수가 100만 개 이하일 때 완전 탐색을 사용하면 적절하다고 합니다.

- 브루트포스 (Brute Force) 종류 :
    - 선형 구조 : 순차 탐색
    - 비선형 구조 : 백트래킹, DFS, BFS

In [16]:
# f 찾기
data = 'abcdefg'
for ch in range(len(data)):
    if 'f' == data[ch]:
        print(data[ch])
        break
else :
    print("nope")

f


---

**KMP (Knuth-Morris-Pratt) 알고리즘**

- 정의 : 
    - 문자열 매칭 알고리즘 중 하나이며,   
    - 접두사와 접미사의 개념을 활용하여 반복되는 연산을 얼마나 줄일 수 있는지 판별하여 매칭할 문자열을 빠르게 점프하는 기법.   
    - 찾고자 하는 문자열을 시간 복잡도와 공간 복잡도 각각 O(n+m)으로 찾게 해 준다. 접두사와 접미사가 일치할 때 그만큼 점프하여 속도를 개선.

- 사용 이유 :
    - 어떤 문자열에서 특정 문자열(patten)을 찾고자 할 때, 효율적으로 찾기 위한 알고리즘

- 접두사, 접미사 :

![image.png](attachment:image.png)

- 예제 :

In [17]:
origin_string = 'ababacabacaabacaaba'
search = 'abacaaba'

In [18]:
j = 0 
pi = [0]*len(search)   # pi : 문자열이 일치하지 않을 경우, jump할 위치에 대한 정보
for i in range(1, len(search)) :
    while j > 0 and search[i] != search[j] :
        j = pi[j-1] 
    if search[j] == search[i] :
        j += 1
        pi[i] = j

In [19]:
pi
# [0, 0, 1, 0, 1, 1, 2, 3]
# 해당 인덱스 까지 왔을 경우, 최대 일치 길이 정보를 포함함.
# 즉, 비교하다가 틀렸을 경우, 어디까지 일치했는지 확인하고 jump해서 다시 비교 진행

[0, 0, 1, 0, 1, 1, 2, 3]

In [20]:

j=0
for i in range(len(origin_string)):
    
    while j > 0 and search[j] != origin_string[i]:
        print(j)
        j = pi[j-1]
    
    if search[j] == origin_string[i] :
        print(search[j],origin_string[i],j)
        if j == len(search) -1 :
            print(i - len(search) + 1, "번째 인덱스에서부터 일치")
            j = pi[j-1]
        j += 1

a a 0
b b 1
a a 2
3
b b 1
a a 2
c c 3
a a 4
5
b b 1
a a 2
c c 3
a a 4
a a 5
b b 6
a a 7
6 번째 인덱스에서부터 일치합니다.
c c 3
a a 4
a a 5
b b 6
a a 7
11 번째 인덱스에서부터 일치합니다.
