# 스트링 탐색 알고리즘

### 1. 스트링 매칭
주어진 문서(text)에서 찾고자 하는 단어(pattern)가 어디에 있는지 알아내는 알고리즘   


#### 1.1 직선적 알고리즘  

처음부터 한 글장 혹은 한 비트씩 오른쪽을 진행하면서 텍스트의 처음부터 끝까지 모두 비교하는 알고리즘  

모든 위치에서 패턴을 비교해야 함으로 O(M*N) 시간복잡도를 갖는다.  (M은 패턴의 길이, N은 텍스트의 길이)
```
bruteForce(p[], t[])

    M <- 패턴의 길이; N <- 텍스트의 길이;
    for (i <- 0, j <- 0; j <M and i < N; i <- i+1; j <- j+1) do
        if (t[i] != p[j]) then {
            # 불일치가 발생하면 i는 다시 돌아간다. 
            i <- i - j
            j <- -1;
        }
    
    # 패턴의 길이인 M까지 탐색했다면 패턴이 있음으로 위치 반환
    if (j = M) then return i-M;

    # 패턴의 길이까지 탐색하지 못했다면 i 반환
    else return i;

end bruteForce()
```


#### 1.2 KMP 알고리즘

패턴을 전처리하여 불일치가 발생하는 경우 이동할 다음 위치를 나타내는 next[M]을 구하여 잘못된 시작을 최소화함.  

직선적 알고리즘과 KMP 알고리즘이 다른 점은 텍스트 인덱스가 다시 뒤로 돌아가지 않기 때문에 속도가 더 빨라진다는 점이다.

``` 
KMP(p[],t[])
    M <- 패턴의 길이; N <- 텍스트의 길이
    for(i <- 0, j <- 0; i < N and j < M; i <- i+1, j <- j+1) do {
        while(j >= 0  and p[j] != t[i]) do {
            j <- next[j]
        }
    }
    if j = M then return i -M
    else return i
end KMP()
```


KMP 알고리즘에서 사용하는 재시작 위치 next[j]를 구하는 함수는 다음과 같은 과정을 반복한다. 

0. __초기단계 : 패턴을 1번 위치에 놓는다.__ 

1. __해당 위치 문자열 옆에 같은 문자가 있는지 찾아본다.__  
같은 문자의 숫자를 next[i]에 기입한다. 

2. __해당 위치의 문자열이 다르다면 패턴의 첫번째 문자와 위의 문제가 같아지는 지점까지 오른쪽으로 이동시킨다. 같다면 이동하지 않는다.__

해당 위치의 문자와 패턴의 문자가 다르다면 패턴의 첫번째 문자가 같아지는 지점까지 오른쪽으로 이동시킨다. 
이동한 위치부터 현재 위치까지 문자들은 모두 같아야 한다. 

3. __함수 구현__ 
#재시작 위치를 구하는 함수 initNext()
```
initNext(p[])

    M <- 패턴의 길이
    next[0] <- -1
    for( i<- 0, j <- -1; i<-i+1, j<-j+1) do {
        next[i] <- j
        while ((j>= 0) and (p[i] != p[j])) do
            j <- next[j];
    }

end initNext()
```
4. __함수 최적화__
재시작 위치의 문자와 돌아가기 전 문자와 같다면 필요없는 연산을 2번 하게 됨으로 이를 바로 연결해주는 알고리즘을 만든다.   
```
initNext(p[])

    M <- 패턴의 길이
    next[0] <- -1
    for( i <- 0, j <- -1; i<-i+1, j<-j+1) do {
        next[i] <- j
        while ((j>= 0) and (p[i] != p[j])) do
            if (j != -1 and p[i]  = p[j]) then next[i] <- next[j];
            else next[i] <- j;
    }

end initNext()
```

#패턴이 고정되어 있다면 kmp알고리즘을 다음과 같이 짤 수도 있다.   
#패턴이 '10100111'인 경우

``` 
KMP(t[])

    i <- -1;
    sm : i <- i + 1
    s1 : if (t[i] != '1') then goto sm; i <- i + 1
    ...
```



#### 1.3 보이어 - 무어 알고리즘 

오른쪽에서 왼쪽으로 스트링 탐색  
불일치 문자 방책 사용 : 불일치가 발생한 문자가 패턴의 문자와 일치하도록 패턴을 오른쪽으로 이동시키는 것   
일치 접미부 방책 : 패턴에서 불일치가 발생한 문자의 오른쪽에 있는 최대 접미부가 일치하도록 패턴을 오른쪽을 이동 


불일치 문자 방책 알고리즘 : 시간복잡도 O(M+N)

```
BM(p[],t[])
    M <- 패턴의 길이; N <- 텍스트의 길이;
    initSkip(p);
    for (i <- M-1, j < - M -1; j >= 0; i <- i-1, j <- j -1) do

        # 문자가 다를 때 옮겨주는 과정
        while (t[i] != p[j]) do {
            k <- skip[index(t[i])];
            
            # 다음 k의 위치가 현재 위치(M-j)보다 뒤에 있는 경우
            if (M-j > k) then i <- i + M- j 

            # 다음 k의 위치가 현재 위치(M-j)보다 앞에 있는 경우
            else i <- i + k;

            # 문자열 끝까지 온 경우 탐색실패, 함수 종료 
            if (j >= N) then return N;

            # j값 리셋
            j <- M-1 
        }
    return i + 1
end BM()
```

#### 1.4 라빈 - 카프 알고리즘 
 

### 2. 패턴 매칭 알고리즘

위 스트링 매칭 알고리즘은 정해진 하나의 패턴을 찾는 알고리즘 이었다면 여러개의 방법으로 패턴이 매칭될 수 있는 경우를 찾는 알고리즘이다.

패턴 매칭 알고리즘을 만드는 방법은 다음 3단계로 이루어진다. 

1. 패턴(정규식)을 비결정적 장치로 표현한다. 
2. 패턴 매칭 장치를 배열로 표현한다. 
3. 배열과 덱을 이용해서 패턴이 일치하는지 확인한다. 

- 규칙 
시작상태부터 순서대로 따라간다. 
문자가 서로 매치되면 덱의 끝에 삽입한다. 
상태가 비어있으면 두개의 가능한 상태를 덱에 삽입한다. 
매칭되지 않는다면 그 문자를 뺀다 

종료 조건
- 입력의 끝까지 간 경우, 덱에 scan 마크 하나만 남은 경우는 매치되지 않은 경우다
- 상태 0을 만난 경우만 매치가 된 경우다. 


### 3. 화일 압출 알고리즘

#### 3.1 런-길이 인코딩

같은 문자가 연속해서 여러번 나오면 나온 문자의 길이만큼을 숫자로 바꾸어 저장하는 방법  
일반적인 문서는 압축하기 어려우나 이미지같이 특정 문자가 반복해서 자주 나오는 파일은 압축이 가능하다. 

#### 3.2 가변 - 길이 인코딩

가장 많이 나온 문자에게 가장 적은 짧은 비트로 코드를 할당하는 방법  
그러나 짧은 코드를 순서대로 할당하는 방법으로 만든 코드가 서로 구별되어 보이기 위해서는 띄어쓰기가 필요하다. 

띄어쓰기가 필요 없도록 코드를 할당하는 방법이 바로 허프만 인코딩이다.  
허프만 인코딩은 트라이를 사용하여 붙여 쓰더라도 하나로 디코드 될 수 있도록 만든다.  

### 4.암호화 알고리즘

#### 4.1 카이사르 암호화
N번째 문자를 N+K로 변환하는 방법

#### 4.2 비즈네르 암호화
문자에 서로 다른 변환표를 사용하여암호화 기법의 복잡도는 높이는 방법

#### 4.3 버넘 암호화

#### 4.4 공개 키 암호화 시스템 
