# 스트링 탐색 알고리즘

### 스트링 매칭
주어진 문서(text)에서 찾고자 하는 단어(pattern)가 어디에 있는지 알아내는 알고리즘   


#### 1.1 직선적 알고리즘  

처음부터 한 글장 혹은 한 비트씩 오른쪽을 진행하면서 텍스트의 처음부터 끝까지 모두 비교하는 알고리즘  

모든 위치에서 패턴을 비교해야 함으로 O(M*N) 시간복잡도를 갖는다.  

bruteForce(p[], t[])

    M <- 패턴의 길이; N <- 텍스트의 길이;
    for (i <- 0, j <- 0; j <M and i < N; i <- i+1; j <- j+1) do
        if (t[i] != p[j]) then {
            i <- i - j
            j <- -1;
        }
    
    # 패턴의 길이인 M까지 탐색했다면 패턴이 있음으로 위치 반환
    if (j = M) then return i-M;

    # 패턴의 길이까지 탐색하지 못했다면 i 반환
    else return i;

end bruteForce()


#### 1.2 KMP 알고리즘

패턴을 전처리하여 불일치가 발생하는 경우 이동할 다음 위치를 나타내는 next[M]을 구하여 잘못된 시작을 최소화함.  

재시작 위치를 구하는 함수는 다음과 같은 과정을 반복한다. 

1. 해당 위치 문자열 옆에 같은 문자가 있는지 찾아본다.  
같은 문자의 숫자를 next[i]에 기입한다. 

2. 해당 위치의 문자열이 다르다면 아래쪽 패턴을 한 칸 이동, 같다면 이동하지 않는다.


#재시작 위치를 구하는 함수 initNext()
```
initNext(p[])

M <- 패턴의 길이
next[0] <- -1
for( i<- 0, j <- -1; i<-i+1, j<-j+1) do {
    next[i] <- j
    while ((j>= 0) and (p[i] != p[j])) do
        j <- next[j];
}

end initNext()
```
3. 현재 문자와 재시작하는 문자가 같은 경우 구분
```
initNext(p[])

M <- 패턴의 길이
next[0] <- -1
for( i<- 0, j <- -1; i<-i+1, j<-j+1) do {
    next[i] <- j
    while ((j>= 0) and (p[i] != p[j])) do
        if (j != -1 and p[i]  = p[j]) then next[i] <- next[j];
        else next[i] <- j;
}

end initNext()
```

#패턴이 고정되어 있다면 kmp알고리즘을 다음과 같이 짤 수도 있다.   
#패턴이 '10100111'인 경우

``` 
KMP(t[])

    i <- -1;
    sm : i <- i + 1
    s1 : if (t[i] != '1') then goto sm; i <- i + 1
    ...
```



#### 1.3 보이어 - 무어 알고리즘 

오른쪽에서 왼쪽으로 스트링 탐색  
불일치 문자 방책 사용 : 불일치가 발생한 문자가 패턴의 문자와 일치하도록 패턴을 오른쪽으로 이동시키는 것 
일치 접미부 방책 : 패턴에서 불일치가 발생한 문자의 오른쪽에 있는 최대 접미부가 일치하도록 패턴을 오른쪽을 이동  


불일치 문자 방책 알고리즘 : 시간복잡도 O(M+N)

```
BM(p[],t[])
    M <- 패턴의 길이; N <- 텍스트의 길이;
    initSkip(p);
    for (i <- M-1, j < - M -1; j >= 0; i <- i-1, j <- j -1) do

        # 문자가 다를 때 옮겨주는 과정
        while (t[i] != p[j]) do {
            k <- skip[index(t[i])];
            
            # 다음 k의 위치가 현재 위치(M-j)보다 뒤에 있는 경우
            if (M-j > k) then i <- i + M- j 
            # 다음 k의 위치가 현재 위치(M-j)보다 앞에 있는 경우
            else i <- i + k;

            # 문자열 끝까지 온 경우 탐색실패, 함수 종료 
            if (j >= N) then return N;

            # j값 리셋
            j <- M-1 
        }
    return i + 1
end BM
```

#### 1.4 라빈 - 카프 알고리즘 
 

### 패턴 매칭 알고리즘

위 스트링 매칭 알고리즘은 정해진 하나의 패턴을 찾는 알고리즘 이었다면 여러개의 방법으로 패턴이 매칭될 수 있는 경우를 찾는 알고리즘이다.

패턴 매칭 알고리즘을 만드는 방법은 다음 3단계로 이루어진다. 

1. 패턴(정규식)을 비결정적 장치로 표현한다. 
2. 패턴 매칭 장치를 배열로 표현한다. 
3. 배열과 덱을 이용해서 패턴이 일치하는지 확인한다. 

### 화일 압출 알고리즘

#### 3.1 런-길이 인코딩

같은 문자가 연속해서 여러번 나오면 나온 문자의 길이만큼을 숫자로 바꾸어 저장하는 방법  
일반적인 문서는 압축하기 어려우나 이미지같이 특정 문자가 반복해서 자주 나오는 파일은 압축이 가능하다. 

#### 3.2 가변 - 길이 인코딩
가장 많이 나온 문자에게 가장 적은 짧은 비트로 코드를 할당하는 방법  
그러나 짧은 코드를 순서대로 할당하는 방법으로 만든 코드가 서로 구별되어 보이기 위해서는 띄어쓰기가 필요하다. 

띄어쓰기가 필요 없도록 코드를 할당하는 방법이 바로 허프만 인코딩이다.  
허프만 인코딩은 트라이를 사용하여 붙여 쓰더라도 하나로 디코드 될 수 있도록 만든다.  

### 암호화 알고리즘

#### 4.1 카이사르 암호화
N번째 문자를 N+K로 변환하는 방법

#### 4.2 비즈네르 암호화
문자에 서로 다른 변환표를 사용하여암호화 기법의 복잡도는 높이는 방법

#### 4.3 버넘 암호화

#### 4.4 공개 키 암호화 시스템 
공개 키 암호화 시스템에서 사용되는 대표적인 알고리즘  


#### 패턴 매칭 알고리즘 adl

match(p[])  

        dq <- Deque(50);
        j <- 0;
        N <-  t의 길이 - 1;
        state <- next1[0];
        dq.insertLast(scan);
        while(state > 0);
        while (state){
            case {
                state = scan;
                    ;
                    if(dq.isEmpty()) then 
                    ;
                ch[state] = t[j];
                    ;
                ch[state] = ' ';
                    ;
                    ;
                    ;
                if (n1 != n2) then
                    ;
            }
        if (dq.isEmpty()) then return j;
        if (j > N) then return 0
        state <- dq.deleteFirst()
        if (dq.checkDq()) then state <- dq.deleteFirst();
        }
        
        return j-1;
    
end match()
    


In [None]:
scan = -1
# (A*B+AC)D
ch = [' ', 'A', ' ', 'B', ' ', ' ', 'A', 'C', 'D', ' ']
next1 = [5, 2, 3, 4, 8, 6, 7, 8, 9, 0]
next2 = [5, 2, 1, 4, 8, 2, 7, 8, 9, 0]


class Deque:
    def __init__(self, size):
        self.deque = []
        self.first = int(size/2)
        self.last = int(size/2)
        for i in range(size):
            self.deque.append(0)
            
            
    def insertFirst(self,v):
        self.deque[self.first] = v
        self.first -= 1
        
        
    def insertLast(self, v):
        self.last += 1
        self.deque[self.last] = v
        
        
    def deleteFirst(self):
        self.deque[self.first] = 0
        self.first += 1
        return self.deque[self.first]
    
    
    def isEmpty(self):
        if self.first == self.last:
            return True
        else:
            return False
        
        
    def checkDq(self):
        if self.deque[self.first] == 0:
            if self.last - self.first < 2 and self.deque[self.last] == scan:
                return False
            elif not self.isEmpty():
                return True
            else:
             return False
        else:
            return False
        
    def prDq(self, size):
        pass
    
    
    def match(t):
        pass
    
    
text = 'AABD' + '\0'
#text = 'CDAABCAAABD' + '\0'
previous = 0
i = 0
N = len(text)-1
while True:
    pos = match(text[i:])
    if pos <= 0:
        break
    pos += previous
    i = pos
    if i <= N:
        print('패턴이 나타난 위치 : ', pos) 
    else:
        break
    previous = i
print('패턴 매칭 종료 ')

In [None]:
class PQ:
    def __init__(self):
        self.heap = [0]*100
        self.info = [0]*100
        self.n = 0
        
        
    def insert(self, v, x):
        self.n += 1
        i = self.n
        while True:
            if i == 1: break
            if v >= self.heap[int(i/2)]: break
            self.heap[i] = self.heap[int(i/2)]
            self.info[i] = self.info[int(i/2)]
            i = int(i/2)
        self.heap[i] = v
        self.info[i] = x
        
        
    def remove(self):
        x = self.info[1]
        temp_v = self.heap[self.n]
        temp_x = self.info[self.n]
        self.n -= 1
        i = 1
        j = 2
        while j <= self.n:
            if (j < self.n) and (self.heap[j] > self.heap[j+1]):
                j += 1
            if temp_v <= self.heap[j]: break
            self.heap[i] = self.heap[j]
            self.info[i] = self.info[j]
            i = j
            j *= 2
        self.heap[i] = temp_v
        self.info[i] = temp_x
        return x
    
    
    def isEmpty(self):
        if self.n == 0: return True
        else: return False
    
    
    def index(c):
        if ord(c) == 32: return 0
        else: return (ord(c)-64)
    
    
    def makeHuffman(t, m):
        for i in range(m):
            count[index(t[i])] += 1
        for i in range(27):
            if count[i]:
                pq.insert(count[i], i)
        i = 27
        
        while not pq.isEmpty():
            t1 = pq.remove()
            t2 = pq.remove()
            dad[i] = 0
            dad[t1] = i
            dad[t2] = -i
            count[i] = count[t1] + count[t2]
            if not pq.isEmpty():
                pq.insert(count[i], i)
            i += 1
            
        for k in range(27):
            i = x = 0
            j = 1
            if count[k]:
                q = dad[k]
            while q:
                if q < 0:
                    x += j
                    q = -q
                q = dad[q]
                j += j
                i += 1
            code[k] = x
            length[k] = i
    def encode(t, m):
    huffman_code = ''
    for j in range(m):
    i = length[index(t[j])]
    while i > 0:
    huffman_code += str((code[index(t[j])] >> i - 1) & 1)
    i -= 1
    return huffman_code
    def char(k):
    if k == 0: return chr(32)
    else: return chr(k+64)
    def findDad(max_i, k):
    for i in range(max_i):
    if dad[i] == k:
    return i
    def decode(h):
    pass
text = 'VISION QUESTION ONION CAPTION GRADUATION EDUCATION'
#text = 'A SIMPLE STRING TO BE ENCODED USING A MINIMAL NUMBER OF 
BITS'
count = [0]*100
dad = [0]*100
length = [0]*27
code = [0]*27
M = len(text)
pq = PQ()
makeHuffman(text, M)
h = encode(text, M)
print(h)
#d = decode(h)
#print(d)