<a href="https://colab.research.google.com/github/Tonge-Shim/biodata/blob/main/%EB%B0%94%EB%8D%B0%EC%8B%A4_4%EC%9B%94_15%EC%9D%BC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pattern Matching in Sequence Data
* Heuristics
    *  발견법이라고도 부르는데, **불충분한 시간이나 정보로 인하여 합리적인 판단을 할 수 없거나, 체계적이면서 합리적인 판단이 굳이 필요하지 않은 상황에서** 사람들이 빠르게 사용할 수 있게 보다 **용이하게 구성된 간편추론의 방법**을 일컫는다.   
    *  복잡하고 어려운 문제(NP problem)를 풀 때 사용하는 접근법으로, 
    * 문제를 간단한 형태로  단순화시킨 후에 해결답안을 찾는 방법

    * 문제를 더 빨리 해결하기 위한 근사적인 해결책

    * AI 에서 사용되는 많은 알고리즘들이 이에 속함. 

    * genetic algorithm
    * simulated annealing
    * tabu search

* The Boyer-Moore String Search Algorithm
    * Developed by Robert Boyer and  J. Strother Moore in 1977
    * 여러 문자열 패턴 검색 알고리즘 중에서 표준이 되는 효율적인 알고리즘으로 널리 사용됨. 

    * 패턴의 구조를 이용해 검색속도를 향상시킴.

    * 알고리즘의 주요 특징은 패턴 문자열(P)의 머리가 아닌 패턴의 꼬리에서 일치하고 텍스트 문자열(T)의 모든 단일 문자를 검색하는 대신 여러 문자의 점프로 텍스트를 건너 뛰는 것임. 
    * "역방향“ 접근 방식을 취함:  패턴 문자열 (P)은 텍스트 
문자열 (T)의 시작 부분에 정렬 된 다음, 가장 오른쪽 문자부터 
시작하여 패턴의 문자를 오른쪽에서 왼쪽으로 비교함. 

    * 패턴 내에 없는 문자를 비교하는 경우, 이 위치에서는 추가 
문자를 비교하여 일치를 찾을 수 없으므로 패턴이 일치하지 않는 문자를 완전히 지나서 이동할 수 있음.

    * 가능한 이동을 결정하기 위해, 이 알고리즘은 2 가지 전처리(Preprocessing) 전략을 동시에 사용함. 불일치가 발생할 때마다 
알고리즘은 두 전략을 사용하여 이동(Shift)을 계산하고 더 큰 이동을 선택함. 따라서 각 개별 사례에 대해 가장 효율적인 전략을 사용함. 
    * 2가지 패턴(P)의  전처리 전략이 텍스트 문자열(T)내에서의 탐색 과정의 계산비용을 줄여주는데 이용되기 때문에, 이 전략을 “Heuristic of B-M” 이라고 부르기도 함. 


        - Bad Character Heuristic
        - Good Suffix Heuristic

# Bad Character Heuristic
    * 패턴을 전처리하고, 알파벳 갯수와 같은 크기의 배열에 모든 가능한 문자의  마지막 occurrence 를 저장함. 
    * 패턴P의 문자가 T에 전혀 존재하지 않으면, 패턴은 길이k만큼 shift함. 

    * Best Case 계산복잡도 : O(N/k)
        * 텍스트 T의 모든 문자와 패턴P의 모든문자가 다를때 일어남.
     T = “AAAAAAAAAAAAAAAAAAAAAAAAAA”,  P =  “CCGGT”


    * Worst Case 계산복잡도: O(Nk)
        * 텍스트 T의 모든 문자와 패턴P의 모든문자가 같을때 일어남.
      T=“AAAAAAAAAAAAAAAAAAAAAAAAAA”,  P = “AAAAA”

# Good Suffix Heuristic
    * 패턴 P 의 substring 과 match 하는 텍스트 T의 substring t 가 있다고 가정하자.
    * 패턴 p를 shift 하는 3가지 경우:
        1. Another occurence of t in P matched with t in T
        2. A prefix of P, which, matches with suffix of t
        3. P moves past t

# The Boyer-Moore String Search Algorithm 계산 비용
    * 텍스트 T를 탐색하기 전에 패턴 P의 전처리가 수행됨.
    * 패턴 전처리에 계산비용이 들지만, 일반적으로 패턴 P의 길이가 텍스트 T의 길이보다 훨씬 작기때문에 텍스트 T 전체의 탐색과정에서 발생하는 계산비용보다 큰 이득을 얻을 수 있음.



In [None]:
#지난시간에 배운 코드
def search_first_occ(seq, pattern):
    found = False
    i = 0
    while i <= len(seq)-len(pattern) and not found:
        j = 0
        while j < len(pattern) and pattern[j] == seq[i+j]:
            j = j + 1
        if j == len(pattern): found = True
        else: i += 1
    if found: return i
    else: return -1

def search_all_occurrences(seq, pattern):
    res = []
    for i in range(len(seq)-len(pattern)+1):
        j = 0
        while j < len(pattern) and pattern[j] == seq[i+j]:
            j = j +1
        if j == len(pattern):
            res.append(i)
    return res


In [None]:
class BoyerMoore:
    
    def __init__(self, alphabet, pattern):
        self.alphabet = alphabet
        self.pattern = pattern
        self.preprocess()

    def preprocess(self):
        self.process_bcr()
        self.process_gsr()

# Bad Character Heuristic
        
    def process_bcr(self):  		
        self.occ = {}
        for symb in self.alphabet:
            self.occ[symb] = -1
        for j in range(len(self.pattern)):
            c = self.pattern[j]
            self.occ[c] = j

 # Good Suffix Heuristic
           
    def process_gsr(self):
        self.f = [0] * (len(self.pattern)+1)
        self.s = [0] * (len(self.pattern)+1)
        i = len(self.pattern)
        j = len(self.pattern)+1
        self.f[i] = j
        while i>0:
            while j<= len(self.pattern) and self.pattern[i-1] != self.pattern[j-1]:
                if self.s[j] == 0: self.s[j] = j-i;
                j = self.f[j]
            i -= 1
            j -= 1
            self.f[i] = j  
        j = self.f[0]
        for i in range(len(self.pattern)):
            if self.s[i] == 0: self.s[i] = j
            if i == j: j = self.f[j]
 
#   max(self.s[j+1], j- self.occ[c]) 에서 더 큰 shift 선택

    def search_pattern(self, text):
        res = []
        i = 0
        while i <= len(text) - len(self.pattern):
            j= len(self.pattern)- 1
            while j>=0 and self.pattern[j]==text[j+i]: j -= 1 
            if (j<0):
                res.append(i)
                i += self.s[0]
            else:
                c = text[j+i]            
                i += max(self.s[j+1], j- self.occ[c])
        return res
