In [None]:
class BoyerMoore:
    
    def __init__(self, alphabet, pattern):
        self.alphabet = alphabet  # 알파벳(문자 집합)을 초기화
        self.pattern = pattern  # 검색할 패턴을 초기화
        self.preprocess()  # 패턴에 대해 전처리 작업 수행

    def preprocess(self):
        # 전처리: BCR (Bad Character Rule)과 GSR (Good Suffix Rule)을 처리
        self.process_bcr()  
        self.process_gsr()
        
    def process_bcr(self):  
        # BCR (Bad Character Rule) 처리
        self.occ = {}  # 패턴에서 각 문자에 대한 마지막 발생 위치를 저장할 딕셔너리
        for symb in self.alphabet:
            self.occ[symb] = -1  # 모든 문자의 초기 위치는 -1로 설정
        for j in range(len(self.pattern)):  # 패턴을 순회하면서 마지막 발생 위치 기록
            c = self.pattern[j]
            self.occ[c] = j
            
    def process_gsr(self):
        # GSR (Good Suffix Rule) 처리
        self.f = [0] * (len(self.pattern)+1)  # f 배열: 좋은 접미사 위치를 저장
        self.s = [0] * (len(self.pattern)+1)  # s 배열: 접미사 길이를 저장
        i = len(self.pattern)  # 패턴의 끝 인덱스
        j = len(self.pattern)+1  # GSR을 위한 j 초기화
        self.f[i] = j  # 마지막 위치 f[i]를 j로 설정
        while i > 0:
            while j <= len(self.pattern) and self.pattern[i-1] != self.pattern[j-1]:
                if self.s[j] == 0:  # 일치하지 않으면 좋은 접미사 길이를 기록
                    self.s[j] = j - i
                j = self.f[j]  # GSR에 따른 이동
            i -= 1  # 패턴의 앞부분으로 이동
            j -= 1  # j 값을 감소시킴
            self.f[i] = j  # f[i] 업데이트
        j = self.f[0]  # j 초기화
        for i in range(len(self.pattern)):
            if self.s[i] == 0:  # 접미사가 없다면 j로 설정
                self.s[i] = j
            if i == j:  # 접미사가 끝나면 j 갱신
                j = self.f[j]
        
    def search_pattern(self, text):
        # 주어진 텍스트에서 패턴을 검색
        res = []  # 결과를 저장할 리스트
        i = 0  # 텍스트 내에서 검색 시작 위치
        while i <= len(text) - len(self.pattern):  # 텍스트 끝까지 검색
            j = len(self.pattern) - 1  # 패턴의 끝부터 비교 시작
            while j >= 0 and self.pattern[j] == text[j + i]:  # 패턴과 텍스트가 일치하는지 확인
                j -= 1  # 일치하면 j 감소
            if j < 0:  # 패턴이 완전히 일치한 경우
                res.append(i)  # 일치하는 위치 저장
                i += self.s[0]  # 좋은 접미사에 따른 이동
            else:
                c = text[j + i]  # 일치하지 않는 문자를 찾으면
                i += max(self.s[j + 1], j - self.occ[c])  # BCR과 GSR을 고려하여 이동
        return res  # 일치하는 패턴의 인덱스를 반환

In [None]:
bm = BoyerMoore("ACTG", "ACCA") #첫번째는 우리가 사용하는 염기 = ACTG를 쓰니까 DNA 서열이라는 뜻 #두번째가 관심있는 패턴.
print (bm.search_pattern("ATAGAACCAATGAACCATGATGAACCATGGATACCCAACCACC")) #서열.
#반복이 되면 시간이 더 걸림.


[5, 13, 23, 37]


### `__init__:`
클래스가 초기화될 때 alphabet과 pattern을 받아와서, preprocess()를 호출하여 전처리를 시작함.

### `preprocess():`
BCR과 GSR을 처리하는 메서드를 호출하여 검색을 최적화할 준비를 함.

### `process_bcr():`
**Bad Character Rule (BCR)** 을 적용. 각 문자에 대해 마지막 발생 위치를 기록하는 딕셔너리 self.occ를 생성함.

### `process_gsr():`
**Good Suffix Rule (GSR)** 을 적용. 접미사에 맞는 최적의 이동 위치를 결정하는 배열 self.f와 self.s를 생성함.

### `search_pattern():`
- 주어진 텍스트에서 pattern을 찾는 메서드.
- BCR과 GSR을 이용해 패턴 매칭을 최적화함.
- 일치하는 패턴을 찾으면 그 위치를 res에 저장하고, 좋은 접미사를 이용해 검색 범위를 효율적으로 좁힘.