# Burrows-Wheeler Transform를 구현하여 BWT와 Suffix Array 구하기
* Name: 구나영
* Student ID: 22101006
* Date: September 19, 2024
* Fall 2024 Bioinformatics

# Procedures 

In [1]:
import numpy as np

## 1. 입력 문자열 준비

In [2]:
sequence = input("sequence:") #과제에서의 입력값 = attaggact

sequence: attaggact


In [3]:
sequence += "$"

In [4]:
sequence_list = list(sequence)

In [5]:
sequence_list

['a', 't', 't', 'a', 'g', 'g', 'a', 'c', 't', '$']

## 2. 회전 행렬 생성
* 문자열의 모든 순환(rotation) 버전을 만드는 과정
* 순환: 문자열의 각 문자가 하나씩 왼쪽으로 밀리고, 맨 앞에 있던 문자가 맨 뒤로 가는 과정을 반복하는 것

#### 순환(rotation)의 과정

***EXAMPLE: Sequence = ATGC***

***Versions:***
1. 원본 문자열: 
**ATGC$**  (아무 변화 없음)

2. 한 칸 왼쪽으로 밀기:
맨 앞의 A를 맨 뒤로 보냄
**TGC$A** 

3. 다시 한 칸 왼쪽으로 밀기:
T를 맨 뒤로 보냄
**GC$AT** 

4. 또 한 칸 왼쪽으로 밀기:
G를 맨 뒤로 보냄
**C$ATG** 


5. 마지막으로 한 칸 왼쪽으로 밀기:
C를 맨 뒤로 보냄
**$ATGC** 

In [6]:
bwm = [] 

for i in range(len(sequence_list)):
    bwm.append(sequence_list.copy())
    # 첫 번째 시퀀스를 제거
    first_seq = sequence_list.pop(0)  
    #지운 시퀀스를 맨 뒤로 보내기
    sequence_list.append(first_seq) 

In [7]:
bwm 

[['a', 't', 't', 'a', 'g', 'g', 'a', 'c', 't', '$'],
 ['t', 't', 'a', 'g', 'g', 'a', 'c', 't', '$', 'a'],
 ['t', 'a', 'g', 'g', 'a', 'c', 't', '$', 'a', 't'],
 ['a', 'g', 'g', 'a', 'c', 't', '$', 'a', 't', 't'],
 ['g', 'g', 'a', 'c', 't', '$', 'a', 't', 't', 'a'],
 ['g', 'a', 'c', 't', '$', 'a', 't', 't', 'a', 'g'],
 ['a', 'c', 't', '$', 'a', 't', 't', 'a', 'g', 'g'],
 ['c', 't', '$', 'a', 't', 't', 'a', 'g', 'g', 'a'],
 ['t', '$', 'a', 't', 't', 'a', 'g', 'g', 'a', 'c'],
 ['$', 'a', 't', 't', 'a', 'g', 'g', 'a', 'c', 't']]

In [8]:
#numpy array로 변환
bwm = np.array(bwm) 

## 3. 회전 행렬 정렬
생성된 모든 회전을 사전순으로 정렬 -> SUFFIX ARRAY

***EXAMPLE: "attaggact"***
#### (1) 문자열의 각 접미사(suffix)를 기준으로 볼 수 있음

0. attaggact
1. ttaggact
2. taggact
3. aggact
4. ggact
5. gact
6. act 
7. ct 
8. t
9. $

In [9]:
bwm[:, 0] 

array(['a', 't', 't', 'a', 'g', 'g', 'a', 'c', 't', '$'], dtype='<U1')

#### (2) 사전식으로 정렬
***EXAMPLE: "attaggact"***
* 순서: 9. ***$*** -> 6. ***act*** -> 3. ***aggact*** -> 0. ***attaggact*** -> 7. ***ct*** -> 5. ***gact*** -> 4. ***ggact*** -> 8. ***t*** -> 2. ***taggact*** -> 1. ***ttaggact***
* ***9*** -> ***6*** -> ***3*** -> ***0*** -> ***7*** -> ***5*** -> ***4*** -> ***8*** -> ***2*** -> ***1***

In [10]:
sorted_bwm = bwm[np.lexsort([bwm[:, i] for i in range((bwm.shape[1]-1), -1, -1)])]

In [11]:
sorted_bwm

array([['$', 'a', 't', 't', 'a', 'g', 'g', 'a', 'c', 't'],
       ['a', 'c', 't', '$', 'a', 't', 't', 'a', 'g', 'g'],
       ['a', 'g', 'g', 'a', 'c', 't', '$', 'a', 't', 't'],
       ['a', 't', 't', 'a', 'g', 'g', 'a', 'c', 't', '$'],
       ['c', 't', '$', 'a', 't', 't', 'a', 'g', 'g', 'a'],
       ['g', 'a', 'c', 't', '$', 'a', 't', 't', 'a', 'g'],
       ['g', 'g', 'a', 'c', 't', '$', 'a', 't', 't', 'a'],
       ['t', '$', 'a', 't', 't', 'a', 'g', 'g', 'a', 'c'],
       ['t', 'a', 'g', 'g', 'a', 'c', 't', '$', 'a', 't'],
       ['t', 't', 'a', 'g', 'g', 'a', 'c', 't', '$', 'a']], dtype='<U1')

#### (+) SUFFIX ARRAY로 나타내기
: 정렬된 접미사의 원래 위치를 인덱스로 나타내기

* 순서: 9 -> 6 -> 3 -> 0 -> 7 -> 5 -> 4 -> 8 -> 2 -> 1
* [9, 6, 3, 0, 7, 5, 4, 8, 2, 1]

In [12]:
suffix_array = np.lexsort([bwm[:, i] for i in range((bwm.shape[1]-1), -1, -1)])

#4. 

In [13]:
bwt_first = sorted_bwm[:, 0]
bwt_last = sorted_bwm[:, -1]

In [14]:
bwt_first

array(['$', 'a', 'a', 'a', 'c', 'g', 'g', 't', 't', 't'], dtype='<U1')

In [15]:
bwt_last

array(['t', 'g', 't', '$', 'a', 'g', 'a', 'c', 't', 'a'], dtype='<U1')

In [16]:
bwt_result_string = ''.join(bwt_last)

In [17]:
print(f"BWT of {sequence}:", bwt_result_string)
print(f"Suffix Array of {sequence}:", suffix_array)

BWT of attaggact$: tgt$agacta
Suffix Array of attaggact$: [9 6 3 0 7 5 4 8 2 1]


# Conclusion

In [18]:
def burrows_wheeler_transform(sequence):
    sequence += "$"
    sequence_list = list(sequence)
    
    bwm = [] 
    
    for i in range(len(sequence_list)):
        bwm.append(sequence_list.copy())
        first_seq = sequence_list.pop(0) 
        sequence_list.append(first_seq) 
    
    bwm = np.array(bwm)
    
    sorted_bwm = bwm[bwm[:, 0].argsort()]

    bwt_first = sorted_bwm[:, 0]
    bwt_last = sorted_bwm[:, -1]

    return bwt_first, bwt_last

#### 염기서열, attaggact에 대하여:
### BWT = tgt$agacta
### Suffix Array = [9, 6, 3, 0, 7, 5, 4, 8, 2, 1]

## Contribution
* Main logics are based on the content of the lecture slides
* Some of the codes and explanations were written with the help of ChatGPT