# Part I: Basic Bioinformatics
## Theory: 편집 거리 (Sequence Distance)
- 목표
 1. 편집 거리의 기본 개념 이해
 2. 생물 정보학에서 편집 거리의 활용 이해
 3. 거리 행렬을 통한 군집화

### 1. Edit Distance: Hamming Distance
- 우리는 어떻게 서로 다른 두 생물학적 서열 (DNA/RNA/Protein Sequence)을 비교할 수 있을까요?
- 지금부터는 단어를 문자열(string)이라 칭하겠습니다. 문자열은 순서가 있는 문자(character)의 나열을 의미합니다.
- 간단한 다음의 두 영단어 문자열을 비교하는 예시를 생각해봅시다.
    - _strong_ vs. _stone_
    - 두 단어는 각각의 순서와 문자 종류를 비교하여 얼마나 유사한지 생각해 볼 수 있습니다.
    - 간단한 방법으로는, 각각의 문자를 하나씩 순차적으로 비교해볼 수 있습니다.

In [1]:
def edit_distance_brute_force(s1, s2):
    if not s1: return len(s2)
    if not s2: return len(s1)
    if s1[0] == s2[0]:
        return edit_distance_brute_force(s1[1:], s2[1:])
    return 1 + min(
        edit_distance_brute_force(s1[1:], s2),    # 삭제
        edit_distance_brute_force(s1, s2[1:]),    # 삽입
        edit_distance_brute_force(s1[1:], s2[1:]) # 치환
    )


edit_distance_bf = edit_distance_brute_force("strong", "stone")
print("Edit distance:", edit_distance_bf)

2

### Dynamic Programming
- 위 예제에서는 각각의 문자열을 하나씩 비교하는 방법을 알아보았습니다
- 하지만 `strong` 과 `stone` 을 비교할 때, 모든 문자를 하나씩 순차적으로 비교하는 것은 비효율적인 것 같습니다.
- 우리는 다음과 같이 표를 만들어 이전에 비교한 문자를 다시 비교할 수 있습니다. 

![Edit distance compute](./assets/edit_distance_1.png)
![Edit distance trajectory](./assets/edit_distance_2.png)

In [3]:
import numpy as np

def edit_distance_dp(s1, s2):
    m, n = len(s1), len(s2)
    dp = np.zeros((m+1, n+1), dtype=int)

    for i in range(m+1):
        for j in range(n+1):
            if i == 0:
                dp[i][j] = j
            elif j == 0:
                dp[i][j] = i
            elif s1[i-1] == s2[j-1]:
                dp[i][j] = dp[i-1][j-1]
            else:
                dp[i][j] = 1 + min(dp[i-1][j], dp[i][j-1], dp[i-1][j-1])
    return dp[m][n], dp

dist, table = edit_distance_dp("strong", "stone")
print("Edit distance:", dist)
print(table)

Edit distance: 2
[[0 1 2 3 4 5]
 [1 0 1 2 3 4]
 [2 1 0 1 2 3]
 [3 2 1 1 2 3]
 [4 3 2 1 2 3]
 [5 4 3 2 1 2]
 [6 5 4 3 2 2]]


### Python Library
- Python 에서는 `라이브러리` 를 이용하여 미리 구현된 코드를 간편하게 사용할 수 있습니다.
- 위 연산 과정의 코드와 유사한 역할을 하는 코드를 미리 구현하여 함수를 불러와서 사용할 수 있습니다. 

In [3]:
from textdistance import hamming
edit_distance = hamming('stone', 'strong')
print("Edit distance:", edit_distance)

# Part II: Foundation Model
- Theory: Basis of Foundation Model - BERT (20 min)
- Practice: Compute Embedding Vectors from Biological Sequence using ESM C (30 min)

# Appendix: Prediction of Protein Structure
- Theory: Basic Concepts of Generative Model (Voluntary Participation)
- Practice: Protein Structure Prediction from AlphaFold Server API (Voluntary Participation)