# Biopython
biopython은 파이썬 기반 컴퓨터 분자 생물학 파이썬 라이브러리이다. 생물정보학 분야에서 자주 사용되며, DNA, RNA, 단백질 서열 데이터 및 생물학 관련 다양한 데이터 형식들을 다룰 수 있는 도구를 제공한다.

- 기능
    - 서열 분석
        - DNA, RNA, Proten sequence.
        - GC 함량 계산, 역상보 서열 생성 등의 작업 가능
    - 파일 포맷 피싱
        - 여러 생물정보학 파일 포멧을 파이썬 데이터 구조로 지원한다.
        - Blast output, Clustalw, FASTA, GenBank, PubMed and Medline, ExPASy files, SCOP, UniGene, SwisssProt
    - 생물학적 데이터 접근
        - NCBI, UniProt 등 외부 데이터베이스와의 연결할 수 있다.
        - BLAST 검색 자동화 가능하다.
    - 계보 및 진화 분석
        - 계통도 생성 및 분석을 위한 도구가 포함되어 있다.
        - Phylo 모듈로 다양한 포맷의 계통수를 다룬다.
    - 알고리즘 및 분석 도구
        - Smith-Waterman, Needleman-Wunsch 등의 정렬 알고리즘 구현한다.
        - 서열 간의 유사성 계산, 정렬 작업 가능하다.
    - 구조 데이터 처리
        - 단백질 구조 데이터를 PDB 포맷으로 파싱 및 분석 가능하다.

In [None]:
### 설치 확인
##### 설치 : !pip install biopython
import Bio
print(Bio.__version__)

1.83


# Chapter 01 시퀀싱 객체
생물학적 시퀀싱은 생물정보학의 중요한 객체이며, 이번 챕터에서 시퀀싱를 처리하기 위해 Biopython 매커니즘인 `Sep`객체를 소개한다.

시퀀싱은 근본적으로 문자열이며 `AGTACACTGGT`처럼, 이는 생물학적 파일 형식에서 시퀀스를 보는 가장 일반적인 방식이기 때문에 매우 자연스럽게 보인다.

객체와 표준 Python 문자열의 가장 중요한 차이점은 `Seq`와 서로 다른 메서드가 있다. `Sep`객체는 일반 문자열과 동일한 메서드 중 많은 것을 지원 하지만, `translate()`메서드는 생물학적 번역을 수행하여 다르며, 생물학적으로 관련된 추가 메서드 `reverse_complement()` 메서드도 존재한다.

### Sep()
-> 시퀀스 객체를 만드는 메서드

In [15]:
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
text = "AGTACACTGGT"
my_seq

Seq('AGTACACTGGT')

In [None]:
text
# 출력함수를 사용하지 않은 경우 문자열과 다르게 출력된다.

'AGTACACTGGT'

In [None]:
# 출력함수를 사용하는 경우 기존의 문자열과 동일하게 출력된다.
print("Seq :", my_seq)
print("Text :", text)

Seq : AGTACACTGGT
Text : AGTACACTGGT


In [None]:
# type으로 데이터의 형태를 출력하면 확실히 다르다는 것을 알 수 있다.
print(type(my_seq))
print(type(text))

<class 'Bio.Seq.Seq'>
<class 'str'>


In [None]:
for i, l in enumerate(my_seq):
    print("%i %s" % (i, l))

print("="* 7)

for i, l in enumerate(text):
    print(f"{i} {l}")

0 A
1 G
2 T
3 A
4 C
5 A
6 C
7 T
8 G
9 G
10 T
0 A
1 G
2 T
3 A
4 C
5 A
6 C
7 T
8 G
9 G
10 T


In [26]:
# 문자열과 동일하게 len()으로 길이를 반환 받을 수 있다.
print(len(my_seq))
print(len(text))

11
11


In [None]:
# 인덱스 호출도 시퀀스의 요소에 접근할 수 있다.
print(my_seq[0])
print(my_seq[2])
print(my_seq[-1])

A
T
T


### .count()을 이용한 개수 카운트
`Seq`는 파이썬에서 사용하는 .count()을 이용할 수 있다. 이는 문자열 및 리스트 객체에서 사용되는 메서드로, 특정 요소나 값이 등장하는 횟수를 반환한다.

- 기본 문법
    `string.count(sub, strart=0, end=len(string))`
    - sub : 찾고자 하는 부분 문자열
    - strart(선택) : 검색을 시작할 인덱스 (기본값: 0)
    - end(선택) : 검색을 종료할 인덱스 (기본값: len(string))

In [None]:
print("AAAA".count("AA")) #Str
print(Seq("AAAA").count("AA")) #Sep

2
2


In [32]:
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
print("Len : ", len(my_seq))
print("G : ", my_seq.count("G"))
print("GC% :",100 * (my_seq.count("G") + my_seq.count("C")) / len(my_seq),"%")


Len :  32
G :  9
GC% : 46.875 %


### Bio.SeqUtils, GC% 함수
DNA에서 GC%(구아닌, 사이토신 비율)은 생물학적, 진화적, 그리고 실험적 관점에서 중요한 의미를 갖는다. GC 함량은 유전자의 구조적, 기능적 특징뿐만 아니라 생물 종의 적응과 환경 변화에 대한 반응을 이해하는 데에도 유용하다.

- GC%의 정의

	GC%: DNA 서열에서 **구아닌(G)**과 **사이토신(C)**이 전체 염기쌍에서 차지하는 비율.

    GC\% = \frac{\text{G의 개수} + \text{C의 개수}}{\text{총 염기쌍 수}} \times 100

- 중요성
    1. 유전자 안정성과 구조
        - G와 C는 3개의 수소 결합을 형성하는 반면, A와 T은 2개의 수소 결합만 형성한다. 그렇기에 GC 함량이 높을수록 DNA는 더 안정적이며, 특히 고온 환경에서 쉽게 변성되지 않는다.
        - GC는 DNA의 녹는점에 영향을 줌
            - Tm : DNA가 이중나선 구조에서 단일 가닥으로 분리되는 온도 -> GC 증가 = Tm 증가
    2. 진화적, 환경적 적응
        - 고온 환경에 서식하는 생물의 DNA는 GC함량이 높은 경향이 있다.
        - 특정 생물 종이나 유전자 집합의 진화적 적응과 밀접하게 관련된다.
    3. 유전자 발현 조절
        - 프로모터와 같은 조절 서열에서 CpG 섬이 종종 발견된다.
            - CpG 섬은 유전자 발현 조절과 관련 있으며, 특정 유전자의 활성화 여부에 영향을 미친다.
            - ex : 포유류에서 CpG 메틸화는 유전자 발현 억제와 연관됨
    4. 서열 분석 및 유전자 특징
        - GC 함량은 생물의 게놈 특징을 나타냄
            - 세균과 같은 생물에서 GC는 유전체의 특정 영역의 기능적 차이를 암시
        - GC 함량이 낮거나 높은 영역은 종종 특정 기능(예: 유발 유전자)이나 구조적 역할과 연관
    5. 실험적 중요성
        - PCR 실험에서 프라이머 설계 : GC는 프라이머의 결합 안정성과 Tm 계산에 필수적.
            - 적절한 GC 함량 : 40 ~ 60 %
        - NGS : GC 함량은 DNA 증폭 및 시퀀싱 효율에 영향을 미침

In [None]:
# Bio.SeqUtils의 gc_fraction 통해 간단하게 GC 비율을 구할 수 있다.
from Bio.SeqUtils import gc_fraction
print(gc_fraction(my_seq))

0.46875


### 시퀀스 슬라이싱
`Seq`는 문자열과 동일하게 슬라이싱을 통해 특정 인덱스 위치의 서열들을 불러오거나 음수를 이용해 뒤에서부터 서열을 가져올 수 있다.

In [34]:
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
my_seq[4:12]

Seq('GATGGGCC')

In [35]:
my_seq[0::3]

Seq('GCTGTAGTAAG')

In [36]:
my_seq[1::3]

Seq('AGGCATGCATC')

In [37]:
my_seq[::-1]

Seq('CGCTAAAAGCTAGGATATATCCGGGTAGCTAG')

### Seq 객체를 문자열로 변환
`str()`메서드를 이용해 `Seq`를 문자열로 변환할 수 있다.

In [38]:
str(my_seq)

'GATCGATGGGCCTATATAGGATCGAAAATCGC'

### 시퀀스 연결 또는 추가

In [39]:
seq1 = Seq("ACGT")
seq2 = Seq("AACCGG")
seq1 + seq2

Seq('ACGTAACCGG')

In [41]:
protein_seq = Seq("EVRNAK")
dna_seq = Seq("ACGT")
protein_seq + dna_seq

Seq('EVRNAKACGT')

In [42]:
list_of_seqs = [Seq("ACGT"), Seq("AACC"), Seq("GGTT")]
concatenated = Seq("")
for s in list_of_seqs:
    concatenated += s
concatenated

Seq('ACGTAACCGGTT')

In [44]:
spacer = Seq("N" * 10)
spacer.join(list_of_seqs)

Seq('ACGTNNNNNNNNNNAACCNNNNNNNNNNGGTT')

### 케이스 변경
파이썬 문자열은 대소문자를 바꾸는 데 매우 유용한 `upper`와 `lower`가 있다. `Sep`도 이를 이용할 수 있다.

In [46]:
dna = Seq("acgtACGT")
print(dna)
print("upper :", dna.upper()) #대문자로 변경
print("lower :", dna.lower()) #소문자로 변경

acgtACGT
upper : ACGTACGT
lower : acgtacgt


In [47]:
# 이는 대소문자를 구분하지 않고 일치를 한것을 찾는데 유용한다.
print("GTAC" in dna)
print("GTAC" in dna.upper())

False
True


### 뉴클레오티드 서열 및 (역)보체
`Seq`는 뉴클레오티드 시퀀스의 경우 상보적인 보수와 역보수를 쉽게 구할 수 있다.

In [None]:
# .coplement() : 보체구하기
my_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")
print(my_seq)
print(my_seq.complement())

# .reverse_complement() : 역보체