In [None]:
# 4.3.1.make_sequence.py 
# sequence 객체: 문자열로 된 DNA, RNA, 단백질 서열 정보를 담을 수 있음.
from Bio.Seq import Seq  # 바이오파이썬 Seq 라이브러리 불러옴.

tatabox_seq = Seq("tataaaggcAATATGCAGTAG")  # sequence 객체 생성
#Seq라는 함수를 써서 객체 만들 수 있음.
print(tatabox_seq)  #  tataaaggcAATATGCAGTAG 가 출력된다. 
print(type(tatabox_seq)) # <class 'Bio.Seq.Seq'> 

#이렇게 객체를 만들면 Bio python 낸 함수들을 쓸 수 있다.


tataaaggcAATATGCAGTAG
<class 'Bio.Seq.Seq'>


In [3]:
# 객체에 포함된 서열 세기

exon_seq = Seq("ATGCAGTAG") 
count_a = exon_seq.count("A") 
print(count_a) # 3 이 출력된다. 


3


In [5]:
# GC-contents(%) 계산하기

g_count = exon_seq.count("G") 
c_count = exon_seq.count("C") 
gc_contents = (g_count + c_count) / len(exon_seq) * 100 
print(gc_contents)  # 44.44 



44.44444444444444


In [7]:
# 대소문자 변환

tatabox_seq = Seq("tataaaggcAATATGCAGTAG") 
print(tatabox_seq.upper())  # TATAAAGGCAATATGCAGTAG 
print(tatabox_seq.lower())  # tataaaggcaatatgcagtag 



TATAAAGGCAATATGCAGTAG
tataaaggcaatatgcagtag


In [3]:
# 전사와 번역

dna = Seq("ATGCAGTAG") 
mrna = dna.transcribe() 
ptn = dna.translate() 
print(mrna)  # AUGCAGUAG 
print(ptn)  # MQ*  Met-Gln-종결코돈 

# 종결코돈을 *로 표현함



AUGCAGUAG
MQ*


In [4]:
test = mrna.translate()
print(test)

MQ*


In [None]:

mRNA = Seq("AUGAACUAAGUUUAGAAU") 
ptn = mRNA.translate() 
print(ptn)  ## MN*V*N 


# 번역시 첫 종결 코돈에서 종료하기
ptn2 = mRNA.translate(to_stop=True)  #첫번째 종결코돈을 만나면 더이상 번역하지 않는 옵션.
print(ptn2) ## MN  



MN*V*N
MN


In [None]:
# 종결 코돈 기준으로 서열 나누기
# 긴서열은 분석하기가 힘들기 때문에 숏리드로 분석함. 이런 상황에서 사용.

mrna = Seq("AUGAACUAAGUUUAGAAU") 
ptn = mrna.translate() 
print(ptn)  ## MN*V*N 
for seq in ptn.split("*"): #종결코돈인 *을 기준으로 서열을 나눔.
    print(seq) 



MN*V*N
MN
V
N


In [None]:
# 상보적, 역상보적 서열 만들기 -> 각각 함수가 있음.

seq = Seq("TATAAAGGCAATATGCAGTAG") 
comp_seq = seq.complement() 
rev_comp_seq = seq.reverse_complement() 
print(comp_seq)  # ATATTTCCGTTATACGTCATC 
print(rev_comp_seq)  # CTACTGCATATTGCCTTTATA 



ATATTTCCGTTATACGTCATC
CTACTGCATATTGCCTTTATA


In [None]:
# ORF(Open Reading Frame) 찾기
# ORF는 시작 코돈인 ATG부터 시작하여 3개 염기서열씩 읽다가 종결 코돈인 TAA, TAG, TGA 중 하나를 만나면 하나의 단백질을 만들 가능성이 있음.
# 그냥 여기서는 시작코돈 ~ 종결코돈 인듯.

tatabox_seq = Seq("tataaaggcAATATGCAGTAG") #시퀀스 객체로 만들어줌.
start_idx = tatabox_seq.find("ATG")    #시퀀스를 읽어가면서 ATG와 같은게 있는 인덱스?를 리턴함. 그 위치를 start_idx에 저장.
end_idx = tatabox_seq.find("TAG", start_idx)  # 예문의 편의상 TAG 로 하였다.
#근데 첨부터 찾을 필요는 없음. 시작코돈 다음부터만 찾으면 됨
#   
orf = tatabox_seq[start_idx:end_idx+3]  # 파이썬 문자열과 같은 방법으로 슬라이싱이 가능하다. 
#종결코돈도 3개의 염기로 구성되었기에. 3개 뒤까지 출력.
print(orf)  # ATGCAGTAG



ATGCAGTAG
