In [None]:
# DNA 유효성 검사 함수

def validate_dna (dna_seq):
    """ Checks if DNA sequence is valid. Returns True is sequence is valid, or False otherwise. """
    seqm = dna_seq.upper() #DNA seq이 들어오면 다 대문자로 바꾸고 seqm이라는 오브젝트에 저장.
    #seqm은 서열이기에 전체 서열의 길이와, A,C,G,T 각각의 길이의 합이 같다면 이 이외에 다른 문자가 없다는 것을 확인할 수 있음.
    valid = seqm.count("A") + seqm.count("C") + seqm.count("G") + seqm.count("T")
    if valid == len(seqm): return True
    else: return False 
    

In [None]:
validate_dna("ABC") #ATGC로 이루어지지 않은 이상한 서열 -> false가 나옴.

False

In [9]:
validate_dna("aacgt")

True

In [None]:
# 문자 빈도 분석 함수
# ATGC 4가지 염기의 빈도 분석.
#dictionary 사용. key와 value로 구성된 형태. ATCG가 key가 되고, 빈도를 value로 저장해서 빈도를 return할거임.

def frequency (seq):
    """ Calculates the frequency of each symbol in the sequence. Returns a dictionary. """
    dic = {} # 사전: 서열의 각 문자는 key, 빈도는 value
    for s in seq.upper(): #s라는 변수가 읽어감.
        if s in dic: dic[s] += 1 #기존 key가 있다면 1씩 더함.
        else: dic[s] = 1 #key가 없다면 처음 발견된 거니까 1부터 시작.
    return dic


In [15]:
frequency("aaccggggtt")

{'A': 2, 'C': 2, 'G': 4, 'T': 2}

In [None]:
# GC 비율 계산 함수

def gc_content (dna_seq):
    """ Returns the percentage of G and C nucleotides in a DNA sequence. """   
    gc_count = 0 #g 또는 c를 카운트하는 변수. 0부터 시작.
    for s in dna_seq:
        if s in "GCgc": gc_count += 1
    return gc_count / len(dna_seq) #전체 서열 길이로 나눠주면 비율이 나옴.



In [None]:
dna_seq2 = "ATGCGGCTac" #총 length가 10인 시퀀스. 여기서 GC는 6개 있음. 60%를 카운트 하는 함수.
gc_content(dna_seq2)


0.6

In [None]:
# GC 비율 계산 함수보다 복잡한 함수.
# 시퀀스를 10씩 끊어가면서 각 구간(subseq)마다 GC비율을 구함. 
#k는 window size임. 디폴트로 10으로 해둘거임.
#non-overlapping 겹치지 않고.

def gc_content_subseq (dna_seq, k=10):
    """ Returns GC content of non-overlapping sub-sequences of size k. """
    res = [] #리스트 변수.
    for i in range(0, len(dna_seq)-k+1, k): # 0, k, 2k, ... #k 씩 증가한다. 
        subseq = dna_seq[i:i+k]  #  인덱스 i부터 i+k 직전까지의 부분 문자열을 추출 #i부터 i+k까지 subseq을 만들어줌.
        gc = gc_content(subseq)
        res.append(gc)
    return res


In [None]:
dna_seq2 = "ATGCGGCTacATGCGGCTac"  #위에서 쓴 서열 그대로 두번 붙임.
gc_content_subseq(dna_seq2,10)

[0.6, 0.6]

In [1]:
# 부분 서열(subsequence) 찾기

def find_subseq(dna_seq, pattern):
    """
    dna_seq 안에서 pattern이 등장하는 모든 위치를 리스트로 반환.
    """
    positions = [] #위치를 저장할 빈 리스트.
    start = 0 #시퀀스를 훑으면서 패턴을 찾는 변수임.
    while True:
        idx = dna_seq.find(pattern, start)  #  dna_seq에서 pattern이 처음 등장하는 위치를 찾습니다. start는 검색을 시작할 위치를 지정
        # 일단 start는 0이니까 처음부터 찾겠다. 그리고 start가 증가하면서 후루룩 검사.


        if idx == -1:  # 만약 pattern이 더 이상 dna_seq에서 찾을 수 없으면 find는 -1을 반환
            break      # while 루프를 종료
        positions.append(idx) #찾은 패턴 위치를 리스트에 넣음.
        start = idx + 1  # 다음 위치부터 검색
    return positions #패턴 위치가 저장된 리스트 리턴.


In [4]:
# 사용 예시
dna_seq3 = "ATGCGATAGATCGAT" #input으로 주어진 서열 중
pattern = "AT" #AT라고 하는 이 패턴의 위치를 알고 싶음.
pos_list = find_subseq(dna_seq3, pattern) 
print(pos_list) 


[0, 5, 9, 13]
