In [43]:
from Bio import Entrez, SeqIO, pairwise2

def get_surface_glycoprotein_translation(ncbi_id):
    # NCBI에 접속하기 위한 이메일 주소 설정
    Entrez.email = "your.email@example.com"

    # NCBI의 GenBank 데이터베이스에서 NCBI ID에 해당하는 바이러스 정보 가져오기
    handle = Entrez.efetch(db="nucleotide", id=ncbi_id, rettype="gb", retmode="text")
    record = SeqIO.read(handle, "genbank")

    # surface glycoprotein feature 추출
    for feature in record.features:
        if feature.type == "CDS" and "gene" in feature.qualifiers and "S" in feature.qualifiers["gene"]:
            surface_glycoprotein_location = feature.location
            surface_glycoprotein_seq = surface_glycoprotein_location.extract(record.seq)
            return str(surface_glycoprotein_seq)
            

def new_sars_cov_2_sequence(_id):
    string = get_surface_glycoprotein_translation(_id)
    f = open(str(_id)+".txt", "w")
    f.write(string)
    f.close()

def calculate_similarity(seq1, seq2):
    alignments = pairwise2.align.globalxx(seq1, seq2)
    alignment = alignments[0]
    aligned_seq1, aligned_seq2, score, begin, end = alignment
    return score


In [44]:
REF_COVID = new_sars_cov_2_sequence("NC_045512.2")

In [45]:
id = input("id를 입력하세요 : ")
INPUT_COVID = new_sars_cov_2_sequence(id)

In [46]:
with open('NC_045512.2.txt', 'r') as f1, open(input("비교할 유전자의 id를 입력하세요")+".txt", 'r') as f2:
    seq1 = f1.readline().strip()
    seq2 = f2.readline().strip()

    min_seq = min(seq1, seq2)

similarity = calculate_similarity(seq1, seq2)
print(f"두 개체의 유전자 일치 점수 : {int(similarity)}/{len(min_seq)}점")

두 개체의 유전자 일치 점수 : 3784/3822점
