In [1]:
import os
from Bio import SeqIO
from Bio.Seq import Seq

In [2]:
def ucitaj_genome(putanja_do_foldera):
    genomi = {}
    for ime_fajla in os.listdir(putanja_do_foldera): 
        if ime_fajla.endswith(".fasta"):
            putanja_do_fajla = os.path.join(putanja_do_foldera, ime_fajla)
            with open(putanja_do_fajla, "r") as fajl:
                virus = ime_fajla[:-6]
                for genom in SeqIO.parse(fajl, "fasta"):
                    genomi[virus] = genom.seq
                    
    return genomi

In [3]:
def ucitaj_proteine(putanja_do_foldera):
    proteini = {}
    for ime_fajla in os.listdir(putanja_do_foldera):
        if ime_fajla.endswith(".fasta"):
            putanja_do_fajla = os.path.join(putanja_do_foldera, ime_fajla)
            with open(putanja_do_fajla, "r") as fajl:
                virus = ime_fajla[:-6]
                proteini[virus] = {}
                for protein in SeqIO.parse(fajl, "fasta"):
                    naziv_proteina = protein.description.split('|')[1]
                    sekvenca = protein.seq
                    proteini[virus][naziv_proteina] = sekvenca

    return proteini

In [4]:
# Putanja do direktorijuma sa fasta fajlovima
putanja_do_foldera = "podaci/genomi"
# Učitavanje genoma iz datoteka
genomi = ucitaj_genome(putanja_do_foldera)

# Putanja do direktorijuma sa fasta fajlovima
putanja_do_foldera = "podaci/proteini"
# Učitavanje proteina iz datoteka
proteini = ucitaj_proteine(putanja_do_foldera)

In [5]:
from math import inf

In [6]:
def opseg_duzina_orfova(proteini):
    minimum = inf
    maksimum = -inf
    for virus, protein in proteini.items():
        for naziv, sekvenca in protein.items():
            if len(sekvenca) < minimum:
                minimum = len(sekvenca)
            if len(sekvenca) > maksimum:
                maksimum = len(sekvenca)

    return 3*minimum, 3*maksimum

In [7]:
def pronadji_orf(sekvenca, minimum, maksimum):
    start_kodon = 'AUG'
    stop_kodoni = ['UAA', 'UAG', 'UGA']
    orfovi = []
    
    # Pronalazenje svih pozicija start kodona
    start_pozicije = [i for i in range(len(sekvenca) - 2) if sekvenca[i:i+3] == start_kodon]
    
    for start_poz in start_pozicije:
        orf = ''
        for i in range(start_poz, len(sekvenca) - 2, 3):
            kodon = sekvenca[i:i+3]
            if kodon in stop_kodoni:
                if len(orf) >= minimum  and  len(orf) <= maksimum:
                    orfovi.append((start_poz, i+3, orf))
                break
            if len(orf) > maksimum:
                break
            orf += kodon

    return orfovi

In [8]:
proteinske_sekvence_u_genomima = {}
for virus, genom in genomi.items(): 
    proteinske_sekvence_u_genomima[virus] = {}
    # Transkripcija DNK u RNK
    rnk_genom = Seq(genom).transcribe()

    # Kako bismo ubrzali proces poredjenja, izdvajacemo samo ORF-ove koji nisu kraci od najkraceg 
    # i nisu duzi od najduzeg referentnog proteina
    minimum, maksimum = opseg_duzina_orfova(proteini)
    
    # Pronalazenje ORF-ova u sekvenci
    orfovi = pronadji_orf(rnk_genom, minimum, maksimum)
    
    # Prevodjenje ORF-ova u sekvence aminokiselina i poredjenje sa referentnim proteinima
    for start, end, orf_sekv in orfovi:
        sekv_aminokiselina = orf_sekv.translate()

        for naziv, protein in proteini[virus].items():
            if protein == sekv_aminokiselina:
                proteinske_sekvence_u_genomima[virus][naziv] = genomi[virus][start:end].transcribe()

NameError: name 'sekvenca' is not defined

In [None]:
# bcov
proteinske_sekvence_u_genomima['bcov']['orf1ab polyprotein [Bovine coronavirus]'] = \
        (genomi['bcov'][210:13332] + genomi['bcov'][13331:21491]).transcribe()

In [None]:
# human229e
proteinske_sekvence_u_genomima['human229e']['replicase polyprotein 1ab [Human coronavirus 229E]'] = \
        (genomi['human229e'][292:12520] + genomi['human229e'][12519:20565]).transcribe()

In [None]:
# humanoc43
proteinske_sekvence_u_genomima['humanoc43']['ORF1ab polyprotein [Human coronavirus OC43]'] = \
        (genomi['humanoc43'][209:13340] + genomi['humanoc43'][13339:21493]).transcribe()

In [None]:
# mers
proteinske_sekvence_u_genomima['mers']['1AB polyprotein [Middle East respiratory syndrome-related coronavirus]'] = \
        (genomi['mers'][278:13433] + genomi['mers'][13432:21511]).transcribe()

In [None]:
# sars1
proteinske_sekvence_u_genomima['sars1']['ORF1ab polyprotein [SARS coronavirus Tor2]'] = \
        (genomi['sars1'][264:13392] + genomi['sars1'][13391:21482]).transcribe()

In [None]:
with open('podaci/proteini/rnk.fasta', 'w') as f:
    for virus, kodovi in genomi.items():
        for naziv, protein in proteinske_sekvence_u_genomima[virus].items():
            f.write(f'>{virus} | {naziv}\n')
            f.write(f'{protein}\n\n')