In [34]:
# ne izdvaja lepo proteine iz genoma. Popravi pronadji_orf

In [44]:
import os
from Bio import SeqIO

In [45]:
def ucitaj_genome(putanja_do_foldera):
    genomi = {}
    for ime_fajla in os.listdir(putanja_do_foldera): 
        if ime_fajla.endswith(".fasta"):
            putanja_do_fajla = os.path.join(putanja_do_foldera, ime_fajla)
            with open(putanja_do_fajla, "r") as fajl:
                virus = ime_fajla[:-6]
                for genom in SeqIO.parse(fajl, "fasta"):
                    genomi[virus] = genom.seq

    return genomi

In [48]:
def ucitaj_proteine(putanja_do_foldera):
    proteini = {}
    for ime_fajla in os.listdir(putanja_do_foldera):
        if ime_fajla.endswith(".fasta"):
            putanja_do_fajla = os.path.join(putanja_do_foldera, ime_fajla)
            with open(putanja_do_fajla, "r") as fajl:
                virus = ime_fajla[:-6]
                proteini[virus] = {}
                for protein in SeqIO.parse(fajl, "fasta"):
                    naziv_proteina = protein.description.split('|')[1]
                    sekvenca = protein.seq
                    proteini[virus][naziv_proteina] = sekvenca

    return proteini

In [49]:
# Putanja do direktorijuma sa fasta fajlovima
putanja_do_foldera = "podaci/genomi"
# Učitavanje genoma iz datoteka
genomi = ucitaj_genome(putanja_do_foldera)

# Putanja do direktorijuma sa fasta fajlovima
putanja_do_foldera = "podaci/proteini"
# Učitavanje proteina iz datoteka
proteini = ucitaj_proteine(putanja_do_foldera)

In [74]:
print("Broj proteina:")
for virus, kod in proteini.items():
    print(virus, len(kod))
print("\nDuzine sekvenci genoma:")
for virus, kod in genomi.items():
    print(virus, len(kod))

Broj proteina:
mers 11
bcov 12
sars1 15
human229e 8
humanoc43 10

Duzine sekvenci genoma:
mers 30119
bcov 31028
sars1 29751
human229e 27317
humanoc43 30741


In [53]:
def rnk_u_aminokiseline(sekvenca):
    # Prevodi RNK sekvencu u sekvencu aminokiselina. M je start kodon, * su stop kodoni
    tabela_kodona = {
        'AUU':'I', 'AUC':'I', 'AUA':'I', 'AUG':'M',
        'ACU':'T', 'ACC':'T', 'ACA':'T', 'ACG':'T',
        'AAU':'N', 'AAC':'N', 'AAA':'K', 'AAG':'K',
        'AGU':'S', 'AGC':'S', 'AGA':'R', 'AGG':'R',
        'GUU':'V', 'GUC':'V', 'GUA':'V', 'GUG':'V',
        'GCU':'A', 'GCC':'A', 'GCA':'A', 'GCG':'A',
        'GAU':'D', 'GAC':'D', 'GAA':'E', 'GAG':'E',
        'GGU':'G', 'GGC':'G', 'GGA':'G', 'GGG':'G',
        'UCU':'S', 'UCC':'S', 'UCA':'S', 'UCG':'S',
        'UUU':'F', 'UUC':'F', 'UUA':'L', 'UUG':'L',
        'UAU':'Y', 'UAC':'Y', 'UAA':'*', 'UAG':'*',
        'UGU':'C', 'UGC':'C', 'UGA':'*', 'UGG':'W',
        'CCU':'P', 'CCC':'P', 'CCA':'P', 'CCG':'P',
        'CAU':'H', 'CAC':'H', 'CAA':'Q', 'CAG':'Q',
        'CGU':'R', 'CGC':'R', 'CGA':'R', 'CGG':'R',
        'CUU':'L', 'CUC':'L', 'CUA':'L', 'CUG':'L'
    }
    
    sekv_aminokiselina = ''
    for i in range(0, len(sekvenca), 3):
        kodon = sekvenca[i:i+3]
        aminokiselina = tabela_kodona.get(kodon) 
        sekv_aminokiselina += aminokiselina
    return sekv_aminokiselina

def rnk_u_kodoni(rnk_sekvenca): # preimenuj na sekvenca_u_kodone
    kodoni = []
    for i in range(0, len(rnk_sekvenca), 3):
        kodon = rnk_sekvenca[i:i+3]
        kodoni.append(kodon)
    return kodoni

# Prevodjenje kodona u p-adicne brojeve
def kodon_u_p_adicni_broj(kodon):
    kodon_u_broj = {
        'CCC': 111, 'CCU': 113, 'CCA': 112, 'CCG': 114,
        'CAC': 121, 'CAU': 123, 'CAA': 122, 'CAG': 124,
        'CUC': 131, 'CUU': 133, 'CUA': 132, 'CUG': 134,
        'CGC': 141, 'CGU': 143, 'CGA': 142, 'CGG': 144,
        'ACC': 211, 'ACU': 213, 'ACA': 212, 'ACG': 214,
        'AAC': 221, 'AAU': 223, 'AAA': 222, 'AAG': 224,
        'AUC': 231, 'AUU': 233, 'AUA': 232, 'AUG': 234,
        'AGC': 241, 'AGU': 243, 'AGA': 242, 'AGG': 244,
        'UCC': 311, 'UCU': 313, 'UCA': 312, 'UCG': 314,
        'UAC': 321, 'UAU': 323, 'UAA': 322, 'UAG': 324,
        'UUC': 331, 'UUU': 333, 'UUA': 332, 'UUG': 334,
        'UGC': 341, 'UGU': 343, 'UGA': 342, 'UGG': 344,
        'GCC': 411, 'GCU': 413, 'GCA': 412, 'GCG': 414,
        'GAC': 421, 'GAU': 423, 'GAA': 422, 'GAG': 424,
        'GUC': 431, 'GUU': 433, 'GUA': 432, 'GUG': 434,
        'GGC': 441, 'GGU': 443, 'GGA': 442, 'GGG': 444
    }

    return kodon_u_broj[kodon]
        
# Prevodjenje RNK u niz p-adicnih brojeva
def rnk_sekvencu_u_p_adicne_brojeve(rnk_sekvenca):
    brojevi = []
    for i in range(0, len(rnk_sekvenca), 3):
        kodon = rnk_sekvenca[i:i+3]
        brojevi.append(kodon_u_p_adicni_broj(kodon))
    return brojevi

In [89]:
from Bio.Seq import Seq

# S obzirom da su sekvenca surface glycoproteina sars1, mers, human 229e, human oc43 i bcov virusa kodirane sa 
# 1255, 1353, 1173, 1353, 1363 aminokiselina redom, dovoljno je da trazimo otvorena citanja koja su duza od 
# 1000 kodona
def pronadji_orf(sekvenca, min_duzina=1000):
    # Pronalaženje svih ORF (koji su duzi od min_duzina kodona) u DNK sekvenci
    start_kodon = 'AUG'
    stop_kodoni = ['UAA', 'UAG', 'UGA']
    orfovi = []
    
    
    # Pronalaženje svih pozicija start kodona
    start_pozicije = [i for i in range(len(sekvenca) - 2) if sekvenca[i:i+3] == start_kodon]
#     sekvenca_u_kodonima = rnk_u_kodoni(sekvenca)
#     start_pozicije = []
#     brojac = 0
#     for i in sekvenca_u_kodonima:
#         if i == start_kodon:
#             start_pozicije.append(brojac*3)
#         brojac += 1
        
    for start_poz in start_pozicije:
        orf = ''
        for i in range(start_poz, len(sekvenca) - 2, 3):
            kodon = sekvenca[i:i+3]
            if kodon in stop_kodoni:
                if len(orf) >= min_duzina:
                    orfovi.append((start_poz, i+3, orf))
                break
            orf += kodon
    return orfovi

def pronadji_sve_orf(sekvenca):
    # Pronalaženje svih ORF u DNK sekvenci
    start_kodon = 'AUG'
    stop_kodoni = ['UAA', 'UAG', 'UGA']
    orfovi = []
    
    
    # Pronalaženje svih pozicija start kodona
    # start_pozicije = [i for i in range(len(sekvenca) - 2) if sekvenca[i:i+3] == start_kodon]
    sekvenca_u_kodonima = rnk_u_kodoni(sekvenca)
    start_pozicije = []
    brojac = 0
    for i in sekvenca_u_kodonima:
        if i == start_kodon:
            start_pozicije.append(brojac*3)
        brojac += 1
    
    for start_poz in start_pozicije:
        orf = ''
        for i in range(start_poz+3, len(sekvenca) - 2, 3):
            kodon = sekvenca[i:i+3]
            if kodon in stop_kodoni:
                orfovi.append((start_poz, i+3, orf))
                break
            orf += kodon
    return orfovi

def izdvoj_prot_sekv_u_genomima():
    proteinske_sekvence_u_genomima = []
    for virus, genom in genomi.items(): 
        # Transkripcija DNK u RNK
        rnk_sekv_genoma = Seq(genom).transcribe()
        # Pronalaženje ORF-ova u sekvenci
        orfovi = pronadji_orf(rnk_sekv_genoma)
        
        # Prevodjenje ORF-ova u aminokiseline
        for start, end, orf_sekv in orfovi:
            # Prevodjenje RNK u aminokiseline
            sekv_aminokiselina = rnk_u_aminokiseline(orf_sekv)
            
            for naziv, protein in proteini[virus].items():
                if sekv_aminokiselina == protein:
                    proteinske_sekvence_u_genomima.append((virus, naziv, orf_sekv))

    return proteinske_sekvence_u_genomima

def izdvoj_sve_prot_sekv_u_genomima():
    sve_proteinske_sekvence_u_genomima = []
    for virus, genom in genomi.items(): 
        # Transkripcija DNK u RNK
        rnk_sekv_genoma = Seq(genom).transcribe()
        # Pronalaženje ORF-ova u sekvenci
        orfovi = pronadji_sve_orf(rnk_sekv_genoma)

        # Prevodjenje ORF-ova u aminokiseline i ispis rezultata
        for start, end, orf_sekv in orfovi:
            # Prevodjenje RNK u aminokiseline
            sekv_aminokiselina = rnk_u_aminokiseline(orf_sekv)

            if orf_sekv != '':
                sve_proteinske_sekvence_u_genomima.append((virus, start, end, orf_sekv))
    return sve_proteinske_sekvence_u_genomima

In [90]:
proteinske_sekvence_u_genomima = izdvoj_prot_sekv_u_genomima()

In [95]:
for i in proteinske_sekvence_u_genomima:
    if i[0] == 'mers':
        print(i[1])
        print('\n')
        print(i[2])
        print('\n')

1A polyprotein [Middle East respiratory syndrome-related coronavirus]


AUGUCUUUCGUGGCUGGUGUGACCGCGCAAGGUGCGCGCGGUACGUAUCGAGCAGCGCUCAACUCUGAAAAACAUCAAGACCAUGUGUCUCUAACUGUGCCACUCUGUGGUUCAGGAAACCUGGUUGAAAAACUUUCACCAUGGUUCAUGGAUGGCGAAAAUGCCUAUGAAGUGGUGAAGGCCAUGUUACUUAAAAAGGAGCCACUUCUCUAUGUGCCCAUCCGGCUGGCUGGACACACUAGACACCUCCCAGGUCCUCGUGUGUACCUGGUUGAGAGGCUCAUUGCUUGUGAAAAUCCAUUCAUGGUUAACCAAUUGGCUUAUAGCUCUAGUGCAAAUGGCAGCCUGGUUGGCACAACUUUGCAGGGCAAGCCUAUUGGUAUGUUCUUCCCUUAUGACAUCGAACUUGUCACAGGAAAGCAAAAUAUUCUCCUGCGCAAGUAUGGCCGUGGUGGUUAUCACUACACCCCAUUCCACUAUGAGCGAGACAACACCUCUUGCCCUGAGUGGAUGGACGAUUUUGAGGCGGAUCCUAAAGGCAAAUAUGCCCAGAAUCUGCUUAAGAAGUUGAUUGGCGGUGAUGUCACUCCAGUUGACCAAUACAUGUGUGGCGUUGAUGGAAAACCCAUUAGUGCCUACGCAUUUUUAAUGGCCAAGGAUGGAAUAACCAAACUGGCUGAUGUUGAAGCGGACGUCGCAGCACGUGCUGAUGACGAAGGCUUCAUCACAUUAAAGAACAAUCUAUAUAGAUUGGUUUGGCAUGUUGAGCGUAAAGACGUUCCAUAUCCUAAGCAAUCUAUUUUUACUAUUAAUAGUGUGGUCCAAAAGGAUGGUGUUGAAAACACUCCUCCUCACUAUUUUACUCUUGGAUGCAAAAUUUUAACGCUCACCCCACGCAACAAGUGGAGUGGCGUUUCUGACUUGUCCC

In [103]:
sek = genomi['mers'][:-2]
sekv = Seq(sek).transcribe()
sekvenca = rnk_u_aminokiseline(str(sekv))

In [111]:
string = 'MALSIFSAVYPIDLASQIISGIVAAVSAMMWISYFVQSIRLFMRTGSWWSFNPETNCLLNVPFGGTTVVRPLVEDSTSVTAVVTNGHLKMAGMHFGACDYDRLPNEVTVAKPNVLIALKMVKRQSYGTNSGVAIYHRYKAGNYRSPPITADIELALLRA'

In [112]:
if string in sekvenca:
    print('Sadrzi')
else:
    print("Ne sadrzi")

Sadrzi


In [11]:
sve_proteinske_sekvence_u_genomima = izdvoj_sve_prot_sekv_u_genomima()

In [32]:
# proteinske_sekvence_u_genomima = {}
# for virus, genom_kod in genomi_kodovi.items(): 
#     # Pronalaženje ORF-ova u sekvenci
#     orfovi = pronadji_orf(genom_kod)
    
#     # Prevodjenje ORF-ova u aminokiseline i ispis rezultata
#     for start, end, orf_sekv in orfovi:
#         # Transkripcija DNK u RNK
#         rnk_sekv_proteina = Seq(orf_sekv).transcribe()
#         # Prevodjenje RNK u aminokiseline
#         sekv_aminokiselina = rnk_u_aminokiseline(rnk_sekv_proteina)
        
#         if sekv_aminokiselina == proteini_kodovi[virus]:
#             # print(f"ORF od pozicije {start} do {end} preveden u sekvencu aminokiselina virusa {virus}")
#             proteinske_sekvence_u_genomima[virus] = rnk_sekv_proteina

In [33]:
def izjednacavanje_sekvenci_kodona(sek1, sek2):
    duza_sekvenca = sek1 if len(sek1) > len(sek2) else sek2
    kraca_sekvenca = sek1 if len(duza_sekvenca) == len(sek2) else sek2
    ucestalost_kodona = {}
    
    
    for kodon in kraca_sekvenca:
        if kodon in ucestalost_kodona:
            ucestalost_kodona[kodon] += 1
        else:
            ucestalost_kodona[kodon] = 1
        
    najcesci_kodon = max(ucestalost_kodona, key=ucestalost_kodona.get)
#     broj_pojavljivanja = ucestalost_kodona[najcesci_kodon]
    
    for _ in range(len(duza_sekvenca) - len(kraca_sekvenca)):
        kraca_sekvenca = np.append(kraca_sekvenca, np.array([najcesci_kodon]))
        
    return kraca_sekvenca, duza_sekvenca

def izjednacavanje_sekvenci_nukleotida(sek1, sek2):
    duza_sekvenca = sek1 if len(sek1) > len(sek2) else sek2
    kraca_sekvenca = sek1 if len(duza_sekvenca) == len(sek2) else sek2
    ucestalost_nukleotida = {}
    
    
    for nukleotid in kraca_sekvenca:
        if nukleotid in ucestalost_nukleotida:
            ucestalost_nukleotida[nukleotid] += 1
        else:
            ucestalost_nukleotida[nukleotid] = 1
        
    najcesci_nukleotid = max(ucestalost_nukleotida, key=ucestalost_nukleotida.get)
#     broj_pojavljivanja = ucestalost_nukleotida[najcesci_nukleotid]
    
    for _ in range(len(duza_sekvenca) - len(kraca_sekvenca)):
        kraca_sekvenca = np.append(kraca_sekvenca, np.array([najcesci_kodon]))
        
    return kraca_sekvenca, duza_sekvenca

In [34]:
def p_adicno_rastojanje_kodona(x, y, p):
    x, y = str(x), str(y)
    
    if x[0] != y[0]:
        # print(x, y, 1)
        return 1
    elif x[1] != y[1]:
        # print(x, y, 1/p)
        return 1/p
    elif x[2] != y[2]:
        # print(x, y, 1/p**2)
        return 1/(p**2)

    # print(x, y, 0)    print(i)

    return 0
    
def p_adicno_rastojanje(protein1, protein2, p=5):
    p_rastojanje = 0
    
    kraca_sekvenca, duza_sekvenca = izjednacavanje_sekvenci_kodona(protein1, protein2)
        
    for (x, y) in zip(kraca_sekvenca, duza_sekvenca):
        p_rastojanje += p_adicno_rastojanje_kodona(x, y, p)
        
        
    return p_rastojanje

In [35]:
import numpy as np
sars1_p = np.array(rnk_sekvencu_u_p_adicne_brojeve(proteinske_sekvence_u_genomima['sars1']))
mers_p = np.array(rnk_sekvencu_u_p_adicne_brojeve(proteinske_sekvence_u_genomima['mers']))
bcov_p = np.array(rnk_sekvencu_u_p_adicne_brojeve(proteinske_sekvence_u_genomima['bcov']))
human229e_p = np.array(rnk_sekvencu_u_p_adicne_brojeve(proteinske_sekvence_u_genomima['human229e']))
humanoc43_p = np.array(rnk_sekvencu_u_p_adicne_brojeve(proteinske_sekvence_u_genomima['humanoc43']))

# print(sars1.size)
# print(mers.size)
# print(bcov.size)
# print(human229e.size)
# print(humanoc43.size)
# print(p_adicno_rastojanje(humanoc43, bcov))

In [36]:
sars1_codons = rnk_u_kodoni(proteinske_sekvence_u_genomima['sars1'])
mers_codons = rnk_u_kodoni(proteinske_sekvence_u_genomima['mers'])
bcov_codons = rnk_u_kodoni(proteinske_sekvence_u_genomima['bcov'])
human229e_codons = rnk_u_kodoni(proteinske_sekvence_u_genomima['human229e'])
humanoc43_codons = rnk_u_kodoni(proteinske_sekvence_u_genomima['humanoc43'])

In [37]:
print(p_adicno_rastojanje(humanoc43_p, sars1_p))

1059.560000000005


In [39]:
def hamming_dist(a, b): #a i b su sekvence kodona
    hamming = 0
    i = 0
    
    a = np.array(list(a))
    b = np.array(list(b))
    
    a, b = izjednacavanje_sekvenci_kodona(a, b)
    
    for x, y in zip(a, b):
        if str(x) == str(y):
            hamming += 0
        else:
            hamming += 1
        i += 1
    return hamming

In [40]:
def hamming_dist_2(a, b): #a i b su sekvence kodona
    hamming = 0
    i = 0
    
    a = np.array(list(a))
    b = np.array(list(b))
    
    a, b = izjednacavanje_sekvenci_nukleotida(a, b)
    
    for x, y in zip(a, b):
        if str(x) == str(y):
            hamming += 0
        else:
            hamming += 1
        i += 1
    return hamming

In [41]:
print(hamming_dist(sars1_p, mers_p))

1320


In [42]:
print(hamming_dist_2(proteinske_sekvence_u_genomima['humanoc43'], proteinske_sekvence_u_genomima['mers']))

2850


In [43]:
def edit_rastojanje(str1, str2):
    len_str1 = len(str1)
    len_str2 = len(str2)
    
    # Inicijalizujemo matricu za čuvanje rastojanja
    distance = [[0] * (len_str2 + 1) for _ in range(len_str1 + 1)]
    
    # Inicijalizujemo prvi red i prvu kolonu
    for i in range(len_str1 + 1):
        distance[i][0] = i
    for j in range(len_str2 + 1):
        distance[0][j] = j
    
    # Popunjavamo matricu rastojanja
    for i in range(1, len_str1 + 1):
        for j in range(1, len_str2 + 1):
            if str1[i - 1] == str2[j - 1]:
                cost = 0
            else:
                cost = 1
            distance[i][j] = min(distance[i - 1][j] + 1,        # brisanje
                                 distance[i][j - 1] + 1,        # ubacivanje
                                 distance[i - 1][j - 1] + cost) # zamena
    
    return distance[len_str1][len_str2]

In [84]:
def raspodeli_proteinske_sek_po_virusima():
    proteini_sars1 = []
    proteini_mers = []
    proteini_bcov = []
    proteini_humanoc43 = []
    proteini_human229e = []
    for (virus, start, end, sekvenca) in sve_proteinske_sekvence_u_genomima:
        match virus:
            case 'mers':
                proteini_mers.append(sekvenca)
            case 'sars1':
                proteini_sars1.append(sekvenca)
            case 'humanoc43':
                proteini_humanoc43.append(sekvenca)
            case 'human229e':
                proteini_human229e.append(sekvenca)
            case 'bcov':
                proteini_bcov.append(sekvenca)
                
        if virus == 'bcov':
            print((start, end, sekvenca))
    
    return proteini_sars1, proteini_mers, proteini_bcov, proteini_human229e, proteini_humanoc43

In [83]:
suma = 0
start_kodon = ['ATG']
stop_kodoni = ['TAA', 'TAG', 'TGA']
kodoni = rnk_u_kodoni(genomi_kodovi['sars1'])
kodoni2 = kodoni[:4467]
i = 0
for kodon in kodoni2:
    if kodon in stop_kodoni:
        suma += 1
    i += 1
    
print(suma)

4


In [85]:
proteini_sars1, proteini_mers, proteini_bcov, proteini_human229e, proteini_humanoc43 = raspodeli_proteinske_sek_po_virusima()

(99, 126, Seq('CCUGUGGGCGUAGAUUUUUCA'))
(210, 13362, Seq('UCGAAGAUCAACAAAUACGGUCUCGAACUACACUGGGCUCCAGAAUUUCCAUGG...GUG'))
(267, 13362, Seq('UUUGAGGACGCAGAGGAGAAGUUGGACAACCCUAGUAGUUCAGAGGUGGAUAUA...GUG'))
(384, 13362, Seq('GUGGAUUGUCGCCGACUUCUUAAACAAGAAUGUUGUGUGCAGUCUAGCCUAAUA...GUG'))
(453, 13362, Seq('AAUACACGUCCAUAUGAUUUGGAGGUGCUACUUCAAGAUGCUUUGCAGUCCCGC...GUG'))
(540, 13362, Seq('UCUCUGGAGGCAUGCUAUGUGAGAGGUUGUAAUCCUAAUGGAUGGACCAUGGGU...GUG'))
(591, 13362, Seq('GGUUUGUUUCGGCGUAGAAGUGUGUGUAACACUGGUCGCUGCGCUGUUAACAAG...GUG'))
(669, 13362, Seq('AUUGACCCUGCGGGUGUCUGUUUUGGUGCAGGUCAAUUUGUGGGUUGGGUUAUA...GUG'))
(738, 13362, Seq('CCUGUGCAAUCCCGGAAAUUUAUUGUUCCUUGGGUUAUGUACUUGCGUAAGUGU...GUG'))
(777, 13362, Seq('UACUUGCGUAAGUGUGGCGAAAAGGGUGCCUACAACAAAGAUCAUAAACGUGGC...GUG'))
(1044, 13362, Seq('AAGGCAUUAUUUCCUAUUUGGAGCCAGGAACUCCCUUUUGAUGUAACUGUGGCA...GUG'))
(1131, 13362, Seq('AGACUGCAAAGUGCUUCUACUAUACGUAGUGUUGCAUAUGUUGCUAACCCUACU...GUG'))
(1284, 13362, Seq('AGUUGUUUUUAUAUGGAGGCAGAUGCAGUUGUAAAUG

In [45]:
def izracunaj_edit_rastojanja(proteini):
    pregledani_proteini = []
    edit_rastojanja = []
    
    for protein1 in proteini:
        pregledani_proteini.append(protein1)
        for protein2 in proteini:
            if protein2 not in pregledani_proteini:
                edit_rastojanja.append((protein1, protein2, edit_rastojanje(protein1, protein2)))
    
    return edit_rastojanja

In [None]:
def izracunaj_sva_edit_rastojanja():
    proteini_sars1, proteini_mers, proteini_bcov, proteini_human229e, proteini_humanoc43 = raspodeli_proteinske_sek_po_virusima()
    
    rastojanja_sars1 = izracunaj_edit_rastojanja(proteini_sars1)
    print('Gotov sars1')
    rastojanja_mers = izracunaj_edit_rastojanja(proteini_mers)
    print('Gotov mers')
    rastojanja_bcov = izracunaj_edit_rastojanja(proteini_bcov)
    print('Gotov bcov')
    rastojanja_human229e = izracunaj_edit_rastojanja(proteini_human229e)
    print('Gotov human229e')
    rastojanja_humanoc43 = izracunaj_edit_rastojanja(proteini_humanoc43)
    print('Gotov humanoc43')
    
    return rastojanja_sars1, rastojanja_mers, rastojanja_bcov, rastojanja_human229e, rastojanja_humanoc43

In [None]:
for protein in proteini_humanoc43:
    print(len(protein))

In [None]:
rastojanja_sars1 = izracunaj_edit_rastojanja(proteini_sars1)

In [None]:
rastojanja_mers = izracunaj_edit_rastojanja(proteini_mers)

In [None]:
rastojanja_bcov = izracunaj_edit_rastojanja(proteini_bcov)

In [None]:
rastojanja_sars1, rastojanja_mers, rastojanja_bcov, rastojanja_human229e, rastojanja_humanoc43 = izracunaj_sva_edit_rastojanja()

In [None]:
# from sklearn.cluster import AgglomerativeClustering
# from gensim.models import Word2Vec
# import numpy as np

# # Pretvaranje proteinskih sekvenci u tokene (npr. n-grami)
# proteinske_sekvence = [str(par[1]) for par in sve_proteinske_sekvence_u_genomima]
# tokenizovane_sekvence = [rnk_u_kodoni(sekvenca) for sekvenca in proteinske_sekvence]

# # Treniranje Word2Vec modela
# model = Word2Vec(sentences=tokenizovane_sekvence, vector_size=300, window=5, min_count=1, workers=4)

# # Dobijanje vektorskih reprezentacija
# X = np.array([model.wv[token] for sekvenca in tokenizovane_sekvence for token in sekvenca])

In [None]:
# model = AgglomerativeClustering(n_clusters=5)  # Broj klastera
# clusters = model.fit_predict(X)

In [None]:
# print(tokenizovane_sekvence[1])