In [27]:
import os
from Bio import SeqIO
import pandas as pd

In [28]:
def ucitaj_povrsinske_proteine(putanja_do_fajla):
    povrsinski_proteini_nazivi = {}
    povrsinski_proteini_rnk = {}
    with open(putanja_do_fajla, "r") as fajl:
        for red in SeqIO.parse(fajl, "fasta"):
            if any(kljucna_rec in red.description for kljucna_rec in ['spike', 'surface']):
                povrsinski_proteini_nazivi[red.name] = red.description.split(" | ")[1]
                povrsinski_proteini_rnk[red.name] = red.seq

    return povrsinski_proteini_nazivi, povrsinski_proteini_rnk

In [29]:
putanja_do_fajla = "podaci/proteini/kodoni.fasta"
povrsinski_proteini_nazivi, povrsinski_proteini_rnk = ucitaj_povrsinske_proteine(putanja_do_fajla)

In [30]:
for virus, rnk in povrsinski_proteini_rnk.items():
    print(virus, len(rnk))

mers 4062
bcov 4092
sars1 3768
human229e 3522
humanoc43 4062


In [31]:
def rnk_u_kodone(rnk):
    kodoni = [rnk[i:i+3] for i in range(0, len(rnk), 3)]
    return kodoni

In [32]:
# Prevodjenje kodona u p-adicne brojeve
def kodon_u_p_adicni_broj(kodon):
    kodon_u_broj = {
        'CCC': 111, 'CCU': 113, 'CCA': 112, 'CCG': 114,
        'CAC': 121, 'CAU': 123, 'CAA': 122, 'CAG': 124,
        'CUC': 131, 'CUU': 133, 'CUA': 132, 'CUG': 134,
        'CGC': 141, 'CGU': 143, 'CGA': 142, 'CGG': 144,
        'ACC': 211, 'ACU': 213, 'ACA': 212, 'ACG': 214,
        'AAC': 221, 'AAU': 223, 'AAA': 222, 'AAG': 224,
        'AUC': 231, 'AUU': 233, 'AUA': 232, 'AUG': 234,
        'AGC': 241, 'AGU': 243, 'AGA': 242, 'AGG': 244,
        'UCC': 311, 'UCU': 313, 'UCA': 312, 'UCG': 314,
        'UAC': 321, 'UAU': 323, 'UAA': 322, 'UAG': 324,
        'UUC': 331, 'UUU': 333, 'UUA': 332, 'UUG': 334,
        'UGC': 341, 'UGU': 343, 'UGA': 342, 'UGG': 344,
        'GCC': 411, 'GCU': 413, 'GCA': 412, 'GCG': 414,
        'GAC': 421, 'GAU': 423, 'GAA': 422, 'GAG': 424,
        'GUC': 431, 'GUU': 433, 'GUA': 432, 'GUG': 434,
        'GGC': 441, 'GGU': 443, 'GGA': 442, 'GGG': 444
    }

    return kodon_u_broj[kodon]
        
# Prevodjenje RNK u niz p-adicnih brojeva
def rnk_sekvenca_u_p_adicne_brojeve(rnk_sekvenca):
    brojevi = []
    for i in range(0, len(rnk_sekvenca), 3):
        kodon = rnk_sekvenca[i:i+3]
        brojevi.append(kodon_u_p_adicni_broj(kodon))  
    return brojevi

In [33]:
def p_adicno_rastojanje_kodona(x, y, p):
    x, y = str(x), str(y)
    
    if x[0] != y[0]:
        # print(x, y, 1)
        return 1
    elif x[1] != y[1]:
        # print(x, y, 1/p)
        return 1/p
    elif x[2] != y[2]:
        # print(x, y, 1/p**2)
        return 1/(p**2)

    # print(x, y, 0)   
    return 0
    
def p_adicno_rastojanje(p_rnk1, p_rnk2, p=5):
    p_rastojanje = 0

    for (x, y) in zip(p_rnk1, p_rnk2):
        p_rastojanje += p_adicno_rastojanje_kodona(x, y, p)
           
    return p_rastojanje

In [34]:
import numpy as np

def hamingovo_rastojanje(a, b): #a i b su sekvence kodona ili aminokiselina
    haming = 0
    i = 0
    
    a = np.array(list(a))
    b = np.array(list(b))
    
    for x, y in zip(a, b):
        if str(x) == str(y):
            haming += 0
        else:
            haming += 1
        i += 1
    return haming

In [35]:
import copy 
import numpy as np
from Bio.Seq import Seq

# s obzirom da duzine rnk koje kodiraju povrsinske proteine nisu jednake duzine, moramo da im izjednacimo duzine

# 1. pristup: kracu sekvencu dopunimo do duzine duze sekvence najucestalijim kodonom
def izjednacavanje_sekvenci_kodona(sekv1, sekv2):
    sekv1, sekv2 = rnk_u_kodone(sekv1), rnk_u_kodone(sekv2)
    
    duza_sekvenca = sekv1 if len(sekv1) > len(sekv2) else sekv2
    kraca_sekvenca = sekv1 if len(duza_sekvenca) == len(sekv2) else sekv2
    ucestalost_kodona = {}
    
    for kodon in kraca_sekvenca:
        if kodon in ucestalost_kodona:
            ucestalost_kodona[kodon] += 1
        else:
            ucestalost_kodona[kodon] = 1
        
    najcesci_kodon = max(ucestalost_kodona, key=ucestalost_kodona.get)
    broj_pojavljivanja = ucestalost_kodona[najcesci_kodon]

    # Dopunimo kraću sekvencu sa najčešćim kodonom
    broj_kodona_dodati = len(duza_sekvenca) - len(kraca_sekvenca)
    dopunjeni_kodoni = [najcesci_kodon] * broj_kodona_dodati

    # da se ne bi iz nekog razloga direktno menjale vrednosti, pravimo kopiju 
    dopunjena_sekvenca = kraca_sekvenca.copy()
    dopunjena_sekvenca.extend(dopunjeni_kodoni)

    dopunjena_sekvenca = ''.join(str(seq) for seq in dopunjena_sekvenca)
    duza_sekvenca = ''.join(str(seq) for seq in duza_sekvenca)
    # print(dopunjena_sekvenca)

    
    return dopunjena_sekvenca, duza_sekvenca


# 2. pristup: kracu sekvencu dopunimo do duzine duze sekvence najucestalijim nukleotidom
def izjednacavanje_sekvenci_nukleotida(sek1, sek2):
    duza_sekvenca = sek1 if len(sek1) > len(sek2) else sek2
    kraca_sekvenca = sek1 if len(duza_sekvenca) == len(sek2) else sek2
    ucestalost_nukleotida = {}
    
    for nukleotid in kraca_sekvenca:
        if nukleotid in ucestalost_nukleotida:
            ucestalost_nukleotida[nukleotid] += 1
        else:
            ucestalost_nukleotida[nukleotid] = 1
        
    najcesci_nukleotid = max(ucestalost_nukleotida, key=ucestalost_nukleotida.get)

    broj_nukleotida_dodati = len(duza_sekvenca) - len(kraca_sekvenca)
    dopunjeni_nukleotidi = [najcesci_nukleotid] * broj_nukleotida_dodati
    
    dopunjena_sekvenca = kraca_sekvenca + ''.join(dopunjeni_nukleotidi)
    # print(dopunjena_sekvenca)
        
    return dopunjena_sekvenca, duza_sekvenca

In [36]:
# do ovde je isto kao i hamingovo rastojanje

In [37]:
def izjednacavanje_sekvenci_nulama(sek1, sek2):
    duza_sekvenca = sek1 if len(sek1) > len(sek2) else sek2
    kraca_sekvenca = sek1 if len(duza_sekvenca) == len(sek2) else sek2
    
    broj_nula_dodati = len(duza_sekvenca) - len(kraca_sekvenca)
    dopunjene_nule = ['000'] * broj_nula_dodati
    
    dopunjena_sekvenca = kraca_sekvenca + dopunjene_nule
    
    return dopunjena_sekvenca, duza_sekvenca

In [38]:
matrica = [[0] * (len(povrsinski_proteini_rnk)) for _ in range(len(povrsinski_proteini_rnk))]
matrica_p1 = matrica_p2 = matrica_p3 = matrica_h1 = matrica_h2 = matrica_h3 = matrica_h4 = matrica
nazivi = ['mers', 'bcov', 'sars1', 'human229e', 'humanoc43']

## P-adično rastojanje

In [39]:
# 1. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]

        rnk1, rnk2 = izjednacavanje_sekvenci_kodona(rnk1, rnk2)
        
        rnk1_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk1)
        rnk2_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk2)

        p_rastojanje = p_adicno_rastojanje(rnk1_p_brojevi, rnk2_p_brojevi)
        matrica_p1[i][j] = p_rastojanje
        matrica_p1[j][i] = p_rastojanje

# 2. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]

        rnk1, rnk2 = izjednacavanje_sekvenci_nukleotida(rnk1, rnk2)
        
        rnk1_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk1)
        rnk2_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk2)

        p_rastojanje = p_adicno_rastojanje(rnk1_p_brojevi, rnk2_p_brojevi)
        matrica_p2[i][j] = p_rastojanje
        matrica_p2[j][i] = p_rastojanje

# 3. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]
        
        rnk1_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk1)
        rnk2_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk2)
        
        rnk1_p_brojevi, rnk2_p_brojevi = izjednacavanje_sekvenci_nulama(rnk1_p_brojevi, rnk2_p_brojevi)
        
        p_rastojanje = p_adicno_rastojanje(rnk1_p_brojevi, rnk2_p_brojevi)
        matrica_p3[i][j] = p_rastojanje
        matrica_p3[j][i] = p_rastojanje

In [40]:
p_adicna_rastojanja1 = pd.DataFrame(matrica_p1, index=nazivi, columns=nazivi)
naslov_p1 = 'P-adicna rastojanja kada krace sekvence dopunjujemo najfrekventnijim kodonom'
naslov_p2 = 'P-adicna rastojanja kada krace sekvence dopunjujemo najfrekventnijim nukleotidom'
naslov_p3 = 'P-adicna rastojanja kada krace sekvence dopunjujemo nulama'
p_adicna_rastojanja2 = pd.DataFrame(matrica_p2, index=nazivi, columns=nazivi)
p_adicna_rastojanja3 = pd.DataFrame(matrica_p3, index=nazivi, columns=nazivi)

In [41]:
print(naslov_p1)
p_adicna_rastojanja1

P-adicna rastojanja kada krace sekvence dopunjujemo najfrekventnijim kodonom


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0.0,1098.32,1071.24,1095.76,1061.76
bcov,1098.32,0.0,1071.08,1076.84,969.0
sars1,1071.24,1071.08,0.0,976.68,1086.2
human229e,1095.76,1076.84,976.68,0.0,1074.08
humanoc43,1061.76,969.0,1086.2,1074.08,0.0


In [42]:
print(naslov_p2)
p_adicna_rastojanja2

P-adicna rastojanja kada krace sekvence dopunjujemo najfrekventnijim nukleotidom


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0.0,1098.32,1071.24,1095.76,1061.76
bcov,1098.32,0.0,1071.08,1076.84,969.0
sars1,1071.24,1071.08,0.0,976.68,1086.2
human229e,1095.76,1076.84,976.68,0.0,1074.08
humanoc43,1061.76,969.0,1086.2,1074.08,0.0


In [43]:
print(naslov_p3)
p_adicna_rastojanja3

P-adicna rastojanja kada krace sekvence dopunjujemo nulama


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0.0,1098.32,1071.24,1095.76,1061.76
bcov,1098.32,0.0,1071.08,1076.84,969.0
sars1,1071.24,1071.08,0.0,976.68,1086.2
human229e,1095.76,1076.84,976.68,0.0,1074.08
humanoc43,1061.76,969.0,1086.2,1074.08,0.0


## 1) Hamingovo rastojanje gde su elementi kodoni

In [44]:
# 1. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]

        rnk1, rnk2 = izjednacavanje_sekvenci_kodona(rnk1, rnk2)
        
        rnk1_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk1)
        rnk2_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk2)

        haming = hamingovo_rastojanje(rnk1_p_brojevi, rnk2_p_brojevi)
        matrica_h1[i][j] = haming
        matrica_h1[j][i] = haming

# 2. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]

        rnk1, rnk2 = izjednacavanje_sekvenci_nukleotida(rnk1, rnk2)
        
        rnk1_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk1)
        rnk2_p_brojevi = rnk_sekvenca_u_p_adicne_brojeve(rnk2)

        haming = hamingovo_rastojanje(rnk1_p_brojevi, rnk2_p_brojevi)
        matrica_h2[i][j] = haming
        matrica_h2[j][i] = haming

In [45]:
hamingova_rastojanja1 = pd.DataFrame(matrica_h1, index=nazivi, columns=nazivi)
naslov_h1 = 'Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim kodonom'
hamingova_rastojanja2 = pd.DataFrame(matrica_h2, index=nazivi, columns=nazivi)
naslov_h2 = 'Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim nukleotidom'

In [46]:
print(naslov_h1)
hamingova_rastojanja1

Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim kodonom


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0,1334,1321,1328,1316
bcov,1334,0,1319,1320,1213
sars1,1321,1319,0,1220,1326
human229e,1328,1320,1220,0,1304
humanoc43,1316,1213,1326,1304,0


In [47]:
print(naslov_h2)
hamingova_rastojanja2

Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim nukleotidom


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0,1334,1321,1328,1316
bcov,1334,0,1319,1320,1213
sars1,1321,1319,0,1220,1326
human229e,1328,1320,1220,0,1304
humanoc43,1316,1213,1326,1304,0


## 2) Hamingovo rastojanje gde su elementi aminokiseline

In [48]:
# 1. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]
        
        rnk1, rnk2 = izjednacavanje_sekvenci_kodona(rnk1, rnk2)
        
        
        rnk1 = Seq(rnk1).translate()
        rnk2 = Seq(rnk2).translate()
        
        haming = hamingovo_rastojanje(rnk1, rnk2)
        matrica_h3[i][j] = haming
        matrica_h3[j][i] = haming
                
# 2. pristup
for i in range(len(povrsinski_proteini_rnk) - 1):
    for j in range(i+1, len(povrsinski_proteini_rnk)):
        virus1, rnk1 = list(povrsinski_proteini_rnk.items())[i]
        virus2, rnk2 = list(povrsinski_proteini_rnk.items())[j]
        
        rnk1, rnk2 = izjednacavanje_sekvenci_nukleotida(rnk1, rnk2)

        rnk1 = Seq(rnk1).translate()
        rnk2 = Seq(rnk2).translate()
        
        
        haming = hamingovo_rastojanje(rnk1, rnk2)
        matrica_h4[i][j] = haming
        matrica_h4[j][i] = haming

In [49]:
hamingova_rastojanja3 = pd.DataFrame(matrica_h3, index=nazivi, columns=nazivi)
naslov_h3 = 'Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim kodonom'
hamingova_rastojanja4 = pd.DataFrame(matrica_h4, index=nazivi, columns=nazivi)
naslov_h4 = 'Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim nukleotidom'

In [50]:
print(naslov_h3)
hamingova_rastojanja3

Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim kodonom


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0,1284,1269,1284,1260
bcov,1284,0,1267,1275,1163
sars1,1269,1267,0,1165,1294
human229e,1284,1275,1165,0,1263
humanoc43,1260,1163,1294,1263,0


In [51]:
print(naslov_h4)
hamingova_rastojanja4

Hamingova rastojanja kada krace sekvence dopunjujemo najfrekventnijim nukleotidom


Unnamed: 0,mers,bcov,sars1,human229e,humanoc43
mers,0,1284,1269,1284,1260
bcov,1284,0,1267,1275,1163
sars1,1269,1267,0,1165,1294
human229e,1284,1275,1165,0,1263
humanoc43,1260,1163,1294,1263,0


In [52]:
# Ocekivano je da je rastojanje gde poredimo aminokiseline manje nego rastojanje gde poredimo kodone zato sto
# jednu aminokiselinu kodira vise kodona.

# Nije velika razlika u rastojanju ako se kraca sekvenca dopuni kodonima ili nukleotidima (ili nulama za 
# racunanje p-adicnog rastojanja)


# Zasto je manje 5-adicno rastojanje od hamingovog?
# Zato sto 5-adicno rastojanje najvise vrednuje razliku na prvom nukleotidu kodona (1), razlika na drugom 
# nukleotidu je 5 puta manja u odonosu na prvi, dok je razlika na trecem nukleotidu 25 puta manja. Kada se to 
# sumira rastojanje ne moze biti veca nego hamingovo.