Tabela masa aminokiselina, uključujući masu 0 "praznog" peptida.

In [2]:
amino_acid_masses = {
        '': 0,
        'G': 57,
        'A': 71,
        'S': 87,
        'P': 97,
        'V': 99,
        'T': 101,
        'C': 103,
        'I': 113,
        'L': 113,
        'N': 114,
        'D': 115,
        'K': 128,
        'Q': 128,
        'E': 129,
        'M': 131,
        'H': 137,
        'F': 147,
        'R': 156,
        'Y': 163,
        'W': 186,
    }

Funkcija **linear_spectrum** izracunava teorijski *linearni* spekrar za dati peptid **peptide**. To je sortirani niz masa svih mogucih podpeptida (fragmenata) datog peptida, ukljucujuci 0 (masa "praznog" peptida) i masu celog peptida.

peptid = 'NQEL' <br/>
linearni spektar = \[0, m(N), m(Q), m(E), m(L), m(NQ), m(QE), m(EL), m(NQE), m(QEL), m(NQEL)\]  

In [4]:
# sortiran niz masa svih mogucih podpeptida( frags ) datog peptida ukljucujuci i masu praznog i masu celog peptida

In [9]:
def linear_spectrum(peptide):
    n = len(peptide)
    
    prefix_mass = [0 for i in range(n+1)]
    # prefiksne razlike 
    for i in range(n):
        aa = peptide[i] # odaberemo prvi peptid to je A npr     
        # znaci 0 + 31  ,  31 + 156 itd  ... 
        prefix_mass[i+1] = prefix_mass[i] + amino_acid_masses[aa]

    # kada smo izracunali prefiksne sume 
    spectrum = [0]
    
    for i in range(n):                  #sa indeksom i idemo do pretposlednjeg elementa da ne bismo dobili jos 
        for j in range(i+1, n+1):       #jednu 0 u spektru (kao razliku prefix_mass[n] - prefix_mass[n])
            spectrum.append(prefix_mass[j] - prefix_mass[i])
    # ne zaboravimo sort, bitno je   
    spectrum.sort()
    
    return spectrum

In [10]:
print(linear_spectrum('NQEL'))

[0, 113, 114, 128, 129, 242, 242, 257, 370, 371, 484]


Funkcija **cyclic_spectrum** izracunava teorijski *ciklicni* spektar za dati ciklopeptid **peptide**. Osim masa podpeptida (fragmenata) koje ulaze u sastav teorijskog *linearnog* spektra, sada za podpeptide (fragmente) koji su "iz sredine" dodajemo jos i mase njihovih komplementarnih podpeptida u odnosu na dati ciklopeptid **peptide**. 

peptid = 'NQEL' <br/>
ciklicni spektar = \[0, m(N), m(QEL), m(Q), **m(ELN)**, m(E), **m(LNQ)**, m(L), m(NQE), m(NQ), m(EL), m(QE), **m(LN)**, m(NQEL)\]   

In [11]:
# sim masa podpeptida (fragmenata) koje ulaze u sastav teorijskog linearnog spektra,
# sada za podpeptide (fragmente) koji su "iz sredine" dodajemo jos i mase njihovih komplementarnih podpeptida u odnosu na dati ciklopeptid peptide

In [None]:
def ciklicni_spektar(peptid):
    n = len(peptid)

    prefiksne_mase = [0 for i in range(n+1)]

    for i in range(n):
        aa = peptid[i]
        prefiskne_mase[i+1] = prefiskne_mase[i] + amino_acid_masses[aa]

    # krecemo od praznog fragmenta mase 0 
    spektar = [0]

    # ovo ne znam za sta sluzi 
    peptidne_mase = prefiks_masa[-1]

    for i in range(n):
        for j in range(i+1, n+1):
            masa_fragmenta = prefiksne_mase[j] - prefiksne_mase[i]
            sprektar.append(masa_fragmenta)

In [13]:
def cyclic_spectrum(peptide):
    n = len(peptide)
    
    prefix_mass = [0 for i in range(n+1)]
    
    for i in range(n):
        aa = peptide[i]
        prefix_mass[i+1] = prefix_mass[i] + amino_acid_masses[aa]
        
    spectrum = [0]
    # ovo se menja
    peptide_mass = prefix_mass[-1]


    
    for i in range(n):
        for j in range(i+1, n+1):
            fragment_mass = prefix_mass[j] - prefix_mass[i]
            spectrum.append(fragment_mass)
            
            #ako nije prefiks (i=0) ili sufiks(j=n), onda je fragment iz sredine, pa u spektar dodajemo 
            #i masu njegovog komplementa (za fragmente koji su prefiks ili sufiks sekvence 'peptide' njihovi
            #komplementi su sufiks odnosno prefiks sekvence 'peptide' i bice dodati prethodnom naredbom)
            if i > 0 and j < n:
                spectrum.append(peptide_mass - fragment_mass)
                
    spectrum.sort()
    
    return spectrum

In [5]:
print(cyclic_spectrum('NQEL'))

[0, 113, 114, 128, 129, 227, 242, 242, 257, 355, 356, 370, 371, 484]


Funkcija **extend** na svaki peptid iz liste **peptides** nadovezuje po jednu aminokiselinu (po 20 kombinacija za svaku od 20 aminokiselina).

In [6]:
def extend(peptides):
    extended_peptides = []
    
    for peptide in peptides:
        for aa in amino_acid_masses.keys():
            if aa != "":
                extended_peptides.append(peptide + aa)
                
    return extended_peptides            

In [7]:
peptides = ['SP']
extend(peptides)

['SPG',
 'SPA',
 'SPS',
 'SPP',
 'SPV',
 'SPT',
 'SPC',
 'SPI',
 'SPL',
 'SPN',
 'SPD',
 'SPK',
 'SPQ',
 'SPE',
 'SPM',
 'SPH',
 'SPF',
 'SPR',
 'SPY',
 'SPW']

Funkcija **mass** izracunava masu peptida **peptide**.

In [8]:
def mass(peptide):
    total_mass = 0
    
    for aa in peptide:
        total_mass += amino_acid_masses[aa]
        
    return total_mass    

In [9]:
mass('NQEL')

484

Funkcija **consistent** proverava da li je linearni spekrar datog peptida **peptide** konzistentan sa datim (ciklicnim) spektrom **target_spectrum**. *Linearni* spektar je konzistentan sa *ciklicnim* spektrom ukoliko se sve mase iz linearnog spektra nalaze i u ciklicnom spektru, ukljucujuci i duplikate (kolika je visestrukost neke mase u linearnom spektru, barem tolika da bude i u ciklicnom spektru).

In [10]:
def consistent(peptide, target_spectrum):
    peptide_spectrum = linear_spectrum(peptide)
    
    i = 0
    j = 0
    n = len(peptide_spectrum)
    m = len(target_spectrum)
    
    #NAPOMENA: koristimo svojstvo da su mase i u linearnom i u ciklicnom spektru sortirane!
    while i < n and j < m:
        if peptide_spectrum[i] == target_spectrum[j]:
            i += 1
            j += 1
        elif peptide_spectrum[i] > target_spectrum[j]:
            j += 1
        else:
            return False
        
    if i < n:
        return False
    else:
        return True

In [11]:
peptide1 = 'QE'
peptide2 = 'NE'
target_spectrum = cyclic_spectrum('NQEL')

print(consistent(peptide1, target_spectrum))
print(consistent(peptide2, target_spectrum))

True
False


Funkcija **cyclopeptide_sequencing** pronalazi sve ciklopeptide ciji je ciklicni spektar jednak datom ciklicnom spektru **target_spectrum**. Pri tom, svaki ciklican peptid imace 2n razlicitih linearnih reprezentacija, gde je n duzina peptida. To je zato sto je kod ciklicnog peptida svejedno gde cemo ciklus da presecemo i da ga predstavimo linearno, kao i smer u kojem cemo da obidjemo ciklus od mesta presecanja.

In [12]:
def cyclopeptide_sequencing(target_spectrum):
    peptides = ['']          #lista kandidata
    results = []             #lista konacnih kandidata
    
    target_peptide_mass = target_spectrum[-1]
    
    while len(peptides) > 0:
        extended_peptides = extend(peptides)
        
        consistent_peptides = []
        
        for peptide in extended_peptides:
            if mass(peptide) == target_peptide_mass:
                if cyclic_spectrum(peptide) == target_spectrum:
                    results.append(peptide)
            else:
                if consistent(peptide, target_spectrum):
                    consistent_peptides.append(peptide)
                
        peptides = consistent_peptides
        
    return results    

In [13]:
target_spectrum = cyclic_spectrum('NQEL')
cyclopeptide_sequencing(target_spectrum)

['INKE',
 'INQE',
 'IEKN',
 'IEQN',
 'LNKE',
 'LNQE',
 'LEKN',
 'LEQN',
 'NIEK',
 'NIEQ',
 'NLEK',
 'NLEQ',
 'NKEI',
 'NKEL',
 'NQEI',
 'NQEL',
 'KNIE',
 'KNLE',
 'KEIN',
 'KELN',
 'QNIE',
 'QNLE',
 'QEIN',
 'QELN',
 'EINK',
 'EINQ',
 'ELNK',
 'ELNQ',
 'EKNI',
 'EKNL',
 'EQNI',
 'EQNL']

Dobili smo kao rezultat zapravo 4 razlicitih ciklopeptida - **NQEL**, **NQEI**, **NKEL** i **NKEI**. To je zato sto je mass('L') = mass('I') i mass('Q') = mass('K'). Ostale kombinacije smo dobili zato sto se ciklopeptid moze preseci na razlicitim mestima da bi se predstavio linearno i zato sto mozemo da imamo dva smera citanja ciklusa.

**NQEL** = QELN = ELNQ = LNQE = LEQN = EQNL = QNLE = NLEQ<br/>
**NQEI** = QEIN = EINQ = INQE = IEQN = EONI = QNIE = NIEQ<br/>
**NKEL** = KELN = ELNK = LNKE = LEKN = EKNL = KNLE = NLEK<br/>
**NKEI** = KEIN = EINK = INKE = IEKN = EKNI = KNIE = NIEK<br/>

Situacija u kojoj nam je tacan teorijski spektar peptida koji sekvenciramo poznat je idealizovana. U realnosti se desava da neke mase fale ili da nisu tacno izmerene. Ideja je da onda uvedemo neki skor koji ce da meri koliko je teorijski spektar nekog peptida (kandidata) slican eksperimentalno dobijenom spektru peptida koji sekvenciramo.

<img src="assets/theroretical_vs_experimental_spectrum.png" width="700"> 

Funkcija **score** racuna u kojoj meri se spektri **peptide_spectrum** i **target_spectrum** saglasni, tj. koliko poklapanja imaju.

In [14]:
def score(peptide_spectrum, target_spectrum):
    total_score = 0
    
    i = 0
    j = 0
    n = len(peptide_spectrum)
    m = len(target_spectrum)
    
    #NAPOMENA: koristimo svojstvo da su mase i u linearnom i u ciklicnom spektru sortirane!
    while i < n and j < m:
        if peptide_spectrum[i] == target_spectrum[j]:
            i += 1
            j += 1
            total_score += 1
        elif peptide_spectrum[i] > target_spectrum[j]:
            j += 1
        else:
            i += 1
        
    return total_score

In [15]:
target_spectrum = cyclic_spectrum('NQEL')
peptide_spectrum = cyclic_spectrum('NQLE')

print(target_spectrum)
print(peptide_spectrum)

print(score(peptide_spectrum, target_spectrum))

[0, 113, 114, 128, 129, 227, 242, 242, 257, 355, 356, 370, 371, 484]
[0, 113, 114, 128, 129, 241, 242, 242, 243, 355, 356, 370, 371, 484]
12


Funkcije **linear_score** i **cyclic_score** racunaju poklapanje *linearnog* odnosno *ciklicnog* spektra datog peptida **peptide** sa spektrom **target_spectrum**.

In [16]:
def linear_score(peptide, target_spectrum):
    peptide_linear_spectrum = linear_spectrum(peptide)
    return score(peptide_linear_spectrum, target_spectrum)

In [17]:
def cyclic_score(peptide, target_spectrum):
    peptide_cyclic_spectrum = cyclic_spectrum(peptide)
    return score(peptide_cyclic_spectrum, target_spectrum)

Funkcija **trim** vrsi skracivanje liste peptida **peptides** tako sto ih prvo rangira na osnovu linearnog skora u odnosu na spektar **target_spectrum**, a zatim odbacuje sve one koji su imali manji skor od skora **N**-tog po redu. To znaci da zadrzavamo prvih **N** najbolje rangiranih peptida, ali mozda i jos neki peptid vise - one koji imaju jednak skor kao i **N**-ti po redu.

In [18]:
def trim(peptides, target_spectrum, N):
    if len(peptides) <= N:
        return peptides
    
    leaderboard = []           #rang lista peptida prema skorovima
    
    for peptide in peptides:
        peptide_score = linear_score(peptide, target_spectrum)
        leaderboard.append((peptide_score, peptide))     #NAPOMENA: kao prvi element uredjenog para stavljamo skor
                                                         #a ne peptid kako bi kasnije njihovo sortiranje bilo prema
                                                         #skorovima (poredjenje torki se vrsi prema prvom elementu,
                                                         #a ako su oni jednaki onda prema drugom elementu itd.)
    leaderboard.sort(reverse=True)    
    
    for i in range(N, len(leaderboard)):
        if leaderboard[i][0] < leaderboard[N-1][0]:
            break
    
    trimmed_leaderboard = leaderboard[:i]
    return [el[1] for el in trimmed_leaderboard]

In [19]:
peptides = ['NQ', 'NE', 'QL', 'EL']
target_spectrum = cyclic_spectrum('NQEL')
N = 2

trim(peptides, target_spectrum, N)

['NQ', 'EL']

Funkcija **leaderboard_cyclopeptide_sequencing** pronalazi ciklopeptid ciji je ciklicni spektar najsaglasniji sa datim spektrom **target_spectrum**. Prilikom pretrage se u svakoj iteraciji lista peptida-kandidata krati sa granicom za odsecanje **N**.

In [20]:
def leaderboard_cyclopeptide_sequencing(target_spectrum, N):
    peptides = ['']               #lista kandidata
    
    leader_peptide = ''
    leader_peptide_score = 0
    
    target_peptide_mass = target_spectrum[-1]
    
    while len(peptides) > 0:
        extended_peptides = extend(peptides)
        
        consistent_peptides = []
        
        for peptide in extended_peptides:
            if mass(peptide) == target_peptide_mass:
                peptide_score = cyclic_score(peptide, target_spectrum)
                if peptide_score > leader_peptide_score:
                    leader_peptide = peptide
                    leader_peptide_score = peptide_score
            elif mass(peptide) < target_peptide_mass:
                consistent_peptides.append(peptide)
                    
        peptides = trim(consistent_peptides, target_spectrum, N)
        
    return leader_peptide    

In [21]:
experimental_spectrum = [0, 99, 113, 114, 128, 227, 257, 299, 355, 356, 370, 371, 484]
N = 10

leaderboard_cyclopeptide_sequencing(experimental_spectrum, N)

'QNLE'