Given an amino acid string Peptide, we will begin by assuming that it represents a linear
peptide

Our approach to generating its theoretical spectrum is based on the assumption
that the mass of any subpeptide is equal to the difference between the masses of
two prefixes of Peptide

We can compute an array PREFIXMASS storing the masses of
each prefix of Peptide in increasing order, e.g., for Peptide = NQEL, PREFIXMASS =
(0, 114, 242, 371, 484)

In [1]:
aminoacids_integer_masses_dict = {'A':71.03711,
'R':156.10111,
'N':114.04293,
'D':115.02694,
'C':103.00919,
'E':129.04259,
'Q':128.05858,
'G':57.02146,
'H':137.05891,
'I':113.08406,
'L':113.08406,
'K':128.09496,
'M':131.04049,
'F':147.06841,
'P':97.05276,
'S':87.03203,
'T':101.04768,
'W':186.07931,
'Y':163.06333,
'V':99.06841}

In [2]:
for key in aminoacids_integer_masses_dict:
  aminoacids_integer_masses_dict[key] = int(aminoacids_integer_masses_dict[key])

In [3]:
def ReturnPeptidePrefixes(peptide):
  peptide_prefixes = []
  i = 1
  while i <= len(peptide):
    peptide_prefixes.append(peptide[0:i])
    i = i + 1
  return peptide_prefixes

In [4]:
def ReturnPeptideIntegerMass(peptide):
  peptide_mass = 0
  for aminoacid in peptide:
    peptide_mass = peptide_mass + aminoacids_integer_masses_dict[aminoacid]
  return peptide_mass

0123

NQEL

Svaki od indeksa je indeks završne aminokiseline i-tog prefiksa. Npr. 0 je indeks završne aminokiseline 0. prefiksa, 1 je indeks završne aminokiseline 1. prefiksa, 2 je indeks završne aminokiseline 2. prefiksa, 3 je indeks završne aminokiseline 3. prefiksa. 

Mass(N) = Mass(N) - Mass( )

Mass(Q) = Mass(NQ) - Mass(N)

Mass(E) = Mass(NQE) - Mass(NQ)

Mass(L) = Mass(NQEL) - Mass(NQE)

Dakle, masa i-te aminokiseline je jednaka masa i-tog prefiksa - masa (i-1)-tog prefiksa jer se i-ti prefiks i (i-1)-ti prefiks razlikuju u upravo toj aminokiselini.

12

QE

Indeks početne aminokiseline subpeptida QE je jednak završnom indeksu 1. prefiksa, završni indeks subpeptida je jednak završnom indeksu 2. prefiksa. 

Mass(QE) = Mass(NQE) - Mass(N), tj. masa subpeptida čiji je završni indeks završni indeks 2. prefiksa je jednaka razlici masa 2. prefiksa i 0- prefiksa --> masa subpeptida čiji je završni indeks 2 je jednak razlici masa prefiksa čiji je završni indeks 2 i prefiksa čiji je završni indeks za 1 manji od početnog indeksa subpeptida

012345

NQELEL

234

ELE

Mass(ELE) = Mass(NQELE) - Mass(NQ), tj. masa subpeptida čiji je završni indeks 4 je jednaka razlici masa 4. prefiksa i 1. prefiksa, tj. prefiksa čiji je završni indeks za 1 manji od početnog indeksa subpeptida

In [6]:
def FindAllKmers(peptide,k):
  kmers_list = []
  i = 0
  while i + k - 1 <= len(peptide)-1:
    kmers_list.append(peptide[i:i+k])
    i = i + 1
  return kmers_list

In [7]:
def GenerateAllSubpeptides(peptide):
  subpeptides = []
  for subpeptide_length in range(1,len(peptide)):
    subpeptides.extend([[' '] + FindAllKmers(peptide,subpeptide_length)])
  subpeptides.append([' '] + [peptide])
  return subpeptides

In [10]:
def LinearSpectrum(peptide):
  peptide_prefixes_masses = [0] #mass of empty peptide
  theoretical_linear_spectrum = [0]
  for peptide_prefix in ReturnPeptidePrefixes(peptide):
    peptide_prefixes_masses.append(ReturnPeptideIntegerMass(peptide_prefix))
  subpeptides = GenerateAllSubpeptides(peptide)
  for subpeptide_group in enumerate(subpeptides):
    for i in range(1,len(subpeptide_group[1])):
      theoretical_linear_spectrum.append(peptide_prefixes_masses[i+(subpeptide_group[0]+1)-1]-peptide_prefixes_masses[i-1]) #k = (subpeptide_group[0] + 1)
  return sorted(theoretical_linear_spectrum)

In [11]:
peptide = 'NQEL'

In [12]:
LinearSpectrum(peptide)

[0, 113, 114, 128, 129, 242, 242, 257, 370, 371, 484]

In [None]:
peptide = 'HYWMCAMWMCAESFHIMPCHLEQVPWFICHHICHW'

In [None]:
for solution in LinearSpectrum(peptide):
  print(solution)