## 2.1 Вычислительная масс-спектрометрия

Задача: для данного пептида сгенерировать его теоретический спектр.

Вход: строка в алфавите аминокислот (Peptide).

Выход: набор целых чисел через пробел – теоретический спектр Peptide.

 

Примечание 1: здесь и далее мы будем считать, что массы аминокислот целочисленные, а заряд спектра +1. В своей программе вы можете использовать следующие вектора (массивы), хранящие однобуквенные обозначения аминокислот и их целочисленные массы, соответственно:

alphabet = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y'] 
masses = [71, 103, 115, 129, 147, 57, 137, 113, 128, 113, 131, 114, 97, 128, 156, 87, 101, 99, 186, 163]
Обратите внимание, что массы 'I' и 'L' (113), а также массы 'K' и 'Q' (128) совпадают.

Примечание 2: не забудьте включить в теоретический спектр массу 0 и массу всего пептида. Кроме того, теоретический спектр не должен содержать масс-дубликатов и должен быть отсортирован по возрастанию массы.

Sample Input:

REDCA
Sample Output:

0 71 156 174 285 289 400 418 503 574

In [19]:
alphabet = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y'] 
masses = [71, 103, 115, 129, 147, 57, 137, 113, 128, 113, 131, 114, 97, 128, 156, 87, 101, 99, 186, 163]

def cyclic_spectrum(peptide):
    spectrum = [0]
    n = len(peptide)
    peptide_masses = [0]
    
    
    for i in range(n):
        
        prefix = peptide[:i]
        suffix = peptide[i:]

        pre_weight = sum([masses[alphabet.index(x)] for x in prefix])
        suf_weight = sum([masses[alphabet.index(x)] for x in suffix])

        spectrum += [pre_weight, suf_weight]

    
    return sorted(set(spectrum[1:]))
    
    

     

# Пример входных данных
peptide = input().strip()

#peptide = 'REDCA'
# Получение теоретического спектра
theoretical_spectrum = cyclic_spectrum(peptide)

# Вывод результатов
print(" ".join(map(str, theoretical_spectrum)))


0 71 156 174 285 289 400 418 503 574


In [23]:
mass_dict = dict(zip(alphabet, masses))

print(mass_dict)

{'A': 71, 'C': 103, 'D': 115, 'E': 129, 'F': 147, 'G': 57, 'H': 137, 'I': 113, 'K': 128, 'L': 113, 'M': 131, 'N': 114, 'P': 97, 'Q': 128, 'R': 156, 'S': 87, 'T': 101, 'V': 99, 'W': 186, 'Y': 163}


In [12]:
masses[alphabet.index('A')]

71

## Задача: по данному идеальному спектру Spectrum найти пептид Peptide, который его мог породить.

Вход: набор целых чисел через пробел – теоретический спектр Peptide.

Выход: строка в алфавите аминокислот (Peptide).

 

Примечание 1: первая масса в Spectrum всегда 0, последняя масса всегда обозначает массу всего спектра, т.е. всего Peptide.

Примечание 2: если у задачи больше одного решения, то выведите одно любое.

Sample Input:

0 71 156 174 285 289 400 418 503 574


Sample Output:

ACDER

In [24]:
DISTINCT_MASSES = {
    'G': 57, 'A': 71, 'S': 87, 'P': 97, 'V': 99, 'T': 101, 'C': 103, 'L': 113, 'N': 114, 'D': 115,
    'Q': 128, 'E': 129, 'M': 131, 'H': 137, 'F': 147, 'R': 156, 'Y': 163, 'W': 186
}

mass_dict = dict(zip(alphabet, masses))

alphdict_by_mass = {y: x for x, y in mass_dict.items()}

alphdict_by_mass 

{71: 'A',
 103: 'C',
 115: 'D',
 129: 'E',
 147: 'F',
 57: 'G',
 137: 'H',
 113: 'L',
 128: 'Q',
 131: 'M',
 114: 'N',
 97: 'P',
 156: 'R',
 87: 'S',
 101: 'T',
 99: 'V',
 186: 'W',
 163: 'Y'}

In [5]:
from collections import defaultdict


alphabet = ['A','C','D','E','F','G','H','I','K','L','M','N','P','Q','R','S','T','V','W','Y'] 
masses = [71, 103, 115, 129, 147, 57, 137, 113, 128, 113, 131, 114, 97, 128, 156, 87, 101, 99, 186, 163]

mass_dict = dict(zip(alphabet, masses))

alphdict_by_mass = {y: x for x, y in mass_dict.items()}


def ideal_spectrum(peptide):
    spectrum = []

    for i in range(len(peptide)):
        prefix = peptide[:i]
        suffix = peptide[i:]

        pre_weight = sum([masses[alphabet.index(x)] for x in prefix])
        suf_weight = sum([masses[alphabet.index(x)] for x in suffix])

        spectrum += [pre_weight, suf_weight]

    
    return sorted(set(spectrum[1:]))

def graph_of_spectrum(spectrum):
    graph = dict()

    for i, weight in enumerate(spectrum):
        graph[weight] = dict()
        for n_weight in spectrum[i + 1:]:
            gap = n_weight - weight
            if gap in alphdict_by_mass:
                graph[weight][n_weight] = alphdict_by_mass[gap]

    return graph

def graph_reversal(graph):
    reversed_graph = defaultdict(dict)
    for key in graph:
        for child in graph[key]:
            reversed_graph[child][key] = graph[key][child]

    return reversed_graph

def construct_peptide(graph, node, peptide, spectrum):
    if node == 0:
        candidate_spectrum = ideal_spectrum(peptide)
        if candidate_spectrum == spectrum:
            # print(peptide)
            return peptide[::-1]

    else:
        for parent in graph[node]:
            parent_peptide = peptide + graph[node][parent]
            found_pep = construct_peptide(graph, parent, parent_peptide, spectrum)
            if found_pep is not None:
                return found_pep

def decode_ideal_spectrum(spectrum):
    graph = graph_of_spectrum(spectrum)
    reverse_graph = graph_reversal(graph)

    end_node = spectrum[-1]
    peptide = ""

    peptide = construct_peptide(reverse_graph, end_node, peptide, spectrum[1:])
    return peptide

spectrum = list(map(int, input().strip().split()))
#spectrum = list(map(int, '0 71 156 174 285 289 400 418 503 574'.strip().split())) 
peptide = decode_ideal_spectrum(spectrum)
print(peptide)

ACDER


## Задача: в протеоме найти пептид, который наилучшим образом соответствует заданному спектру,
 т.е. имеет максимальную оценку среди всех (подходящих по массе) пептидов из протеома. 

Вход: спектральный вектор Spectrum' (набор целых чисел через пробел) и строка в алфавите аминокислот Proteome.

Выход: подстрока Proteome с максимальной оценкой относительно Spectrum'.

 

Примечание 1: на вход подается спектральный вектор Spectrum' = s1 ... sm, который не включает нулевой элемент; при написании программы учитывайте, что s0 = 0. Масса спектра, а также подходящая масса пептида, равны m (число символов во входном спектральном векторе).

Примечание 2: в примере ниже для простоты используется алфавит из двух несуществующих аминокислот: 'X' массы 4 и 'Z' массы 5. В реальных заданиях протеом будет записан в алфавите из 20 стандартных аминокислот и может достигать в длину несколько тысяч символов. К сожалению, из-за особенностей Stepik, если мы показываем какой-то пример как тестовый, то ваша программа должна уметь его решать. Таким образом, вам надо предусмотреть в программе режим работы с алфавитом {'X', 'Z'} , например, как-то так:

def get_AA_letters_masses():
    letters = ['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']
    masses = [71, 103, 115, 129, 147, 57, 137, 113, 128, 113, 131, 114, 97, 128, 156, 87, 101, 99, 186, 163]
    return letters, masses

def get_XZ_letters_masses():
    letters = ['X', 'Z']
    masses = [4, 5]
    return letters, masses

...

if len(spectral_vector) > 30: # ключевое место для различия между "тестовым примером" и "реальным"
     letters, masses = get_AA_letters_masses()
 else:
     letters, masses = get_XZ_letters_masses()

print(best_protein(proteome, spectral_vector, letters, masses))
Sample Input:

0 0 0 4 -2 -3 -1 -7 6 5 3 2 1 9 3 -8 0 3 1 2 1 8
XZZXZXXXZXZZXZXXZ
Sample Output:

ZXZXX

In [8]:

d = ideal_spectrum('IKLMN')


In [20]:
# делаю нормльно!


import numpy as np

def get_AA_letters_masses():
    letters = ['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']
    masses = [71, 103, 115, 129, 147, 57, 137, 113, 128, 113, 131, 114, 97, 128, 156, 87, 101, 99, 186, 163]
    return dict(zip(letters, masses))

def get_XZ_letters_masses():
    letters = ['X', 'Z']
    masses = [4, 5]
    return dict(zip(letters, masses))

def peptide_to_vector(peptide):
    vector = []
    for i in peptide:
        pep_vector = [0] * mass_dict[i]
        pep_vector[-1] = 1
        vector += pep_vector

    return vector


def peptide_identification(spectrum_vector, proteome):
    peptide_len = len(spectrum_vector)
    weight_vector = [mass_dict[x] for x in proteome]

    best_peptide = None
    best_score = -np.inf
    i = 0
    j = 0

    while j < len(proteome):
        peptide_weight = sum(weight_vector[i:j])
        if peptide_weight < peptide_len:
            j += 1
        elif peptide_weight > peptide_len:
            i += 1
        else:
            candidate_peptide = proteome[i:j]
            peptide_vector = peptide_to_vector(candidate_peptide)
            score = np.dot(peptide_vector, spectrum_vector)
            if score > best_score:
                best_score = score
                best_peptide = candidate_peptide

            i += 1

    return best_peptide, best_score

#spectrum_vector = list(map(int, input().strip().split()))
#spectrum_vector = d
spectrum_vector = list(map(int, '0 0 0 4 -2 -3 -1 -7 6 5 3 2 1 9 3 -8 0 3 1 2 1 8'.strip().split()))
#proteome = 'MNKLLLIKLMNMNKLLLMNKLLL'
proteome = 'XZZXZXXXZXZZXZXXZ'

if len(set(proteome)) > 2: # ключевое место для различия между "тестовым примером" и "реальным"
    mass_dict = get_AA_letters_masses()
else:
    mass_dict = get_XZ_letters_masses()


alphdict_by_mass = {y: x for x, y in mass_dict.items()}
best_peptide = peptide_identification(spectrum_vector, proteome)
print(best_peptide[0])


ZXZXX


In [14]:
len(set(proteome))
len(set('XZZXZXXXZXZZXZXXZ'))

2