Проект Biopython – набор инструментов Python для вычислительной биологии и биоинформатики – используется для визуализации и анализа последовательностей ДНК и РНК. С помощью набора инструментов Biopython также можно выполнять анализ белковых структур! 

[Банк белковых структур (PDB)](https://www.rcsb.org/) – единая база данных для изучения и загрузки последовательностей белка. Для работы с PDB был создан специальный файловый формат, естественно, получивший название .pdb. Но по мере того как учёным приходилось анализировать более крупные и сложные белковые структуры, были разработаны другие форматы - CIF и mmCIF. Файл кристаллографической информации CIF (Crystallographic Information File) был разработан для архивирования данных кристаллографического исследования малых молекул. В рамках таких исследований изучается расположение атомов в кристаллических твердых телах. Со временем формат CIF стал использоваться для анализа более крупных молекул (макромолекул, отсюда обозначение mm), получил название mmCIF и в итоге заместил формат PDB. 

ОЦЕНИВАНИЕ РАБОТЫ:  
 * Сделать практическую работу по примеру : 8 баллов  
 * Сделать практическую работу с BCR-ABL тирозинкиназой (PDB ID: 3oxz) : 10 баллов  

# 1) ВИЗУАЛИЗАЦИЯ ДАННЫХ  
Несмотря на то что в настоящее время общепринятым стандартом является формат mmCIF, многие системы по-прежнему поддерживают файлы старого формата PDB.  
Рассмотрим Фитогемагглютинин-L  (PDB ID : 1FAT)– лектин, содержащийся в некоторых бобовых, например в стручковой фасоли.  
Импортируйте необходимые пакеты:

In [None]:
from Bio.PDB import *
import nglview as nv
import ipywidgets

Теперь создадим экземпляр PDBParser Biopython и для создания интерактивной визуализации воспользуемся библиотекой nglview. Мы можем панорамировать, масштабировать и вращать молекулу и даже выводить на экран определённую информацию об атомах.

In [None]:
pdb_parser = PDBParser()
#structure = pdb_parser.get_structure("PHA-L", "Data/1fat.pdb")
#view = nv.show_biopython(structure)
view = nv.show_structure_file("Data/1fat.pdb")
view

NGLWidget()

Процедура для файлов CIF практически такая же, за тем исключением, что нужно использовать экземпляр MMCIF Parser! Здесь мы визуализируем более крупную белковую структуру 6EBK, или канал paddle chimera Kv1.2-2.1 в липидных нанодисках.

In [None]:
cif_parser = MMCIFParser()
#structure = cif_parser.get_structure("6EBK", "Data/6ebk.cif")
#view = nv.show_biopython(structure)
view = nv.show_structure_file("Data/6ebk.cif")
view

NGLWidget()

# 2) ДОСТУП К ИНФОРМАЦИИ О БЕЛКОВОЙ СТРУКТУРЕ  
Самый быстрый способ доступа к информации о белковой структуре – через заголовок, словарь метаданных, доступный как в формате PDB, так и в формате CIF.

In [None]:
mmcif_dict = MMCIF2Dict.MMCIF2Dict("Data/1fat.cif")
len(mmcif_dict) # 689

689

В результате создаётся большой словарь информации о белковой структуре, в том числе цитата, определяющая последовательность белка, информацию о структуре, расположениях и углах атомов, а также химический состав. Как видите, словарь состоит из 689 позиций.

Одна из самых важных частей анализируемой информации – это последовательность остатков белка или полипептида (аминокислот). Поскольку белки могут состоять из нескольких полипептидов, для понимания исследуемого уровня организации мы используем структурный подход. От общей структуры – до отдельных атомов.

Объект Structure в нашем файле построен в архитектуре SMCRA (СМЦОА) в соответствии со схемой “родитель – дочерний элемент”:
Структура состоит из моделей.

 * Модель состоит из цепочек.

 * Цепочка состоит из остатков (аминокислот).

 * Остаток состоит из Атомов.

Для получения последовательностей остатков белка существует множество способов разбора метаданных структуры. Рассмотрим три варианта:

In [None]:
cif_parser = MMCIFParser()
structure = cif_parser.get_structure("PHA-L", "Data/1fat.cif")
# .get_residues() method in a loop
for model in structure:
    for residue in model.get_residues():
        print(residue)
# .get_residues() method as generator object
residues = structure.get_residues() # returns a generator object
[item for item in residues]
# unfold entities - keyword for each level of the SMCRA structure
Selection.unfold_entities(structure, "R") # R is for residues

<Residue SER het=  resseq=1 icode= >
<Residue ASN het=  resseq=2 icode= >
<Residue ASP het=  resseq=3 icode= >
<Residue ILE het=  resseq=4 icode= >
<Residue TYR het=  resseq=5 icode= >
<Residue PHE het=  resseq=6 icode= >
<Residue ASN het=  resseq=7 icode= >
<Residue PHE het=  resseq=8 icode= >
<Residue GLN het=  resseq=9 icode= >
<Residue ARG het=  resseq=10 icode= >
<Residue PHE het=  resseq=11 icode= >
<Residue ASN het=  resseq=12 icode= >
<Residue GLU het=  resseq=13 icode= >
<Residue THR het=  resseq=14 icode= >
<Residue ASN het=  resseq=15 icode= >
<Residue LEU het=  resseq=16 icode= >
<Residue ILE het=  resseq=17 icode= >
<Residue LEU het=  resseq=18 icode= >
<Residue GLN het=  resseq=19 icode= >
<Residue ARG het=  resseq=20 icode= >
<Residue ASP het=  resseq=21 icode= >
<Residue ALA het=  resseq=22 icode= >
<Residue SER het=  resseq=23 icode= >
<Residue VAL het=  resseq=24 icode= >
<Residue SER het=  resseq=25 icode= >
<Residue SER het=  resseq=26 icode= >
<Residue SER het=  re



[<Residue SER het=  resseq=1 icode= >,
 <Residue ASN het=  resseq=2 icode= >,
 <Residue ASP het=  resseq=3 icode= >,
 <Residue ILE het=  resseq=4 icode= >,
 <Residue TYR het=  resseq=5 icode= >,
 <Residue PHE het=  resseq=6 icode= >,
 <Residue ASN het=  resseq=7 icode= >,
 <Residue PHE het=  resseq=8 icode= >,
 <Residue GLN het=  resseq=9 icode= >,
 <Residue ARG het=  resseq=10 icode= >,
 <Residue PHE het=  resseq=11 icode= >,
 <Residue ASN het=  resseq=12 icode= >,
 <Residue GLU het=  resseq=13 icode= >,
 <Residue THR het=  resseq=14 icode= >,
 <Residue ASN het=  resseq=15 icode= >,
 <Residue LEU het=  resseq=16 icode= >,
 <Residue ILE het=  resseq=17 icode= >,
 <Residue LEU het=  resseq=18 icode= >,
 <Residue GLN het=  resseq=19 icode= >,
 <Residue ARG het=  resseq=20 icode= >,
 <Residue ASP het=  resseq=21 icode= >,
 <Residue ALA het=  resseq=22 icode= >,
 <Residue SER het=  resseq=23 icode= >,
 <Residue VAL het=  resseq=24 icode= >,
 <Residue SER het=  resseq=25 icode= >,
 <Residue

# 3) СОЗДАНИЕ ПОЛИПИПТИДОВ  
Получение упомянутой выше последовательности остатков возвращает последовательность для всей белковой структуры, однако белки часто состоят из нескольких полипептидов меньшего размера, которые, возможно, стоит проанализировать отдельно. Набор инструментов Biopython позволяет сделать это с помощью построителей полипептидов, генерирующих отдельные полипептиды.

In [None]:
polypeptide_builder = CaPPBuilder()
counter = 1
for polypeptide in polypeptide_builder.build_peptides(structure):
    seq = polypeptide.get_sequence()
    print(f"Sequence: {counter}, Length: {len (seq)}")
    print(seq)
    counter += 1

Sequence: 1, Length: 36
SNDIYFNFQRFNETNLILQRDASVSSSGQLRLTNLN
Sequence: 2, Length: 196
NGEPRVGSLGRAFYSAPIQIWDNTTGTVASFATSFTFNIQVPNNAGPADGLAFALVPVGSQPKDKGGFLGLFDGSNSNFHTVAVEFDTLYNKDWDPTERHIGIDVNSIRSIKTTRWDFVNGENAEVLITYDSSTNLLVASLVYPSQKTSFIVSDTVDLKSVLPEWVSVGFSATTGINKGNVETNDVLSWSFASKLS
Sequence: 3, Length: 233
SNDIYFNFQRFNETNLILQRDASVSSSGQLRLTNLNGNGEPRVGSLGRAFYSAPIQIWDNTTGTVASFATSFTFNIQVPNNAGPADGLAFALVPVGSQPKDKGGFLGLFDGSNSNFHTVAVEFDTLYNKDWDPTERHIGIDVNSIRSIKTTRWDFVNGENAEVLITYDSSTNLLVASLVYPSQKTSFIVSDTVDLKSVLPEWVSVGFSATTGINKGNVETNDVLSWSFASKLS
Sequence: 4, Length: 36
SNDIYFNFQRFNETNLILQRDASVSSSGQLRLTNLN
Sequence: 5, Length: 196
NGEPRVGSLGRAFYSAPIQIWDNTTGTVASFATSFTFNIQVPNNAGPADGLAFALVPVGSQPKDKGGFLGLFDGSNSNFHTVAVEFDTLYNKDWDPTERHIGIDVNSIRSIKTTRWDFVNGENAEVLITYDSSTNLLVASLVYPSQKTSFIVSDTVDLKSVLPEWVSVGFSATTGINKGNVETNDVLSWSFASKLS
Sequence: 6, Length: 35
SNDIYFNFQRFNETNLILQRDASVSSSGQLRLTNL
Sequence: 7, Length: 196
NGEPRVGSLGRAFYSAPIQIWDNTTGTVASFATSFTFNIQVPNNAGPADGLAFALVPVGSQPKDKGGFLGLFDGSNSNFHTVAVEFDTLY

# 3) АНАЛИЗ ПОСЛЕДОВАТЕЛЬНОСТИ ОСТАТКОВ  
Итак, теперь у нас есть последовательности остатков для этих 7 цепочек, и такие последовательности можно проанализировать множеством методов.

In [None]:
from Bio.SeqUtils.ProtParam import ProteinAnalysis

Единственное предостережение:  вызов процедуры .get_sequences() возвращает объект Biopython Seq().

In [None]:
analyzed_seq = ProteinAnalysis(str(seq))

Теперь мы готовы к запуску следующих методов, которые позволят понять нашу последовательность.  

# 4) МОЛЕКУЛЯРНЫЙ ВЕС  

Мы можем рассчитать молекулярный вес полипептида.

In [None]:
analyzed_seq.molecular_weight()
# 4176.51669

21164.201100000006

# 4) GRAVY  
Белок GRAVY возвращает значение GRAVY (общее среднее значение гидропатии) для введённых белковых последовательностей. Значение GRAVY вычисляется путём сложения значения гидропатии для каждого остатка и деления на длину последовательности  
Узнать больше
Более высокое значение указывает на большую гидрофобность. Меньшее – на большую гидрофильность. Позже мы обсудим, как генерировать остаток по гидрофобности остатков.

In [None]:
analyzed_seq.gravy()
# -0.5611

-0.0959183673469388

# 5) ПОДСЧЁТ КОЛИЧЕСТВА АМИНОКИСЛОТ  
Количество аминокислот каждого типа можно легко подсчитать.

In [None]:
analyzed_seq.count_amino_acids()

{'A': 13,
 'C': 0,
 'D': 13,
 'E': 7,
 'F': 13,
 'G': 16,
 'H': 2,
 'I': 10,
 'K': 8,
 'L': 14,
 'M': 0,
 'N': 15,
 'P': 9,
 'Q': 4,
 'R': 5,
 'S': 22,
 'T': 17,
 'V': 19,
 'W': 5,
 'Y': 4}

# 6) ВТОРИЧНАЯ СТРУКТУРА  
Очень полезный метод – .secondary_structure_fraction() – возвращает долю аминокислот, которые могут быть обнаружены в трёх классических вторичных структурах. Это бета-складчатые структуры, альфа-спирали и петли (на которых остатки меняют направление).

In [None]:
analyzed_seq.secondary_structure_fraction() # helix, turn, sheet
# (0.3333333333333333, 0.3333333333333333, 0.19444444444444445)

(0.33163265306122447, 0.3163265306122449, 0.17346938775510204)

# 6) ПРОТЕИНОВЫЕ ВЕСЫ  
Протеиновые весы – это способ измерения определённых атрибутов остатков по длине последовательности пептидов с помощью "скользящего" окна. Весы градуируются значениями для каждой аминокислоты. Каждое значение базируется на различных физических и химических свойствах, таких как гидрофобность, тенденции вторичной структуры и доступность поверхности. В отличие от некоторых единиц измерения на уровне цепочки, таких как общее поведение молекул, весы позволяют более детально понять, как будут вести себя более мелкие участки последовательности.

In [None]:
from Bio.SeqUtils.ProtParam import ProtParamData

Вот некоторые распространённые весы:

 * kd → индекс гидрофобности Kyte & Doolittle [узнать больше];

 * Flex → нормализованные средние параметры гибкости (B-значения) [узнать больше];

 * hw → индекс гидрофобности Hopp & Wood [узнать больше];

 * em → поверхностная дробная вероятность Emini (доступность поверхности) [узнать больше].


В качестве примера рассмотрим индекс гидрофобности (kd). Представлены весы, в которых каждый остаток имеет связанное значение, представляющее уровень его гидрофобности.

In [None]:
kd = {"A": 1.8, "R": -4.5, "N": -3.5, "D": -3.5, "c": 2.5,
      "": -3.5, "E": -3.5, "G": -0.4, "H": -3.2, "I": 4.5,
      "L": 3.8, "K": -3.9, "M": 1.9, "F": 2.8, "p": -1.6,
      "S": -0.8, "T": -0.7, "W": -0.9, "y": -1.3, "V": 4.2}

Положительные значения означают гидрофобность. Изолейцин (I) и валин (V) наиболее гидрофобны, а аргинин (R) и лизин (K) наиболее гидрофильны. Гидрофобные остатки, как правило, находятся внутри полипептида, а гидрофильные остатки – за его пределами, поэтому эти весы также дают представление о том, как может складываться такой полипептид.
Чтобы провести анализ на основе белковых весов, необходимо задать размер окна, в котором будет вычисляться среднее значение. Используя ключевое слово "edge", можно также измерять важность соседних остатков, в основном определяя их важность по отношению к среднему для окна значению.

In [None]:
analyzed_seq.protein_scale(window=7, param_dict=ProtParamData.kd)

[-1.3857142857142857,
 -1.0,
 -0.4000000000000001,
 0.04285714285714288,
 -0.3714285714285714,
 0.5285714285714285,
 0.32857142857142857,
 0.20000000000000004,
 0.19999999999999996,
 -0.08571428571428573,
 -0.2571428571428571,
 1.0285714285714287,
 0.2714285714285714,
 0.5142857142857143,
 0.5714285714285714,
 0.1857142857142857,
 -0.5714285714285714,
 -0.4428571428571429,
 -1.1857142857142857,
 -0.742857142857143,
 -1.4857142857142855,
 -0.7571428571428571,
 1.586032892321652e-17,
 0.38571428571428573,
 0.8857142857142856,
 1.242857142857143,
 1.1999999999999997,
 1.1857142857142857,
 0.9857142857142857,
 0.6285714285714284,
 1.1428571428571428,
 0.2428571428571428,
 0.6285714285714284,
 0.2285714285714285,
 0.9428571428571428,
 0.31428571428571433,
 -0.08571428571428578,
 -0.9857142857142857,
 -0.2285714285714286,
 -0.9285714285714286,
 -0.6571428571428571,
 -0.9999999999999999,
 -1.2714285714285716,
 -0.8285714285714284,
 0.21428571428571433,
 0.21428571428571427,
 0.671428571428571

# 7) ЗАКЛЮЧЕНИЕ  
Давайте объединим все наши методы и создадим скрипт, который выполнит итерацию по каждой цепочке нашей структуры и запустит какой-нибудь стандартный анализ. Создадим пустой контейнер, заполним его словарём ключевой информации для каждой последовательности. После создания такой вложенной структуры мы сможем получать срезы, как и в любом контейнере на Python, отдельных записей.

In [None]:
ppb = PPBuilder()
# Create empty list for chains
all_seqs = []
counter = 1
# For each polypeptide in the structure, run protein analysis methods and store in dict
for pp in ppb.build_peptides(structure):
    seq_info = {} # create an empty dict
    seq = pp.get_sequence() # get the sequence like above
    analyzed_seq = ProteinAnalysis(str(seq)) # needs to be a str
    # Specify dict keys and values
    seq_info ['Sequence Number'] = counter # set sequence id
    seq_info['Sequence'] = seq # store BioPython Seq() object
    seq_info['Sequence Length'] = len (seq) # length of seq
    seq_info['Molecular Weight'] = analyzed_seq.molecular_weight ()
    seq_info['GRAVY'] = analyzed_seq.gravy() # hydrophobicity
    seq_info['AA Count'] = analyzed_seq.count_amino_acids ()
    seq_info['AA Percent'] = analyzed_seq.get_amino_acids_percent ()
    # tuple of (helix, turn, sheet)
    seq_info['Secondary Structure'] = analyzed_seq.secondary_structure_fraction()
    # Update all seqs list and increase counter
    all_seqs.append(seq_info)
    counter += 1

Выбор первой последовательности возвращает словарь с нашими анализами и значениями!

In [None]:
all_seqs[0] # select the first sequence

{'Sequence Number': 1,
 'Sequence': Seq('SNDIYFNFQRFNETNLILQRDASVSSSGQLRLTNLN'),
 'Sequence Length': 36,
 'Molecular Weight': 4176.516699999999,
 'GRAVY': -0.561111111111111,
 'AA Count': {'A': 1,
  'C': 0,
  'D': 2,
  'E': 1,
  'F': 3,
  'G': 1,
  'H': 0,
  'I': 2,
  'K': 0,
  'L': 5,
  'M': 0,
  'N': 6,
  'P': 0,
  'Q': 3,
  'R': 3,
  'S': 5,
  'T': 2,
  'V': 1,
  'W': 0,
  'Y': 1},
 'AA Percent': {'A': 0.027777777777777776,
  'C': 0.0,
  'D': 0.05555555555555555,
  'E': 0.027777777777777776,
  'F': 0.08333333333333333,
  'G': 0.027777777777777776,
  'H': 0.0,
  'I': 0.05555555555555555,
  'K': 0.0,
  'L': 0.1388888888888889,
  'M': 0.0,
  'N': 0.16666666666666666,
  'P': 0.0,
  'Q': 0.08333333333333333,
  'R': 0.08333333333333333,
  'S': 0.1388888888888889,
  'T': 0.05555555555555555,
  'V': 0.027777777777777776,
  'W': 0.0,
  'Y': 0.027777777777777776},
 'Secondary Structure': (0.3333333333333333,
  0.3333333333333333,
  0.19444444444444445)}

Можно легко выбирать конкретные значения.

In [None]:
all_seqs [0][ 'Sequence']
# Seq('SNDIYFFQRFNETLILQRDASVSSSGQLRLTLN')

Seq('SNDIYFNFQRFNETNLILQRDASVSSSGQLRLTNLN')

In [None]:
all_seqs [0]['Molecular Weight']
# 4176.52

4176.516699999999