## Занятие 6: Гомологичное моделирование комплекса белка с лигандом

### Лев Мазаев, мАДБМ18

In [1]:
import sys
import modeller
import _modeller
import modeller.automodel
import nglview as nv
from IPython.display import HTML
from ipywidgets import VBox

_ColormakerRegistry()

In [2]:
env = modeller.environ()
env.io.hetatm = True
modeller.log.none() # отключим лог


                         MODELLER 9.23, 2019/10/22, r11522

     PROTEIN STRUCTURE MODELLING BY SATISFACTION OF SPATIAL RESTRAINTS


                     Copyright(c) 1989-2019 Andrej Sali
                            All Rights Reserved

                             Written by A. Sali
                               with help from
              B. Webb, M.S. Madhusudhan, M-Y. Shen, G.Q. Dong,
          M.A. Marti-Renom, N. Eswar, F. Alber, M. Topf, B. Oliva,
             A. Fiser, R. Sanchez, B. Yerkovich, A. Badretdinov,
                     F. Melo, J.P. Overington, E. Feyfant
                 University of California, San Francisco, USA
                    Rockefeller University, New York, USA
                      Harvard University, Cambridge, USA
                   Imperial Cancer Research Fund, London, UK
              Birkbeck College, University of London, London, UK


Kind, OS, HostName, Kernel, Processor: 4, Linux MS7922 4.15.0-70-generic x86_64
Date and time of compilation 

Скачаем структуру белка лизоцима форели:

In [3]:
! wget -nv -nc https://www.pdb.org/pdb/files/1lmp.pdb

Выбранная последовательность - [лизоцим кабана (Sus scrofa)](https://www.uniprot.org/uniprot/P12068). Скачаем:

In [4]:
! wget -nv -nc https://www.uniprot.org/uniprot/P12068.fasta

Создадим объект-выравнивание:

In [5]:
alignm = modeller.alignment(env)

Добавим последовательность и структуру:

In [6]:
# Добавляем последовательность:
alignm.append(file='P12068.fasta', align_codes='all', alignment_format='FASTA')
# Создаём модель на основе структуры:
mdl = modeller.model(env, file='1lmp.pdb', model_segment=('FIRST:'+'A', 'LAST:'+'A'))
# Добавляем модель
alignm.append_model(mdl, atom_files='1lmp.pdb', align_codes='1lmpA')
# Меняем идентификатор последовательности 
alignm[0].code = 'lys_pig'

Сделаем выравнивание, сохраним результат и посмотрим, что получилось:

In [7]:
alignm.salign()
alignm.write(file='all_in_one.ali', alignment_format='PIR')
! cat 'all_in_one.ali'


>P1;lys_pig
sequence::     : :     : :::-1.00:-1.00
MKTLLVLALLLLSVSVQAKVYDRCEFARILKKSGMDGYRGVSLANWVCLAKWESDFNTKAINHNV-GSTDYGIFQ
INSRYWCNDGKTPKAVNACHISCKVLLDDDLSQDIECAKRVVRDPLGVKAWVAWRAHCQNKDVSQYIRGCKL---*

>P1;1lmpA
structureX:1lmp.pdb:   1 :A:+132 :A:MOL_ID  1; MOLECULE  LYSOZYME; CHAIN  A; SYNONYM  MUCOPEPTIDE N-ACETYLMURAMYLHYDROLASE; EC  3.2.1.17:MOL_ID  1; ORGANISM_SCIENTIFIC  ONCORHYNCHUS MYKISS; ORGANISM_COMMON  RAINBOW TROUT; ORGANISM_TAXID  8022; ORGAN  KIDNEY: 2.00: 0.16
------------------KVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGSTDYGIFQ
INSRYWCDDGRTPGAKNVCGIRCSQLLTDDLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQDLRSYVAGCGV...*


Видим, что в последовательности структуры недостаёт более десятка аминокислот с N-конца. Запишем выравнивание также в формате PAP:

In [8]:
alignm.write(file='all_in_one.pap', alignment_format='PAP')
! cat 'all_in_one.pap'

 _aln.pos         10        20        30        40        50        60
lys_pig   MKTLLVLALLLLSVSVQAKVYDRCEFARILKKSGMDGYRGVSLANWVCLAKWESDFNTKAINHNV-GS 
1lmpA     ------------------KVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATNRNTDGS 
 _consrvd                   ******* ** ** ****** * ** ***** ****  ** * * *  **

 _aln.p   70        80        90       100       110       120       130
lys_pig   TDYGIFQINSRYWCNDGKTPKAVNACHISCKVLLDDDLSQDIECAKRVVRDPLGVKAWVAWRAHCQNK 
1lmpA     TDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTDDLTVAIRCAKRVVLDPNGIGAWVAWRLHCQNQ 
 _consrvd ************** ** ** * * * * *  ** ***   * ****** ** *  ****** ****

 _aln.pos  140       150
lys_pig   DVSQYIRGCKL--- 
1lmpA     DLRSYVAGCGV... 
 _consrvd *   *  **


Построим 2 разных модели лизоцима кабана на основе выравнивания:

In [9]:
s = alignm[0]
pdb = alignm[1]
print(s.code, pdb.code)

lys_pig 1lmpA


In [10]:
a = modeller.automodel.automodel(env, alnfile='all_in_one.ali', knowns=pdb.code, sequence=s.code)
a.name = 'mod' + s.code
a.starting_model = 1
a.ending_model = 2
a.make()

0 atoms in HETATM/BLK residues constrained
to protein atoms within 2.30 angstroms
and protein CA atoms within 10.00 angstroms
0 atoms in residues without defined topology
constrained to be rigid bodies

>> Summary of successfully produced models:
Filename                          molpdf
----------------------------------------
lys_pig.B99990001.pdb          858.46191
lys_pig.B99990002.pdb          826.86090



Вторая модель лучше, так как значение целевой функции `molpdf` ниже.

Визуализируем полученные структуры (первые две - полученные нами модели, третья - структура 1LMP):

In [11]:
def viewer(*args):
    models = []
    for pdb in args:
        v = nv.show_structure_file(pdb)
        v.representations = [
            {"type": "cartoon", "params": {"sele": "protein", "color": "residueindex"}},
            {"type": "ball+stick", "params": {"sele": "ligand"}}
        ]
        models.append(v)
    return(VBox(models))

view1 = viewer('lys_pig.B99990001.pdb', 'lys_pig.B99990002.pdb', '1lmp.pdb')
view1

VBox(children=(NGLWidget(), NGLWidget(), NGLWidget()))

Как можем заметить, у полученных моделей хвост N-конца гораздо длиннее, чем у исходной 1LMP. Также в полученных моделях отсутствует лиганд.

Как до этого мы видели в выравнивании, последние 3 символа 1LMP - не аминокислоты:

In [12]:
pdb.residues[len(pdb)-3:len(pdb)]

[Residue 130:A (type NAG), Residue 131:A (type NAG), Residue 132:A (type NDG)]

Дополним последовательность *lys_pig* лигандом (в виде точек) и добавим в выравнивание:

In [13]:
seq = ''.join(aa.code for aa in s.residues) + '...'
alignm.append_sequence(seq)
alignm[2].code = 'lys_pig_ligand'

Сделаем выравнивание и посмотрим, что получилось:

In [14]:
alignm.salign()
alignm.write(file='all_in_one_ligand.ali', alignment_format='PIR')
alignm.write(file='all_in_one_ligand.pap', alignment_format='PAP')
! cat 'all_in_one_ligand.pap'

 _aln.pos               10        20        30        40        50        60
lys_pig         MKTLLVLALLLLSVSVQAKVYDRCEFARILKKSGMDGYRGVSLANWVCLAKWESDFNTKAIN 
1lmpA           ------------------KVYDRCELARALKASGMDGYAGNSLPNWVCLSKWESSYNTQATN 
lys_pig_ligand  MKTLLVLALLLLSVSVQAKVYDRCEFARILKKSGMDGYRGVSLANWVCLAKWESDFNTKAIN 
 _consrvd                         ******* ** ** ****** * ** ***** ****  ** * *

 _aln.pos             70        80        90       100       110       120
lys_pig         HNV-GSTDYGIFQINSRYWCNDGKTPKAVNACHISCKVLLDDDLSQDIECAKRVVRDPLGVK 
1lmpA           RNTDGSTDYGIFQINSRYWCDDGRTPGAKNVCGIRCSQLLTDDLTVAIRCAKRVVLDPNGIG 
lys_pig_ligand  HNV-GSTDYGIFQINSRYWCNDGKTPKAVNACHISCKVLLDDDLSQDIECAKRVVRDPLGVK 
 _consrvd        *  **************** ** ** * * * * *  ** ***   * ****** ** *

 _aln.pos          130       140       150
lys_pig         AWVAWRAHCQNKDVSQYIRGCKL--- 
1lmpA           AWVAWRLHCQNQDLRSYVAGCGV... 
lys_pig_ligand  AWVAWRAHCQNKDVSQYIRGCKL... 
 _consrvd       ***

Теперь построим новые модели:

In [15]:
a = modeller.automodel.automodel(env, alnfile='all_in_one_ligand.ali',
                                 knowns=alignm[1].code, sequence=alignm[2].code)
a.name = 'mod' + alignm[2].code
a.starting_model = 1
a.ending_model = 2
a.make()

43 atoms in HETATM/BLK residues constrained
to protein atoms within 2.30 angstroms
and protein CA atoms within 10.00 angstroms
43 atoms in residues without defined topology
constrained to be rigid bodies

>> Summary of successfully produced models:
Filename                          molpdf
----------------------------------------
lys_pig_ligand.B99990001.pdb     1085.05090
lys_pig_ligand.B99990002.pdb     1010.39117



Вторая модель лучше, так как значение целевой функции molpdf ниже.

Визуализируем полученные структуры (первые две - полученные нами модели, третья - структура 1LMP):

In [16]:
view2 = viewer('lys_pig_ligand.B99990001.pdb', 'lys_pig_ligand.B99990002.pdb', '1lmp.pdb')
view2

VBox(children=(NGLWidget(), NGLWidget(), NGLWidget()))

### Раздел с загрузкой виджетов

Для того, чтобы виджеты правильно отображались в HTML-версии ноутбука, надо выгрузить их во внешний HTML-файл, а затем загрузить заново. При этом один из виджетов отобразится повторно. Убрать повтор, к сожалению, не получается, поэтому вся процедура описана в конце, чтобы не портить часть с выкладками.

In [17]:
nv.write_html('view1.html', [view1])

In [18]:
HTML('view1.html')