# Семинар 1 (11.09.2025)
# `PyMol. Основы представления молекул. Синтаксис. Первый взгляд на Uniprot/RCSB и PDB`

# 1. Базы данных белковых структур

## 1.1. RCSB PDB

### Краткая информация
https://www.rcsb.org/ 

**RCSB PDB (RCSB.org, Research Collaboratory for Structural Bioinformatics)** — американский центр обработки данных глобального архива **Protein Data Bank (PDB)** с данными о трехмерной структуре крупных биологических молекул (белков, ДНК и РНК), которые необходимы для исследований и образования в области фундаментальной биологии, здравоохранения, энергетики и биотехнологий.

<img src="Images/rcsb-pdb.png" alt="drawing" style="width:500px;"/> 

*The Vision of the RCSB PDB is to expand the frontiers of fundamental biology, biomedicine, energy sciences, and biotechnology through open and sustainable access to 3D biostructure information stored in the Protein Data Bank (PDB) archive and generated using artificial intelligence/machine complemented with functional and evolutionary insights from trusted external resources.*

Количество структур в PDB растет с каждым годом, в настоящее время их уже больше 240к. 

<img src="Images/pdb_statistics.png" alt="drawing" style="width:500px;"/> 

*PDB Statistics: Overall Growth of Released Structures Per Year  https://www.rcsb.org/stats/growth/growth-released-structures*

PDB содержит структуры: 
* В основном - полученные экспериментально методами рентгеновской кристаллографии (X-ray), ЯМР и криоэлектронной микроскопии (Cryo-EM)
* Computed Structure Models (CSM) из [AlphaFold DB](https://alphafold.ebi.ac.uk/) и [ModelArchive](https://modelarchive.org/)
* Integrative 3D Structures - полученные комбинацией экспериментальных и вычислительных методов

### Как устроен PDB

* У каждой структуры есть идентификатор (PDB ID) - четыре символа: цифры и заглавные буквы. Например, белок 8U4D

* Примечание: 4-значные коды заканчиваются, поэтому появился 8-значный код (extended PDB ID code - 00008u4d)

* Пример: https://www.rcsb.org/structure/8U4D

### Формат файлов PDB

Файл структуры содержит координаты центров атомов (в некоторой произвольной системе координат) и сопровождающую информацию

<img src="Images/Pdb-file-format.png" alt="drawing" style="width:500px;"/> 

In [1]:
! awk 'NR >= 4193 && NR <= 4200' Data/8U4D.pdb

ATOM   3183  HB2 LEU A 381     111.990 165.350 110.524  1.00 71.21           H  
ATOM   3184  HB3 LEU A 381     111.130 165.585 111.831  1.00 71.21           H  
ATOM   3185  HG  LEU A 381     113.389 167.079 111.067  1.00 71.21           H  
ATOM   3186 HD11 LEU A 381     111.906 168.877 110.948  1.00 71.21           H  
ATOM   3187 HD12 LEU A 381     110.709 167.903 111.323  1.00 71.21           H  
ATOM   3188 HD13 LEU A 381     111.476 167.723 109.944  1.00 71.21           H  
ATOM   3189 HD21 LEU A 381     112.912 168.409 113.014  1.00 71.21           H  
ATOM   3190 HD22 LEU A 381     113.605 167.011 113.306  1.00 71.21           H  


## 1.2. Uniprot 

https://www.uniprot.org/


**Universal Protein Resource (UniProt)** – это комплексный ресурс данных о последовательностях белков и их аннотациях. Он создан в коллаборации EMBL-EBI (European Bioinformatics Institute), SIB (Swiss Institute of Bioinformatics) и PIR (Protein Information Resource)

<img src="Images/uniprot.png" alt="drawing" style="width:500px;"/> 


### UniProt Knowledgebase (UniProtKB)

* UniProtKB содержит два раздела: 
    * **Swiss-Prot** - карточки белков, проаннотированные вручную экспертами
    * **TrEMBL** -карточки белков, сформированные автоматическими средствами

* В UniProtKB есть информация о белках различных организмов:

    <img src="Images/uniprot_stat.png" alt="drawing" style="width:500px;"/> 

    *https://www.uniprot.org/uniprotkb?groupBy=taxonomy&query=* *



* Карточка белка включает в себя информацию по: 
    * Последовательности
    * Функциям
    * Локализации в клетке
    * Пост-трансляционным модификациям
    * Экспрессии
    * Взаимодействиям белка и т.д



* Идентификаторы белка могут быть двух типов:
    * шесть знаков: цифры и заглавные буквы
    * короткое название белка_организм

    Пример: белок TRPV1 человека - Q8NER1 и TRPV1_HUMAN, мыши - Q704Y3 и TRPV1_MOUSE.

# 2. Работа с PyMOL

**Программы для визуализации 3D структур белков: **


* PyMOL - https://www.pymol.org/ - одна из немногих систем молекулярной визуализации с открытым исходным кодом, пригодная для использования в структурной биологии. Примерно четверть всех публикуемых в научной литературе изображений структур белков сделана с помощью PyMOL.

* UCSF Chimera / ChimeraX - https://www.cgl.ucsf.edu/chimera/ - используется для интерактивной визуализации и анализа молекулярных структур и связанных с ними данных, включая экспериментальные cryo-EM/X-ray плотности, выравнивания последовательностей и траектории молекулярной динамики.

* VMD (Visual Molecular Dynamics)- https://www.ks.uiuc.edu/Research/vmd/ - разработан в основном как инструмент для просмотра и анализа результатов моделирования молекулярной динамики

* web-viewers: Mol* (https://molstar.org/viewer/) / NGL Viewer (https://nglviewer.org/ngl/) и т.д.

## 2.1. Установка PyMOL

* https://www.pymol.org/#download
* https://pymol.org/edu/ - образовательная лицензия

## 2.2. Полезные материалы

* Документация Pymol wiki: 
    * http://pymolwiki.org/ - официальная, работает только через VPN
    * https://wiki.pymol.org/index.php/Main_Page - зеркало

* Файлы в папке Materials на github курса

## 2.3. Краткий список команд

- **Основы управления:**
  - Описание работы с помощью мыши.
  - Описание работы через интерфес и через командную строку.
  - Использование команды `reinitialize` для сброса проекта.
  - Сохранение сессии: `save prac1.pse`.


- **Загрузка файлов:**
  - Команда `fetch 8U4D, rTRPV1`
  - Пример команды `load 8U4D.pdb, rTRPV1`. Указание на необходимость корректных путей к файлам и проблему с русскими буквами


- **Работа с выборками (sele):**
  - https://wiki.pymol.org/index.php/Selection_Algebra
  - `sele res_vbp, model rTRPV1 and resi 511+512+557+570+700 and chain A`
  - `select het, not polymer.protein`
  - `select pi, resn VPN`


- **Улучшение визуализации:**
  - Команда для отображения структуры: `show sticks, rTRPV1`
  - Команда для отображения белка в виде спиралей и листов: `as cartoon, rTRPV1`.
  - Пример более аккуратного отображения цепочки: `show sticks, res_vbp or pi`
  - Скрытие лишнего: `hide (hydro)`, `hide sticks, res_vbp`.


- **Цвета:**
  - https://wiki.pymol.org/index.php/Advanced_Coloring
  - Использование цветов для разных элементов структуры: `color yellow, ss h`, `color purple, ss s`, `color hotpink, pi`.
  - Команда для окрашивания элементов: `util.cnc("all")`, `util.cbac res_vbp`


- **Удаление элементов:**
  - Удаление остатков: `remove resi 177-201`.


- **Измерение расстояний:**
  - Пример измерения расстояния между атомами: `dist dist_pi_511, chain A and pi and name P27, chain A and resi 511 and name CA`.


- **Выравнивание:**
  - Загрузка другого белка: `fetch 8GFA, hTRPV1`.
  - Выравнивание структур: `align hTRPV1 and polymer.protein and chain A, rTRPV1 and polymer.protein and chain A`.


- **Управление сценами:**
  - Сохранение вида: `get_view`, установка сцены: `set_view (...)`.
  - Сохранение сцены: `scene vbp, store`.


- **Рендеринг:**
  - Сохранение изображений: `save test.png`, улучшенное изображение: `ray 1000,1000`, сохранение: `save test_2.png`.


- **Запуск скриптов:**
  - Описание "скриптов Pymol" в .pml файлах
  - Запуск через терминал
      ```
      conda activate pymolenv
      pymol script.pml
      ```
  - Python API `cmd.do('...')`

# 3. Домашнее задание
**Задание 1:** Найти статью, описывающую белок, который вас интересует (предпочтительно тот, который вы планируете использовать в финальном проекте). Ваша задача — выбрать любую картинку из статьи и воссоздать её в Pymol. 
- Нужно прислать:
  - PDF статьи.
  - Номер картинки.
  - Файлы `.png` и `.pse` с вашей репликой картинки в Pymol.
- **Дедлайн:** 25 сентября до начала занятия.
- **Оценка:** 1 балл. За каждую неделю просрочки снимается 0.25 балла.

Пример: повторить картинку из статьи https://doi.org/10.1038/s41467-023-38162-9

<img src="Images/HW.png" alt="drawing" style="width:500px;"/> 


In [2]:
import pymol
from pymol import cmd

In [3]:
cmd.reinitialize()
cmd.fetch('8GFA', path = 'Data/', type='pdb')
cmd.do(f'''
#bg_color white
remove solvent
sele ligand, resn ZEI and chain A
hide everything, not polymer.protein and not ligand 

color palecyan, polymer.protein
color palegreen, resi 580-680
color yellow, ligand
util.cnc

set cartoon_oval_length, 1
show sticks, chain A and resi 511+515+553+547+550
hide sticks, polymer.protein and name C+N+O
hide (hydro)


# center ligand
# origin ligand
# zoom ligand

set_view (\
    -0.474163622,    0.297243327,   -0.828743219,\
     0.870024383,    0.013848366,   -0.492815197,\
    -0.135010451,   -0.954700947,   -0.265173376,\
    -0.000098400,    0.000362176,  -71.312774658,\
   104.876785278,   80.495117188,   91.319892883,\
    52.504722595,   90.134521484,  -20.000000000 )


set ray_trace_mode, 1
set ray_shadow, off
set ray_trace_color, black
ray 1000, 1000
save Data/HW1.png
save Data/HW1.pse
''')

PyMOL>#bg_color white
PyMOL>remove solvent
 Remove: eliminated 105 atoms in model "8GFA".
PyMOL>sele ligand, resn ZEI and chain A
 Selector: selection "ligand" defined with 34 atoms.
PyMOL>hide everything, not polymer.protein and not ligand 
PyMOL>color palecyan, polymer.protein
 Executive: Colored 34628 atoms.
PyMOL>color palegreen, resi 580-680
 Executive: Colored 5052 atoms.
PyMOL>color yellow, ligand
 Executive: Colored 34 atoms.
PyMOL>util.cnc
 Executive: Colored 26682 atoms.
PyMOL>set cartoon_oval_length, 1
 Setting: cartoon_oval_length set to 1.00000.
PyMOL>show sticks, chain A and resi 511+515+553+547+550
PyMOL>hide sticks, polymer.protein and name C+N+O
PyMOL>hide (hydro)
PyMOL># center ligand
PyMOL># origin ligand
PyMOL># zoom ligand
PyMOL>set_view (    -0.474163622,    0.297243327,   -0.828743219,     0.870024383,    0.013848366,   -0.492815197,    -0.135010451,   -0.954700947,   -0.265173376,    -0.000098400,    0.000362176,  -71.312774658,   104.876785278,   80.495117188, 