# PDB filtering: advanced

# Biopython

# 0. Импорты

In [1]:
import Bio.PDB as pdb
import numpy as np
import pandas as pd

In [2]:
from sidechains.hierarchies import hierarchy_dict
from sidechains.chi_atom_combinations import get_amino_acid_chi_num, get_chi_atoms

In [3]:
# !pip install sqlalchemy
# !pip install PyMySQL

In [4]:
import sqlalchemy
import pymysql

from sqlalchemy import create_engine
from sqlalchemy import Column
from sqlalchemy import ForeignKey
from sqlalchemy import Integer
from sqlalchemy import String
from sqlalchemy import DateTime
from sqlalchemy.orm import declarative_base
from sqlalchemy.orm import relationship
from sqlalchemy.orm import sessionmaker

# 1. Описание подхода  

**Задача:** Создать альтернативную базу белковых структур на основе PDB, которая будет хранить агрегированные данные о белках и их уникалтных характеристиках.  

**План действий:**
1. Анализ PDB
2. Проектирование схемы новой БД
3. Реализация БД
4. Реализация функции заполнения БД / функции фильтрации PDB
5. Тестирование

### Структура новой БД

**Struct**:  
- struct_id - уникальный индефикатор таблицы  
- pdb_struct_id - id структуры эквивалентное id структуры в PDB  
- name - имя структуры  
- date - дата изменения    

**Model**:  
- id - уникальный индефикатор таблицы
- struct_id - id структуры эквивалентный id в PDB  
- model_id - id модели эквивалентное id в PDB  

**Chain**:  
- id - уникальный индефикатор таблицы  
- model_id - id модели эквивалентное id в PDB  
- chain_id - id модели эквивалентное id в PDB  
- length - длина цепочки  

**Feature**:  
- id - уникальный индефикатор таблицы    
- name - наименование уникальной характеристики белка

**FeatureValue**:  
- id - уникальный индефикатор таблицы    
- chain_id - id модели эквивалентное id в PDB  
- feature_id - ссылается на id из таблицы Feature  
- value - индефикатор присутсвия характеристики у белка (1 == True, 0 == False)

# 2. Реализация БД  

За работу с БД будет отвечать питоновская библиотека SQLAlchemy. Она отвечает за синхронизацию объектов Python и записей реляционной базы данных. SQLAlchemy позволяет описывать структуры БД и способы взаимодействия с ними на языке Python без использования SQL. Соответственно, сначала необходимо создать классы сущностей на языке  Python.

## 2.1 Классы для сущностей БД

In [5]:
Base = declarative_base()

In [6]:
class Structure(Base):
    __tablename__ = "Structure"
    
    struct_id = Column(Integer, primary_key=True)
    pdb_struct_id = Column(String(10))
    name = Column(String(250))
    date = Column(DateTime)

In [7]:
class Model(Base):
    __tablename__ = "Model"
    __table_args__ = {'extend_existing': True}
    
    id_ = Column(Integer, primary_key=True)
    model_id = Column(Integer)
    struct_id = Column(Integer, ForeignKey("Structure.struct_id"))

In [8]:
class Chain(Base):
    __tablename__ = "Chain"
    __table_args__ = {'extend_existing': True}
    
    id_ = Column(Integer, primary_key=True)
    model_id = Column(Integer, ForeignKey("Model.id_"))
    chain_id = Column(String(10))
    length = Column(Integer)
   # Feature = relationship("Feature", secondary="FeatureValue")

In [9]:
class Feature(Base):
    __tablename__ = "Feature"
    __table_args__ = {'extend_existing': True}
    
    id_ = Column(Integer, primary_key=True)
    name = Column(String(50))
    #Chain = relationship("Chain", secondary="FeatureValue")

In [10]:
class FeatureValue(Base):
    __tablename__ = "FeatureValue"
    __table_args__ = {'extend_existing': True}
    
    id_ = Column(Integer, primary_key=True)
    chain_id = Column(Integer, ForeignKey("Chain.id_"))
    feature_id = Column(Integer, ForeignKey("Feature.id_"),)
    value = Column(Integer)

## 2.2 Установка соединения с сервером MySql

In [17]:
!docker run --name=mysql -d -p 3306:3306 -e MYSQL_ROOT_PASSWORD=my-secret-pw -e MYSQL_ROOT_HOST=% mysql/mysql-server

2f8c2985f7fbe92a6b85354febd36bd8ed26b346f76acd393d6513129b992381


In [18]:
#проверим, что контейнер запущен
!docker ps 

CONTAINER ID   IMAGE                COMMAND                  CREATED        STATUS                                     PORTS                                     NAMES
2f8c2985f7fb   mysql/mysql-server   "/entrypoint.sh mysq…"   1 second ago   Up Less than a second (health: starting)   0.0.0.0:3306->3306/tcp, 33060-33061/tcp   mysql


In [21]:
#войдем в консоль mysql и создадим бд
! docker exec -it mysql bash -c "mysql -p'my-secret-pw' -e 'create database mydb;'"



In [22]:
# !docker stop mysql && docker rm mysql

## 2.3 Создание таблиц в БД

In [23]:
#подключаемся к бд
engine = create_engine("mysql+pymysql://root:my-secret-pw@localhost:3306/mydb")
engine.connect()

<sqlalchemy.engine.base.Connection at 0x11302f340>

In [24]:
#создаем таблицы
Base.metadata.create_all(engine)

## 2.4 API БД

In [25]:
# инициализируем класс для "общения" с БД
Session = sessionmaker()
Session.configure(bind=engine)

# создадим объект сессии
session = Session()

In [26]:
# функция вставки данных в БД
def add(obj):
    session.add(obj)
    session.commit()

In [27]:
# функция запроса в БД
def query(obj_type, **kwargs):
        return session.query(obj_type).filter_by(**kwargs).first()

#### ~ Небольшой блок тестиков ~

In [28]:
add(Structure(name='fylfyl'))

In [29]:
fetched = query(Structure, name='fylfyl')

print(fetched.name, fetched.date, fetched.struct_id)

fylfyl None 1


In [30]:
print(query(Model, id_=0))

None


# 3. Обработка данных из Protein data bank

## 3.1 Скачивание файла структуры PDB

У библиотеки `biopython` существует класс `PDBList`, который обеспечивает быстрый доступ к спискам состояния структур (устарели, обновлены, добавлены), а также отвечает за взаимодействие с одной или несколькими структурами (скачать файл(ы) структуры PDB, обновить уже имеющийся файл(ы) структуры PDB и тд.) Любое взаимодействие может быть осуществлено через id файла.  
  
Напишем функцию, которая будет принимать список id структур и скачивать соответствующие структуры с сервера PDB на устройство в текущую директорию. Функция возвращает название файла. 

In [31]:
# инициализируем класс PDBList
pdb_list = pdb.PDBList()

In [32]:
def fetch_pdb_structure(pdb_ids):
    pdb_filenames = []
    for pdb_id in pdb_ids:
        filename = pdb_list.retrieve_pdb_file(pdb_id, pdir=".", file_format="pdb")
        print(filename, "\n")
        
        pdb_filenames.append(filename)
    return pdb_filenames

## 3.2 Базовые функции проверки

In [51]:
def has_atom(res, at_name):
    return res.has_id(at_name)

def has_water_in_chain_middle(chain):
    verdict = ""
    for res in chain:
        verdict += "+" if res.resname == "HOH" else "-"
    if "+" not in verdict:
        return False
    if "+-" in verdict and "-+" in verdict:
        return True
    return False

def has_water_in_chain_end(chain):
    verdict = ""
    for res in chain:
        verdict += "+" if res.resname == "HOH" else "-"
    if "+" not in verdict:
        return False
    if verdict[0] == "+" or verdict[-1] == "+":
        return True
    return ans


## 3.3 Продвинутые функции

In [34]:
def has_all_cas(chain):
    for res in chain:
        if not has_atom(res, "CA"):
            return False
    return True

In [35]:
def has_all_backbone(chain):
    for res in chain:
        for at_name in ["N", "CA", "C"]:
            if not has_atom(res, at_name):
                return False
    return True

In [36]:
def has_chi_atoms(res, chi_num):
    if chi_num > get_amino_acid_chi_num(res.resname):
        raise ValueError(f"chi_num {chi_num} > {get_amino_acid_chi_num(res.resname)} = total number of chis!")
    for at in get_chi_atoms(res.resname, chi_num):
        if not has_atom(res, at):
            return False
    return True
    

In [53]:
def has_all_chi_atoms(chain):
    verdicts = [True] * 4
    for ang_num in range(1, 5):
        for res in chain:
            if ang_num > get_amino_acid_chi_num(res.resname):
                continue
            if not has_chi_atoms(res, ang_num):
                verdicts[ang_num - 1] = False
                break
    verdicts += [False not in verdicts]
    return verdicts

In [54]:
feature_func_correspondence = {"has_water_in_middle": has_water_in_chain_middle, 
                                "has_water_in_end": has_water_in_chain_end, 
                               "has_all_cas": has_all_cas, 
                               "has_all_backbone": has_all_backbone,  
                                #"has_all_chi_atoms": has_all_chi_atoms
                              }


## 3.4 Парсер файла структуры PDB

In [55]:
parser = pdb.PDBParser()

def parse_pdb_structure(filename):
    pdb_id = filename[:-4:]
    pdb_id = pdb_id[5::]
    struct = parser.get_structure(pdb_id, filename)
    
    pdb_struct_id = struct.header['idcode'] # id структуры в PDB
    date = struct.header['deposition_date'] # последняя датат изменений структуры 
    name = struct.header['name'] # имя структуры 
    
    class_struct = Structure(pdb_struct_id=pdb_struct_id, name=name, date=date)
    add(class_struct)
    
    for model in struct:
        model_id = model.id
        
        class_model = Model(model_id=model_id, struct_id=class_struct.struct_id)
        add(class_model)
        
        for chain in model:
            chain_id = chain.id
            length = len(chain)
            
            class_chain = Chain(model_id=class_model.id_, chain_id=chain_id, length=length)
            add(class_chain)
            
            for name, func in feature_func_correspondence.items():
                feat = query(Feature, name=name) #смотрим, есть ли такая фича уже в бд
                if feat:
                    feature_id = feat.id_
                else:
                    class_feature = Feature(name=name)
                    add(class_feature)
                    feature_id = class_feature.id_
                
                value = func(chain)
                
                class_feature_value = FeatureValue(chain_id=class_chain.id_, feature_id=feature_id, value=value)
                add(class_feature_value)
            

# 4. Тестирование

In [56]:
test_ids = ["2n8z", "1x4y", "1whj", "2rqm"]

In [57]:
test_filenames = fetch_pdb_structure(test_ids)

Structure exists: './pdb2n8z.ent' 
./pdb2n8z.ent 

Structure exists: './pdb1x4y.ent' 
./pdb1x4y.ent 

Structure exists: './pdb1whj.ent' 
./pdb1whj.ent 

Structure exists: './pdb2rqm.ent' 
./pdb2rqm.ent 



In [58]:
print(test_filenames)

['./pdb2n8z.ent', './pdb1x4y.ent', './pdb1whj.ent', './pdb2rqm.ent']


In [59]:
for f in test_filenames:
    parse_pdb_structure(f)

# 5. Собираем все вместе

Функция `pdb_filtering` принимает кортедж из id структур. 

In [60]:
def pdb_filtering(structs):
    filename_structs = fetch_pdb_structure(structs)
    for f in filename_structs:
        parse_pdb_structure(f)
