# Алгоритмы в хемоинформатике, второе занятие
1. Введение (rdkit, Chem, Mol)
2. Создание молекул
3. Сохранение молекул
4. Задачи
5. Дополнительные материалы

## 1. Введение

Rational design kit (**rdkit**) -- открытая библиотека для решения хемоинформатических задач, доступная, в частности, на Python. Автор -- Greg Landrum (https://github.com/greglandrum).

Начнем изучение с модуля **Chem**, который содержит базовый функционал для работы с молекулами.

In [1]:
from rdkit import Chem

Один из основных классов -- класс **Mol**, с помощью которого можно создавать представления молекул. Создадим пустой объект этого класса:

In [2]:
empty_molecule = Chem.Mol()

Взглянем на публичные атрибуты объекта:

In [3]:
print(', '.join(filter(lambda x: not x.startswith('_'), dir(empty_molecule))))

AddConformer, ClearComputedProps, ClearProp, Debug, GetAromaticAtoms, GetAtomWithIdx, GetAtoms, GetAtomsMatchingQuery, GetBondBetweenAtoms, GetBondWithIdx, GetBonds, GetBoolProp, GetConformer, GetConformers, GetDoubleProp, GetIntProp, GetNumAtoms, GetNumBonds, GetNumConformers, GetNumHeavyAtoms, GetProp, GetPropNames, GetPropsAsDict, GetRingInfo, GetSubstructMatch, GetSubstructMatches, GetUnsignedProp, HasProp, HasSubstructMatch, NeedsUpdatePropertyCache, RemoveAllConformers, RemoveConformer, SetBoolProp, SetDoubleProp, SetIntProp, SetProp, SetUnsignedProp, ToBinary, UpdatePropertyCache


Вызывать какие-либо функции на пустой молекуле нет смысла, поэтому посмотим, как можно создавать молекулы из каких-нибудь представлений.

## 2. Создание молекул

В модуле **Chem** есть функции для создания объектов молекул из множества представлений:

In [4]:
print(', '.join(filter(lambda x: x.startswith('MolFrom'), dir(Chem))))

MolFromFASTA, MolFromHELM, MolFromInchi, MolFromMol2Block, MolFromMol2File, MolFromMolBlock, MolFromMolFile, MolFromPDBBlock, MolFromPDBFile, MolFromSequence, MolFromSmarts, MolFromSmiles, MolFromTPLBlock, MolFromTPLFile


In [5]:
aspirin_smiles = 'O=C(C)Oc1ccccc1C(=O)O'
aspirin = Chem.MolFromSmiles(aspirin_smiles)

In [6]:
atoms = list(aspirin.GetAtoms())              # список атомов
bonds = list(aspirin.GetBonds())              # список связей
ar_atoms = list(aspirin.GetAromaticAtoms())   # список ароматических атомов
first_atom = aspirin.GetAtomWithIdx(0)        # атом по индексу
first_bond = aspirin.GetBondWithIdx(0)        # связь по индексу
bond_0_1 = aspirin.GetBondBetweenAtoms(0, 1)  # связь между атомами

Публичные атрибуты атома:

In [7]:
print(', '.join(filter(lambda x: not x.startswith('_'), dir(first_atom))))

ClearProp, DescribeQuery, GetAtomMapNum, GetAtomicNum, GetBonds, GetBoolProp, GetChiralTag, GetDegree, GetDoubleProp, GetExplicitValence, GetFormalCharge, GetHybridization, GetIdx, GetImplicitValence, GetIntProp, GetIsAromatic, GetIsotope, GetMass, GetMonomerInfo, GetNeighbors, GetNoImplicit, GetNumExplicitHs, GetNumImplicitHs, GetNumRadicalElectrons, GetOwningMol, GetPDBResidueInfo, GetProp, GetPropNames, GetPropsAsDict, GetSmarts, GetSymbol, GetTotalDegree, GetTotalNumHs, GetTotalValence, GetUnsignedProp, HasProp, HasQuery, InvertChirality, IsInRing, IsInRingSize, Match, NeedsUpdatePropertyCache, SetAtomMapNum, SetAtomicNum, SetBoolProp, SetChiralTag, SetDoubleProp, SetFormalCharge, SetHybridization, SetIntProp, SetIsAromatic, SetIsotope, SetMonomerInfo, SetNoImplicit, SetNumExplicitHs, SetNumRadicalElectrons, SetProp, SetUnsignedProp, UpdatePropertyCache


Публичные атрибуты связи:

In [8]:
print(', '.join(filter(lambda x: not x.startswith('_'), dir(first_bond))))

ClearProp, DescribeQuery, GetBeginAtom, GetBeginAtomIdx, GetBondDir, GetBondType, GetBondTypeAsDouble, GetBoolProp, GetDoubleProp, GetEndAtom, GetEndAtomIdx, GetIdx, GetIntProp, GetIsAromatic, GetIsConjugated, GetOtherAtom, GetOtherAtomIdx, GetOwningMol, GetProp, GetPropNames, GetPropsAsDict, GetSmarts, GetStereo, GetStereoAtoms, GetUnsignedProp, GetValenceContrib, HasProp, HasQuery, IsInRing, IsInRingSize, Match, SetBondDir, SetBondType, SetBoolProp, SetDoubleProp, SetIntProp, SetIsAromatic, SetIsConjugated, SetProp, SetStereo, SetStereoAtoms, SetUnsignedProp


In [9]:
print('First atom details.')
print('\tSymbol: {}'.format(first_atom.GetSymbol()))
print('\tIndex: {}'.format(first_atom.GetIdx()))
print('\tAtomic number: {}'.format(first_atom.GetAtomicNum()))
print('\tDegree: {}'.format(first_atom.GetDegree()))
print('\tMass: {}'.format(first_atom.GetMass()))
print('\tCharge: {}'.format(first_atom.GetFormalCharge()))
print('\tIs aromatic? {}'.format(first_atom.GetIsAromatic()))
print('\tTotal valence: {}'.format(first_atom.GetTotalValence()))
print('\tExplicit valence: {}'.format(first_atom.GetExplicitValence()))
print('\tImplicit valence: {}'.format(first_atom.GetImplicitValence()))

First atom details.
	Symbol: O
	Index: 0
	Atomic number: 8
	Degree: 1
	Mass: 15.999
	Charge: 0
	Is aromatic? False
	Total valence: 2
	Explicit valence: 2
	Implicit valence: 0


In [10]:
print('First bond details.')
print('\tBegin atom symbol: {}'.format(first_bond.GetBeginAtom().GetSymbol()))
print('\tEnd atom symbol: {}'.format(first_bond.GetEndAtom().GetSymbol()))
print('\tBond type: {}'.format(first_bond.GetBondType()))
print('\tIs bond in ring? {}'.format(first_bond.IsInRing()))

First bond details.
	Begin atom symbol: O
	End atom symbol: C
	Bond type: DOUBLE
	Is bond in ring? False


Эту же молекулу (https://en.wikipedia.org/wiki/Aspirin) можно создать из представления **InChi**:

In [11]:
aspirin_inchi = 'InChI=1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12)'
aspirin2 = Chem.MolFromInchi(aspirin_inchi)

## 3. Сохранение молекул

Аналогично созданию молекул из некоторого представления, можно получать представление молекул. В модуле **Chem** для этого есть множество функций:

In [12]:
print(', '.join(filter(lambda x: x.startswith('MolTo'), dir(Chem))))

MolToFASTA, MolToHELM, MolToInchi, MolToInchiAndAuxInfo, MolToMolBlock, MolToMolFile, MolToPDBBlock, MolToPDBFile, MolToSVG, MolToSequence, MolToSmarts, MolToSmiles, MolToTPLBlock, MolToTPLFile


In [13]:
print('Aspirin (SMILES): {}'.format(Chem.MolToSmiles(aspirin)))
print('Aspirin (InChi): {}'.format(Chem.MolToInchi(aspirin)))
print(Chem.MolToInchi(aspirin) == aspirin_inchi)

Aspirin (SMILES): CC(=O)Oc1ccccc1C(=O)O
Aspirin (InChi): InChI=1S/C9H8O4/c1-6(10)13-8-5-3-2-4-7(8)9(11)12/h2-5H,1H3,(H,11,12)
True


Попробуем получить представление молекулы в виде таблицы связей:

In [14]:
conn_table = Chem.MolToMolBlock(aspirin)
print(conn_table)


     RDKit          

 13 13  0  0  0  0  0  0  0  0999 V2000
    0.0000    0.0000    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    0.0000    0.0000    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
  1  2  2  0
  2  3  1  0
 

Все координаты равны 0. Чтобы вычислить координаты, нужно использовать модуль **AllChem**, который предоставляет больше функционала, чем модуль **Chem**:

In [15]:
from rdkit.Chem import AllChem

In [16]:
AllChem.Compute2DCoords(aspirin)
conn_table2 = Chem.MolToMolBlock(aspirin)
print(conn_table2)


     RDKit          2D

 13 13  0  0  0  0  0  0  0  0999 V2000
   -3.0122    1.1850    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
   -2.6987   -0.2818    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -3.8123   -1.2868    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -1.2716   -0.7438    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
   -0.1580    0.2612    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
   -0.4715    1.7281    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    0.6420    2.7330    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    2.0691    2.2711    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    2.3827    0.8043    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.2691   -0.2007    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    1.5826   -1.6676    0.0000 C   0  0  0  0  0  0  0  0  0  0  0  0
    3.0097   -2.1295    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
    0.4690   -2.6725    0.0000 O   0  0  0  0  0  0  0  0  0  0  0  0
  1  2  2  0
  2  3  1  0

Молекулу можно сохранить в файл в виде таблицы связей:

In [17]:
Chem.MolToMolFile(aspirin, 'aspirin.mol')

Или в виде изображения (для этого нужен отдельный модуль **Draw**):

In [18]:
from rdkit.Chem import Draw

In [19]:
Draw.MolToFile(aspirin, 'aspirin.png')

## 4. Задачи

1. На прошлом занятии проходили несколько весовых схем для молекулярных графов. Написать две функции, принимающие объект молекулы **rdkit**. Первая функция должна возвращать обобщенную матрицу смежности, вторая функция должна возвращать обобщенную матрицу дистанций (схему весов выбрать из списка ниже).
2. Написать функцию, которая принимает объект молекулы **rdkit** и создаёт молекулярный граф **networkx**.

*Весовые схемы:*
- Atomic number weighting scheme (слайд 20)
- Relative electronegativity weighting scheme (слайд 21)
- Atomic radius weighing scheme (слайд 22)
- Resistance distance (нет на слайдах; в качестве матрицы смежности использовать матрицу Лапласа - https://en.wikipedia.org/wiki/Laplacian_matrix, в качестве матрицы дистанции использовать матрицу https://en.wikipedia.org/wiki/Resistance_distance)

## 5. Дополнительные материалы

- Документация SMILES: http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html

- FAQ по InChi: http://www.inchi-trust.org/technical-faq/

- Начало работы с rdkit в Python: http://www.rdkit.org/docs/GettingStartedInPython.html