# Урок 3. Data Science: разработке и тестировании лекарств

## Домашнее задание.

> В онлайн-инструментах (и не только) используются данные о химических веществах в формате SMILES. Обычно он используется для описания структуры химических молекул. SMILES - это аббревиатура от Simplified Molecular Input Line Entry Specification.
Все основные данные о веществах можно найти в базе данных PubChem. PubChem в основном содержит небольшие молекулы, но также и более крупные молекулы, такие как нуклеотиды, углеводы, липиды, пептиды и химически модифицированные макромолекулы. Также есть информация о химических структурах, идентификаторах, химических и физических свойствах, биологической активности, патентах, данных о здоровье, безопасности, токсичности и многом другом.
Некоторые инструменты для предсказания мишеней:
> - **SwissTargetPrediction** - позволяет оценить наиболее вероятные макромолекулярные мишени небольшой молекулы, предполагаемой как биологически активная. Предсказание основано на сочетании двухмерного и трехмерного сходства с библиотекой из 370 000 известных активных веществ для более чем 3000 белков трех разных видов.
> - **Super-PRED** - веб-сервер прогнозирования соединений, основанный на модели машинного обучения с использованием логистической регрессии.
>- **Tools4miRs** - представляет собой веб-мета-сервер прогнозирования целей, включающий определяемые пользователем методы прогнозирования целей при анализе предоставленных пользователями данных.

### Задание:  
Найдите в интернете лекарство, вышедшее из употребления, сделайте поиск его структуры по химическим базам данных. Затем с помощью одного из описанных выше тулов предскажите мишени для этого лекарства. Изучите найденные мишени и предположите, какие заболевания может лечить данное лекарство при взаимодействии с предсказанными мишенями.


In [2]:
import pandas as pd
import numpy as np
import os
# import tarfile
import pprint
import seaborn as sns 
import matplotlib.pyplot as plt
%matplotlib inline

In [3]:
!chcp 65001

Active code page: 65001


In [4]:
pd.set_option('display.max_rows', None)

**Для изучения инструментов драг-дизайна возьмем лекарственное вещество _Фузафунгин_ (ТМ Биопарокс$^{®}$ (Bioparox$^{®}$), ЛАБОРАТОРИИ СЕРВЬЕ, ФРАНЦИЯ, РУ № П N015629/01). Полипептидный антибиотик для местного применения. Выделен из культуры гриба Fusarium lateritium (штамм 437). Использовался для лечения бактериальных инфекций верхних дыхательных путей. На текущий момент является лекарством с недоказанной эффективностью. Применение запрещено по всему миру**  
  
**Брутто формула: C$_{33}$H$_{57}$N$_3$O$_9$**

![Структура молекулы Фузафунгина](20_3_files/img/Fusafungine.png "Структура молекулы Фузафунгина")  


**В формате SMILES Фузафунгин записан так:**  
CC(C)C1C(=O)OC(C(=O)N(C(C(=O)OC(C(=O)N(C(C(=O)OC(C(=O)N1C)C(C)C)C(C)C)C)C(C)C)C(C)C)C)C(C)C



### Результаты SwissTargetPrediction  
Инструмент выдал 100 возможных мишеней для указанной структуры. У всех мишеней вероятность около `0,05`, что само по себе очень мало. Тем не менее рассмотрим результаты.

In [5]:
os.listdir('20_3_files')

['Fusafungine.png',
 'Indications.csv',
 'PI3K-Akt-signaling-pathway-picture.webp',
 'PI3K-р110_inhibitors.png',
 'PIK3CA_mutation_dispersion.jpg',
 'SwissTargetPrediction.csv',
 'Targets.csv']

In [6]:
stp = pd.read_csv('20_3_files/SwissTargetPrediction.csv', sep=',')
stp

Unnamed: 0,Target,Common name,Uniprot ID,ChEMBL ID,Target Class,Probability*,Known actives (3D/2D)
0,FK506-binding protein 1A,FKBP1A,P62942,CHEMBL1902,Isomerase,0.055648,157 / 83
1,P-glycoprotein 1,ABCB1,P08183,CHEMBL4302,Primary active transporter,0.055648,63 / 1
2,Proteasome Macropain subunit MB1,PSMB5,P28074,CHEMBL4662,Protease,0.055648,58 / 21
3,Cholecystokinin A receptor,CCKAR,P32238,CHEMBL1901,Family A G protein-coupled receptor,0.055648,84 / 0
4,Vasopressin V1a receptor,AVPR1A,P37288,CHEMBL1889,Family A G protein-coupled receptor,0.055648,129 / 0
5,Sodium channel protein type IX alpha subunit,SCN9A,Q15858,CHEMBL4296,Voltage-gated ion channel,0.055648,141 / 0
6,C-C chemokine receptor type 8,CCR8,P51685,CHEMBL4596,Family A G protein-coupled receptor,0.055648,27 / 0
7,Calpain 1,CAPN1 CAPNS1,P07384 P04632,CHEMBL2111357,Protease,0.055648,36 / 0
8,Cholecystokinin B receptor (by homology),CCKBR,P32239,CHEMBL298,Family A G protein-coupled receptor,0.055648,494 / 0
9,Thrombin and coagulation factor X,F10,P00742,CHEMBL244,Protease,0.055648,368 / 0


In [7]:
stp.describe()

Unnamed: 0,Probability*
count,100.0
mean,0.05564795
std,2.7895400000000003e-17
min,0.05564795
25%,0.05564795
50%,0.05564795
75%,0.05564795
max,0.05564795


Вероятность взаимодействия со всеми мишенями одинакова, посмотрим уникальные значения в колонке `'Target'`

In [8]:
pd.set_option('display.max_rows', None)

In [9]:
stp['Target'].value_counts()

Target
FK506-binding protein 1A                                     1
Smoothened homolog   (by homology)                           1
Cyclin-dependent kinase 2/cyclin A                           1
Cyclin-dependent kinase 1/cyclin B                           1
Sodium channel protein type II alpha subunit                 1
Matrix metalloproteinase 14                                  1
Sodium channel protein type V alpha subunit                  1
MAP kinase ERK2                                              1
JAK2/JAK1                                                    1
JAK3/JAK1                                                    1
Phosphodiesterase 11A                                        1
Phosphodiesterase 5A                                         1
Neuropeptide Y receptor type 1                               1
P-glycoprotein 1                                             1
Histone deacetylase 1                                        1
Histone deacetylase 6                           

Все значения в колонке `'Target'` уникальны. Нет возможности выделить какую либо мишень в качестве приоритетеной.
Возможно получится получить информациюи из колонки `'Target Class'`:

In [10]:
stp['Target Class'].value_counts()

Target Class
Family A G protein-coupled receptor           24
Kinase                                        24
Enzyme                                         8
Protease                                       7
Voltage-gated ion channel                      6
Phosphodiesterase                              4
Reader                                         4
Nuclear receptor                               3
Other cytosolic protein                        3
Eraser                                         2
Oxidoreductase                                 2
Membrane receptor                              2
Other ion channel                              1
Family C G protein-coupled receptor            1
Family B G protein-coupled receptor            1
Frizzled family G protein-coupled receptor     1
Isomerase                                      1
Secreted protein                               1
Ligase                                         1
Cytochrome P450                                1
Primary

Наиболее часто встречается класс мишеней G-белок связанных рецепторов семейства А (GPCR), а также Киназы. Офильтруем значения по этим классам.

In [11]:
stp.sort_values(by='Target Class')

Unnamed: 0,Target,Common name,Uniprot ID,ChEMBL ID,Target Class,Probability*,Known actives (3D/2D)
46,Cytochrome P450 1A1 (by homology),CYP1A1,P04798,CHEMBL2231,Cytochrome P450,0.055648,7 / 0
27,Acyl-CoA desaturase (by homology),SCD,O00767,CHEMBL5555,Enzyme,0.055648,46 / 0
48,Isocitrate dehydrogenase [NADP] cytoplasmic,IDH1,O75874,CHEMBL2007625,Enzyme,0.055648,160 / 0
53,PI3-kinase p110-delta subunit,PIK3CD,O00329,CHEMBL3130,Enzyme,0.055648,184 / 0
29,"Carnitine O-palmitoyltransferase 1, liver isoform",CPT1A,P50416,CHEMBL1293194,Enzyme,0.055648,124 / 0
54,PI3-kinase p110-beta subunit,PIK3CB,P42338,CHEMBL3145,Enzyme,0.055648,102 / 0
74,SUMO-activating enzyme,SAE1 UBA2,Q9UBE0 Q9UBT2,CHEMBL2095174,Enzyme,0.055648,11 / 0
55,PI3-kinase p110-gamma subunit,PIK3CG,P48736,CHEMBL3267,Enzyme,0.055648,137 / 0
58,Arachidonate 15-lipoxygenase,ALOX15,P16050,CHEMBL2903,Enzyme,0.055648,29 / 0
61,Histone deacetylase 1,HDAC1,Q13547,CHEMBL325,Eraser,0.055648,225 / 0


Так как с GPCR связывается достаточно большое количество регуляторных агентов, возможно для дальнейшего использования потребуется некоторая модификация молекулы. Либо использование ее в качестве субстрата/транспорта. 

### Результаты Super-PRED  
Инструмент выдает мишени, а также заболевания, связанные с мишенями.

In [12]:
sp_trg = pd.read_csv('20_3_files/Targets.csv', sep=',')
sp_trg

Unnamed: 0,Target Name,ChEMBL-ID,UniProt ID,PDB Visualization,TTD ID,Probability,Model accuracy
0,Cannabinoid CB2 receptor,CHEMBL253,P34972,6KPF,Not Available,95.73%,97.25%
1,Cathepsin D,CHEMBL2581,P07339,4OD9,T67102,91.51%,98.95%
2,G-protein coupled receptor 55,CHEMBL1075322,Q9Y2T6,Not Available,T87670,88.35%,78.15%
3,Nuclear factor NF-kappa-B p105 subunit,CHEMBL3251,P19838,1SVC,Not Available,88.05%,96.09%
4,Transcription intermediary factor 1-alpha,CHEMBL3108638,O15164,4YBM,Not Available,86.87%,95.56%
5,Bloom syndrome protein,CHEMBL1293237,P54132,4O3M,Not Available,84.37%,70.06%
6,Tyrosyl-DNA phosphodiesterase 1,CHEMBL1075138,Q9NUW8,6N0D,Not Available,83.47%,71.22%
7,Acyl coenzyme A:cholesterol acyltransferase,CHEMBL2265,P23141,5A7G,T76369,81.39%,85.94%
8,Cyclophilin A,CHEMBL1949,P62937,4N1M,T47081,80.31%,98.57%
9,Heat shock protein HSP 90-beta,CHEMBL4303,P08238,5FWK,Not Available,80%,96.77%


In [13]:
sp_trg.describe()

Unnamed: 0,Target Name,ChEMBL-ID,UniProt ID,PDB Visualization,TTD ID,Probability,Model accuracy
count,127,127,127,127,127,127,127
unique,127,127,126,104,68,123,100
top,Cannabinoid CB2 receptor,CHEMBL253,Q00535,Not Available,Not Available,57.7%,100%
freq,1,1,2,24,58,2,8


В качестве наиболее вероятной (**Probability**=95,73%; **Model accuracy**=98,95%) мишени Super-PRED выдает каннабиоидный рецептор 2-го типа (CB$_2$), что в теории позволяет рассматривать Фузафунгин в качестве возможного антидепрессанта.

In [14]:
sp_ind = pd.read_csv('20_3_files/Indications.csv', sep=',')
sp_ind

Unnamed: 0,Target Name,ChEMBL-ID,Indication,Probability,Model accuracy
0,Cathepsin D,T67102,Hypertension [ICD-11: BA00-BA04],91.51%,98.95%
1,Cathepsin D,T67102,Multiple sclerosis [ICD-11: 8A40],91.51%,98.95%
2,G-protein coupled receptor 55,T87670,Attention deficit hyperactivity disorder [ICD-...,88.35%,78.15%
3,Acyl coenzyme A:cholesterol acyltransferase,T76369,Acute lymphoblastic leukaemia [ICD-11: 2A85],81.39%,85.94%
4,Acyl coenzyme A:cholesterol acyltransferase,T76369,Arteriosclerosis [ICD-11: BD40],81.39%,85.94%
5,Acyl coenzyme A:cholesterol acyltransferase,T76369,Hypercholesterolaemia [ICD-11: 5C80.0],81.39%,85.94%
6,Acyl coenzyme A:cholesterol acyltransferase,T76369,Hyperlipidaemia [ICD-11: 5C80],81.39%,85.94%
7,Acyl coenzyme A:cholesterol acyltransferase,T76369,Peripheral vascular disease [ICD-11: BD4Z],81.39%,85.94%
8,Acyl coenzyme A:cholesterol acyltransferase,T76369,Peroxisomal disorder [ICD-11: 5C57],81.39%,85.94%
9,Acyl coenzyme A:cholesterol acyltransferase,T76369,Synthesis disorder [ICD-11: 5C52-5C59],81.39%,85.94%


In [15]:
sp_ind.describe()

Unnamed: 0,Target Name,ChEMBL-ID,Indication,Probability,Model accuracy
count,460,460,460,460,460
unique,69,67,235,69,58
top,Platelet-derived growth factor receptor,T53524,Solid tumour/cancer [ICD-11: 2A00-2F9Z],55.66%,71.67%
freq,33,55,30,33,33


In [16]:
sp_ind['Target Name'].value_counts()

Target Name
Platelet-derived growth factor receptor                    33
Serine/threonine-protein kinase mTOR                       33
Androgen Receptor                                          29
Platelet-derived growth factor receptor alpha              22
Indoleamine 2,3-dioxygenase                                20
Cathepsin B                                                19
Neuronal acetylcholine receptor protein alpha-7 subunit    18
Ghrelin receptor                                           18
Cathepsin L                                                18
C-C chemokine receptor type 2                              17
PI3-kinase p110-delta subunit                              15
P2X purinoceptor 7                                         13
Adenosine A2b receptor                                     12
Cyclin-dependent kinase 1/cyclin B1                        11
Histone-lysine N-methyltransferase EZH2                    10
Voltage-gated N-type calcium channel alpha-1B subunit     

В модели "Показания предсказанных мишеней" наиболее часто (n=33 из 460) встречаются рецептор тромбоцитарного фактора роста (PDGFR) и серин-треониновая протеинкиназа мишень Рапамицина млекопитающих (mTOR). Оба белка участвуют во внутриклеточных сигнальных путях при различных видах рака. В качестве наиболее вероятной (Probability=91,51%%; Model accuracy=98,95%) указана мишень Катепсин D, относящаяся к лизосомальным аспартил протеазам.

### Tools4miRs  
Пока не разобрался как пользоваться этим инструментом. Предполагаю, что в него нужно вносить РНК интересующих мишеней. Поиска по веществу не нашел. Возможно не там искал...

__*Комментарии преподавателя:*__<br>
*Дарья Бородко・Преподаватель<br>*

>*Добрый день!  
Спасибо за подробное исследование таблички СвиссТаргет - там можно заметить, что лекарство взаимодействует с несколькими субъединицами PI3 киназы, которая входит в сигнальный каскад нескольких рецепторов. Соответственно было бы неплохо изучить, что это за белок и с какими болезнями ассоциирован.
Очень хорошая работа с суперпред :) Спасибо, было приятно почитать*

__*Ответ:*__<br>
В качестве возможных мишеней указаны ${\alpha, \beta}$ и ${\gamma}$ изоформы каталитической субъединицы `p110` фосфатидилинозитол-3-киназы (PI3K). PI3K является одним из центральных компонентов PI3K/AKT/mTOR внутриклеточного сигнального пути. [Это один из универсальных сигнальных путей, характерных для большинства клеток человека.](https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%B3%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9_%D0%BF%D1%83%D1%82%D1%8C_PI3K/AKT/mTOR "Статья про PI3K/AKT/mTOR путь в Википедии") Он отвечает за уход от апоптоза, рост, пролиферацию клеток, метаболизм. Также у этого сигнального пути есть несколько тканеспецифичных функций, например, в работе сердца.<br>

![PI3K/AKT/mTOR сигнальный путь](20_3_files/img/PI3K-Akt-signaling-pathway-picture.webp "PI3K/AKT/mTOR сигнальный путь")

PI3K состоит из каталитической субъединицы `p110`и регуляторной субъединицы `p55/p85`. PI3K кодируется геном PIK3CA. Мутации в 9 и 20 экзонах этого гена приводят дисрегуляции этого сигнального пути и встречаются в 40% случаев HR+/HER2- подтипа (люминальный А) рака молочной железы.
Экзон 20 кодирует каталитический домен р110${\alpha}$, и мутации в этом домене гена PIK3CA могут прямо стимулировать конститутивную ферментативную активность PI3K. Экзон 9 кодирует хеликазный домен р110${\alpha}$, и мутация в этом домене подавляют ингибирующее взаимодействие N-концевого участка р85 с р110${\alpha}$. Часть более редких мутаций обнаружена в домене, кодирующем N-концевой участок р110${\alpha}$, взаимодействующий с р85. И такой тип мутаций усиливает липидную активность PI3K, но не влияет на образование комплекса р85${\alpha}$ – р110${\alpha}$.

В опухолевых клетках РМЖ определен спектр наиболее характерных изменений в гене PIK3CA, определяющий патологическую активацию каскада PI3K-Akt-mTOR. Высокая частота миссенс-мутаций в 9 и 20 экзонах соответствует аминокислотам E542K и E545K в экзоне 9 хеликазного домена; в экзоне 20 киназного домена – H1047R и H1047L; наиболее частая мутация для люминального А подтипа РМЖ – E545K

![Наиболее частые мутации PIK3CA](20_3_files/img/PIK3CA_mutation_dispersion.jpg "Наиболее частые мутации PIK3CA")

Наличие мутации PIK3CA негативно влияет на прогноз течнаия РМЖ, в частности снижает эффективность проводимой у таких пациентов терапии ингибиторами циклин-зависимых киназ CDK4/6 (ATX L01EF: Рибоциклиб, Палбоциклиб, Абемациклиб) и mTOR-ингибиторами (АТХ L01EG: Эверолимус, Темсиролимус, Ридафоролимус), а также [определяет резистентность опухоли к эндокринной терапии.](http://www.cancergenome.ru/mutations/PIK3CA/ "Статья о PIK3CA мутации на cancergenome.ru")

Существуют селективные и неселективные изоформные ингибиторы PI3K-р110

![Ингибиторы PI3K-р110](20_3_files/img/PI3K-р110_inhibitors.png "Ингибиторы PI3K-р110")

Наиболее селективным является Алпелисиб, однако вследствие блокировки PI3K у пациентов во время терапии может развиваться гипергликемия, так как PI3K в том числе участвует в передаче сигнала от рецептора инсулина.

Также в качестве вероятных мишеней указаны Янус ассоциированные тирозин-киназы `JAK1, JAK2` и  `JAK3`. Взаимодействие Фузафунгина с этими мишенями теоретически можно использовать в терапии некоторых гематологических и ревматологических заболеваний.

С помощью __*Open Targets Platform*__ можно оценить возможность применения для каждой из мишеней в конкретных заболеваниях. Например посмотрим ассоциации для `PI3-kinase p110-delta subunit`:

In [17]:
t = pd.read_table('20_3_files/ENSG00000171608-associated-targets.tsv', sep='\t')
t

Unnamed: 0,name,overallAssociationScore,geneticAssociations,somaticMutations,drugs,pathwaysSystemsBiology,textMining,rnaExpression,animalModels
0,activated PI3K-delta syndrome,0.716276,0.8115735581763673,No data,0.5530481561605719,No data,0.1319225547581372,No data,No data
1,chronic lymphocytic leukemia,0.586896,No data,No data,0.9275686873673528,No data,0.7566251965873855,No data,No data
2,Combined immunodeficiency with facio-oculo-ske...,0.58572,0.7078520799014908,No data,No data,No data,No data,No data,No data
3,follicular lymphoma,0.577536,No data,No data,0.9474975783233379,No data,0.05011956334199855,No data,No data
4,combined immunodeficiency with faciooculoskele...,0.544656,0.7167339716605904,No data,No data,No data,No data,No data,No data
5,neoplasm,0.535175,No data,No data,0.8495810465335822,No data,0.6148244072697148,No data,No data
6,neoplasm of mature B-cells,0.53369,No data,No data,0.877879651882006,No data,No data,No data,No data
7,non-Hodgkins lymphoma,0.492722,No data,No data,0.8044921109167423,No data,0.11995791322470374,No data,No data
8,lymphoma,0.479517,No data,No data,0.7887692726165269,No data,No data,No data,No data
9,marginal zone B-cell lymphoma,0.462899,No data,No data,0.7599134970145264,No data,0.030396539880581056,No data,No data


__*Комментарии преподавателя:*__<br>
*Дарья Бородко・Преподаватель<br>*

>Добрый день!<br>
Спасибо за подробное исследование таблички СвиссТаргет - там можно заметить, что лекарство взаимодействует с несколькими субъединицами PI3 киназы, которая входит в сигнальный каскад нескольких рецепторов. Соответственно было бы неплохо изучить, что это за белок и с какими болезнями ассоциирован.  
Очень хорошая работа с суперпред :) Спасибо, было приятно почитать

~__**Исправлено**__~