# **Тестовое задание**

Уважаемый кандидат!

В рамках данного тестового задания Вам будут предложены исследовательские задачи в области молекулярного моделирования и аналитики биомедицинских данных.
Для выполнения Вы можете использовать любые доступные и удобные Вам инструменты.

Желаем удачи!

## **Введение**  


Сахарный диабет 2 типа часто называют эпидемией XXI века: по некоторым прогнозам к 2030 году каждый десятый человек на планете будет страдать от этого недуга. Одним из подходов к лечению сахарного диабета 2 типа является применение инкретиномиметиков - небольших белковых молекул, являющихся аналогами нативных белков человека и активирующих рецепторы, ответственные за регуляцию функции поджелудочной железы (источника инсулина) и уровня глюкозы в плазме крови. На фармацевтическом рынке широко доступны молекулы этого класса - агонисты GLP-1R - рецептора глюкагоноподобного пептида первого типа. Однако в 2022 году FDA был одобрен новый продукт, призванный произвести революцию в сфере лечения СД2 и ожирения - тирзепатид, обладающий агонизмом как к GLP-1R, так и к GIPR - рецептору глюкозозависимого инсулинотропного полипептида.
В рамках данного задания Вам будут предложены данные о молекулах-кандидатах в лекарственное средство этого класса и возможность выбрать наиболее перспективное для разработки соединение.

## **Задание №1.**  
На первом этапе проекта была сгенерирована библиотека из ~100 тыс. кандидатов в лекарственное средство.

После оценки ряда *in silico* параметров в short-list попали 10 молекул, информация о которых представлена в таблице ниже:

| Lead     | Sequence| Molecular weight, Da| pI | GRAVY | GLP1-R_predicted_activity | GIPR_predicted_activity
| ----------- | ----------- | ----------- | ----------- | ----------- | ----------- | ----------- |
| Lead 1      | VAQGTFTSDYSSYLEPQAAMEFIRNLVKPRG|3476.87|6.15|-0.35|6.31|10.70
| Lead 2      | YAQGTFTSCVSSYLEYQAAKEFIANLVKGRG|3402.78|8.14|-0.09|53.43|29.44|
| Lead 3      | WAEGTETSDVSSYLEGQAAKEFIAWLVKGRG|3386.68|4.59|-0.36|86.72|92.91|
| Lead 4      | YAQGTFTSDYSILLDKKAQAAFIEYLLEGGPSSGAPPPS|4091.48|4.32|-0.19|64.55|15.87
| Lead 5      | YAQGTFTSDYPIMMDVRHQFDFVNHLLEFYGKKRDWQENIQQ|5197.73|5.38|-0.86|13.00|96.20
| Lead 6      | YAQGTYTSDYSIKMDPIHTFDFVCRLLAQRGKSNDVSETPTQ|4785.24|5.47|-0.65|4.73|15.74
| Lead 7      | YAEGTFTSDVSSYLEYQAAKKFIASLVKGGPSSGAPPPS|4009.38|6.18|-0.24|77.79|15.37|
| Lead 8      | YAQGTFTSDYSLYLEGQAAKEFIATLVKGGPSSGAPPPS|4007.37|4.68|-0.23|49.61|94.06|
| Lead 9      | YAEGTNTSDVSSYEEGQAAKEFIAWLVKGGPSSGAPPPS|3986.22|4.25|-0.56|31.10|44.03|
| Lead 10     | HAQGTFTSDYSKYLDEKAAKEFIQWLLQT|3419.75|5.48|-0.69|98.61|94.05|


Метаданные:
*   Lead - идентификатор исследуемой молекулы
*   Sequence - аминокислотная последовательность
*   Molecular weight, Da - молекулярная масса в Да
*   pI - изоэлектрическая точка
*   GRAVY - индекс гидрофобности
*   GLP1-R_predicted_activity - предсказанная клеточная активность в отношении GLP-1R в %, предсказания получены с помощью ранее обученной модели (R^2 = 0.89)
*   GIPR_predicted_activity - предсказанная клеточная активность в отношении GIPR в %, предсказания получены с помощью ранее обученной модели (R^2 = 0.92)

Проанализируйте датасет и сформулируйте научную гипотезу о взаимосвязи предсказанной клеточной активности в отношении рецепторов GLP-1R и GIPR с *in silico* дескрипторами. При необходимости можете оценить дополнительные дескрипторы аминокислотных последовательностей, например, с помощью библиотеки `biopython` (*не является обязательным*).

В поле ниже внесите сформулированную гипотезу и её краткое обоснование.

In [8]:
import pandas as pd

data = {
    'Lead': ['Lead 1', 'Lead 2', 'Lead 3', 'Lead 4', 'Lead 5', 'Lead 6', 'Lead 7', 'Lead 8', 'Lead 9', 'Lead 10'],
    'Sequence': [
        'VAQGTFTSDYSSYLEPQAAMEFIRNLVKPRG',
        'YAQGTFTSCVSSYLEYQAAKEFIANLVKGRG',
        'WAEGTETSDVSSYLEGQAAKEFIAWLVKGRG',
        'YAQGTFTSDYSILLDKKAQAAFIEYLLEGGPSSGAPPPS',
        'YAQGTFTSDYPIMMDVRHQFDFVNHLLEFYGKKRDWQENIQQ',
        'YAQGTYTSDYSIKMDPIHTFDFVCRLLAQRGKSNDVSETPTQ',
        'YAEGTFTSDVSSYLEYQAAKKFIASLVKGGPSSGAPPPS',
        'YAQGTFTSDYSLYLEGQAAKEFIATLVKGGPSSGAPPPS',
        'YAEGTNTSDVSSYEEGQAAKEFIAWLVKGGPSSGAPPPS',
        'HAQGTFTSDYSKYLDEKAAKEFIQWLLQT'
    ],
    'Molecular weight, Da': [
        3476.87, 3402.78, 3386.68, 4091.48, 5197.73, 4785.24, 4009.38, 4007.37, 3986.22, 3419.75
    ],
    'pI': [
        6.15, 8.14, 4.59, 4.32, 5.38, 5.47, 6.18, 4.68, 4.25, 5.48
    ],
    'GRAVY': [
        -0.35, -0.09, -0.36, -0.19, -0.86, -0.65, -0.24, -0.23, -0.56, -0.69
    ],
    'GLP1-R_predicted_activity': [
        6.31, 53.43, 86.72, 64.55, 13.00, 4.73, 77.79, 49.61, 31.10, 98.61
    ],
    'GIPR_predicted_activity': [
        10.70, 29.44, 92.91, 15.87, 96.20, 15.74, 15.37, 94.06, 44.03, 94.05
    ]
}

df = pd.DataFrame(data)
display(df)

Unnamed: 0,Lead,Sequence,"Molecular weight, Da",pI,GRAVY,GLP1-R_predicted_activity,GIPR_predicted_activity
0,Lead 1,VAQGTFTSDYSSYLEPQAAMEFIRNLVKPRG,3476.87,6.15,-0.35,6.31,10.7
1,Lead 2,YAQGTFTSCVSSYLEYQAAKEFIANLVKGRG,3402.78,8.14,-0.09,53.43,29.44
2,Lead 3,WAEGTETSDVSSYLEGQAAKEFIAWLVKGRG,3386.68,4.59,-0.36,86.72,92.91
3,Lead 4,YAQGTFTSDYSILLDKKAQAAFIEYLLEGGPSSGAPPPS,4091.48,4.32,-0.19,64.55,15.87
4,Lead 5,YAQGTFTSDYPIMMDVRHQFDFVNHLLEFYGKKRDWQENIQQ,5197.73,5.38,-0.86,13.0,96.2
5,Lead 6,YAQGTYTSDYSIKMDPIHTFDFVCRLLAQRGKSNDVSETPTQ,4785.24,5.47,-0.65,4.73,15.74
6,Lead 7,YAEGTFTSDVSSYLEYQAAKKFIASLVKGGPSSGAPPPS,4009.38,6.18,-0.24,77.79,15.37
7,Lead 8,YAQGTFTSDYSLYLEGQAAKEFIATLVKGGPSSGAPPPS,4007.37,4.68,-0.23,49.61,94.06
8,Lead 9,YAEGTNTSDVSSYEEGQAAKEFIAWLVKGGPSSGAPPPS,3986.22,4.25,-0.56,31.1,44.03
9,Lead 10,HAQGTFTSDYSKYLDEKAAKEFIQWLLQT,3419.75,5.48,-0.69,98.61,94.05


## **Задание №2.**  

Разработчик согласился проверить вашу гипотезу экспериментально - оценить клеточную активность *in vitro* для всех молекул из short-list. В тестах оценивали параметр EC50 по накоплению в цитоплазме клеток циклического АМФ (цАМФ), вызванному активацией целевых рецепторов. Тесты ставили в 10 независимых повторностях для каждого рецептора, рассчитывали среднее и стандартное отклонение. Результаты представлены ниже:

| Lead     | GLP-1R EC50, нМ| GIPR EC50, нМ|
| ----------- | ----------- | ----------- |
| GLP-1       | 0.0148      | ND          |
| GIP         | ND          | 0.004       |
| Lead 1      | 0.0440      | 0.0146      |
| Lead 2      | 0.0423      | 0.0045      |
| Lead 3      | 0.0174      | 0.0045      |
| Lead 4      | 0.0388      | ND          |
| Lead 5      | 0.0288      | 0.0033      |
| Lead 6      | 0.0941      | 0.0067      |
| Lead 7      | 0.0161      | 0.0226      |
| Lead 8      | 0.0242      | 0.0037      |
| Lead 9      | 0.0158      | 0.0044      |
| Lead 10     | 0.0139      | 0.0036      |

*Примечание. ND - активность экспериментально не определена.*

Проанализируйте экспериментальные данные. Удалось ли подтвердить или опровергнуть вашу гипотезу? Почему?

\## место для Вашего ответа ##

## **Задание №3.**  

На следующем этапе проекта необходимо выбрать молекулы для проведения доклинических исследований *in vivo*. В них на животной модели сахарного диабета будет оцениваться влияние исследуемых соединений на уровень глюкозы и потребление пищи. Поскольку исследования на животных очень ресурсоемкие, Вам предстоит выбрать **одну молекулу** с наибольшим потенциалом для дальнейшей разработки.

В поле ниже укажите номер наиболее перспективного лида и обоснуйте свой выбор.

\## место для Вашего ответа ##

## **Задание №4.**  

Пока коллеги в лаборатории нарабатывают субстанцию для *in vivo* исследований, Вам предстоит завершить *in silico* характеризацию молекулы, выбранной в **Задании №3**.

Используя любые инструменты и источники информации смоделируйте 3D-структуру пептидного лиганда и его комплекса с одним из целевых рецепторов - GLP-1R или GIPR человека (на Ваш выбор). Сохраните полученные структурные файлы: они должны быть приложены к выполненному заданию.

При использовании GoogleColab приведите код в ячейке ниже, при использовании сторонних инструментов - кратко опишите алгоритм, по которому производили моделирование.

\## место для Вашего ответа ##

##**Поздравляем, Вы дошли до самого конца!**  

Пожалуйста, экспортируйте данный ноутбук, содержащий ответы на поставленные вопросы в виде текстовых полей или комментариев к коду, а также приложите к нему:  
- полученную 3D-структуру лиганда,
- 3D-структуру комплекса лиганд-рецептор,
- любые дополнительные файлы, которые посчитаете нужными.  

Если Вы использовали какие-либо инструменты вне данного ноутбука, пожалуйста, убедитесь, что указали их, отвечая на вопросы.