# Dataset Description

## Overview
Примеры в конкурсном наборе данных представлены бинарной классификацией того, является ли данная малая молекула связывающей для одной из трех целевых белковых молекул. Данные были собраны с использованием технологии химических библиотек, закодированных ДНК (DEL).

Химия представлена с помощью SMILES (упрощенная система записи молекулярных входных линий), а метки - как бинарные классификации связывания, по одной для каждой из трех целевых белковых молекул.

## Files
- **[train/test].[csv/parquet]** - Тренировочные или тестовые данные, доступные в форматах csv и parquet.
  - **id** - Уникальный идентификатор example_id, используемый для идентификации пары молекула-целевая белковая молекула.
  - **buildingblock1_smiles** - Структура первого строительного блока в формате SMILES.
  - **buildingblock2_smiles** - Структура второго строительного блока в формате SMILES.
  - **buildingblock3_smiles** - Структура третьего строительного блока в формате SMILES.
  - **molecule_smiles** - Структура полностью собранной молекулы в формате SMILES. Включает три строительных блока и триазиновое ядро. В качестве замены для ДНК-связующего звена используется [Dy].
  - **protein_name** - Имя целевого белка.
  - **binds** - Целевой столбец. Бинарная метка, указывающая, связывается ли молекула с белком. Недоступно для тестового набора данных.
- **sample_submission.csv** - Образец файла отправки в правильном формате.

## Competition data
Все данные были сгенерированы внутри компании Leash Biosciences. Мы предоставляем примерно 98 миллионов тренировочных примеров на белок, 200 тысяч примеров для валидации на белок и 360 тысяч тестовых молекул на белок. Чтобы проверить обобщаемость, в тестовом наборе содержатся строительные блоки, которых нет в тренировочном наборе. Эти наборы данных сильно несбалансированы: примерно 0.5% примеров классифицируются как связывающие; мы использовали 3 раунда отбора в тройных повторениях для экспериментального выявления связывающих молекул. После конкурса Leash предоставит все данные для будущего использования (3 цели * 3 раунда отбора * 3 повторения * 133 миллиона молекул, или 3.6 миллиарда измерений).

## Targets
Белки кодируются в геноме, и названия генов, кодирующих эти белки, обычно присваиваются их первооткрывателями и регулируются Комитетом по номенклатуре генов Хьюго. Белковые продукты этих генов иногда могут иметь разные названия, часто из-за истории их открытия.

Мы протестировали три целевых белка для этого конкурса.

### EPHX2 (sEH)
Первая цель, эпоксидгидролаза 2, кодируется генетическим локусом EPHX2, и ее белковый продукт обычно называется «растворимая эпоксидгидролаза» или сокращенно sEH. Гидролазы - это ферменты, катализирующие определенные химические реакции, и EPHX2/sEH также гидролизует некоторые фосфатные группы. EPHX2/sEH является потенциальной мишенью для лекарств от высокого кровяного давления и прогрессирования диабета, и малые молекулы, ингибирующие EPHX2/sEH из предыдущих DEL-исследований, дошли до клинических испытаний.

EPHX2/sEH также был протестирован с использованием DEL и результаты были предсказаны с помощью методов машинного обучения, но данные скрининга не были опубликованы. Мы включили EPHX2/sEH, чтобы участники могли проверить производительность моделей, сравнив с ранее опубликованными результатами.

Мы протестировали EPHX2/sEH, приобретенный у Cayman Chemical, коммерческого поставщика продуктов для наук о жизни. Для участников, желающих включить структурную информацию о белке в свои отправки, аминокислотная последовательность составляет позиции 2-555 из UniProt записи P34913, кристаллическая структура представлена в PDB записи 3i28, а предсказанная структура доступна в AlphaFold2 записи 34913. Дополнительные кристаллические структуры EPHX2/sEH с лигандами можно найти в PDB.

### BRD4
Вторая цель, бромодомен 4, кодируется локусом BRD4, и его белковый продукт также называется BRD4. Бромодомены связываются с белковыми шпулями в ядре, вокруг которых обвивается ДНК (называются гистонами), и влияют на вероятность транскрипции находящейся рядом ДНК, производя новые генетические продукты. Бромодомены играют роль в прогрессировании рака, и было обнаружено несколько препаратов, ингибирующих их активность.

BRD4 был ранее протестирован с использованием DEL, но данные скрининга не были опубликованы. Мы включили BRD4, чтобы участники могли оценить кандидатные молекулы для онкологических показаний.

Мы протестировали BRD4, приобретенный у Active Motif, коммерческого поставщика продуктов для наук о жизни. Для участников, желающих включить структурную информацию о белке в свои отправки, аминокислотная последовательность составляет позиции 44-460 из UniProt записи O60885-1, кристаллическая структура (для одного домена) представлена в PDB записи 7USK, а предсказанная структура доступна в AlphaFold2 записи O60885. Дополнительные кристаллические структуры BRD4 с лигандами можно найти в PDB.

### ALB (HSA)
Третья цель, сывороточный альбумин, кодируется локусом ALB, и его белковый продукт также называется ALB. Белковый продукт иногда сокращенно называют HSA, что означает «человеческий сывороточный альбумин». ALB, самый распространенный белок в крови, используется для создания осмотического давления (для возвращения жидкости из тканей в кровеносные сосуды) и для транспортировки множества лигандов, гормонов, жирных кислот и других веществ.

Альбумин, будучи самым распространенным белком в крови, часто играет роль в поглощении кандидатных лекарств в организме и изоляции их от целевых тканей. Корректировка кандидатных лекарств для уменьшения связывания с альбумином и другими белками крови является стратегией для повышения эффективности этих лекарств.

ALB был ранее протестирован с использованием DEL, но данные скрининга не были опубликованы. Мы включили ALB, чтобы участники могли создавать модели, которые могут иметь большое влияние на открытие лекарств для многих заболеваний. Способность хорошо предсказывать связывание ALB позволит разработчикам лекарств быстрее улучшать свои кандидатные малые молекулы, чем путем физического изготовления многих вариантов и их эмпирического тестирования на ALB в итеративном процессе.

Мы протестировали ALB, приобретенный у Active Motif. Для участников, желающих включить структурную информацию о белке в свои отправки, аминокислотная последовательность составляет позиции 25-609 из UniProt записи P02768, кристаллическая структура представлена в PDB записи 1AO6, а предсказанная структура доступна в AlphaFold2 записи P02768. Дополнительные кристаллические структуры ALB с лигандами можно найти в PDB.

## Good luck!


In [None]:
import duckdb
import pandas as pd
from tqdm import tqdm
import matplotlib.pyplot as plt
import os
from joblib import Parallel, delayed
import plotly.graph_objs as go
tqdm.pandas()

from rdkit import Chem
from rdkit.Chem import AllChem, Descriptors, Crippen
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import roc_auc_score, roc_curve
import numpy as np

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

train_path = 'train.parquet'
test_path = 'test.csv'

In [None]:
con = duckdb.connect()

data = con.query(f"""(SELECT *
                        FROM parquet_scan('{train_path}')
                        WHERE binds = 0
                        ORDER BY random()
                        LIMIT 10000)
                        UNION ALL
                        (SELECT *
                        FROM parquet_scan('{train_path}')
                        WHERE binds = 1
                        ORDER BY random()
                        LIMIT 10000)""").df()

data.columns = ["id", "block_1", "block_2", "block_3", "molecule", "protein_name", "binds"]

In [None]:
encoder = OneHotEncoder()
encoded_classes = encoder.fit_transform(data[["protein_name"]])
data[encoder.get_feature_names_out()] = encoded_classes.toarray()
del data
del encoded_classes

In [None]:
count_query = f"""
    SELECT binds, COUNT(*) AS count
    FROM '{train_path}'
    GROUP BY binds
"""

class_counts = con.execute(count_query).fetchdf()
display(class_counts)

In [None]:
def lipophisity(m):
     lipo = Crippen.MolLogP(m)
     return lipo

def rotatable_bonds(m):
     bounds = Descriptors.NumRotatableBonds(m)
     return bounds

def num_h_donors(m):
    h_donors = Descriptors.NumHDonors(m)
    return h_donors

def num_h_acceptors(m):
    h_acceptors = Descriptors.NumHAcceptors(m)
    return h_acceptors

def tpsa(m):
    tps = Descriptors.TPSA(m)
    return tps

def refractivity(m):
    refract = Crippen.MolMR(m)
    return refract

def generate_ecfp(molecule, radius=2, bits=1024):
    if molecule is None:
        return None
    return list(AllChem.GetMorganFingerprintAsBitVect(molecule, radius, nBits=bits))

def get_balanced_batch(con, train_path, limit):
    data = con.query(f"""(SELECT *
                        FROM parquet_scan('{train_path}')
                        WHERE binds = 0
                        ORDER BY random()
                        LIMIT {limit})
                        UNION ALL
                        (SELECT *
                        FROM parquet_scan('{train_path}')
                        WHERE binds = 1
                        ORDER BY random()
                        LIMIT {limit})""").df()
    
    return data

def process_row(row, encoder, properties):
    mol = Chem.MolFromSmiles(row['molecule'])
    ecfp = generate_ecfp(mol)
    row['ecfp'] = ecfp
    
    encoded_classes = encoder.transform([[row["protein_name"]]])
    for feature, value in zip(encoder.get_feature_names_out(), encoded_classes.toarray()[0]):
        row[feature] = value
    
    for key, func in properties.items():
        row[f"molecule_{key}"] = func(mol)
    
    row = row.drop(["block_1", "block_2", "block_3", "protein_name", "id", "molecule"])
    
    return row

def process_dataframe(df, encoder, properties, n_jobs=-1):
    rows = Parallel(n_jobs=n_jobs)(
        delayed(process_row)(row, encoder, properties) for _, row in df.iterrows()
    )
    processed_df = pd.DataFrame(rows)
    return processed_df

def train(model, dataloader, criterion, optimizer):
    model.train()
    for batch_data, batch_labels in dataloader:
        optimizer.zero_grad()
        outputs = model(batch_data)[:, 0]
        loss = criterion(outputs, batch_labels)
        loss.backward()
        optimizer.step()

def update_roc_curve(model, dataloader):
    model.eval()
    val_outputs = []
    val_labels = []

    with torch.no_grad():
        for batch_data, batch_labels in dataloader:
            outputs = model(batch_data)[:, 0]
            val_outputs.extend(outputs.cpu().numpy())
            val_labels.extend(batch_labels.cpu().numpy())
    
    fpr, tpr, _ = roc_curve(val_labels, val_outputs)
    val_auc = roc_auc_score(val_labels, val_outputs)
    
    plt.clf()  # Очищаем текущий график
    plt.plot(fpr, tpr, label=f'ROC curve (area = {val_auc:.2f})')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver Operating Characteristic')
    plt.legend(loc="lower right")
    plt.draw()
    plt.pause(0.001)  # Пауза для обновления графика

In [None]:
properties = {
    "logp": lipophisity,
    "rotatable_bonds": rotatable_bonds,
    "h_donors": num_h_donors,
    "h_acceptors": num_h_acceptors,
    "tpsa": tpsa,
    "refractivity": refractivity,
}

#### Dataset

In [None]:
class CustomDataset(Dataset):
    def __init__(self, data, labels):
        self.data = data
        self.labels = labels

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        with torch.no_grad():
            sample = torch.tensor(self.data[idx], dtype=torch.float32).to("cuda")
            label = torch.tensor(self.labels[idx], dtype=torch.float32).to("cuda")
        return sample, label

#### Model

In [None]:
class Model(nn.Module):

    def __init__(self, middle_inputs) -> None:
        super(Model, self).__init__()

        self.fc1 = nn.LazyLinear(middle_inputs)
        self.fc2 = nn.LazyLinear(middle_inputs * 2)
        self.fc3 = nn.LazyLinear(middle_inputs * 2)
        self.fc4 = nn.LazyLinear(middle_inputs * 2)
        self.fc5 = nn.LazyLinear(middle_inputs // 2)
        self.out = nn.LazyLinear(1)

        self.prelu1 = nn.PReLU()
        self.prelu2 = nn.PReLU()
        self.prelu3 = nn.PReLU()
        self.prelu4 = nn.PReLU()
        self.sigmoid = nn.Sigmoid()
        
        self.dropout = nn.Dropout(p=0.33)

    def forward(self, src):
        src = self.fc1(src)
        src = self.dropout(src)
        src = self.prelu1(self.fc2(src))
        src = self.dropout(src)
        src = self.prelu2(self.fc3(src))
        src = self.dropout(src)
        src = self.prelu3(self.fc4(src))
        src = self.dropout(src)
        src = self.prelu4(self.fc5(src))
        src = self.out(src)
        src = self.sigmoid(src)
        return src

In [None]:
model = Model(middle_inputs=2048).to("cuda")
model.load_state_dict(torch.load("model_weights.pth"))
optimazer = torch.optim.Adam(params=model.parameters(), lr=0.0001)
citeration = nn.BCELoss().to("cuda")

#### Train

In [None]:
con = duckdb.connect()

epochs = 150

for epoch in tqdm(range(epochs)):
    model.train()

    data = get_balanced_batch(con, train_path, 50_000)
    data.columns = ["id", "block_1", "block_2", "block_3", "molecule", "protein_name", "binds"]
    data = process_dataframe(data, encoder, properties, 8)

    X = [ecfp + protein for ecfp, protein in zip(data['ecfp'].tolist(), data.drop(['binds', 'ecfp'], axis=1).values.tolist())]
    y = data['binds'].tolist()
    del data
    
    dataset = CustomDataset(X, y)
    dataloader = DataLoader(dataset, batch_size=10_000, shuffle=True)
    del X
    del y
    
    if epoch % 5 != 0:
        train(model, dataloader, citeration, optimazer)
    else:
        update_roc_curve(model, dataloader)

    model_path = "model_weights.pth"
    torch.save(model.state_dict(), model_path)

#### Submit

In [None]:
for data_test in tqdm(pd.read_csv(test_path, chunksize=100_000)):
    data_test.columns = ["id", "block_1", "block_2", "block_3", "molecule", "protein_name"]
    id = data_test["id"]
    data_test = process_dataframe(data_test, encoder, properties, 8)

    X = [ecfp + protein for ecfp, protein in zip(data_test['ecfp'].values.tolist(), data_test.drop(['ecfp'], axis=1).values.tolist())]
    predictions = []

    dataset = CustomDataset(X, [0 for i in range(len(X))])
    dataloader = DataLoader(dataset, batch_size=10_000, shuffle=False)
    del X
    
    for batch_data, batch_labels in dataloader:
        with torch.no_grad():
            outputs = list(model(batch_data)[:, 0].to("cpu").detach())
            predictions += outputs

    output_df = pd.DataFrame({'id': id, 'binds': predictions})
    output_df["binds"] = output_df["binds"].apply(lambda x: float(x))
    
    output_df.to_csv("submission.csv", index=False, mode='a', header=not os.path.exists("submission.csv"))