<a href="https://colab.research.google.com/github/Existanze54/sirius-machine-learning-2025/blob/main/Homeworks/GenTech/HW4_DimRed_Clust_GT25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Домашка 4. Снижение размерности и кластеризация

### imports

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.decomposition import TruncatedSVD

from sklearn.preprocessing import Normalizer
from sklearn.model_selection import train_test_split

from sklearn.pipeline import Pipeline
from sklearn.metrics import silhouette_score

## Задача. Кластеризация молекул

### Подготовка данных

Загрузим датасет [ESOL](https://www.kaggle.com/c/drug-solubility-challenge/data), с которым мы уже работали.

In [None]:
! wget -q https://raw.githubusercontent.com/deepchem/deepchem/master/datasets/delaney-processed.csv

In [None]:
df = pd.read_csv('delaney-processed.csv')
smis = df['smiles']

Чаще всего в датасетах органические молекулы представлены как [SMILES](https://en.wikipedia.org/wiki/Simplified_Molecular_Input_Line_Entry_System) — это простой и (почти) универсальный способ представления молекулярного графа в виде строки. Мы будем конвертировать их в молекулярные фингрепринты — это такое векторное представление молекулы, которое содержит `1` при наличии какого-то подграфа и `0` при его отсутствии.  
<img src="https://www.mdpi.com/pharmaceuticals/pharmaceuticals-16-01259/article_deploy/html/images/pharmaceuticals-16-01259-g005.png" width='750'>

Для этого мы используем библиотеку `datamol`, которая является современной более дружелюбной оберткой над `rdkit`.

In [None]:
! pip -q install datamol

In [None]:
import datamol as dm

X = np.array([dm.to_fp(smi, fp_type='ecfp') for smi in smis])
X

array([[0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 1, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=uint8)

Фингерпринты очень разреженные (это значит, что большинство значений равны нулю). На таких данных лучше работает не обычный `PCA`, а его вариация `TruncatedSVD`. Фингерпринты перед ним можно не нормализовать, а вот после лучше это сделать для облегчения кластеризации. Обращаю ванимание, что нормализуем мы не по столбцам, как обычно, а по строкам.

In [None]:
pipe = Pipeline([
    ('red', TruncatedSVD(n_components=64,
                         random_state=0)),
    ('norm', Normalizer()),
    ('clust', KMeans(max_iter=1000,
                     random_state=0)),
])

### Подбор числа кластеров

Подберите число кластеров в диапазоне $[3, 49]$, оценив коэффициент силуэта (`silhouette_score`) по исходным фингерпринтам с мерой Жаккара (`metric='jaccard'`) на валидационной выборке.

In [None]:
# your code here

### Визуализация

Переобучите `pipe` с лучшим числом кластеров на полном датасете. С помощью `UMAP` снизьте фингерпринты до двух измерений (на полном датасете). Используйте `metric='jaccard'` и остальные параметры по умолчанию. Изобразите результат на диаграмме рассеяния, отметив различные кластера цветом.

In [None]:
from umap.umap_ import UMAP

# your code here

С помощью "ящика с усами" (`plt.boxplot`/`sns.boxplot`) визуализируйте распределение измеренной растворимости (`'measured log solubility in mols per litre'`) в зависимости от кластера.

In [None]:
# your code here

In [None]:
# @title Небольшая функция для рисования молекул
from rdkit import Chem
from rdkit.Chem import Draw
from rdkit.Chem.Draw import IPythonConsole
from rdkit.Chem import rdDepictor
IPythonConsole.drawOptions.minFontSize = 8
IPythonConsole.drawOptions.bondLineWidth = 1.5
IPythonConsole.ipython_useSVG = True
rdDepictor.SetPreferCoordGen(True)

def plot_mol_from_smiles(smi):
    mol = MolFromSmiles(smi)
    return MolToImage(mol)

Используя функцию `plot_mol_from_smiles`, изобразите несколько молекул из кластера с самой низкой средней растворимостью.

In [None]:
# your code here