<a href="https://colab.research.google.com/github/SmirnygaTotoshka/FBB_Courses/blob/main/seminar2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Машинное обучение в биологии

### Семинар 2: Основные понятия и простейшие модели машинного обучения

#### Учимся на геномных эмбеддингах. Работа с веществами в Python. Классификация веществ и проблемы разбиения их на обучение и тест.

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

sns.set()
sns.set_style("whitegrid")

### Задача 1: Предсказание растворимости белков

В этой задаче предлагается произвести предсказание растворимости различных белков, используя их физико-химические свойства и белковый состав.

In [None]:
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1KNyRSO87bQF0NFVwHQD2TynthsoplAZO' -O solubility_data.csv

Датасет `solubility_data.csv` загружен за вас, определены `X` и `y`.

In [None]:
sol = pd.read_csv("./solubility_data.csv", header=0, index_col=0)
sol.head(3)

In [None]:
X = sol.iloc[:,1:]
y = sol["solubility"]

**Разбейте X и y на тренировочную и тестовую выборки**, как в лекции. Соотношение train/test поставьте равным 4:1.\
*Подсказка*: воспользуйтесь функцией `train_test_split`.

**Осуществите стандартизацию признаков в выборке**.

**Импортируйте модель регрессии k-NN и обучите ее (`model.fit`)**.\
*Вопрос*: на какой части выборки происходит обучение: тренировочной или тестовой?

**Получите предсказание на оставшейся выборке**. Оцените его качество метриками RMSE, MAE.

Следующая функция строит график зависимости качества на тестовой и тренировочной выборках от параметра модели.\
Измените помеченную строку в функции так, чтобы ее можно было использовать **для построения графика зависимости качества от количества соседей для модели k-NN**.

In [None]:
from sklearn.metrics import mean_squared_error

def make_qual_chart(X_train, X_test, y_train, y_test, metric=mean_squared_error, limit=50):
    train_quals = np.zeros(limit)
    test_quals = np.zeros(limit)
    param_range = np.arange(1, limit + 1)
    
    for ind, value in enumerate(param_range):
        ### CHANGE THE NEXT LINE!
        model = None
        # FIT
        model.fit(X_train, y_train)
        # PREDICT
        y_train_pred = model.predict(X_train)
        y_test_pred = model.predict(X_test)
        # EVALUATE QUALITY
        train_quals[ind] = metric(y_true=y_train, y_pred=y_train_pred)
        test_quals[ind] = metric(y_true=y_test, y_pred=y_test_pred)
    
    # baseline = metric(y_true=y_test, y_pred=np.full_like(y_test, y_train.mean()))
    
    # TRACING CHART
    plt.figure(figsize=(10, 7))
    plt.plot(param_range, train_quals, label="Train")
    plt.plot(param_range, test_quals, label="Test")
    # plt.axhline(baseline, color="k", ls="--", lw=1.5, label="Baseline")
    plt.legend()
    plt.show()
    return param_range, train_quals, test_quals

Сделайте вывод о том, **какое число соседей является оптимальным для данной задачи**.

### Задача 2: Обучение на геномных эмбеддингах

В этой задаче предлагается произвести трехклассовую классификацию разных однонуклеотидных замен в ДНК, основываясь на их нейросетевых геномных эмбеддингах.

In [None]:
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1RDTcTnhOcMX4DnJbzdPalWENNFtXi2r8' -O tfs_deepsea.csv

Загрузите датасет `tfs_deepsea.csv`, в качестве `y` используйте колонку `Direction`, в качестве `X` - все колонки, начиная с девятой.

In [None]:
tfs = pd.read_csv("tfs_deepsea.csv", header=0)
tfs.head(3)

**Разбейте X и y на тренировочную и тестовую выборки**, как в лекции. Соотношение train/test поставьте равным 4:1.\
*Подсказка*: воспользуйтесь функцией `train_test_split`.

**Осуществите стандартизацию признаков в выборке**.

**Импортируйте модель логистической регрессии и обучите ее на соответствующей части выборки (`model.fit`)**.

**Получите предсказание на оставшейся выборке**. Оцените его качество метриками из отчета о классификации (`classification_report`).

Разбейте X и y на тренировочную и тестовую выборки, **так, как указано в ячейке ниже**. Повторите все шаги, чтобы определить качество классификации.

In [None]:
X_train = X[tfs["construction"] == "ECR11"].values
X_test = X[tfs["construction"] == "ALDOB"].values
y_train = y[tfs["construction"] == "ECR11"].values
y_test = y[tfs["construction"] == "ALDOB"].values

**Сделайте выводы об изменении качества**.

### Задача 3: Классификация химических веществ

In [None]:
!wget --no-check-certificate 'https://docs.google.com/uc?export=download&id=1SYdyTbPD01GYcdz7hkyWZGoA5RV44fg7' -O bace.csv

--2021-09-29 21:27:25--  https://docs.google.com/uc?export=download&id=1SYdyTbPD01GYcdz7hkyWZGoA5RV44fg7
Resolving docs.google.com (docs.google.com)... 108.177.13.100, 108.177.13.113, 108.177.13.139, ...
Connecting to docs.google.com (docs.google.com)|108.177.13.100|:443... connected.
HTTP request sent, awaiting response... 302 Moved Temporarily
Location: https://doc-0c-50-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/uiqd2ruq60rohrbolgubauq25irqtb6p/1632950775000/10688067377005935076/*/1SYdyTbPD01GYcdz7hkyWZGoA5RV44fg7?e=download [following]
--2021-09-29 21:27:26--  https://doc-0c-50-docs.googleusercontent.com/docs/securesc/ha0ro937gcuc7l7deffksulhg5h7mbp1/uiqd2ruq60rohrbolgubauq25irqtb6p/1632950775000/10688067377005935076/*/1SYdyTbPD01GYcdz7hkyWZGoA5RV44fg7?e=download
Resolving doc-0c-50-docs.googleusercontent.com (doc-0c-50-docs.googleusercontent.com)... 74.125.141.132, 2607:f8b0:400c:c06::84
Connecting to doc-0c-50-docs.googleusercontent.com (doc-0c-50-d

Датасет [BACE](http://moleculenet.ai/datasets-1) загружен за вас, определены `X`, `y` и `smiles`.

In [None]:
bace = pd.read_csv("./bace.csv", header=0)
bace.head(3)

In [None]:
X = bace.iloc[:,4:].values
y = bace["Class"].values
smiles = bace["mol"].values

**Разбейте X и y на тренировочную и тестовую выборки**, как в лекции. Соотношение train/test поставьте равным 3:1.\
*Подсказка*: воспользуйтесь функцией `train_test_split`.

**Осуществите стандартизацию признаков в выборке**.

**Импортируйте модель логистической регрессии и обучите ее на соответствующей части выборки (`model.fit`)**.

**Получите предсказание на оставшейся выборке**. Оцените его качество метриками из отчета о классификации (`classification_report`).

Функция `fingerprint_train_test_split`, приведенная ниже, осуществляет **разбиение train/test на основании молекулярных "отпечатков" (molecular fingerprints)**. Воспользуйтесь ей, чтобы получить **неслучайное разбиение на train/test** и повторите предыдущие шаги, чтобы оценить качество модели на таком случае.

In [None]:
!pip install rdkit-pypi

Collecting rdkit-pypi
  Downloading rdkit_pypi-2021.3.5.1-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (19.7 MB)
[K     |████████████████████████████████| 19.7 MB 4.9 MB/s 
Installing collected packages: rdkit-pypi
Successfully installed rdkit-pypi-2021.3.5.1


In [None]:
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit import DataStructs

In [None]:
def _split_fingerprints(fps, size1, size2):
    """This is called by fingerprint_train_test_split to divide a list of fingerprints into
    two groups.
    """
    assert len(fps) == size1 + size2

    # Begin by assigning the first molecule to the first group.

    fp_in_group = [[fps[0]], []]
    indices_in_group = ([0], [])
    remaining_fp = fps[1:]
    remaining_indices = list(range(1, len(fps)))
    max_similarity_to_group = [
        DataStructs.BulkTanimotoSimilarity(fps[0], remaining_fp),
        [0] * len(remaining_fp)
    ]
    while len(remaining_fp) > 0:
    # Decide which group to assign a molecule to.
        group = 0 if len(fp_in_group[0]) / size1 <= len(
            fp_in_group[1]) / size2 else 1

        # Identify the unassigned molecule that is least similar to everything in
        # the other group.

        i = np.argmin(max_similarity_to_group[1 - group])

        # Add it to the group.

        fp = remaining_fp[i]
        fp_in_group[group].append(fp)
        indices_in_group[group].append(remaining_indices[i])

        # Update the data on unassigned molecules.

        similarity = DataStructs.BulkTanimotoSimilarity(fp, remaining_fp)
        max_similarity_to_group[group] = np.delete(
            np.maximum(similarity, max_similarity_to_group[group]), i)
        max_similarity_to_group[1 - group] = np.delete(
            max_similarity_to_group[1 - group], i)
        del remaining_fp[i]
        del remaining_indices[i]
    return indices_in_group

In [None]:
def fingerprint_train_test_split(X, y, smiles, test_size=0.1):
    assert X.shape[0] == y.shape[0] == smiles.shape[0]
    mols = [Chem.MolFromSmiles(s) for s in smiles]
    fps = [AllChem.GetMorganFingerprintAsBitVect(x, 2, 1024) for x in mols]

    # Split into two groups: training set and everything else.

    test_size = int(test_size * len(y))
    train_size = len(y) - test_size
    train_inds, test_inds = _split_fingerprints(fps, train_size, test_size)
    
    X_train = X[train_inds,:]
    X_test = X[test_inds,:]
    y_train = y[train_inds]
    y_test = y[test_inds]
    
    return X_train, X_test, y_train, y_test

**Сделайте выводы**.

---