## Предсказания свойств ФБ, с помощью CNN (эмбеддинги (ESM C))

### Подготовка к работе

In [None]:
! pip install torch tqdm
#! pip install --upgrade git+https://github.com/rimgro/biocadprotein.git

[0mLooking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
[0m

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

import numpy as np
import pandas as pd

from tqdm import tqdm

import warnings
warnings.filterwarnings('ignore')

In [None]:
from fpgen.prop_prediction.dataset import FPbase
from fpgen.prop_prediction.metrics import get_regression_metrics

### Загрузка датасета

In [None]:
dataset = FPbase('dataset.csv')

In [None]:
x_train, y_train = dataset.get_train('em_max')
x_test, y_test = dataset.get_test('em_max')

In [None]:
import pickle

with open('sequence.pickle', 'rb') as file:
    seq = pickle.load(file)

### Подготовка данных (padding эмбеддингов)

In [None]:
def preprocessing_x(x_tr, x_t):
    matrix_tr = []
    for i in range(len(x_tr)):
        matrix_tr.append(seq[x_tr.iloc[i]])

    matrix_t = []
    for i in range(len(x_t)):
        matrix_t.append(seq[x_t.iloc[i]])

    max_h = max(max(t.shape[1] for t in matrix_tr), max(t.shape[1] for t in matrix_t))
    max_w = max(max(t.shape[2] for t in matrix_tr), max(t.shape[2] for t in matrix_t))

    def pad_tensor_list(tensor_list):
        padded = []
        for t in tensor_list:
            c, h, w = t.shape
            pad_h = max_h - h
            pad_w = max_w - w
            padded_tensor = F.pad(t, (0, pad_w, 0, pad_h))
            padded.append(padded_tensor)
        return torch.stack(padded)

    train = pad_tensor_list(matrix_tr)
    test = pad_tensor_list(matrix_t)
    return train, test

In [None]:
x_train_p, x_test_p = preprocessing_x(x_train, x_test)

In [None]:
x_train_p.shape

torch.Size([643, 1, 739, 960])

In [None]:
y_train_p = torch.tensor(y_train.to_numpy(), dtype=torch.float32).view(-1, 1)  # [643, 1]
y_test_p = torch.tensor(y_test.to_numpy(), dtype=torch.float32).view(-1, 1)

In [None]:
from torch.utils.data import TensorDataset, DataLoader

dataset_train = TensorDataset(x_train_p, y_train_p)
train_loader = DataLoader(dataset_train, batch_size=32, shuffle=True)

dataset_test = TensorDataset(x_test_p, y_test_p)
test_loader = DataLoader(dataset_test, batch_size=32, shuffle=True)

### Архитектура CNN

In [None]:
class CNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 16, kernel_size=5, padding=2)
        self.pool = nn.MaxPool2d(2)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=5, padding=2)
        self.fc1 = nn.Linear(32 * 184 * 240, 128) 
        self.fc2 = nn.Linear(128, 1)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(x.size(0), -1)  
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

### Обучение модели

In [None]:
#device = 'cpu'
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(device)
model = CNN()
model.to(device)

optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)
loss_fn = nn.MSELoss()

for epoch in tqdm(range(100)):
    model.train()
    for xb, yb in train_loader:
        xb = xb.to(device)
        yb = yb.to(device)

        preds = model(xb)
        loss = loss_fn(preds, yb)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    print(f"Epoch {epoch}: loss = {loss.item():.4f}")


cuda


  1%|█▏                                                                                                               | 1/100 [00:03<05:32,  3.36s/it]

Epoch 0: loss = 0.4711


  2%|██▎                                                                                                              | 2/100 [00:06<05:26,  3.33s/it]

Epoch 1: loss = 1.1844


  3%|███▍                                                                                                             | 3/100 [00:09<05:22,  3.32s/it]

Epoch 2: loss = 0.4628


  4%|████▌                                                                                                            | 4/100 [00:13<05:18,  3.32s/it]

Epoch 3: loss = 0.3188


  5%|█████▋                                                                                                           | 5/100 [00:16<05:15,  3.32s/it]

Epoch 4: loss = 0.6548


  6%|██████▊                                                                                                          | 6/100 [00:19<05:11,  3.32s/it]

Epoch 5: loss = 0.2876


  7%|███████▉                                                                                                         | 7/100 [00:23<05:09,  3.33s/it]

Epoch 6: loss = 0.0650


  8%|█████████                                                                                                        | 8/100 [00:26<05:05,  3.32s/it]

Epoch 7: loss = 0.7166


  9%|██████████▏                                                                                                      | 9/100 [00:29<05:02,  3.32s/it]

Epoch 8: loss = 0.7450


 10%|███████████▏                                                                                                    | 10/100 [00:33<04:58,  3.32s/it]

Epoch 9: loss = 0.3013


 11%|████████████▎                                                                                                   | 11/100 [00:36<04:55,  3.31s/it]

Epoch 10: loss = 0.3787


 12%|█████████████▍                                                                                                  | 12/100 [00:39<04:51,  3.31s/it]

Epoch 11: loss = 0.2488


 13%|██████████████▌                                                                                                 | 13/100 [00:43<04:48,  3.31s/it]

Epoch 12: loss = 0.4452


 14%|███████████████▋                                                                                                | 14/100 [00:46<04:45,  3.31s/it]

Epoch 13: loss = 0.0432


 15%|████████████████▊                                                                                               | 15/100 [00:49<04:41,  3.31s/it]

Epoch 14: loss = 0.2889


 16%|█████████████████▉                                                                                              | 16/100 [00:53<04:38,  3.32s/it]

Epoch 15: loss = 0.0864


 17%|███████████████████                                                                                             | 17/100 [00:56<04:35,  3.32s/it]

Epoch 16: loss = 0.0658


 18%|████████████████████▏                                                                                           | 18/100 [00:59<04:32,  3.32s/it]

Epoch 17: loss = 1.0128


 19%|█████████████████████▎                                                                                          | 19/100 [01:03<04:29,  3.32s/it]

Epoch 18: loss = 0.0416


 20%|██████████████████████▍                                                                                         | 20/100 [01:06<04:25,  3.32s/it]

Epoch 19: loss = 0.2764


 21%|███████████████████████▌                                                                                        | 21/100 [01:09<04:22,  3.32s/it]

Epoch 20: loss = 1.6949


 22%|████████████████████████▋                                                                                       | 22/100 [01:13<04:18,  3.32s/it]

Epoch 21: loss = 0.8636


 23%|█████████████████████████▊                                                                                      | 23/100 [01:16<04:15,  3.31s/it]

Epoch 22: loss = 0.3547


 24%|██████████████████████████▉                                                                                     | 24/100 [01:19<04:11,  3.31s/it]

Epoch 23: loss = 1.7249


 25%|████████████████████████████                                                                                    | 25/100 [01:22<04:08,  3.31s/it]

Epoch 24: loss = 1.8745


 26%|█████████████████████████████                                                                                   | 26/100 [01:26<04:05,  3.31s/it]

Epoch 25: loss = 0.1053


 27%|██████████████████████████████▏                                                                                 | 27/100 [01:29<04:02,  3.32s/it]

Epoch 26: loss = 0.8524


 28%|███████████████████████████████▎                                                                                | 28/100 [01:32<03:58,  3.31s/it]

Epoch 27: loss = 0.0914


 29%|████████████████████████████████▍                                                                               | 29/100 [01:36<03:55,  3.31s/it]

Epoch 28: loss = 0.4237


 30%|█████████████████████████████████▌                                                                              | 30/100 [01:39<03:51,  3.31s/it]

Epoch 29: loss = 0.1467


 31%|██████████████████████████████████▋                                                                             | 31/100 [01:42<03:48,  3.31s/it]

Epoch 30: loss = 0.4174


 32%|███████████████████████████████████▊                                                                            | 32/100 [01:46<03:45,  3.31s/it]

Epoch 31: loss = 0.1902


 33%|████████████████████████████████████▉                                                                           | 33/100 [01:49<03:42,  3.31s/it]

Epoch 32: loss = 0.5163


 34%|██████████████████████████████████████                                                                          | 34/100 [01:52<03:38,  3.32s/it]

Epoch 33: loss = 0.5280


 35%|███████████████████████████████████████▏                                                                        | 35/100 [01:56<03:35,  3.32s/it]

Epoch 34: loss = 0.0381


 36%|████████████████████████████████████████▎                                                                       | 36/100 [01:59<03:32,  3.32s/it]

Epoch 35: loss = 0.0581


 37%|█████████████████████████████████████████▍                                                                      | 37/100 [02:02<03:29,  3.32s/it]

Epoch 36: loss = 0.1011


 38%|██████████████████████████████████████████▌                                                                     | 38/100 [02:06<03:25,  3.32s/it]

Epoch 37: loss = 0.4325


 39%|███████████████████████████████████████████▋                                                                    | 39/100 [02:09<03:22,  3.32s/it]

Epoch 38: loss = 0.0416


 40%|████████████████████████████████████████████▊                                                                   | 40/100 [02:12<03:19,  3.32s/it]

Epoch 39: loss = 0.0381


 41%|█████████████████████████████████████████████▉                                                                  | 41/100 [02:16<03:15,  3.32s/it]

Epoch 40: loss = 0.2660


 42%|███████████████████████████████████████████████                                                                 | 42/100 [02:19<03:12,  3.32s/it]

Epoch 41: loss = 0.0848


 43%|████████████████████████████████████████████████▏                                                               | 43/100 [02:22<03:09,  3.32s/it]

Epoch 42: loss = 0.0663


 44%|█████████████████████████████████████████████████▎                                                              | 44/100 [02:25<03:05,  3.32s/it]

Epoch 43: loss = 0.3780


 45%|██████████████████████████████████████████████████▍                                                             | 45/100 [02:29<03:02,  3.32s/it]

Epoch 44: loss = 1.1955


 46%|███████████████████████████████████████████████████▌                                                            | 46/100 [02:32<02:59,  3.32s/it]

Epoch 45: loss = 0.0413


 47%|████████████████████████████████████████████████████▋                                                           | 47/100 [02:35<02:56,  3.32s/it]

Epoch 46: loss = 0.0727


 48%|█████████████████████████████████████████████████████▊                                                          | 48/100 [02:39<02:52,  3.32s/it]

Epoch 47: loss = 0.3064


 49%|██████████████████████████████████████████████████████▉                                                         | 49/100 [02:42<02:49,  3.32s/it]

Epoch 48: loss = 0.0357


 50%|████████████████████████████████████████████████████████                                                        | 50/100 [02:45<02:46,  3.33s/it]

Epoch 49: loss = 0.0553


 51%|█████████████████████████████████████████████████████████                                                       | 51/100 [02:49<02:43,  3.33s/it]

Epoch 50: loss = 0.0957


 52%|██████████████████████████████████████████████████████████▏                                                     | 52/100 [02:52<02:39,  3.33s/it]

Epoch 51: loss = 0.1232


 53%|███████████████████████████████████████████████████████████▎                                                    | 53/100 [02:55<02:36,  3.32s/it]

Epoch 52: loss = 0.1608


 54%|████████████████████████████████████████████████████████████▍                                                   | 54/100 [02:59<02:32,  3.32s/it]

Epoch 53: loss = 0.0485


 55%|█████████████████████████████████████████████████████████████▌                                                  | 55/100 [03:02<02:29,  3.32s/it]

Epoch 54: loss = 0.0422


 56%|██████████████████████████████████████████████████████████████▋                                                 | 56/100 [03:05<02:26,  3.32s/it]

Epoch 55: loss = 0.1473


 57%|███████████████████████████████████████████████████████████████▊                                                | 57/100 [03:09<02:22,  3.32s/it]

Epoch 56: loss = 0.0819


 58%|████████████████████████████████████████████████████████████████▉                                               | 58/100 [03:12<02:19,  3.33s/it]

Epoch 57: loss = 0.0381


 59%|██████████████████████████████████████████████████████████████████                                              | 59/100 [03:15<02:16,  3.32s/it]

Epoch 58: loss = 0.0266


 60%|███████████████████████████████████████████████████████████████████▏                                            | 60/100 [03:19<02:12,  3.32s/it]

Epoch 59: loss = 0.1150


 61%|████████████████████████████████████████████████████████████████████▎                                           | 61/100 [03:22<02:09,  3.32s/it]

Epoch 60: loss = 0.3930


 62%|█████████████████████████████████████████████████████████████████████▍                                          | 62/100 [03:25<02:06,  3.32s/it]

Epoch 61: loss = 0.0413


 63%|██████████████████████████████████████████████████████████████████████▌                                         | 63/100 [03:29<02:02,  3.32s/it]

Epoch 62: loss = 0.0378


 64%|███████████████████████████████████████████████████████████████████████▋                                        | 64/100 [03:32<01:59,  3.32s/it]

Epoch 63: loss = 0.0399


 65%|████████████████████████████████████████████████████████████████████████▊                                       | 65/100 [03:35<01:56,  3.33s/it]

Epoch 64: loss = 0.0473


 66%|█████████████████████████████████████████████████████████████████████████▉                                      | 66/100 [03:39<01:53,  3.33s/it]

Epoch 65: loss = 0.1586


 67%|███████████████████████████████████████████████████████████████████████████                                     | 67/100 [03:42<01:49,  3.33s/it]

Epoch 66: loss = 0.0412


 68%|████████████████████████████████████████████████████████████████████████████▏                                   | 68/100 [03:45<01:46,  3.32s/it]

Epoch 67: loss = 1.7761


 69%|█████████████████████████████████████████████████████████████████████████████▎                                  | 69/100 [03:49<01:42,  3.32s/it]

Epoch 68: loss = 0.0437


 70%|██████████████████████████████████████████████████████████████████████████████▍                                 | 70/100 [03:52<01:39,  3.33s/it]

Epoch 69: loss = 0.0172


 71%|███████████████████████████████████████████████████████████████████████████████▌                                | 71/100 [03:55<01:36,  3.33s/it]

Epoch 70: loss = 0.1039


 72%|████████████████████████████████████████████████████████████████████████████████▋                               | 72/100 [03:59<01:33,  3.33s/it]

Epoch 71: loss = 0.0571


 73%|█████████████████████████████████████████████████████████████████████████████████▊                              | 73/100 [04:02<01:29,  3.32s/it]

Epoch 72: loss = 0.1928


 74%|██████████████████████████████████████████████████████████████████████████████████▉                             | 74/100 [04:05<01:26,  3.32s/it]

Epoch 73: loss = 0.0085


 75%|████████████████████████████████████████████████████████████████████████████████████                            | 75/100 [04:09<01:23,  3.32s/it]

Epoch 74: loss = 0.0248


 76%|█████████████████████████████████████████████████████████████████████████████████████                           | 76/100 [04:12<01:19,  3.33s/it]

Epoch 75: loss = 0.0132


 77%|██████████████████████████████████████████████████████████████████████████████████████▏                         | 77/100 [04:15<01:16,  3.33s/it]

Epoch 76: loss = 0.0728


 78%|███████████████████████████████████████████████████████████████████████████████████████▎                        | 78/100 [04:19<01:13,  3.33s/it]

Epoch 77: loss = 0.0061


 79%|████████████████████████████████████████████████████████████████████████████████████████▍                       | 79/100 [04:22<01:09,  3.32s/it]

Epoch 78: loss = 0.0098


 80%|█████████████████████████████████████████████████████████████████████████████████████████▌                      | 80/100 [04:25<01:06,  3.32s/it]

Epoch 79: loss = 0.3830


 81%|██████████████████████████████████████████████████████████████████████████████████████████▋                     | 81/100 [04:28<01:03,  3.32s/it]

Epoch 80: loss = 0.0947


 82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 82/100 [04:32<00:59,  3.33s/it]

Epoch 81: loss = 0.1734


 83%|████████████████████████████████████████████████████████████████████████████████████████████▉                   | 83/100 [04:35<00:56,  3.32s/it]

Epoch 82: loss = 0.0675


 84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 84/100 [04:38<00:53,  3.32s/it]

Epoch 83: loss = 0.0350


 85%|███████████████████████████████████████████████████████████████████████████████████████████████▏                | 85/100 [04:42<00:49,  3.32s/it]

Epoch 84: loss = 0.0937


 86%|████████████████████████████████████████████████████████████████████████████████████████████████▎               | 86/100 [04:45<00:46,  3.32s/it]

Epoch 85: loss = 0.0882


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▍              | 87/100 [04:48<00:43,  3.32s/it]

Epoch 86: loss = 0.0126


 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▌             | 88/100 [04:52<00:39,  3.32s/it]

Epoch 87: loss = 0.1136


 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▋            | 89/100 [04:55<00:36,  3.32s/it]

Epoch 88: loss = 0.8715


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 90/100 [04:58<00:33,  3.32s/it]

Epoch 89: loss = 0.1814


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 91/100 [05:02<00:29,  3.32s/it]

Epoch 90: loss = 0.0430


 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 92/100 [05:05<00:26,  3.32s/it]

Epoch 91: loss = 0.0066


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 93/100 [05:08<00:23,  3.32s/it]

Epoch 92: loss = 0.1832


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 94/100 [05:12<00:19,  3.32s/it]

Epoch 93: loss = 0.0148


 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 95/100 [05:15<00:16,  3.32s/it]

Epoch 94: loss = 0.1618


 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 96/100 [05:18<00:13,  3.32s/it]

Epoch 95: loss = 0.0768


 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 97/100 [05:22<00:09,  3.32s/it]

Epoch 96: loss = 1.2439


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 98/100 [05:25<00:06,  3.32s/it]

Epoch 97: loss = 0.0159


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 99/100 [05:28<00:03,  3.32s/it]

Epoch 98: loss = 0.0438


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [05:32<00:00,  3.32s/it]

Epoch 99: loss = 0.4560





### Тестирование и метрики

In [None]:
model = model.to('cpu')
model.eval()
y_true = []
y_pred = []

with torch.no_grad():
    for xb, yb in test_loader:
        preds = model(xb)
        y_true.extend(yb.cpu().numpy().flatten())
        y_pred.extend(preds.cpu().numpy().flatten())


In [None]:
y_true_rescaled = dataset.rescale_targets(y_true, 'em_max')
y_pred_rescaled = dataset.rescale_targets(y_pred, 'em_max')

get_regression_metrics(y_pred_rescaled, y_true_rescaled)

{'rmse': 32.17417,
 'mae': 22.368298,
 'r2': 0.7198959653410872,
 'mae_median': 14.933685}