### Считываем данные (refined dataset)

In [20]:
import array, struct, sys, os, tqdm
import numpy as np

def read_binaries(path_binfiles):
    result = {}
    cnt = 0
    for binfile in tqdm.tqdm(os.listdir(path_binfiles)):
        pdbcode = binfile.split('.')[0]                     # name of file (pdbcode)
        F = open('{0}/{1}'.format(path_binfiles, binfile), 'rb')
        n_decoys = struct.unpack('i', F.read(4))[0]         # number of decoys (=19 for this dataset)
        dimension = struct.unpack('i', F.read(4))[0]        # data dimensionality (23 protein types x 40 ligand types x 7 bins for this dataset)
        res = []
        for i in range(n_decoys):
            label = struct.unpack('d', F.read(8))[0]        # label (1 for native, -1 for non-native)
            data = array.array('d')                         
            data.fromfile(F, dimension)                     # feature vector (histograms, can be represented as a 23x40x7 matrix) 
            res.append([label, data])
        result[pdbcode] = res
        F.close()
        if cnt == 13080:
            break
        cnt += 1
    return result

In [21]:
result = read_binaries('general-no2013_t14_t3_l7.0_g1.0_r1.0')

100%|█████████▉| 13080/13089 [02:09<00:00, 100.94it/s]

In [22]:
with open('affinity_data_refined.csv', 'r') as f:
    data = f.read().split('\n')
    data = data[1:-1]

In [23]:
datasets = [
    {'name': d.split(',')[0], 'value': d.split(',')[1], 'type': d.split(',')[3]}
    for d in data
]

In [24]:
Kd_values = []
Ki_values = []
for d in datasets:
    if d['type'] == 'Kd':
        Kd_values.append(d)
    else:
        Ki_values.append(d)

In [25]:
Kd_data = []
for item in Kd_values:
    Kd_data.append([item['value']] + result[item['name']][0])

In [26]:
Ki_data = []
for item in Ki_values:
    if item['name'] != '966c':
        Ki_data.append([item['value']] + result[item['name']][0])

### 1 этап. Предсказание свободной энергии.
Для обучения рассматриваем для каждого комплекса только его нативную позу (т.к. только для них известны значения свободной энергии).

Берем все нативные позы со значениями Kd (Kd_data) из refined dataset.

Предсказываем значение Kd.

In [27]:
import numpy as np
from math import log, exp
from scipy.linalg import sqrtm, inv, norm
from scipy.optimize import minimize

In [29]:
data = Kd_data
train = data[:int(len(data) * 0.6)]
test = data[int(len(data) * 0.6):]

# Матрица признаков
X = np.matrix([
    t[2]
    for t in train
]).T

# Столбец значений свободной энергии
s = np.matrix([
    float(t[0])
    for t in train
]).T

In [31]:
print(X.shape)
print(s.shape)

(1074, 1)

In [35]:
# Замена переменных

Cr = 0.5 # Коэффициент регуляризации
I = np.identity(XXT.shape[0])
A = np.real(sqrtm(0.5 * I + Cr * (X @ X.T)))
A_inv = inv(A)
B = Cr * Ainv @ X @ s

(6440, 6440)

In [None]:
print(A.shape)
print(B.shape)

In [83]:
# Целевая функция: ее минимизируем
def objective_function(w, A_inv, B, X):
    y = np.ones(X.shape[1]) # Нативные позы
    C = np.ones(X.shape[1]) # Коэффициенты регуляризации (пока положим их равными 1)
    w = np.matrix(w).T
    arg = (Ainv @ (w + B)).T
    logs = [
        C[i] * log(1 + exp(-y[i] * arg @ X[:,i]))
        for i in range(X.shape[1])
    ]
    return norm(w) + np.sum(logs)

In [None]:
# Минимизируем целевую функцию

w0 = np.ones(6440) # Априорные значения (единицы)
res = minimize(objective_function, w0, (A_inv, B, X))