## Classification des poches protéiques en fonction du type de druggabilité, par un CNN

### 1) Préparation des données

#### a) Training_set

In [1]:
import keras
import numpy as np

from sklearn.preprocessing import LabelEncoder
from keras.layers import Dense, Flatten, Dropout
from keras import Input, Model
from keras.layers import add, Activation
from keras.layers import Conv3D, MaxPool3D
from keras.models import Sequential
from os import listdir

Using TensorFlow backend.


In [5]:
PATH_TRAIN = "../data/x_train"
PATH_TEST = "../data/x_test"

In [62]:
def load_x(path):
    X = [np.load("{}/{}".format(path,pocket))
         for pocket in listdir(path)]
    X = [np.squeeze(array) for array in X]
    X = np.array(X)
    X = np.moveaxis(X, 1, -1)
    return X

def load_y(path, nucleotid, heme, steroid, control):
    Y = []
    for pocket in listdir(path):
        if pocket in nucleotid:
            Y.append(1)
        elif pocket in heme:
            Y.append(2)
        elif pocket in steroid:
            Y.append(3)
        elif pocket in control:
            Y.append(4)
    Y  = np.array(Y)
    return Y

def one_hot_encoding(y):
    classes = LabelEncoder()
    integer_encoding = classes.fit_transform(y)
    one_hot_Y = keras.utils.to_categorical(integer_encoding)
    return one_hot_Y

def list_generator(file):
    with open(file, "r") as filin:
        liste = ["{}.npy".format(line[:-1]) for line in filin]
    return liste

In [66]:
#X_train est une liste d'array de dimensions (1,14,32,32,32)
#Il est constitué des 346 premières poches
nucleotid = list_generator("nucleotide.list.txt")
heme = list_generator("heme.list.txt")
steroid = list_generator("steroid.list.txt")
control = list_generator("control.list.txt")
X_train = load_x(PATH_TRAIN)
X_test = load_x(PATH_TEST)
Y_train = load_y(PATH_TRAIN, nucleotid, heme, steroid, control)
Y_test = load_y(PATH_TEST, nucleotid, heme, steroid, control)
one_hot_Y_train = one_hot_encoding(Y_train)
one_hot_Y_test = one_hot_encoding(Y_test)
print(X_train.shape)
print(X_test.shape)
print(one_hot_Y_train.shape)
print(one_hot_Y_test.shape)

(346, 32, 32, 32, 14)
(181, 32, 32, 32, 14)
(346, 4)
(181, 4)


Essayer de comprendre la signification des nom des fichiers.npy, cela pourrait m'éclairer pour savoir s'ils sont triés par classe, comment repérer les contrôles, comment savoir où sont les Y...

Attention, parfois il y a une dimension supplémentaire ! Il va falloir regarder ce que c'est et l'enlever ou non (important est que chaque poche possède le même nombre de dimensions). Cf la fonction squeeze de Keras (ou de sklearn).

Pour les Y va créer un code pour savoir quelle est la classe de druggabilité de la poche:
<ul>
    <li/> 1 : nucléotide
    <li/> 2 : hème
    <li/> 3 : stéroïde
    <li/> 4 : control

Attention cependant, j'ai pris les 346 première poches, or peut être qu'il y a un déséquilibre de classe: beaucoup de poches dans une classe et beaucoup dans d'autres. On va regarder. 

In [8]:
nt= 0
hem = 0
ste = 0
ctr = 0

for i in range(0,one_hot_Y_train.shape[0]):
    if one_hot_Y_train[i,0]:
        nt += 1
    elif one_hot_Y_train[i,1]:
        hem += 1
    elif one_hot_Y_train[i,2]:
        ste += 1
    else:
        ctr += 1

In [9]:
print(nt)
print(hem)
print(ste)
print(ctr)
print(len(one_hot_Y_train))

98
110
11
127
346


On s'aperçoit qu'on a très peu de poches druggables par les stéroïdes, c'est une bonne chose car ce sont des faux positifs. Les stéroïdes jouent le rôle de contrôle négatif. A part ça, pas de prédominance particulière d'une classe par rapport à l'autre.

### 2) Construction du modèle

In [71]:
model = Sequential()
model.add(Conv3D(filters = 32, kernel_size = 13, strides=1, padding= "same", activation = "relu", kernel_initializer="he_normal"))
#model.add(Conv3D(filters=64, kernel_size = 26, strides=1, padding= "same", activation = "relu", kernel_initializer="he_normal"))
model.add(Dropout(0.4))
model.add(MaxPool3D(pool_size = 2, strides = 1, padding = "same"))
#model.add(Dropout(0.4))
model.add(Flatten())
model.add(Dense(units = 200, activation = "relu"))
model.add(Dropout(0.4))
model.add(Dense(units = 4, activation = "softmax"))

In [72]:
model.compile(optimizer="adam",loss="categorical_crossentropy",metrics=['accuracy'])

In [None]:
model.fit(X_train,one_hot_Y_train,epochs=5, batch_size = 20, validation_data = (X_test,one_hot_Y_test))

### 3) Evaluation du modèle