# Klasifikacija

Avtokodirniki, so lahko uporabni pri klasifikacijskih problemih. Zakodirani vhodi v latentni prostor se uporabijo kot vektorske vložitve. Preverili bomo kako kvalitetne so vložitve naših naučenih modelov in prstnih odtisov. Pri tem bomo tudi kombinirali različne vložitve.  
Najprej je potrebno naložiti naša modela za avtokodirnik in variacijski avtokodirnik, oba imata enako širino latentnega prostora, ki je 196. Preberemo tudi podatke molekul za prehajanje skozi krvno-možgansko membrano (BBBP.csv), ki jih bomo klasificirali. Pri tem bomo odstranili tiste, ki jih knjižnica RDKit ne more pretvoriti v prstne odtise. V podatkih so molekule, ki so daljše od 120 in vsebujejo večje število znakov, kot sta bila naučena naša modela (več v 010-data.ipnyb). Take molekule bomo še zmerom uporabili. 

In [8]:
import numpy as np
import sys
import itertools
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE, MDS
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, StratifiedKFold
from xgboost import XGBClassifier
sys.path.insert(0, '../code')
import cheauder_utils
from vae_smiles import CustomVariationalLayer

vae_encoder = cheauder_utils.load_coder_json(
    "../code/model/encoder.json",
    "../code/weights/encoder_weights.h5",
    custom_objects={'CustomVariationalLayer': CustomVariationalLayer,
    'latent_dim': 196}
)

ae_encoder = cheauder_utils.load_coder_json(
    "../code/model/ae_encoder_196.json",
    "../code/weights/ae_encoder_196_weights.h5",
    custom_objects={'latent_dim': 196}
)

smiles, y, label = cheauder_utils.read_data('../data/BBBP.csv', col_smiles=3, col_target=2, delimiter=',')
fps, y, valid = cheauder_utils.smiles_to_fingerprints(smiles, y)
chars,charset = cheauder_utils.load_charset('../code/model/charset_ZINC.json')
oh_sms = cheauder_utils.vectorize_smiles(smiles, charset, 120)

vae,_,_ = vae_encoder.predict(oh_sms)
ae = ae_encoder.predict(oh_sms)
ae, vae = ae[valid], vae[valid]

Po priporočilih na moleculenet.ai smo za te podatke uporabili stratificirano vzorčenje (10 kratno). Uporabili smo klasifikator "extreme boosting gradient" (XGB), metodo podpornih vektorjev (SVM) in naključnih gozdov. "VAE" predstavlja vektorske vložitve našega variacijskega avtokodirnika, "AE" predstavlja vložitve našega avtokodirnika, ostali so pa prstni odtisi z imenom vrste prstnega odtisa. Za kvaliteto klasifikacije smo uporabili metriko AUC ROC.

In [13]:
n_splits = 10
cv = StratifiedKFold(n_splits=n_splits, random_state=0)
svc = SVC(kernel='linear')
xgb = XGBClassifier()
rf = RandomForestClassifier(n_estimators=500)
classifiers = {'SVM': svc, 'XGB': xgb, 'RF': rf}
Xs = {'VAE': vae, 'AE': ae}
for key, value in fps.items():
    Xs[key] = value

Xs['VAE+AE'] = np.hstack((vae,ae))
for keys, values in zip(itertools.product(fps.keys(), ['VAE', 'AE']), itertools.product(fps.values(), [vae,ae])):
    Xs['+'.join(keys)] = np.hstack((values))
Xs['All'] = np.hstack((np.hstack((list(fps.values()))),ae,vae))

cheauder_utils.classification_test(Xs, y, classifiers, n_splits=10);

VAE         | SVM    : 0.741
VAE         | XGB    : 0.704
VAE         | RF     : 0.673
AE          | SVM    : 0.678
AE          | XGB    : 0.670
AE          | RF     : 0.707
topological | SVM    : 0.743
topological | XGB    : 0.738
topological | RF     : 0.722
circular    | SVM    : 0.734
circular    | XGB    : 0.726
circular    | RF     : 0.715
substructure | SVM    : 0.756
substructure | XGB    : 0.764
substructure | RF     : 0.763
avalon      | SVM    : 0.734
avalon      | XGB    : 0.726
avalon      | RF     : 0.712
VAE+AE      | SVM    : 0.751
VAE+AE      | XGB    : 0.722
VAE+AE      | RF     : 0.695
topological+VAE | SVM    : 0.786
topological+VAE | XGB    : 0.748
topological+VAE | RF     : 0.697
topological+AE | SVM    : 0.770
topological+AE | XGB    : 0.736
topological+AE | RF     : 0.715
circular+VAE | SVM    : 0.769
circular+VAE | XGB    : 0.752
circular+VAE | RF     : 0.667
circular+AE | SVM    : 0.759
circular+AE | XGB    : 0.721
circular+AE | RF     : 0.707
substructure+VAE