In [27]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, cross_val_predict, StratifiedKFold
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import roc_auc_score, confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, cohen_kappa_score
from rdkit import Chem, DataStructs
from rdkit.Chem import AllChem, Descriptors
from sklearn.preprocessing import StandardScaler

In [28]:
from rdkit.Chem import PandasTools
from collections import Counter
## Carregar dados
def carregar_dados():
    # Definir caminho do arquivo
    file = '../dataset/formats/df_ready_classification.sdf'

       # Novo dicionário inicializado a partir de um objeto de mapeamento
    sdfInfo = dict(smilesName='SMILES', molColName='ROMol')

    # Carregando o arquivo SDF com os dicionarios mapeados
    moldf = PandasTools.LoadSDF(file, **sdfInfo)
    print('Original data: ', moldf.shape)

    # Renomear ROMol
    moldf = moldf.rename(columns={'ROMol': 'Mol'})

    # Remover moléculas RDKit ausentes
    moldf = moldf[pd.notnull(moldf['Mol'])]
    if 'StandardizerResult' in moldf.columns:
        moldf = moldf.drop(columns='StandardizerResult')

    # Colunas
    print('Dados mantidos: ', moldf.shape)


    moldf['Outcome'] = moldf['bioactivity_class'].replace('active', 1)
    moldf['Outcome'] = moldf['bioactivity_class'].replace('inactive', 0)

    classes = Counter(moldf['Outcome'])
    print('Class labels:', np.unique(classes))
  
    return moldf

In [29]:
moldf = carregar_dados();
moldf.info()

Original data:  (4829, 19)
Dados mantidos:  (4829, 19)
Class labels: [Counter({'active': 2841, 0: 1988})]
<class 'pandas.core.frame.DataFrame'>
Int64Index: 4829 entries, 0 to 4828
Data columns (total 20 columns):
 #   Column                               Non-Null Count  Dtype 
---  ------                               --------------  ----- 
 0   Unnamed: 0                           4829 non-null   object
 1   HD                                   4829 non-null   object
 2   HA                                   4829 non-null   object
 3   logP                                 4829 non-null   object
 4   MW                                   4829 non-null   object
 5   lit                                  4829 non-null   object
 6   sum                                  4829 non-null   object
 7   Unnamed: 0.1                         4829 non-null   object
 8   bioactivity_class                    4829 non-null   object
 9   molecule_chembl_id                   4829 non-null   object
 10  ca

In [30]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from rdkit import Chem
from math import floor
#Rdkit: coleção de quiminformática e software de aprendizado de máquina escrito em C++ e Python de Código Aberto.
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import Draw
from rdkit.Chem import PandasTools
from rdkit.Chem.Draw import IPythonConsole
from collections import Counter

def morgan_descriptors(moldf):   
    moldf['Outcome'] = moldf['Outcome'].replace('active', 1)
    moldf['Outcome'] = moldf['Outcome'].replace('inactive', 0)

    classes = Counter(moldf['Outcome'])
    print('\033[1m' + 'Forma do conjunto de treinamento:' + '\n' + '\033[0m')
    for key, value in classes.items():
        print('\t\t Classe %d: %d' % (key, value))
    print('\t\t Número total de compostos: %d' % (len(moldf['Outcome'])))

    print('Class labels:', np.unique(classes))
    
    # Calculando os descritores fingerprints de Harry Morgan (vetores de bits).
    def calcfp(mol,funcFPInfo=dict(radius=3, nBits=2048, useFeatures=False, useChirality=False)):
        fp = AllChem.GetMorganFingerprintAsBitVect(mol, **funcFPInfo)
        fp = pd.Series(np.asarray(fp))
        fp = fp.add_prefix('Bit_')
        return fp

    # Adicionando os 113 componentes e os 2048 dados referetens aos descritores de Morgan
    desc = moldf.Mol.apply(calcfp)
    descriptors = desc.columns.difference(moldf.columns).tolist()
    desc.shape
    
    # Moldando o conjunto de treinamento e o conjunto de validação externa
    moldf_desc = pd.concat([moldf,desc], axis=1)
    balance_data = 'no'

    if balance_data == 'yes':
        # Equilibre os dados usando 1/2 similaridade e 1/2 aleatória
        moldf_desc = BalanceBySim(moldf_desc, 'Outcome', 2)
        # Forma de impressão
        print('Forma do conjunto de treinamento: %s' % Counter(moldf_desc['Outcome'].loc[moldf_desc['Set'] == 'train']))
        print('Forma externa definida: %s' % Counter(moldf_desc['Outcome'].loc[moldf_desc['Set'] == 'ext']))

    else:
        moldf_desc['Set'] = 'train'
        # Forma de impressão
        print('Forma do conjunto de treinamento: %s' % Counter(moldf_desc['Outcome'].loc[moldf_desc['Set'] == 'train']))
        print('Forma externa definida: %s' % Counter(moldf_desc['Outcome'].loc[moldf_desc['Set'] == 'ext']))
    
    # Conjunto de treinamento
    moldf_train = moldf_desc[(moldf_desc['Set'] == 'train')]
    
    data_train = {'moldf_desc': moldf_desc, 'moldf_train': moldf_train, 'Y_train': moldf_train['Outcome'].to_numpy(), 'X_train': moldf_train[descriptors]}
    return data_train

In [40]:
data = morgan_descriptors(moldf)
y = data['Y_train']
X = data['X_train']
# Aplicando a padronização dos dados de treino para algoritmos sensíveis à escala
scaler = StandardScaler()
X = scaler.fit_transform(X)
X.shape

[1mForma do conjunto de treinamento:
[0m
		 Classe 1: 2841
		 Classe 0: 1988
		 Número total de compostos: 4829
Class labels: [Counter({1: 2841, 0: 1988})]
Forma do conjunto de treinamento: Counter({1: 2841, 0: 1988})
Forma externa definida: Counter()


(4829, 2048)

In [41]:
# verifique se o conjunto de dados está balanceado
sum(y) / len(y)

0.5883205632636157

In [42]:
# Dividindo os dados em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [59]:
# Definir os algoritmos e suas respectivas distribuições de hiperparâmetros
classifiers = [
    {
        'name': 'SVM',
        'classifier': SVC(probability=True),
        'param_dist': {
            'C': np.logspace(-3, 3, 7),
            'kernel': ['linear', 'rbf', 'sigmoid'],
        }
    },
    {
        'name': 'Random Forest',
        'classifier': RandomForestClassifier(),
        'param_dist': {
            'n_estimators': [50, 100, 150],
            'max_depth': [None, 10, 20, 30],
        }
    },
    {
        'name': 'Multilayer Perceptron',
        'classifier': MLPClassifier(),
        'param_dist': {
            'hidden_layer_sizes': [(50,), (100,), (50, 50), (100, 50)],
            'alpha': np.logspace(-5, 3, 9),
        }
    },
]

In [60]:
# Definir métricas para avaliação
metrics = {
    'roc_auc': roc_auc_score,
    'confusion_matrix': confusion_matrix,
    'accuracy': accuracy_score,
    'precision': precision_score,
    'recall': recall_score,
    'f1': f1_score,
    'cohen_kappa': cohen_kappa_score,
}

In [61]:
# Definir número de splits para a validação cruzada aninhada
num_splits_outer = 5
num_splits_inner = 3

In [62]:
# Inicialização da validação cruzada aninhada

# Definindo a estratégia de validação cruzada aninhada usando StratifiedKFold com 5 divisões, embaralhamento
# dos dados e semente aleatória para reprodutibilidade
cv_outer = StratifiedKFold(n_splits=num_splits_outer, shuffle=True, random_state=42)

In [75]:
# Loop através de cada classificador para treinamento e avaliação
for classifier_info in classifiers:
    print(f"Classifier: {classifier_info['name']}")
    
    # Inicialização da pesquisa aleatória de hiperparâmetros
    randomized_search = RandomizedSearchCV(
        classifier_info['classifier'], 
        param_distributions=classifier_info['param_dist'], 
        n_iter=10, 
        scoring='roc_auc', 
        n_jobs=-1, 
        cv=cv_outer, 
        random_state=42
    )
    
    # Listas para armazenar probabilidades previstas e rótulos reais
    y_probs_list = []
    y_tests_list = []
    y_randomization_list = []
    auc_scores = []

    
    # Loop através das divisões da validação cruzada aninhada
    for train_idx, test_idx in cv_outer.split(X, y):
        
        print(f"Validação cruzada aninhada: {classifier_info['name']}")
        
        X_train, X_test = X[train_idx], X[test_idx]
        y_train, y_test = y[train_idx], y[test_idx]
        
        # Realização da pesquisa aleatória de hiperparâmetros
        randomized_search.fit(X_train, y_train)
        
        # Seleção do melhor modelo e parâmetros
        best_classifier = randomized_search.best_estimator_
        best_params = randomized_search.best_params_
        
        # Salvar o melhor modelo em um arquivo .pkl
        model_filename = f"best_model_{classifier_info['name']}.pkl"
        joblib.dump(best_classifier, model_filename)
        
        # Previsão de probabilidades e extensão das listas
        y_probs = best_classifier.predict_proba(X_test)[:, 1]
        y_probs_list.extend(y_probs)
        y_tests_list.extend(y_test)
        
        # Simulação de y_randomization (substituir por lógica real de randomização)
        y_randomization = np.random.permutation(y_test)
        y_randomization_list.extend(y_randomization)
        
        # Calcular métricas de interesse
        auc = roc_auc_score(y_test, y_probs)
        auc_scores.append(auc)

        print(f"Best Parameters: {best_params}")
    
    # Avaliação utilizando as métricas
    for metric_name, metric_func in metrics.items():
        print(f"Metric: {metric_name}")
        y_pred = np.round(y_probs_list)
        
        if metric_name == 'roc_auc':
            score = metric_func(y_tests_list, y_probs_list)
            # Plotagem da curva ROC
            fpr, tpr, _ = roc_curve(y_tests_list, y_probs_list)
            roc_auc = auc(fpr, tpr)
            
            plt.figure()
            plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {roc_auc:.2f})')
            plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
            plt.xlim([0.0, 1.0])
            plt.ylim([0.0, 1.05])
            plt.xlabel('False Positive Rate')
            plt.ylabel('True Positive Rate')
            plt.title('Receiver Operating Characteristic')
            plt.legend(loc="lower right")
            plt.show()
            
        elif metric_name == 'confusion_matrix':
            cm = metric_func(y_tests_list, y_pred)
            # Plotagem da matriz de confusão
            plt.figure()
            plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues)
            plt.title("Confusion Matrix")
            plt.colorbar()
            tick_marks = np.arange(len(np.unique(y_tests_list)))
            plt.xticks(tick_marks, np.unique(y_tests_list))
            plt.yticks(tick_marks, np.unique(y_tests_list))
            plt.xlabel("Predicted")
            plt.ylabel("True")
            plt.show()
            
        else:
            score = metric_func(y_tests_list, y_pred)
        
        print(f"Score: {score}")
    
    # Plot y_randomization histogram
    plt.figure()
    plt.hist(y_randomization_list, bins=2, color='blue', alpha=0.7, label='Randomized')
    plt.hist(y_tests_list, bins=2, color='red', alpha=0.7, label='Actual')
    plt.xlabel('Class Labels')
    plt.ylabel('Frequency')
    plt.title('y_randomization vs Actual')
    plt.legend(loc='upper right')
    plt.show()
    
    # Calcular estatísticas das métricas
    mean_auc = np.mean(auc_scores)
    variance_auc = np.var(auc_scores)
    std_deviation_auc = np.std(auc_scores)

    print(f"Mean AUC: {mean_auc}")
    print(f"Variance AUC: {variance_auc}")
    print(f"Standard Deviation AUC: {std_deviation_auc}")
    
    print("----------------------")

Classifier: SVM
Validação cruzada aninhada: SVM
Best Parameters: {'kernel': 'rbf', 'C': 100.0}
Validação cruzada aninhada: SVM


KeyboardInterrupt: 