MODELOS DE CLASIFICACIÓN, REGRESIÓN LINEAL Y RED NEURONAL

In [6]:
import pandas as pd
import numpy as np
import tensorflow as tf
import subprocess
import time
from tensorflow.keras.models import Sequential
from tensorflow.keras.activations import sigmoid, relu
from tensorflow.keras.layers import Dense
from tensorflow.keras.losses import BinaryCrossentropy
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
%run Base_datos_AINEs.ipynb

Función del modelo de regresión logística para la clasificación de análogos de AINE's

In [5]:
# Creación del modelo regresión logística

def reg_logistica(X, y):
    """
    Computa el modelo de regresión logística que clasifica las moléculas test en AINE o no AINE
    
    X (ndarray (m,n): Training data, m examples with n features
    y (ndarray (m,)): target values
    
    """
    #Ingeniería de variables
    log_scaler = StandardScaler()
    X = log_scaler.fit_transform(X) # Normaliza todos los datos de entrada
    
    #Creación del modelo
    lr_model = LogisticRegression()
    lr_model.fit(X, y)
    
    return lr_model, log_scaler

Función de la red neuronal para algoritmo de clasificación de análogos de AINE's

In [2]:
# Creación de red neuronal

def RedN_clasificacion(X, y): 
    """
    Computa una red neuronal de 4 capas que clasifica las moléculas test en AINE o no AINE (output layer = sigmoid)
    
    X (ndarray (m,n): Training data, m examples with n features
    y (ndarray (m,)): target values
    
    """
   #Ingeniería de variables
    neural_scaler = StandardScaler()
    X = neural_scaler.fit_transform(X) # Normaliza todos los datos de entrada
    
    #Arquitectura de la red neuronal
    tf.random.set_seed(1234)  # Para obtener resultados consistentes
    
    model = Sequential(
        [
        Dense(8, input_shape=(5,), activation='relu', name='layer1', kernel_regularizer=tf.keras.regularizers.l2(0.01)),
        Dense(5, activation='relu',  name='layer2', kernel_regularizer=tf.keras.regularizers.l2(0.01)),
        Dense(3, activation='relu',  name='layer3', kernel_regularizer=tf.keras.regularizers.l2(0.01)),
        Dense(1, activation='sigmoid', name='layer4', kernel_regularizer=tf.keras.regularizers.l2(0.01))
    ]
    )
    
    dummy_input = np.zeros((8, 5))
    _ = model(dummy_input)
    
    #Cargar los parámetros de una red neuronal entrenada previamente en el nuevo modelo
    model.load_weights('my_model_weights.h5')
    
    #Compilación del modelo
    model.compile(
        loss = tf.keras.losses.BinaryCrossentropy(), #Loss function
        optimizer = tf.keras.optimizers.Adam(learning_rate = 0.001) #Algoritmo de minimización Adam
    )
    
    #Entrenar modelo
    model.fit(X, y, epochs=600) #El modelo va a realizar 600 iteraciones
    
    return model, neural_scaler

Función para realizar predicciones con modelos de regresión logística y red neuronal

In [4]:
# Realizar predicciones (modelo regresión logística)

def pred_clasificacion(X, scaler, model):
    """
    Clasifica los datos de entrada como AINE o no AINE
    
    X (ndarray (m,n): Data for predictions, m predictions with n features
    model: Modelo de clasificación 
    y_pred (ndarray (m,)): Predictions made by the model
    
    """    
    #Ingeniería de variables
    X = scaler.transform(X) # Normaliza todos los datos de entrada con base al scaler del training set
    
    #Predicción
    y_pred = model.predict(X)
    predictions = y_pred.tolist() #Guardamos los valores predichos en una lista para poder aplicar la treshold
    
    #Treshold
    for prediction in predictions:
        if prediction == 1:
            print('La molécula es un AINE')
        else:
            print('La molécula es un Antiinflamatorio Esteroideo (cortisoide)')
        
    return y_pred


# Realizar predicciones (red neuronal)

def pred_clasificacion_RN(X, scaler, model):
    """
    Clasifica los datos de entrada como AINE o no AINE
    
    X (ndarray (m,n): Data for predictions, m predictions with n features
    model: Modelo de clasificación 
    y_pred (ndarray (m,)): Predictions made by the model
    
    """    
    #Ingeniería de variables
    X = scaler.transform(X) # Normaliza todos los datos de entrada con base al scaler del training set

    #Predicción
    y_pred = model.predict(X)
    
    #Aplicar el umbral para convertir las probabilidades en 0 o 1
    binary_values = np.where(y_pred >= 0.5, 1, 0)
    binary_values = binary_values.flatten() # Aplanar binary_values para que tengan la misma forma que el arreglo de Valores reales de y 
    
    #Treshold
    for value in binary_values:
        if value == 1:
            print('La molécula es un AINE')
        else:
            print('La molécula es un Antiinflamatorio Esteroideo (cortisoide)')    
            
    return binary_values, y_pred

Función para calcular descriptores moleculares de interés usando MOE

In [3]:
def calculo_descriptores(mol2_file):
    """
    Calcula los descriptores de la molécula guardada en un archivo .mol2
    
    mol2_file: Path al archivo .mol2 que contiene la molécula test a la cual se le desean calcular sus descriptores
    
    """
    #Modificar el script SVL con la ruta de la molécula test
    
    svl_script = 'C:\\Users\\DATOS\\Desktop\\TESIS_ARTURO\\Programacion\\Calculate_descriptors.script'
    with open(svl_script, 'r') as file:
        lines = file.readlines()
        
    # Reemplazar la primera línea del script SVL con la ruta de la molécula test
    lines[0] = "mol2_file = '" + mol2_file + "';" + '\n' 

    with open(svl_script, 'w') as file:
        file.writelines(lines)
    
    #Llamar a MOE y realizar el cálculo de descriptores de la molécula test
    
    #Cálculo de descriptores
    moe_executable = "C:\\moe2014\\bin-win64\\moe.exe"
    svl_command = "script 'C:\\\\Users\\\\DATOS\\\\Desktop\\\\TESIS_ARTURO\\\\Programacion\\\\Calculate_descriptors.script'"
    
    moe_process = subprocess.Popen([moe_executable, "-exec", svl_command])
    
    time.sleep(6)  # Espera 6 segundos a que MOE ejecute el comando SVL
    moe_process.terminate() # Cierra el proceso MOE
    
    #Obtención de descriptores del archivo data.csv
    
    database = pd.read_csv('data.csv')
    
    #Conversión de datos a tipo float
    database['a_hyd'] = database['a_hyd'].astype(float) 
    database['E'] = database['E'].astype(float)
    database['reactive'] = database['reactive'].astype(float)
    database['a_IC'] = database['a_IC'].astype(float)
    database['vol'] = database['vol'].astype(float)
    
    #Guardar los valores de los descriptores en un arreglo de Numpy (1,n)
    descriptores = database[["a_hyd", "E", "reactive", "a_IC", "vol"]].to_numpy()
    
    return descriptores

Función del modelo de regresión lineal para QSAR inverso

Función de la red neuronal para QSAR inverso

Función de evaluación de modelos

In [5]:
def val_model(y_t, y_p):
    """
    Evalúa la exactitud del modelo de clasificación comparando los valores de y calculados por dicho modelo, con los valores de y reales
    
    y_t (ndarray (m,)): Target values
    y_p (ndarray (m,)): Predicted values
    
    """
    # Calcular la fracción y el porcentaje de los datos que el modelo no clasifica correctamente (cuando y_p[i] es diferente que y_t[i])
    fraction_error = np.mean(y_p != y_t)
    percentaje_error = fraction_error * 100
    
    return percentaje_error