# INTRODUCCION

En el emocionante mundo de la química y la bioinformática, la capacidad de predecir la bioactividad de una molécula es de vital importancia. Ya sea para la investigación de nuevos medicamentos, el diseño de compuestos químicos avanzados o la evaluación de la toxicidad, contar con herramientas precisas y eficientes es esencial.
En este manual, exploraremos una poderosa metodología para abordar este desafío: el modelo Random Forest. Este enfoque de aprendizaje automático se ha convertido en una herramienta fundamental para la predicción de bioactividad, y lo llevaremos un paso más allá al incorporar dos componentes clave: la Validación Cruzada y el uso de un optimizador llamado Optuna.
La Validación Cruzada es una técnica que nos permite evaluar la robustez y precisión de nuestro modelo, garantizando que no estemos sobre ajustando los datos y que nuestras predicciones sean confiables en un entorno del mundo real. La utilización de Optuna, por otro lado, nos permite afinar los hiperparámetros del modelo de manera automatizada y eficiente, optimizando así su rendimiento.
Pero eso no es todo, porque además de los aspectos técnicos, abordaremos un componente crucial de la predicción de bioactividad: los fingerprints. Estas representaciones moleculares capturan información estructural única de las moléculas y son esenciales para comprender su bioactividad.
Este manual es un recurso valioso para aquellos que deseen adentrarse en el apasionante mundo de la predicción de bioactividad molecular. Aprenderá a construir, evaluar y perfeccionar modelos Random Forest, asegurando que estén optimizados para ofrecer predicciones precisas y confiables en función de los fingerprints de las moléculas.


# Fundamentos Teóricos

## 1.	Random Forest
Random Forest es un algoritmo de aprendizaje automático que se utiliza para la clasificación, la regresión y otras tareas de modelado predictivo. En quimioinformática, Random Forest se utiliza a menudo para predecir la actividad biológica de las moléculas en función de su estructura química.(Rodriguez, Hug et al. 2021)
El algoritmo de Random Forest se basa en la idea de crear múltiples árboles de decisión, cada uno de los cuales se entrena con un subconjunto aleatorio de los datos de entrenamiento y un subconjunto aleatorio de las características (variables independientes) del conjunto de datos completo. Cada árbol de decisión en el bosque vota por una clase o valor de regresión y la clase o valor de regresión final se elige por mayoría de votos. (Hernandez, Pryszlak et al. 2017)
La técnica de Random Forest se utiliza en quimioinformática para predecir la actividad biológica de las moléculas en función de su estructura química. La actividad biológica de una molécula se puede expresar como una propiedad binaria, como activa o inactiva, o como un valor de regresión, como la IC50 o la Ki. (Rodriguez, Hug et al. 2021)
En la quimioinformática, el conjunto de datos se compone de moléculas, donde cada molécula se representa mediante un conjunto de características o descriptores. Los descriptores son valores numéricos que describen la estructura química de una molécula. Los descriptores pueden ser simples, como el número de átomos en una molécula, o más complejos, como los descriptores topológicos que describen la conectividad de los átomos en una molécula. (Hernandez, Pryszlak et al. 2017, Rodriguez, Hug et al. 2021)
La selección de los descriptores adecuados es un paso crítico en la aplicación de Random Forest en quimioinformática. La selección de los descriptores debe basarse en un conocimiento profundo de la estructura química de las moléculas y de la actividad biológica que se está prediciendo. Además, la selección de los descriptores debe basarse en el análisis de la correlación entre los descriptores y la actividad biológica, así como en el análisis de la importancia de los descriptores en el modelo final. (Majumdar, Basak 2018) 
El uso de Random Forest en quimioinformática tiene varias ventajas. En primer lugar, Random Forest es capaz de manejar grandes conjuntos de datos con alta dimensionalidad y correlación entre los descriptores. En segundo lugar, Random Forest es resistente al sobreajuste, lo que significa que puede generalizar bien a datos nuevos. En tercer lugar, Random Forest es capaz de proporcionar medidas de importancia de los descriptores, lo que ayuda a entender mejor la relación entre la estructura química y la actividad biológica.  (Hernandez, Pryszlak et al. 2017, Majumdar, Basak 2018)
## 2.	Validación cruzada
La validación cruzada es una técnica estadística que se utiliza para evaluar el rendimiento de los modelos de aprendizaje automático en datos no vistos. En quimioinformática, se utiliza para evaluar la capacidad de los modelos de aprendizaje automático para predecir propiedades moleculares, como la actividad biológica o la solubilidad. (Majumdar, Basak 2018, Roberts, Bahn et al. 2017)
La validación cruzada implica dividir los datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento se utiliza para entrenar el modelo de aprendizaje automático, mientras que el conjunto de prueba se utiliza para evaluar su rendimiento. En quimioinformática, esto se puede hacer de varias maneras, como la validación cruzada por separación aleatoria, la validación cruzada por separación en bloques y la validación cruzada de grupos. (Chen, Gao et al. 2020) 
La validación cruzada por separación aleatoria implica dividir los datos en conjuntos de entrenamiento y prueba de forma aleatoria. La validación cruzada por separación en bloques implica dividir los datos en bloques y utilizar uno de los bloques como conjunto de prueba mientras se entrena el modelo en los demás bloques. La validación cruzada de grupos se utiliza cuando los datos se dividen en grupos basados en alguna propiedad química o biológica, y se utiliza un grupo como conjunto de prueba mientras se entrena el modelo en los demás grupos. (Murgante, Misra et al. 2013) 
## 3.	Hiperparametros
Los hiperparámetros utilizados en un modelo utilizando validación cruzada son valores que se establecen antes de que comience el proceso de entrenamiento y que afectan la forma en que se ajustan los parámetros del modelo. La validación cruzada se utiliza para evaluar el rendimiento del modelo con diferentes combinaciones de hiperparámetros para encontrar los valores óptimos que mejor se ajusten a los datos. (Chen, Gao et al. 2020)  
### a)	Número de árboles (n_estimators): 
El número de árboles que se utilizan en el bosque aleatorio. A medida que aumenta este valor, el modelo puede tardar más en entrenar y predecir, pero podría mejorar la precisión de la predicción.
### b)	Profundidad del árbol (max_depth): 
La profundidad máxima permitida para cada árbol. A medida que aumenta este valor, el modelo puede ajustarse demasiado a los datos de entrenamiento y perder la capacidad de generalización.
### c)	Número mínimo de muestras en las hojas (min_samples_leaf): 
El número mínimo de muestras requeridas para considerar una hoja del árbol. Un valor demasiado bajo puede hacer que el modelo se ajuste demasiado a los datos de entrenamiento y pierda la capacidad de generalización.
### d)	Número mínimo de muestras en cada nodo interno (min_samples_split): 
El número mínimo de muestras requeridas para dividir un nodo interno del árbol. Un valor demasiado bajo puede hacer que el modelo se ajuste demasiado a los datos de entrenamiento y pierda la capacidad de generalización.
### e)	Máximo número de características utilizadas en cada árbol (max_features): 
El número máximo de características que se consideran al dividir un nodo. Un valor demasiado bajo puede hacer que el modelo no tenga suficiente información para hacer predicciones precisas.
### f)	Random State: 
Un valor numérico que permite reproducir el mismo resultado en cada ejecución del modelo. 
## 4.	Optimizadores
### Optuna: 
Es una biblioteca de optimización de hiperparámetros que utiliza el método de optimización por prueba y error. Utiliza un enfoque basado en árboles para encontrar la combinación óptima de hiperparámetros de un modelo (Murgante, Misra et al. 2013, Snoek, Larochelle et al. 2012).
## 5.	Métricas
### a)	Accuracy:
Es la medida de la proporción de predicciones correctas en comparación con el total de predicciones.
### b)	Precision: 
Es la medida de la proporción de verdaderos positivos en relación con el total de predicciones positivas.
### c)	Recall: 
Es la medida de la proporción de verdaderos positivos en relación con el total de valores positivos reales.
### d)	F1-score: 
Es una medida de precisión y recall combinados, es útil cuando se tiene un conjunto de datos desequilibrado.
### e)	AUC-ROC:
Es la curva ROC (Receiver Operating Characteristic) que representa la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos a diferentes niveles de umbral(Gao 2021) .



# Preparación de Datos

Para dar inicio, es necesario realizar una preparación de los datos descargados en la página de ChemBL, es importante aclarar que este archivo descargado en .CSV debe contar con las siguientes columnas, como se representa en la imagen a continuación:

![image.png](attachment:image.png)


Después de obtener estas columnas únicamente en el archivo .CSV se procede a realizar el procesamiento de los datos con el siguiente procesador,que aplica las 5 reglas de lipinski.

## Requisitos previos:
Antes de comenzar, asegúrese de que las siguientes bibliotecas estén instaladas en su entorno Python: chembl_webresource_client, pandas, numpy, rdkit, seaborn, matplotlib, sklearn, y bayes_opt.


### Paso 1: Importar bibliotecas y módulos
Abra su entorno de Python e importe todas las bibliotecas y módulos necesarios utilizando el código proporcionado.


In [None]:
from chembl_webresource_client.new_client import new_client
import pandas as pd
import numpy as np
from rdkit import Chem
from rdkit.Chem import Descriptors
from rdkit.Chem import MACCSkeys
from rdkit.Chem.AllChem import GetMorganFingerprintAsBitVect
from rdkit.Chem.AllChem import GetHashedTopologicalTorsionFingerprintAsBitVect
from rdkit.Chem import RDKFingerprint
from rdkit import DataStructs
import pickle
import numpy
import seaborn as sns
import matplotlib
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.cm as cm
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
from sklearn.model_selection import KFold
from sklearn.metrics import auc
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_curve
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

matplotlib.use('Agg')

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split,cross_val_score,StratifiedKFold
from sklearn.metrics import confusion_matrix,classification_report,precision_score, recall_score, f1_score, accuracy_score
from sklearn.ensemble import RandomForestClassifier
from bayes_opt import BayesianOptimization
from sklearn.model_selection import train_test_split

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split,cross_val_score,StratifiedKFold
from sklearn.metrics import confusion_matrix,classification_report,precision_score, recall_score, f1_score, accuracy_score
from sklearn.ensemble import RandomForestClassifier
from bayes_opt import BayesianOptimization

from sklearn import metrics

from sklearn import metrics
import matplotlib.pyplot as plt
import numpy
from sklearn import metrics
import pickle
import os

### Paso 2: Definir la regla de los cinco y cálculo de fingerprints
En este paso, se define la función df_rule_of_five que verifica si las moléculas cumplen con la regla de los cinco y se calculan los fingerprints de las moléculas con la función calculate_fp.


In [None]:
def df_rule_of_five(row):
    smi = row['Smiles']
    if not pd.isna(smi):
        m = Chem.MolFromSmiles(str(smi))
        if m is not None:
            MW = Descriptors.ExactMolWt(m)
            HBA = Descriptors.NumHAcceptors(m)
            HBD = Descriptors.NumHDonors(m)
            LogP = Descriptors.MolLogP(m)

            conditions = [MW <= 500, HBA <= 10, HBD <= 5, LogP <= 5]

            return pd.Series([MW, HBA, HBD, LogP, 'yes']) if conditions.count(True) >= 3 else pd.Series([MW, HBA, HBD, LogP, 'no'])

    return pd.Series([np.nan, np.nan, np.nan, np.nan, np.nan])

def calculate_fp(mol, method='rdk5', n_bits=500):
    if method == 'maccs':
        return MACCSkeys.GenMACCSKeys(mol)
    if method == 'ecfp4':
        return GetMorganFingerprintAsBitVect(mol, 2, nBits=n_bits, useFeatures=False)
    if method == 'ecfp6':
        return GetMorganFingerprintAsBitVect(mol, 3, nBits=n_bits, useFeatures=False)
    if method == 'torsion':
        return GetHashedTopologicalTorsionFingerprintAsBitVect(mol, nBits=n_bits)
    if method == 'rdk5':
        return RDKFingerprint(mol, maxPath=5, fpSize=1024, nBitsPerHash=2)

def ConvertToNumpyArray(fp, arr):
    if isinstance(fp, Chem.DataStructs.cDataStructs.ExplicitBitVect):
        DataStructs.ConvertToNumpyArray(fp, arr)
    else:
        output_fp = np.zeros(fp.GetNumBits())
        output_fp = DataStructs.ConvertToNumpyArray(fp, output_fp)
        arr[:] = output_fp[:]
    return arr

def create_mol(df_l, n_bits, method='rdk5'):
    df_l['mol'] = df_l.smiles.apply(Chem.MolFromSmiles)
    df_l['bv'] = df_l.mol.apply(lambda x: calculate_fp(x, method, n_bits))
    df_l['np_bv'] = np.zeros((len(df_l), n_bits)).tolist()
    
    for i, row in df_l.iterrows():
        if row['bv'] is not None:
            df_l.at[i, 'np_bv'] = ConvertToNumpyArray(row['bv'], np.zeros(n_bits))
        else:
            df_l.at[i, 'np_bv'] = np.zeros(n_bits)

### Paso 3: Cargar datos desde un archivo CSV:
Lectura del archivo CSV, con los datos descargados de la pagina ChEMBL

In [None]:
ChEMBL_df = pd.read_csv('./BACE1.csv')

### Paso 4: Aplicar la regla de los cinco
Se aplica la función df_rule_of_five a cada fila del DataFrame para verificar si las moléculas cumplen con la regla de los cinco. Los resultados se almacenan en un nuevo DataFrame llamado rule5_prop_df.


In [None]:
rule5_prop_df = ChEMBL_df.apply(df_rule_of_five, axis=1)
rule5_prop_df.columns= ['MW', 'HBA', 'HBD', 'LogP', 'rule_of_five_conform']
ChEMBL_df = ChEMBL_df.join(rule5_prop_df)

### Paso 5: Filtrar las moléculas que cumplen con la regla de los cinco
Se filtran las moléculas que cumplen con la regla de los cinco y que tienen una etiqueta de actividad distinta a 'Intermediate'. Los resultados se almacenan en el DataFrame filteredyes_df.


In [None]:
filteredyes_df = ChEMBL_df[(ChEMBL_df['rule_of_five_conform'] == 'yes') & (ChEMBL_df['Activity_Type'] != 'Intermediate')]

### Paso 6: Seleccionar columnas relevantes
Se seleccionan las columnas 'Molecule_ChEMBL_ID', 'Activity_Type', y 'Smiles' del DataFrame filteredyes_df. Se crea una nueva columna 'active' que asigna 1 a las moléculas activas y 0 a las inactivas.


In [None]:
datosfinales = filteredyes_df[['Molecule_ChEMBL_ID', 'Activity_Type', 'Smiles']].copy()
datosfinales['active'] = 0
datosfinales.loc[datosfinales['Activity_Type'] == "Active", 'active'] = 1

### Paso 7: Contar el número de moléculas activas e inactivas
Se cuentan el número de moléculas activas e inactivas en el DataFrame datosfinales.


In [None]:
num_actives = len(datosfinales[datosfinales['active'] == 1])
num_inactives = len(datosfinales[datosfinales['active'] == 0])
print('Actives: %d, Inactives: %d' % (num_actives, num_inactives))

### Paso 8: Crear moléculas y calcular fingerprints
Se crean moléculas a partir de las cadenas SMILES y se calculan los fingerprints para cada molécula. Los resultados se almacenan en el DataFrame df_new.


In [None]:
datosfinales = datosfinales.rename(columns={'Smiles': 'smiles'})
df_new = datosfinales.copy()
create_mol(df_new, 500)

### Paso 9: Contar el número de moléculas activas e inactivas después de crear las moléculas
Se vuelve a contar el número de moléculas activas e inactivas en el DataFrame df_new.


In [None]:
num_actives = len(df_new[df_new['active'] == 1])
num_inactives = len(df_new[df_new['active'] == 0])
print('Actives: %d, Inactives: %d' % (num_actives, num_inactives))


### Paso 10: Seleccionar columnas relevantes para el entrenamiento
Se seleccionan las columnas 'np_bv' y 'active' del DataFrame df_new. Estos datos se utilizarán para el entrenamiento de modelos de aprendizaje automático.


In [None]:
datosentrenamiento_df = df_new[['np_bv', 'active']].copy()
datosentrenamiento_df.reset_index(drop=True, inplace=True)

### Paso 11: Guardar el DataFrame en un archivo pickle
Finalmente, se guarda el DataFrame datosentrenamiento_df en un archivo pickle llamado 'datosentrenamiento_df.pickle'.


In [None]:
with open('datosentrenamiento_df.pickle', 'wb') as f:
    pickle.dump(datosentrenamiento_df, f)

Script elaborado por Nelson Alejandro Amaya Orozco, como trabajo de grado, para el grupo de investigacion RamirezLAB