In [None]:
#Se instala la herramienta RDKit
!pip install rdkit

Collecting rdkit
  Downloading rdkit-2024.3.5-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (3.9 kB)
Downloading rdkit-2024.3.5-cp310-cp310-manylinux_2_28_x86_64.whl (33.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m33.1/33.1 MB[0m [31m24.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: rdkit
Successfully installed rdkit-2024.3.5


In [None]:
#Se instala el paquete duckdb que permite manipular la BD que inicialmente es muy grande
!pip install duckdb



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
#Se hace instalación de paquete de kaggle
!pip install -q kaggle

In [None]:
# Se usa la extensión de google colab para subir el token descargado de Kaggle el cual tiene el nombre "kaggle.json"
from google.colab import files
files.upload()

Saving kaggle.json to kaggle (1).json


{'kaggle (1).json': b'{"username":"lhcastrop","key":"56e17656944c982f8a2a8576a52759d1"}'}

In [None]:
#Se crea directorio
!mkdir ~/.kaggle

In [None]:
#Se copia archivo en carpeta de colab
!cp kaggle.json ~/.kaggle/

In [None]:
!chmod 600 ~/.kaggle/kaggle.json

In [None]:
#Se carga el dataset desde kaggle en formato comprimido
! kaggle competitions download -c 'leash-BELKA'

Downloading leash-BELKA.zip to /content
100% 4.16G/4.16G [01:15<00:00, 105MB/s] 
100% 4.16G/4.16G [01:15<00:00, 59.1MB/s]


In [None]:
#Se crea un directorio
!mkdir leash-BELKA

In [None]:
#Se descomprimen los archivos en el directorio creado
! unzip leash-BELKA.zip -d train

Archive:  leash-BELKA.zip
  inflating: train/sample_submission.csv  
  inflating: train/test.csv          
  inflating: train/test.parquet      
  inflating: train/train.csv         

**Preparación de Datos**

Los paquetes de datos de entrenamiento y prueba son definidos en los archivos .parquet. Se usa la herramienta duckdb para escanear la busqueda a traves de conjuntos de entramiento grandes. Para comenzar solo se toman un numero igual de muestras positivas y negativas.

Esta busqueda selecciona un numero igual de muestras donde los enlaces son 0 (no-enlazado) y 1 (enlazado), limitado para 30000 cada uno para evitar el sesgo del modelo hacia una clase particular.

In [None]:
from google.colab import drive
drive.mount('/content/drive')
import duckdb
import pandas as pd

train_path = '/content/train/train.parquet'
test_path = '/content/train/test.parquet'


con = duckdb.connect()

df = con.query(f"""(SELECT *
                        FROM parquet_scan('{train_path}')
                        WHERE binds = 0
                        ORDER BY random()
                        LIMIT 30000)
                        UNION ALL
                        (SELECT *
                        FROM parquet_scan('{train_path}')
                        WHERE binds = 1
                        ORDER BY random()
                        LIMIT 30000)""").df()

con.close()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

In [None]:
df.head()

**Procesamiento de Caracteristicas**

Se toman los SMILEs correspondientes a cada molecula completamente ensamblada (molecule_smiles) y se generan los ECFPs para estas. Podriamos escoger diferentes radios o bits, pero 2 y 1024 son los mas estandar.

In [None]:
from rdkit import Chem
from rdkit.Chem import AllChem
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import average_precision_score
from sklearn.preprocessing import OneHotEncoder

# Se convierten los SMILEs en moleculas RDKit
df['molecule'] = df['molecule_smiles'].apply(Chem.MolFromSmiles)

#Se generan las ECFPs (Extended-Conectivity Fingerprints- Huellas Dactilares de Conectividad Extendida)
def generate_ecfp(molecule, radius=2, bits=1024):
    if molecule is None:
        return None
    return list(AllChem.GetMorganFingerprintAsBitVect(molecule, radius, nBits=bits))

df['ecfp'] = df['molecule'].apply(generate_ecfp)

[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m


**Modelo de Entrenamiento**


In [None]:
# Se realiza la codificación One-hot a los nombres de las proteinas almacenadas en protein_name
onehot_encoder = OneHotEncoder(sparse_output=False)
protein_onehot = onehot_encoder.fit_transform(df['protein_name'].values.reshape(-1, 1))

# Se combinan las ECFPs y los nombres de la proteinas codificadas
X = [ecfp + protein for ecfp, protein in zip(df['ecfp'].tolist(), protein_onehot.tolist())]
y = df['binds'].tolist()

# Se dividen los datos en conjunto de prueba y entrenamiento
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Se crea y entrena el Modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Se realizan las predicciones  con el conjunto de prueba
y_pred_proba = rf_model.predict_proba(X_test)[:, 1]  # Probabilidad de la clase positiva

# Se calcula la precisión media promedio
map_score = average_precision_score(y_test, y_pred_proba)
print(f"Mean Average Precision (mAP): {map_score:.2f}")

Mean Average Precision (mAP): 0.96


**Prueba de Predicción**

El modelo Random Forest entrenado es usado para predecir las probabilidad de afinidad. Estas predicciones se guardan en un archivo CSV.

In [None]:
import os
# Se procesa el archivo test.parquet fragmento por fragmento
test_file = '/content/train/test.csv'
output_file = 'submission.csv'  #  Se especifica la ruta y el nombre del archivo de salida
# Se lee el archivo test.parquet en un Dataframe de pandas
for df_test in pd.read_csv(test_file, chunksize=100000):

    # Se generan las ECFPs para las molecule_smiles
    df_test['molecule'] = df_test['molecule_smiles'].apply(Chem.MolFromSmiles)
    df_test['ecfp'] = df_test['molecule'].apply(generate_ecfp)

    # Codificacion One-hot para los nombres de las proteina almacenas en protein_name
    protein_onehot = onehot_encoder.transform(df_test['protein_name'].values.reshape(-1, 1))

    # Se combinan las ECFPs y los nombres de la proteinas codificadas
    X_test = [ecfp + protein for ecfp, protein in zip(df_test['ecfp'].tolist(), protein_onehot.tolist())]

    # Se predicen las probabilidades
    probabilities = rf_model.predict_proba(X_test)[:, 1]

    # Se crea el DataFrame con columnas de 'id' y 'probabilidad'
    output_df = pd.DataFrame({'id': df_test['id'], 'binds': probabilities})

    # Almacenar el DataFrame de salida en un archivo CSV
    output_df.to_csv(output_file, index=False, mode='a', header=not os.path.exists(output_file))

[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m
