In [2]:
# notebooks/preprocessing.ipynb

import pandas as pd
import numpy as np
from rdkit import Chem
from rdkit.Chem import AllChem, DataStructs
from tqdm import tqdm

# 📥 Chargement des données brutes
X = pd.read_csv('../data/raw/X_train.csv')
print("Nombre de molécules :", len(X))

# 🔬 Fonction de conversion SMILES → vecteurs
def smiles_to_morgan_fp(smiles, radius=2, n_bits=2048):
    mol = Chem.MolFromSmiles(smiles)
    if mol is None:
        return np.zeros(n_bits)
    fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius, nBits=n_bits)
    arr = np.zeros((n_bits,))
    DataStructs.ConvertToNumpyArray(fp, arr)
    return arr

# 🔄 Transformation des SMILES en empreintes
print("Conversion des SMILES en vecteurs binaires...")
fps = []
for s in tqdm(X['SMILES']):
    fps.append(smiles_to_morgan_fp(s))

# 🔧 Création du DataFrame de features
X_fps = pd.DataFrame(fps)
X_fps['ID'] = X['ID']  # Pour pouvoir faire correspondre avec y plus tard
X_fps.to_csv("../data/processed/X_train_fingerprints.csv", index=False)

print("✅ Empreintes moléculaires sauvegardées dans data/processed/X_train_fingerprints.csv")
X_fps.head()


ModuleNotFoundError: No module named 'pandas'