# SMILES → Fingerprints
Transforma una taula amb **SMILES** en **fingerprints** fent servir RDKit.

**Entrada**: CSV amb columnes (opcional `id`) i `SMILES_output`.

**Sortida**: CSV amb columnes (opcional `id`), `SMILES_output` i `fingerprints_output_ECFP4`.

## Imports

In [1]:
# Per definir l'arrel del projecte
import os

# Pandas pels dataframes
import pandas as pd

## Inputs (part a editar)

Arrel del projecte

In [2]:
os.chdir("/export/home/ddiestre/MolForge_Testing")

In [3]:
# Importem la funció smiles_to_fingerprint del nostre sourcecode que utilitza RDKit
from src.smiles_to_fp import smiles_to_fingerprint, fp_to_indices_str

Fitxer de fingerprints preprocessat (path a partir de MolForge_Testing/)

In [4]:
input_path = "data/MolForge_output/test_1_output.csv"

Fitxer en que guardar l'output (path a partir de MolForge_Testing/)

In [5]:
output_path = "data/analysis_output/test_1_analysis_output.csv"

## 1. Lectura del fitxer

In [6]:
# Lectura del fitxer
df = pd.read_csv(input_path, sep = ',', na_filter=False , index_col = 0)
df.head(5)

Unnamed: 0_level_0,fingerprints_input,SMILES_output
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1 80 94 114 237 241 255 294 392 411 425 695 74...,CCOC1=C(C=C(C=C1)C(C(C)(C)C)N)OCC
2,97 101 314 378 389 442 501 650 728 817 896 909...,C1=CC=C(C=C1)C2C=C(NC(=O)C2C3=NC(=S)NC(=O)C34C...
3,9 45 78 89 145 203 322 548 586 650 695 718 760...,COC1=CC=C(C=C1)C(=O)C2=C(C(=C3N2C4=CC=CC=C4C=C...


## 2. Columna SMILES → Columna de fingerprints ECFP4

In [7]:
fingerprints_output_ECFP4_obj = []

# Apliquem el conversor SMILES -> fingerprint ECFP4
fingerprints_output_ECFP4_obj = df["SMILES_output"].apply(
    lambda s: smiles_to_fingerprint(s, fp_type="ECFP4", n_bits=2048)
)

# 2. Els passes a string per guardar-los / comparar-los amb el format input
df["fingerprints_output_ECFP4"] = fingerprints_output_ECFP4_obj.apply(fp_to_indices_str)

## 3. Guardar l'output

In [8]:
# Creem el nou dataframe
df.head(5)

Unnamed: 0_level_0,fingerprints_input,SMILES_output,fingerprints_output_ECFP4
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1 80 94 114 237 241 255 294 392 411 425 695 74...,CCOC1=C(C=C(C=C1)C(C(C)(C)C)N)OCC,194855659 589930590 625856904 768183816 847957...
2,97 101 314 378 389 442 501 650 728 817 896 909...,C1=CC=C(C=C1)C2C=C(NC(=O)C2C3=NC(=S)NC(=O)C34C...,10565946 59813713 81315441 98513984 120307813 ...
3,9 45 78 89 145 203 322 548 586 650 695 718 760...,COC1=CC=C(C=C1)C(=O)C2=C(C(=C3N2C4=CC=CC=C4C=C...,72694921 98513984 402157657 409801989 76224016...


In [9]:
df.to_csv(output_path)