
# Conversió de fitxers SMILES dels repos de CoCoGraph i MolForge a format d'entrada pels nostres notebooks

Aquest notebook converteix fitxers **Raw MolForge** i **Raw CoCoGraph** al format
`id,SMILES_input` que fa servir MolForge com a entrada.


In [1]:
# Canvi al directori base del projecte
import os
os.chdir("/export/home/ddiestre/MolForge_Testing")

In [2]:
# Imports bàsics i definició de rutes
import pandas as pd

# Rutes d'entrada
input_path_MF = "data/SMILES/raw/MolForge/ECFP4.smiles.test"
#input_path_CCG = "data/SMILES/raw/CoCoGraph/novel_molecules.txt"
input_path_CCG = "data/SMILES/raw/CoCoGraph/molecules_lt70atoms_annotated.txt"

# Rutes de sortida (fitxers CSV amb columnes id,SMILES_input)
output_path_MF = "data/SMILES/MolForge_2000_ECFP4.csv"
#output_path_CCG = "data/SMILES/CoCoGraph_2000_novel.csv"
output_path_CCG = "data/SMILES/CoCoGraph_2000_lt70atoms.csv"


## Raw MolForge

- Fitxer d'entrada: fitxer amb dues columnes sense títol.  
- Només es conserva **la primera columna**, que es renomena a `SMILES_input`.  
- Es genera un CSV amb columnes `id,SMILES_input`, on `id` comença a 1.


In [3]:
# Llegim el fitxer amb dues columnes sense capçalera
# (separador: tabulador entre SMILES i fingerprint)
df_mf_raw = pd.read_csv(
    input_path_MF,
    sep="\t",
    header=None,
    engine="python"
)

# Nombre total de files del fitxer original
num_files_mf = len(df_mf_raw)
print(f"Nombre total de files al fitxer Raw MolForge: {num_files_mf}")

# Mostrem algunes files per inspeccionar
df_mf_raw.head()

Nombre total de files al fitxer Raw MolForge: 10000


Unnamed: 0,0,1
0,C C O C 1 = C ( C = C ( C = C 1 ) C ( C ( C ) ...,1 80 94 114 237 241 255 294 392 411 425 695 74...
1,C 1 = C C = C ( C = C 1 ) C 2 C = C ( N C 3 = ...,97 101 314 378 389 442 501 650 728 817 896 909...
2,C O C 1 = C C = C ( C = C 1 ) C ( = O ) C 2 = ...,9 45 78 89 145 203 322 548 586 650 695 718 760...
3,C 1 C N ( C C N 1 C C 2 = C C 3 = C ( C = C 2 ...,74 80 116 197 255 265 310 341 378 407 437 441 ...
4,C C 1 = C C = C ( C = C 1 ) S ( = O ) ( = O ) ...,94 186 210 227 235 249 319 335 348 350 389 440...


In [4]:
# Paràmetres de selecció
n_files_mf = 2000          # nombre de files que vols (posa None per totes)
use_random_mf = True       # True -> agafa files aleatòries, False -> primeres n_files_mf
random_seed = 42           # seed perquè el random sigui reproduïble

In [5]:
# Conversió de Raw MolForge a CSV id,SMILES_input

if n_files_mf is not None:
    if use_random_mf:
        # Mostra aleatòria de n_files_mf files
        df_mf_sel = df_mf_raw.sample(
            n=n_files_mf,
            random_state=random_seed
        ).copy()
    else:
        # Primeres n_files_mf files
        df_mf_sel = df_mf_raw.iloc[:n_files_mf].copy()
else:
    # Totes les files
    df_mf_sel = df_mf_raw.copy()

# Ens quedem només amb la primera columna i la renombrem
df_mf = df_mf_sel.iloc[:, 0].to_frame(name="SMILES_input")

# Eliminem espais sobrants al principi i final (per si de cas)
df_mf["SMILES_input"] = df_mf["SMILES_input"].str.strip()

# Afegim la columna id començant per 1
df_mf.insert(0, "id", range(1, len(df_mf) + 1))

# Definim 'id' com a índex
df_mf.set_index("id", inplace=True)

# Guardem en format CSV
df_mf.to_csv(output_path_MF)

# Mostrem les primeres files per comprovar el format
df_mf.head()


Unnamed: 0_level_0,SMILES_input
id,Unnamed: 1_level_1
1,C C 1 = C ( C = C C ( = C 1 ) C ( C ) ( C ) C ...
2,C ( C ( F ) ( F ) F ) ( C ( F ) ( F ) [18F] ) F
3,C C 1 = C C = C C = C 1 C ( C ( = O ) N C 2 C ...
4,C C O C ( = O ) C 1 = C C = C ( C = C 1 ) N C ...
5,C 1 [C@H] ( C N ( C 1 = O ) C C 2 = C C = C C ...



## Raw CoCoGraph

- Fitxer d'entrada: fitxer amb columna `smiles`.  
- La columna `smiles` es renomena a `SMILES_input`.  
- Es genera un CSV amb columnes `id,SMILES_input`, on `id` comença a 1.


In [6]:
# Llegim el fitxer amb una columna anomenada 'smiles'
df_ccg_raw = pd.read_csv(input_path_CCG)

# Nombre total de files del fitxer original
num_files_ccg = len(df_ccg_raw)
print(f"Nombre total de files al fitxer Raw CoCoGraph: {num_files_ccg}")

# Mostrem algunes files per inspeccionar
df_ccg_raw.head()

Nombre total de files al fitxer Raw CoCoGraph: 1668687


Unnamed: 0,smiles,molecular_formula,num_atoms
0,CC(C)=CCc1cc(C(=O)Nc2cc3ccc(OC4CCCNC4)c(C)c3oc...,C27H30N2O5,64
1,Cc1nc(N2CC[C@H](S(N)(=O)=O)C2)nc(C)c1CC(C)C,C14H24N4O2S,44
2,CCN(CC)CCOc1ccc(/C=C2\CCn3c2nc2ccccc2c3=O)cc1,C24H27N3O2,56
3,CC(C)CC1=NNC(=O)C1Sc1ccc(Cl)cc1,C13H15ClN2OS,33
4,CCCC(=O)NCCc1ccc(S(=O)(=O)N2CCN(C3CC=CCC3)C2=N...,C21H30N4O3S,59


In [7]:
# Paràmetres de selecció
n_files_ccg = 2000         # nombre de files que vols (posa None per totes)
use_random_ccg = True      # True -> agafa files aleatòries, False -> primeres n_files_ccg
random_seed = 42           # pots reutilitzar el mateix seed o canviar-lo

In [8]:
# Conversió de Raw CoCoGraph a CSV id,SMILES_input

if n_files_ccg is not None:
    if use_random_ccg:
        # Mostra aleatòria de n_files_ccg files
        df_ccg_sel = df_ccg_raw.sample(
            n=n_files_ccg,
            random_state=random_seed
        ).copy()
    else:
        # Primeres n_files_ccg files
        df_ccg_sel = df_ccg_raw.iloc[:n_files_ccg].copy()
else:
    # Totes les files
    df_ccg_sel = df_ccg_raw.copy()

# Ens quedem només amb la columna 'smiles' i la renombrem a SMILES_input
df_ccg = df_ccg_sel[["smiles"]].copy()
df_ccg.rename(columns={"smiles": "SMILES_input"}, inplace=True)

# Afegim la columna id començant per 1
df_ccg.insert(0, "id", range(1, len(df_ccg) + 1))

# Definim 'id' com a índex
df_ccg.set_index("id", inplace=True)

# Guardem en format CSV (ara l'índex és la columna id)
df_ccg.to_csv(output_path_CCG)

# Mostrem les primeres files per comprovar el format
df_ccg.head()

Unnamed: 0_level_0,SMILES_input
id,Unnamed: 1_level_1
1,O=C(NCCCCc1nc(-c2ccccn2)cs1)[C@@H]1COCCO1
2,O=C(NCCCCn1cnc([N+](=O)[O-])n1)c1ccc(OC(F)(F)F...
3,O=C(O)C(=O)CC1CCCCC1
4,CC(C)c1ccc([N+](=O)[O-])c(C(C)C)c1N1C(=O)c2c(F...
5,CC(=O)N1CCc2cc(S(=O)(=O)CCC(=O)N3CCN(c4cccc(C)...
