# üß™ Padroniza√ß√£o de SMILES

## üîç O que √© SMILES?

**SMILES** (Simplified Molecular Input Line Entry System) √© uma **representa√ß√£o textual de mol√©culas qu√≠micas**.  
Em vez de usar uma estrutura gr√°fica, as mol√©culas s√£o codificadas como uma cadeia de caracteres. Por exemplo:

- Etanol: `CCO`  
- √Åcido ac√©tico: `CC(=O)O`

Essa representa√ß√£o √© amplamente usada em:
- Qu√≠mica computacional
- Bancos de dados moleculares
- Modelos de machine learning aplicados √† descoberta de f√°rmacos

---

## üéØ Por que padronizar SMILES?

A **mesma mol√©cula pode ter diferentes representa√ß√µes SMILES**.  
Por exemplo, o etanol pode ser representado como `CCO` ou `OCC`.

A padroniza√ß√£o (ou "normaliza√ß√£o") garante que:

- ‚úÖ Mol√©culas id√™nticas sejam tratadas como iguais  
- üßπ Evite duplicatas em bancos de dados  
- üîç Facilite buscas, compara√ß√µes e an√°lises estat√≠sticas  
- ü§ñ Melhore o desempenho de modelos de machine learning  

---

## üõ†Ô∏è O que a padroniza√ß√£o pode incluir?

- Remo√ß√£o de cargas desnecess√°rias  
- Ajuste de hidr√¥genos expl√≠citos  
- Gera√ß√£o de SMILES can√¥nicos (ordem padr√£o dos √°tomos)  
- Convers√£o para uma forma tautom√©rica comum  
- Neutraliza√ß√£o de mol√©culas onde aplic√°vel  

---




# üì¶ Instala√ß√£o e Importa√ß√£o de M√≥dulos RDKit

Antes de come√ßar a trabalhar com mol√©culas, precisamos instalar e importar as bibliotecas necess√°rias.

# üî¨ O que √© o RDKit?

**RDKit** √© uma biblioteca open-source amplamente utilizada em **qu√≠mica computacional**, **quimioinform√°tica** e **descoberta de f√°rmacos**.

Ela fornece ferramentas poderosas para:

- üß™ Manipular estruturas qu√≠micas
- üß† Extrair propriedades moleculares (peso molecular, logP, n√∫mero de an√©is, etc.)
- üßº Padronizar e limpar mol√©culas
- üß¨ Gerar e comparar **fingerprints moleculares**
- üéØ Calcular similaridade entre compostos
- üß∞ Realizar rea√ß√µes qu√≠micas simuladas
- üß± Gerar e manipular representa√ß√µes SMILES e InChI
- üåê Integrar com machine learning (ex: usando vetores qu√≠micos como input de modelos)



In [40]:
# --------------------
# üì¶ Instalar o RDKit
# --------------------
!pip install rdkit



In [41]:
# ---------------------------------------------------
# üìö Importar os m√≥dulos necess√°rios
# ---------------------------------------------------

# Importa o m√≥dulo principal do RDKit para manipular mol√©culas
from rdkit import Chem

# Desativa os avisos e mensagens de log do RDKit (para deixar o output mais limpo)
from rdkit import RDLogger
RDLogger.DisableLog('rdApp.*')

# M√≥dulos adicionais do RDKit:
from rdkit.Chem import (
    Descriptors,   # C√°lculo de propriedades moleculares (peso molecular, logP, etc.)
    Draw,          # Visualiza√ß√£o de estruturas qu√≠micas
    AllChem,       # Ferramentas para qu√≠mica 3D, fingerprints e conforma√ß√µes
    DataStructs,   # Manipula√ß√£o de fingerprints e similaridade
    inchi          # Convers√£o para InChI e InChIKey
)

# Importa a ferramenta de padroniza√ß√£o molecular do RDKit
from rdkit.Chem.MolStandardize import rdMolStandardize

# Utilit√°rio do Python: contador de elementos (muito √∫til em an√°lises de datasets qu√≠micos)
from collections import Counter

# Utilit√°rio do Jupyter/Colab para exibir resultados de forma interativa (ex: estruturas qu√≠micas)
from IPython.display import display

In [42]:
# ---------------------------------------------------
# ‚úÖ Fun√ß√£o para validar crit√©rios b√°sicos de SMILES
# ---------------------------------------------------

def check_criteria(smiles):
    """
    Verifica se uma string SMILES atende aos crit√©rios m√≠nimos
    para ser processada na pipeline (pr√©-processamento qu√≠mico).

    Crit√©rios verificados:
    - SMILES v√°lido (convers√≠vel para mol√©cula do RDKit)
    - Cont√©m pelo menos 1 √°tomo de carbono
    - N√£o √© uma mistura de compostos
    - Cont√©m apenas elementos permitidos (C, H, N, O, P, S, F, Cl, Br, I)
    - Peso molecular menor ou igual a 1500 Da

    Retorna:
        bool: True se a mol√©cula atender a todos os crit√©rios, False caso contr√°rio
    """

    try:
        # üß™ Converte a string SMILES em um objeto de mol√©cula do RDKit
        mol = Chem.MolFromSmiles(smiles)

        # Se a convers√£o falhar (SMILES inv√°lido), rejeita
        if mol is None:
            print(f"SMILES inv√°lido: {smiles}")
            return False

        # üîç Verifica se h√° pelo menos um √°tomo de carbono
        if not mol.HasSubstructMatch(Chem.MolFromSmarts('C')):
            print(f"Rejeitado (sem carbono): {smiles}")
            return False

        # ‚ö†Ô∏è Verifica se √© uma mistura (fun√ß√£o externa necess√°ria: is_mixture)
        if is_mixture(mol):
            print(f"Rejeitado (mistura detectada): {smiles}")
            return False

        # üî¨ Lista de elementos qu√≠micos permitidos
        allowed_elements = ['C', 'H', 'N', 'O', 'P', 'S', 'F', 'Cl', 'Br', 'I']

        # Verifica se todos os √°tomos pertencem √† lista permitida
        if any(atom.GetSymbol() not in allowed_elements for atom in mol.GetAtoms()):
            print(f"Rejeitado (elementos n√£o permitidos ou metais): {smiles}")
            return False

        # ‚öñÔ∏è Verifica se o peso molecular est√° dentro do limite
        mol_weight = Descriptors.MolWt(mol)
        if mol_weight > 1500:
            print(f"Rejeitado (Peso molecular {mol_weight:.2f} > 1500 Da): {smiles}")
            return False

        # ‚úÖ Se passou por todos os filtros
        print(f"SMILES aceito: {smiles}")
        return True

    except Exception as e:
        # Captura erros inesperados durante o processamento
        print(f"Erro ao processar SMILES {smiles}: {e}")
        return False


In [43]:
# ---------------------------------------------------
# üîç Fun√ß√£o para identificar poss√≠veis misturas qu√≠micas
# ---------------------------------------------------

def is_mixture(mol):
    """
    Verifica se a mol√©cula cont√©m mais de 5 fragmentos com carbono,
    o que pode indicar que se trata de uma mistura (e n√£o de um composto √∫nico).

    Par√¢metros:
        mol (rdkit.Chem.Mol): Objeto de mol√©cula do RDKit

    Retorna:
        bool: True se a mol√©cula for provavelmente uma mistura, False caso contr√°rio
    """

    # üß© Fragmenta a mol√©cula em partes desconectadas (sem sanitizar)
    # Exemplo: sais, aditivos ou mol√©culas ligadas por √≠ons podem se separar aqui
    fragments = Chem.GetMolFrags(mol, asMols=True, sanitizeFrags=False)

    # üîé Filtra apenas os fragmentos que cont√™m ao menos um √°tomo de carbono
    carbon_fragments = [
        frag for frag in fragments
        if frag.HasSubstructMatch(Chem.MolFromSmarts('C'))
    ]

    # ‚úÖ Retorna True se houver mais de 5 fragmentos com carbono (poss√≠vel mistura)
    return len(carbon_fragments) > 5


In [44]:
# ---------------------------------------------------
# ‚öóÔ∏è Fun√ß√£o para neutralizar mol√©culas (remover cargas)
# ---------------------------------------------------

def neutralize_smiles(smiles):
    """
    Neutraliza cargas em mol√©culas (√°cidos, bases, sais, etc.)
    usando o 'Uncharger' do RDKit.

    Par√¢metros:
        smiles (str): SMILES da mol√©cula a ser neutralizada

    Retorna:
        str: SMILES neutralizado, ou o original se a convers√£o falhar
    """
    try:
        # üõ†Ô∏è Exibe o SMILES que est√° sendo processado (√∫til para debug)
        print(f"Attempting to neutralize: {smiles}")

        # üîÑ Converte a string SMILES para objeto mol√©cula RDKit
        mol = Chem.MolFromSmiles(smiles)

        # ‚ùå Se a convers√£o falhar (mol = None), retorna o SMILES original
        if mol is None:
            return smiles

        # üßº Cria um objeto "Uncharger" para remover cargas
        uncharger = rdMolStandardize.Uncharger()

        # ‚ö° Aplica a neutraliza√ß√£o na mol√©cula
        mol = uncharger.uncharge(mol)

        # üîÅ Converte de volta para string SMILES (forma neutralizada)
        return Chem.MolToSmiles(mol)

    except Exception as e:
        # ‚ö†Ô∏è Caso ocorra algum erro, exibe o erro e retorna o SMILES original
        print(f"Error neutralizing {smiles}: {e}")
        return smiles


In [45]:
# ---------------------------------------------------
# üß¨ Fun√ß√£o para converter SMILES em InChIKey
# ---------------------------------------------------

def smiles_to_inchikey(smiles):
    """
    Converte uma string SMILES para o seu InChIKey correspondente,
    que √© um identificador √∫nico para subst√¢ncias qu√≠micas.

    Par√¢metros:
        smiles (str): Representa√ß√£o SMILES da mol√©cula

    Retorna:
        str: InChIKey se a convers√£o for bem-sucedida; "Cannot_do" se falhar
    """
    try:
        # üîÑ Converte o SMILES em um objeto de mol√©cula do RDKit
        mol = Chem.MolFromSmiles(smiles)

        # üî¨ Gera a string InChI (formato padronizado pelo IUPAC)
        inchi_string = Chem.MolToInchi(mol)

        # üîë Converte a InChI em um InChIKey (formato curto, fixo e √∫nico)
        inchikey = Chem.inchi.InchiToInchiKey(inchi_string)

        # ‚úÖ Exibe o resultado no console
        print(f"Converted SMILES to InChIKey: {inchikey}")

        return inchikey

    except Exception as e:
        # ‚ö†Ô∏è Se der erro na convers√£o, mostra o erro e retorna "Cannot_do"
        print(f"Error converting SMILES {smiles}: {e}")
        return "Cannot_do"


In [46]:
# ---------------------------------------------------
# üßº Fun√ß√£o de padroniza√ß√£o completa de mol√©culas
# ---------------------------------------------------

def standardize(smiles):
    """
    Realiza a limpeza e padroniza√ß√£o completa de uma mol√©cula usando RDKit.

    O processo inclui:
    - Convers√£o bidirecional InChI <-> Mol
    - Limpeza b√°sica
    - Remo√ß√£o de fragmentos pequenos
    - Neutraliza√ß√£o de cargas
    - Remo√ß√£o de informa√ß√µes desnecess√°rias (cargas, is√≥topos, estereoqu√≠mica)
    - Canonicaliza√ß√£o de taut√¥meros
    - Itera√ß√µes at√© estabilizar o SMILES

    Par√¢metros:
        smiles (str): String SMILES de entrada

    Retorna:
        str: SMILES padronizado final ou "Cannot_do" em caso de erro
    """
    try:
        print(f"\n---- Standardizing: {smiles} ----")

        # üîÑ Converte SMILES para mol√©cula RDKit
        mol = Chem.MolFromSmiles(smiles)

        # üëÅÔ∏è Mostra a estrutura original
        display(Draw.MolToImage(mol))

        # Contador para controlar quantas vezes cada SMILES aparece ap√≥s limpeza
        smiles_clean_counter = Counter()

        # Dicion√°rio para guardar mol√©culas √∫nicas
        mol_dict = {}

        # Flag para saber se a mol√©cula foi estabilizada
        is_finalize = False

        # üîÅ Repetir processo at√© 5 vezes (caso mudan√ßas ainda ocorram)
        for i in range(5):
            print(f"\nIteration {i+1}:")

            # üîÑ Convers√£o SMILES ‚Üí InChI ‚Üí Mol (para padronizar estrutura interna)
            inchi_standardized = Chem.MolToInchi(mol)
            mol = Chem.MolFromInchi(inchi_standardized)
            display(Draw.MolToImage(mol))

            # üßº Etapa 1: limpeza geral da mol√©cula
            mol = rdMolStandardize.Cleanup(mol)
            display(Draw.MolToImage(mol))

            # ‚úÇÔ∏è Etapa 2: remover fragmentos pequenos (deixa apenas o maior)
            mol = rdMolStandardize.FragmentParent(mol)
            display(Draw.MolToImage(mol))

            # ‚ö° Etapa 3: neutralizar cargas (√°cidos/bases)
            mol = rdMolStandardize.Uncharger().uncharge(mol)
            display(Draw.MolToImage(mol))

            # üßΩ Etapa 4: remover informa√ß√µes extras
            mol = rdMolStandardize.ChargeParent(mol)   # Remove altera√ß√µes artificiais de carga
            mol = rdMolStandardize.IsotopeParent(mol)  # Remove is√≥topos
            mol = rdMolStandardize.StereoParent(mol)   # Remove estereoqu√≠mica
            display(Draw.MolToImage(mol))

            # üîÅ Etapa 5: canonicaliza√ß√£o de taut√¥meros
            mol = rdMolStandardize.TautomerEnumerator().Canonicalize(mol)
            display(Draw.MolToImage(mol))

            # üîÅ Converte de volta para SMILES padronizado
            smiles_standardized = Chem.MolToSmiles(mol)
            print(f"Standardized SMILES: {smiles_standardized}")

            # ‚úÖ Verifica se o SMILES se estabilizou (parou de mudar)
            if smiles == smiles_standardized:
                print("No further changes detected. Standardization complete.")
                is_finalize = True
                break

            # üìä Atualiza contagem de ocorr√™ncias do SMILES gerado
            smiles_clean_counter[smiles_standardized] += 1
            if smiles_standardized not in mol_dict:
                mol_dict[smiles_standardized] = mol

            # üîÅ Atualiza mol√©cula e SMILES para pr√≥xima itera√ß√£o
            smiles = smiles_standardized
            mol = Chem.MolFromSmiles(smiles)

        # üß† Se ap√≥s 5 itera√ß√µes ainda houver instabilidade, escolhe o SMILES mais comum
        if not is_finalize:
            smiles_standardized = smiles_clean_counter.most_common(1)[0][0]
            print("Most common SMILES selected as final.")

        # ‚úÖ Exibe estrutura final
        print(f"\nFinal SMILES: {smiles_standardized}")
        display(Draw.MolToImage(Chem.MolFromSmiles(smiles_standardized)))

        return smiles_standardized

    except Exception as e:
        print(f"Error standardizing {smiles}: {e}")
        return "Cannot_do"



In [47]:
# Importar bibliotecas necess√°rias
import pandas as pd
from rdkit import Chem

# -----------------------------------------
# üìÇ Carregar arquivo CSV com SMILES
# -----------------------------------------
df = pd.read_csv("/content/Voriconazol.csv")  # Substitua pelo caminho correto do seu arquivo

# -----------------------------------------
# ‚úÖ Validar SMILES e salvar status
# -----------------------------------------
# Aplica uma fun√ß√£o que verifica se o SMILES √© v√°lido usando RDKit
# Se a convers√£o para Mol for bem-sucedida, marca como "Valid", sen√£o "Invalid"
df['Status'] = df['alignment'].apply(
    lambda s: "Valid" if Chem.MolFromSmiles(s) else "Invalid"
)

# -----------------------------------------
# üìä Contagem de SMILES v√°lidos e inv√°lidos
# -----------------------------------------
valid_count = df['Status'].value_counts().get('Valid', 0)
invalid_count = df['Status'].value_counts().get('Invalid', 0)

print(f"Valid SMILES: {valid_count}")
print(f"Invalid SMILES: {invalid_count}")



Valid SMILES: 2339
Invalid SMILES: 0


In [48]:
# ---------------------------------------------------
# Fun√ß√£o para canonicalizar uma string SMILES
# ---------------------------------------------------

def canonicalize_smiles(smiles):
    try:
        # Converte o SMILES em objeto mol√©cula RDKit
        mol = Chem.MolFromSmiles(smiles)

        # Se a convers√£o foi bem-sucedida, retorna o SMILES can√¥nico
        # Caso contr√°rio, retorna None
        return Chem.MolToSmiles(mol, canonical=True) if mol else None

    except:
        # Caso ocorra algum erro na convers√£o, retorna None
        return None

# ---------------------------------------------------
# Aplicar canonicaliza√ß√£o para todos os SMILES na coluna 'alignment'
# ---------------------------------------------------

df['SMILES_Canonical'] = df['alignment'].apply(canonicalize_smiles)



In [49]:
# ---------------------------------------------------
# Filtrar linhas onde o SMILES original √© diferente do can√¥nico
# ---------------------------------------------------
df_diff = df[df['alignment'] != df['SMILES_Canonical']].copy()

# Contar quantos SMILES foram modificados e total de SMILES no dataset
num_changed = len(df_diff)
total = len(df)

print(f"{num_changed} de {total} SMILES foram modificados ap√≥s a canonicaliza√ß√£o.")

# Se houver SMILES modificados, mostrar alguns exemplos e salvar em CSV
if num_changed > 0:
    print("\nExemplos de SMILES modificados (original vs can√¥nico):")
    print(df_diff[['alignment', 'SMILES_Canonical']].head(10))  # Mostra os primeiros 10 exemplos

    # Salvar arquivo CSV com os SMILES modificados para an√°lise posterior
    df_diff.to_csv("smiles_modified.csv", index=False)
    print("Arquivo 'smiles_modified.csv' salvo.")



2339 de 2339 SMILES foram modificados ap√≥s a canonicaliza√ß√£o.

Exemplos de SMILES modificados (original vs can√¥nico):
                                           alignment  \
0   C[C@@H](c1ncncc1F)[C@@](O)(Cn2cncn2)c3ccc(cc3F)F   
1    C[C@@H](c1ncncc1F)[C@](O)(Cn2cncn2)c3ccc(cc3F)F   
2    C[C@H](c1ncncc1F)[C@@](O)(Cn2cncn2)c3ccc(cc3F)F   
3     C[C@H](c1ncncc1F)[C@](O)(Cn2cncn2)c3ccc(cc3F)F   
4     C[C@H](c1ncncc1F)[C@@](O)(Cn2cncn2)c3ccc(cc3)F   
5   C[C@@H](c1ncncc1F)[C@@](F)(Cn2cncn2)c3ccc(cc3F)F   
6    C[C@@H](c1ncncc1F)[C@](F)(Cn2cncn2)c3ccc(cc3F)F   
7    C[C@H](c1ncncc1F)[C@@](F)(Cn2cncn2)c3ccc(cc3F)F   
8     C[C@H](c1ncncc1F)[C@](F)(Cn2cncn2)c3ccc(cc3F)F   
9  C[C@@H](c1ncnc(c1F)Cl)[C@@](O)(Cn2cncn2)c3ccc(...   

                                    SMILES_Canonical  
0   C[C@@H](c1ncncc1F)[C@@](O)(Cn1cncn1)c1ccc(F)cc1F  
1    C[C@@H](c1ncncc1F)[C@](O)(Cn1cncn1)c1ccc(F)cc1F  
2    C[C@H](c1ncncc1F)[C@@](O)(Cn1cncn1)c1ccc(F)cc1F  
3     C[C@H](c1ncncc1F)[C@](O)(Cn1cncn1)c

In [50]:
# ---------------------------------------------------
# Remover duplicatas com base na coluna 'SMILES_Canonical'
# Mant√©m a primeira ocorr√™ncia de cada SMILES can√¥nico
# ---------------------------------------------------
df_no_duplicates = df.drop_duplicates(subset=['SMILES_Canonical'])

# Calcular quantos duplicados foram removidos
num_duplicates = len(df) - len(df_no_duplicates)

print(f"N√∫mero de duplicatas removidas: {num_duplicates}")

# ---------------------------------------------------
# Salvar os datasets em arquivos CSV
# ---------------------------------------------------

# Salva o dataset original (com SMILES can√¥nicos e status)
df.to_csv("validation_smiles_canonical.csv", index=False)
print("Arquivo 'validation_smiles_canonical.csv' salvo.")

# Salva o dataset sem duplicatas
df_no_duplicates.to_csv("validation_smiles_no_duplicates.csv", index=False)
print("Arquivo 'validation_smiles_no_duplicates.csv' salvo sem duplicatas.")



N√∫mero de duplicatas removidas: 0
Arquivo 'validation_smiles_canonical.csv' salvo.
Arquivo 'validation_smiles_no_duplicates.csv' salvo sem duplicatas.


---

## üìö Refer√™ncias e Cr√©ditos

Este notebook adota e adapta trechos de c√≥digo desenvolvidos por especialistas da comunidade de qu√≠mica computacional.

### ‚úçÔ∏è Autores:

- **Srijit Seal**  
  Site pessoal: [srijitseal.com](https://srijitseal.com)  
  Blog: [Standardizing a molecule using RDKit](https://bitsilla.com/blog/2021/06/standardizing-a-molecule-using-rdkit/)

- **Lewis Mervin** (REINVENT Project Contributor)  
  Reposit√≥rio: [REINVENT4 GitHub](https://github.com/lewismervin1/REINVENT4/tree/main/reinvent/chemistry/standardization)

Essas fontes foram utilizadas para construir os trechos de c√≥digo de padroniza√ß√£o qu√≠mica com a biblioteca **RDKit**, adaptados neste notebook para fins educacionais.

---

‚ö†Ô∏è **Nota**: Este material √© apenas para fins acad√™micos e educacionais. O c√≥digo original pertence aos respectivos autores e est√° dispon√≠vel sob suas respectivas licen√ßas.

---