In [2]:
from rdkit import Chem

smiles_original = "[C@@H]1(O[C@@H]([C@H]([C@@H]1O)O)OCCN)CO[C@H]2O[C@@H]([C@H]([C@@H]2O)O[C@H]3O[C@@H]([C@H]([C@@H]3O[C@@H]4O[C@@H]([C@H]([C@@H]4O)O)CO)O)CO)CO[C@H]5O[C@@H]([C@H]([C@@H]5O[C@@H]6O[C@@H]([C@H]([C@@H]6O)O)CO)O)CO"
mol = Chem.MolFromSmiles(smiles_original)  
canonical_smiles = Chem.MolToSmiles(mol, canonical=True)
print(canonical_smiles)


NCCO[C@H]1O[C@H](CO[C@H]2O[C@H](CO[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H](O[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H]2O)[C@@H](O)[C@@H]1O


In [5]:
from rdkit import Chem

smiles1 = "N[2CH2][1CH2]O[501C@H]1O[504C@H]([505CH2]O[1001C@H]2O[1004C@H]([1005CH2]O[1501C@H]3O[1504C@H]([1505CH2]O)[1503C@@H](O)[1502C@@H]3O[2001C@@H]3O[2004C@H]([2005CH2]O)[2003C@@H](O)[2002C@@H]3O)[1003C@@H](O[2501C@H]3O[2504C@H]([2505CH2]O)[2503C@@H](O)[2502C@@H]3O[3001C@@H]3O[3004C@H]([3005CH2]O)[3003C@@H](O)[3002C@@H]3O)[1002C@@H]2O)[503C@@H](O)[502C@@H]1O"  # и т.д.
smiles2 = "NCCO[C@H]1O[C@H](CO[C@H]2O[C@H](CO[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H](O[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H]2O)[C@@H](O)[C@@H]1O"  # и т.д.

def canonical_no_map(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol is None:
        return None
    # Сбросить номера atom mapping
    for atom in mol.GetAtoms():
        atom.SetAtomMapNum(0)
    # Выдать канонический SMILES (с сохранением стереохимии)
    return Chem.MolToSmiles(mol, canonical=True, isomericSmiles=True)

can1 = canonical_no_map(smiles1)
can2 = canonical_no_map(smiles2)

print("SMILES #1 canonical:", can1)
print("SMILES #2 canonical:", can2)

if can1 == can2:
    print("Обе записи описывают одну и ту же структуру!")
else:
    print("Структуры различаются (или содержит ошибки).")


SMILES #1 canonical: N[2CH2][1CH2]O[501C@H]1O[504C@H]([505CH2]O[1001C@H]2O[1004C@H]([1005CH2]O[1501C@H]3O[1504C@H]([1505CH2]O)[1503C@@H](O)[1502C@@H]3O[2001C@@H]3O[2004C@H]([2005CH2]O)[2003C@@H](O)[2002C@@H]3O)[1003C@@H](O[2501C@H]3O[2504C@H]([2505CH2]O)[2503C@@H](O)[2502C@@H]3O[3001C@@H]3O[3004C@H]([3005CH2]O)[3003C@@H](O)[3002C@@H]3O)[1002C@@H]2O)[503C@@H](O)[502C@@H]1O
SMILES #2 canonical: NCCO[C@H]1O[C@H](CO[C@H]2O[C@H](CO[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H](O[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H]2O)[C@@H](O)[C@@H]1O
Структуры различаются (или содержит ошибки).


In [6]:
import re

def strip_and_replace_ch2(smiles: str) -> str:
    """
    Убирает числовые префиксы из SMILES и заменяет только '[CH2]' на 'C',
    оставляя другие группы, такие как '[C@H]', без изменений.
    """
    # Шаг 1: Удаляем числовые префиксы
    pattern_remove_numbers = re.compile(r'\[([0-9]+)([A-Za-z@0-9]+)\]')
    smiles = pattern_remove_numbers.sub(r'[\2]', smiles)
    
    # Шаг 2: Заменяем только '[CH2]' на 'C'
    pattern_replace_ch2 = re.compile(r'\[CH2\]')
    smiles = pattern_replace_ch2.sub('C', smiles)
    
    return smiles


In [14]:
ideal_smiles = "NCCO[C@H]1O[C@H](CO[C@H]2O[C@H](CO[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H](O[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H]2O)[C@@H](O)[C@@H]1O"

In [15]:
smiles_input = "N[2CH2][1CH2]O[501C@H]1O[504C@H]([505CH2]O[1001C@H]2O[1004C@H]([1005CH2]O[1501C@H]3O[1504C@H]([1505CH2]O)[1503C@@H](O)[1502C@@H]3O[2001C@@H]3O[2004C@H]([2005CH2]O)[2003C@@H](O)[2002C@@H]3O)[1003C@@H](O[2501C@H]3O[2504C@H]([2505CH2]O)[2503C@@H](O)[2502C@@H]3O[3001C@@H]3O[3004C@H]([3005CH2]O)[3003C@@H](O)[3002C@@H]3O)[1002C@@H]2O)[503C@@H](O)[502C@@H]1O"

In [16]:

cleaned_smiles = strip_and_replace_ch2(smiles_input)


print("Исходный SMILES:", smiles_input)
print("Обработанный SMILES:", cleaned_smiles)
print("Для сравнения SMILES:", ideal_smiles)

Исходный SMILES: N[2CH2][1CH2]O[501C@H]1O[504C@H]([505CH2]O[1001C@H]2O[1004C@H]([1005CH2]O[1501C@H]3O[1504C@H]([1505CH2]O)[1503C@@H](O)[1502C@@H]3O[2001C@@H]3O[2004C@H]([2005CH2]O)[2003C@@H](O)[2002C@@H]3O)[1003C@@H](O[2501C@H]3O[2504C@H]([2505CH2]O)[2503C@@H](O)[2502C@@H]3O[3001C@@H]3O[3004C@H]([3005CH2]O)[3003C@@H](O)[3002C@@H]3O)[1002C@@H]2O)[503C@@H](O)[502C@@H]1O
Обработанный SMILES: NCCO[C@H]1O[C@H](CO[C@H]2O[C@H](CO[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H](O[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H]2O)[C@@H](O)[C@@H]1O
Для сравнения SMILES: NCCO[C@H]1O[C@H](CO[C@H]2O[C@H](CO[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H](O[C@H]3O[C@H](CO)[C@@H](O)[C@@H]3O[C@@H]3O[C@H](CO)[C@@H](O)[C@@H]3O)[C@@H]2O)[C@@H](O)[C@@H]1O


In [17]:
cleaned_smiles == ideal_smiles

True