# SELFIES

SELFIES, sigla para *Self-Referencing Embedded Strings* são uma forma de representação molecular em forma de texto, assim como os SMILES.

Esta nova forma de representação molecular, publicada como *preprint* pela primeira vez em 2019 é especialmente interessante para tarefas de geração de estruturas moleculares por modelos de *machine learning*, uma vez que se trata de uma linguagem **robusta**, ou seja, grafos moleculares gerados na forma de SELFIES são sempre sintaticamente e semanticamente válidos, diferentemente dos SMILES. Porém, os SELFIES não se limitam a essa tarefa, podendo também ser usados para a criação de modelos de predição de propriedades, muitas vezes sendo superiores a modelos treinados diretamente a partir de SMILES.

Em 2021, os autores do trabalho original organizaram um *workshop* para discutir futuros avanços para a representação SELFIES. Da colaboração dos participantes do *workshop* resultou um artigo de revisão (do qual sou coautor!), publicado na revista Patterns, que pode ser encontrado aqui: https://www.sciencedirect.com/science/article/pii/S2666389922002069

Vamos ver abaixo como usar o pacote `selfies` para integrar essa nova forma de representação molecular em seus trabalhos.

**Mais referências (em inglês)**
- [Artigo original](https://iopscience.iop.org/article/10.1088/2632-2153/aba947)
- [Página do GitHub](https://github.com/aspuru-guzik-group/selfies)
- [Documentação do pacote `selfies`](https://selfiesv2.readthedocs.io/en/latest/)

## Instalação

Como estou usando um Notebook no Google Colab, começamos instalando o módulo `selfies` usando `pip`:

In [1]:
!pip install selfies

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting selfies
  Downloading selfies-2.1.1-py3-none-any.whl (35 kB)
Installing collected packages: selfies
Successfully installed selfies-2.1.1


In [2]:
# Verificando a versão
!pip show selfies

Name: selfies
Version: 2.1.1
Summary: SELFIES (SELF-referencIng Embedded Strings) is a general-purpose, sequence-based, robust representation of semantically constrained graphs.
Home-page: https://github.com/aspuru-guzik-group/selfies
Author: Mario Krenn, Alston Lo, and many other contributors
Author-email: mario.krenn@utoronto.ca, alan@aspuru.com
License: UNKNOWN
Location: /usr/local/lib/python3.10/dist-packages
Requires: 
Required-by: 


In [3]:
import selfies as sf

## Alguns exemplos de uso

In [4]:
# SMILES correspondente ao benzeno 
benzene = 'c1ccccc1'

In [5]:
encoded_selfies = sf.encoder(benzene)

In [6]:
encoded_selfies

'[C][=C][C][=C][C][=C][Ring1][=Branch1]'

In [7]:
decoded_smiles = sf.decoder(encoded_selfies)

In [8]:
decoded_smiles

'C1=CC=CC=C1'

Note que o SMILES obtido é diferente do fornecido originalmente, porém ambos representam a mesma estrutura.

In [9]:
# a molécula de benzeno é composta por oito símbolos, como uma palavra escrita com oito letras
sf.len_selfies(encoded_selfies)

8

In [10]:
# Vamos ver quais são essas "letras"
list(sf.split_selfies(encoded_selfies))

['[C]', '[=C]', '[C]', '[=C]', '[C]', '[=C]', '[Ring1]', '[=Branch1]']

In [11]:
# Para converter uma lista de SMILES para SELFIES
smiles_dataset = ["COC", "FCF", "O=O", "O=Cc1ccccc1"]
selfies_dataset = list(map(sf.encoder, smiles_dataset))

selfies_dataset

['[C][O][C]',
 '[F][C][F]',
 '[O][=O]',
 '[O][=C][C][=C][C][=C][C][=C][Ring1][=Branch1]']

Nota: até o momento (2023) os SELFIES não possuem grande suporte a moléculas como complexos metálicos, limitando-se a compostos orgânicos simples. É possível que atualizações sejam feitas nos próximos anos.

Para exemplos mais elaborados de uso da linguagem SELFIES, veja este [blog post](https://aspuru.substack.com/p/molecular-graph-representations-and), em inglês.