In [None]:
!pip install -r requirements.txt

Przydatne linki:

1.https://scikit-fingerprints.github.io/scikit-fingerprints/index.html <- dokumentacja biblioteki Scikit-Fingerprints,

2.https://www.rdkit.org/docs/ <- Dokumentacja biblioteki RDKit, która umożliwi wykonanie wizualizacji,

3.https://pubchem.ncbi.nlm.nih.gov/ <- PubChem, bodaj największe otwarte źródło informacji o cząsteczkach chemicznych,

Format SMILES

SMILES to format sposób zapisywania struktury cząsteczek chemicznych w postaci ciągu znaków ASCII, znajdujący zastosowanie w chemii obliczeniowej czy bioinformatyce.

W formacie SMILES pierwiastki są oznaczane [X], gdzie X to symbol pierwiastka z układu okresowego.

Wyjątkami od powyższego są symbole C i O, które domyślnie oznaczają metan i wodę.

Pierwiastki organiczne (https://pl.wikipedia.org/wiki/Pierwiastki_biofilne) można zapisać bez nawiasów kwadratowych.

Gdy między symbolami nie występują żadne znaki, to oznacza to, że są one połączone wiązanie pojedycznym. Wiązania podwójne i potrójne oznacza się kolejno symbolami = i #.

Rozgałęzienia struktur oznacza się przy pomocy nawiasów okrągłych.

Do zapisu układów cyklicznych używa się małych liter.

Zadanie 1

Zilustrujmy powyższe reguły zapisu w formacie SMILES przedstawiając związki chemiczne w postaci grafów. W tym celu będziemy potrzebować biblioteki RDKit, która zapewnie narzędzia potrzebne do wizualizacji. Potrzebne do zadania SMILESy możesz znaleźć na stronie https://pubchem.ncbi.nlm.nih.gov/

In [None]:
from rdkit import Chem
from rdkit.Chem import Draw, Mol
from skfp.preprocessing.mol_to_from_smiles import MolFromSmiles

In [None]:
# TODO: Znajdź w serwisie PubChem (lub dowolonym innym) SMILES podanych poniżej związków z różnymi rodzajami wiązań, rozgałęzieniami a także związków cyklicznych.
smiles_list: list[str] = ["", # Metan (Methane)
                          "", # TODO: Dwutlenek węgla (Carbon dioxide)
                          "", # TODO: Acetylen (Acetylene)
                          "", # TODO: Kwas octowy (Acetic acid)
                          ""] # TODO: Benzen (Benzene)

In [None]:
# Mając gotowe SMILESy powinniśmy przekonwertować jest do molekuł, reprezentowanych przez obiekt Mol
mols_list: list[Mol] = []
for smiles in smiles_list:
    # TODO
    pass

In [None]:
# Teraz możemy przyjrzeć się grafom reprezentującym poszczególne molekuły
# UWAGA - metoda Draw z pakietu rdKit prawdopodobnie będzie chciała otworzyć osobne okno z plikiem
for mol in mols_list:
    # TODO
    pass

Jupyter pozwala bezpośrednio wyświetlać molekuły

In [None]:
mols_list[0]

In [None]:
mols_list[1]

In [None]:
mols_list[2]

In [None]:
mols_list[3]

In [None]:
mols_list[4]

Zadanie 2

Teraz wyświetlmy poszczególne atomy, z których składają się związki powyżej.

In [None]:
def print_atom_info(mol):
    # TODO
    pass

In [None]:
for mol in mols_list:
    print_atom_info(mol)

Zadanie 3

Wyświetlmy rodzaje wiązań, które występują między atomami w związkach powyżej.

In [None]:
def print_bond_info(mol):
    # TODO: Wyświetl informacje o wiązaniach wchodzących w skład podanej molekuły
    pass

In [None]:
for mol in mols_list:
    print_bond_info(mol)

Zadanie 4

Wyświetlmy informacje o ilości pierścieni w cząsteczce benzenu.

In [None]:
def get_ring_count(mol) -> int:
    # TODO: Pobierz i zwróc informację o pierścieniach w cząsteczce
    pass

In [None]:
benzene_smiles = "" # TODO
benzene_smiles = MolFromSmiles(benzene_smiles)

benzene_ring_count = get_ring_count(benzene_smiles)
print(benzene_ring_count)

In [None]:
assert benzene_ring_count == 1

W ten sposób możemy pozyskać proste deskryptory. Istnieje jednak o wiele więcej czynników, które przesądzają o właściwościach cząsteczki.

Deskryptory molekularne są kluczowe dla chemoinformatyki, za ich pomocą możemy na przykład filtrować zbiory danych w poszukiwaniu cząsteczek o interesujących właściwościach.

W celu obliczenia wartości interesujących nas deskryptorów moglibyśmy ręcznie wykonywać operacje na obiektach reprezentujących cząsteczki. Na szczęście mamy warstwę abstrakcji, która ułatwi nam zadanie: 

https://www.rdkit.org/docs/source/rdkit.Chem.rdMolDescriptors.html

In [None]:
from rdkit.Chem import Crippen, rdMolDescriptors

Zadanie 5

Spróbujmy utworzyć trzy filtry molekularne, znane jako **GSK**, **Rule of Veber** i **Oprea**.

https://pubs.acs.org/doi/10.1021/jm701122q

https://pubmed.ncbi.nlm.nih.gov/12036371/

https://pubmed.ncbi.nlm.nih.gov/10756480/

Filtr GSK wymaga zdefiniowania dwóch deskryptorów:
- Masy molowej cząsteczki, https://pl.wikipedia.org/wiki/Masa_molowa
- logP https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_podzia%C5%82u, https://www.rdkit.org/docs/source/rdkit.Chem.Crippen.html

Rule of Veber też używa dwóch reguł:
- Ilości wiązań rotacyjnych (rotatble bonds),
- Topological polar surface area (TPSA) https://en.wikipedia.org/wiki/Polar_surface_area,

Rule of Oprea wymaga czterech deskryptorów:
- Ilości dawców wiązań wodorowych (HBD), 
- Ilości akceptorów wiązań wodorowych (HBA), 
https://www.researchgate.net/figure/Hydrogen-bond-donor-HBD-and-hydrogen-bond-acceptor-HBA-sites-for-trizaole-Tz-left_fig5_346474495
- Ilości wiązań rotacyjnych,
- Ilości pierścieni

W razie problemów można zajrzeć do repozytorium biblioteki **scikit-fingerprints**, która implementuje te i wiele innych filtrów.

https://github.com/scikit-fingerprints/scikit-fingerprints/tree/master

W ramach zadania przygotujemy znaczenie uproszczoną implementację, która pozwoli przedstawić regułę działania filtrów.

In [None]:
def would_pass_gsk_filter(mol: Mol) -> bool:
    # TODO
    rules: list[bool] = [
        # Masa molowa TODO
        # logP TODO
    ]

    pass

def would_pass_veber_rule(mol: Mol) -> bool:
    # TODO
    rules: list[bool] = [
        # Ilość wiązań rotacyjnych TODO
        # TPSA TODO
    ]

    pass

def would_pass_oprea_filter(mol: Mol) -> bool:
    # TODO
    rules: list[bool] = [
        # HBD TODO
        # HBA TODO
        # Ilość wiązań rotacyjnych TODO
        # Ilość pierścieni TODO
    ]

    pass

In [None]:
gsk_results: list[bool] = []
smiles_for_gsk: list[str] = [
    "C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)O", # Ciprofloxacin
    "CC(=O)CC(C1=CC=CC=C1)C2=C(C3=CC=CC=C3OC2=O)O", # Warfarin 
    r"CN1C(=NC(=O)C(=O)N1)SCC2=C(N3[C@@H]([C@@H](C3=O)NC(=O)/C(=N\OC)/C4=CSC(=N4)N)SC2)C(=O)O", # Ceftriaxone
]

for smiles in smiles_for_gsk:
    # TODO przekonwertuj SMILESy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
veber_results: list[bool] = []
smiles_for_veber: list[str] = [
    "[C-]#N", # Cyanide
    "CC=O", # Acetaldehyde
    "CS(=O)(=O)CCNCC1=CC=C(O1)C2=CC3=C(C=C2)N=CN=C3NC4=CC(=C(C=C4)OCC5=CC(=CC=C5)F)Cl"
]

for smiles in smiles_for_veber:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
oprea_results: list[bool] = []
smiles_for_oprea: list[str] = [
    "C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)O",  # Ciprofloxacin
    "CC(=O)CC(C1=CC=CC=C1)C2=C(C3=CC=CC=C3OC2=O)O",  # Warfarin
    "CC(=O)Nc1ccc(O)cc1",  # Paracetamol
]

for smiles in smiles_for_veber:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
assert gsk_results == [True, True, False]
assert veber_results == [True, True, False]
assert oprea_results == [True, True, False]

Zadanie 6

Zmodyfikujmy wcześniej napisane metody, aby sprawdzić, które z reguł zostały złamane. Wyświetl wartości poszczególnych dekryptorów.

In [None]:
def gsk_issues(mol: Mol) -> None:
    # TODO skopiuj reguły z poprzedniego zadania
    pass

def veber_issues(mol) -> None:
    # TODO skopiuj reguły z poprzedniego zadania
    pass

def oprea_issues(mol) -> None:
    # TODO skopiuj reguły z poprzedniego zadania
    pass

In [None]:
smiles_to_examine_gsk: list[str] = [
    "",  # TODO: Dodaj do listy SMILES, który nie przeszedł przez filtr w poprzednim zadaniu
]

for smiles in smiles_to_examine_gsk:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
smiles_to_examine_veber: list[str] = [
    "",  # TODO: Dodaj do listy SMILES, który nie przeszedł przez filtr w poprzednim zadaniu
]

for smiles in smiles_to_examine_veber:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
smiles_to_examine_oprea: list[str] = [
    "",  # TODO: Dodaj do listy SMILES, który nie przeszedł przez filtr w poprzednim zadaniu
]

for smiles in smiles_to_examine_oprea:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

TODO:

Które reguły zostały złamane w poszczególnych przypadkach?

Rzeczywiste implementacje często pozwalają na naruszenie jednej z reguł zawartych w filtrze. Zmodyfikujmy powyższe filtry tak, aby umożliwiały złamanie jednej z reguł.

In [None]:
def would_pass_gsk_filter(mol: Mol, allow_one_fail: bool) -> bool:
    # TODO
    pass

def would_pass_veber_rule(mol: Mol, allow_one_fail: bool) -> bool:
    # TODO
    pass


def would_pass_oprea_filter(mol: Mol, allow_one_fail: bool) -> bool:
    # TODO
    pass

In [None]:
gsk_results: list[bool] = []
smiles_for_gsk: list[str] = [
    "C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)O", # Ciprofloxacin
    "CC(=O)CC(C1=CC=CC=C1)C2=C(C3=CC=CC=C3OC2=O)O", # Warfarin 
    r"CN1C(=NC(=O)C(=O)N1)SCC2=C(N3[C@@H]([C@@H](C3=O)NC(=O)/C(=N\OC)/C4=CSC(=N4)N)SC2)C(=O)O", # Ceftriaxone
]

for smiles in smiles_for_gsk:
    # TODO przekonwertuj SMILESy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
veber_results: list[bool] = []
smiles_for_veber: list[str] = [
    "[C-]#N", # Cyanide
    "CC=O", # Acetaldehyde
    "CS(=O)(=O)CCNCC1=CC=C(O1)C2=CC3=C(C=C2)N=CN=C3NC4=CC(=C(C=C4)OCC5=CC(=CC=C5)F)Cl"
]

for smiles in smiles_for_veber:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
oprea_results: list[bool] = []
smiles_for_oprea: list[str] = [
    "C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)O",  # Ciprofloxacin
    "CC(=O)CC(C1=CC=CC=C1)C2=C(C3=CC=CC=C3OC2=O)O",  # Warfarin
    "CC(=O)Nc1ccc(O)cc1",  # Paracetamol
]

for smiles in smiles_for_veber:
    # TODO przekonwertuj SMILEsy do Moli, wywołaj odpowiednią metodę i dodaj wynik do list
    pass

In [None]:
assert gsk_results == [True, True, True]
assert veber_results == [True, True, True]
assert oprea_results == [True, True, True]