# Einführung in die Chemieinformatik

Im heutigen Notebook wird es um die Benutzung von Python für die Chemieinformatik gehen. 
Als Fallbeispiel werden Sie eine Alternative zu **Sorafenib** suchen. [Sorafenib](https://de.wikipedia.org/wiki/Sorafenib) ist ein Kinaseinhibitor, der vor allem bei fortgeschrittenen Nierenkrebs verwendet wird.

Wie Sie in der Vorlesung gelernt haben, ist die erste Hürde in der Chemieinformatik ein adäquates Format zum Speichern von Molekülstrukturen zu finden. Um Moleküle in Python einzulesen, bietet es sich vor allem an, *SMILES* zu benutzen. Diese können auch ohne extra Libraries in Python gelesen und manipuliert werden. 

Für viele beschriebene Strukturen können sie auf [PubChem](https://pubchem.ncbi.nlm.nih.gov/) die Strukturen in verschiedenen Formaten erhalten. 
Finden Sie  auf PubChem den SMILES für Sorafenib und kopieren Sie diesen in die Zelle hier drunter.


<br>

<details>
<summary><strong>Falls kein Internet vorhanden. HIER klicken</strong></summary>

```python
    sorafenib = "CNC(=O)C1=NC=CC(=C1)OC2=CC=C(C=C2)NC(=O)NC3=CC(=C(C=C3)Cl)C(F)(F)F"
```
</details>

In [None]:
sorafenib = " " # Den Smiles in " " schreiben da sonst dieser nicht richig erkannt wird
print(sorafenib)
type(sorafenib)

Wie Sie sehen können wird der SMILES als `str` gespeichert. Wir können zwar den String manipulieren und auch Funktionen anwenden. Das Problem ist noch, dass Python den SMILES nicht von einem normalen String unterscheidet. Wir haben keine Möglichkeiten Information über diese Moleküle zu erhalten. Zwar kann Ihnen `len(sorafenib)` die Länge des String nennen, aber, zum Beispiel, nicht aus wie vielen Atomen dieses Molekül besteht.

Hierfür brauchen sie externe Libraries. Eine der meistbenutzten Chemie Libraries ist RDKit. 
Die wichtigsten Funktionalitäten können mit `from rdkit.Chem import AllChem as Chem` geladen werden. Mit RDKit können Sie nicht nur Moleküle einlesen und darstellen, Sie können diese auch manipulieren und Eigenschaften berechnen lassen. 
Um einen SMILES als Molekül zu interpretieren, benutzen sie `Chem.MolFromSmiles(SMILES)`.

In [None]:
from rdkit.Chem import AllChem as Chem
sorafenib = Chem.MolFromSmiles(sorafenib)
sorafenib

Mit der Hilfe von RDKit können SMILES als valides Molekül eingelesen und dargestellt werden.
Der `type(sorafenib)` ist jetzt:

In [None]:
type(sorafenib)

Die Funktion `Chem.MolFromSmiles` konvertiert den SMILES `string` in einen neuen Variablen Typ, und zwar den RDKit `Mol`. Solange ein Molekül als `rdkit.Chem.rdchem.Mol`existiert können Sie alle Funktionalitäten von `rdkit` auf dieses anwenden. Sie können sich mit `Chem.MolToSmiles(mol)` das Molekül auch wieder als SMILES ausgeben lassen:

In [None]:
Chem.MolToSmiles(sorafenib)

Der SMILES `string` von Sorafenib sieht jetzt anders aus, als der den Sie eingelesen haben. Der Unterschied liegt in der Darstellung der aromatischen Ringe. Im originalen String, wurden explizit Doppelbindung `=` benutzt, jetzt aber kleine `c`. RDKit kanonisiert automatisch die SMILES nach einem bestimmten Schema. PubChem benutzt eine andere Strategie zum Kanonisieren. Sie können SMILES in unterschiedlicher Form einlesen, aber `RDKit` wird immer dieselbe Form ausgeben.

Falls ein SMILES eingelesen werden soll, der kein valides Molekül abbildet, gibt RDKit einen Fehler aus.


In [None]:
Chem.MolFromSmiles('CNC(=[O-])c1cc(Oc2ccc(NC(=O)Nc3ccc(Cl)c(C(F)(F)F)c3)cc2)ccn1') # (=[O-]) anstatt (=O)

### RDKit
Jetzt wo Sie Sorafenib im richtigen Format haben können Sie sich auch Informationen ausgeben:

In [None]:
sorafenib.GetNumAtoms() # Aus wie vielen Atomen besteht Sorafenib

Es bestehen verschieden Funktionen, mit denen Sie Informationen über Moleküle erhalten können.`rdkit` schreibt jedem Atom und jeder Bindung einen Index zu. Über diesen Index können Sie einzelne Atome oder auch Bindungen auswählen. Welches Atom welchen Index hat, können Sie sehen, indem wir die `Draw` Optionen wie folgt ändern:

In [None]:
from rdkit.Chem import Draw # Draw sublibrary ist für die visuelle Darstellung von Molekülen zuständig
from rdkit.Chem.Draw import IPythonConsole
IPythonConsole.drawOptions.addAtomIndices = True 
IPythonConsole.drawOptions.addBondIndices = False
IPythonConsole.molSize = (500, 500) 

In [None]:
sorafenib

Sie können jetzt einzelne Atome anhand der Indices mit `.GetAtomWithIdx()` auswählen. Mit weiteren Funktionen können Sie sich dann Informationen zu diesem Atom ausgeben lassen:

In [None]:
print("Symbol vom Atom mit Index 3")
print(sorafenib.GetAtomWithIdx(3).GetSymbol())

print("\nMasse vom Atom mit dem Index 3")
print(sorafenib.GetAtomWithIdx(3).GetMass())

print("\nHybridisierung vom Atom mit dem Index 3")
print(sorafenib.GetAtomWithIdx(3).GetHybridization())


Mit der Funktion `.SetAtomicNum()` können Sie auch einzelne Atome ändern und zum Beispiel aus dem Keton ein Imin machen.

In [None]:
sorafenib.GetAtomWithIdx(3).SetAtomicNum(7)
display(sorafenib)
print(Chem.MolToSmiles(sorafenib))
sorafenib.GetAtomWithIdx(3).SetAtomicNum(8)# Veränderung wird wieder Rückgängig gemacht  

Können Sie eines der Fluoratome in einen Kohlenstoff ändern?

In [None]:
sorafenib._____.______ # schreiben Sie hier Ihre Lösung

display(sorafenib)
print(Chem.MolToSmiles(sorafenib))
sorafenib = Chem.MolFromSmiles("CNC(=O)C1=NC=CC(=C1)OC2=CC=C(C=C2)NC(=O)NC3=CC(=C(C=C3)Cl)C(F)(F)F")


<details>
<summary><strong>Lösung:</strong></summary>

```python
    sorafenib.GetAtomWithIdx(31).SetAtomicNum(6)
```
</details>

Dasselbe funktioniert auch für Bindungen.

In [None]:
IPythonConsole.drawOptions.addAtomIndices = False # Keine Atom Indizes zeigen
IPythonConsole.drawOptions.addBondIndices = True # Bindungs Indizes zeigen

sorafenib

In [None]:
print("Welche Art von Bindung ist Bindung 4")
print(sorafenib.GetBondWithIdx(4).GetBondType())

print("\nIst Bindung 4 in einem Ring von Größe 7")
print(sorafenib.GetBondWithIdx(4).IsInRingSize(7))

print("\nIst Bindung 4 in einem Ring von Größe 6")
print(sorafenib.GetBondWithIdx(4).IsInRingSize(6))

IPythonConsole.drawOptions.addBondIndices = False

### Deskriptoren

Hilfreicher als Informationen über einzelne Atome sind Deskriptoren, die für ein ganzes Molekül berechnet werden können. Verschiedene Submodule in `rdkit` erlaubt es Ihnen verschiedene Eigenschaften von Molekülen zu berechnen: Dasselbe funktioniert auch für Bindungen.

In [None]:
from rdkit.Chem.Descriptors import MolWt
from rdkit.Chem.Crippen import MolLogP

print("LogP",MolLogP(sorafenib))
print("Molecular Weight",MolWt(sorafenib))

## Sorafenib Alternativen

Das Ziel ist es alternative Moleküle für Sorafenib zu identifizieren. Eine Vorauswahl wurde schon getroffen. Die SMILES finden sich in der Liste `smiles`.

In [None]:
smiles = [
"CNC(=O)c1cc(Oc2ccc(NC(=S)Nc3ccc(Cl)c(C(F)(F)F)c3)cc2)ccn1",
"C[C@@H](NC(=O)c1cc(Oc2ccc(NC(=O)Nc3ccc(Cl)c(C(F)(F)F)c3)cc2)ccn1)C(=O)NO",
"CNC(=O)c1cc(Oc2ccc(NC(=S)Nc3cc(C(F)(F)F)cc(C(F)(F)F)c3)cc2)ccn1",
"N#Cc1cc(Oc2ccc(NC(=O)Nc3ccc(Cl)c(C(F)(F)F)c3)cc2)ccn1",
"CN(C)c1ccc(NC(=O)c2cc(Oc3ccc(NC(=O)Nc4ccc(Cl)c(C(F)(F)F)c4)cc3)ccn2)cc1", 
"CNC(=O)c1cc(Oc2ccc(NC(=O)Nc3ccc(Br)c(C(F)(F)F)c3)cc2)ccn1",
"CNC(=O)c1cc(Oc2ccc(NC(=O)Nc3ccc(OC(F)(F)F)cc3)cc2)ccn1",
"CCNC(=O)c1cc(Oc2ccc(NC(=O)Nc3ccc(Cl)c(C(F)(F)F)c3)cc2)ccn1",
"CNC(=O)c1cc(Oc2ccc(NC(=O)Nc3cccc(C(F)(F)F)c3)cc2)ccn1"]

Damit Sie nicht jeden SMILES einzeln in ein `mol` Objekt konvertieren müssen, schreiben Sie einen `for loop`.

Sie können mehrere Moleküle nebeneinander mit der Funktion `Draw.MolsToGridImage(mols)` betrachten.

In [None]:
mols = [ _____ for x in ______] #passen Sie diesen for-loop an
Draw.MolsToGridImage(mols,subImgSize=(300, 300)) #subImgSize erlaub es uns die Moleküle größer zu `drucken`

<details>
<summary><strong>Lösung:</strong></summary>

```python
mols = [Chem.MolFromSmiles(x) for x in smiles]
Draw.MolsToGridImage(mols,subImgSize=(300, 300))
```
</details>

Damit Sie unnötige Kosten vermeiden, sollen Sie nur die vielversprechendsten Moleküle auswählen. Hierfür können Sie das bisher gelernte anwenden. 
Eine simple aber wichtige Faustformel die im Drugdesign benutzt wird ist ["Lipinskis Rule of Five"](https://flexikon.doccheck.com/de/Lipinski%27s_rule_of_five). Sie besagt, dass Moleküle vier Eigenschaften haben müssen, um als Arzneistoff wirksam zu sein:

#### Lipinskis Rule of Five

>- Nicht mehr als 5 Wasserstoffbrückendonoren (vor allem Stickstoff-Wasserstoff- und Sauerstoff-Wasserstoff-Bindungen)
>- Nicht mehr als 10 Wasserstoffbrückenakzeptoren (vor allem Sauerstoff- und Stickstoffatome)
>- Ein Molekulargewicht von weniger als 500 g/mol
>- Ein [logP](https://de.wikipedia.org/wiki/Octanol-Wasser-Verteilungskoeffizient)-Wert von unter 5


Sie haben gerade schon die Funktion für den LogP und Molekulargewicht mit `rdkit`-Funktionen berechnet.
Das Submodul `Lipinski` in RDKit bietet noch weitere Funktionen um die Anzahl der Wasserstoffbrückendonoren und -akzeptoren zu berechnen. 

Berechnen Sie zunächst die Anzahl der Hydrogen Donors (`NumHDonors`): 

In [None]:
from rdkit.Chem.Lipinski import NumHAcceptors, NumHDonors

NumDonors = [______(x) for x in ______] # passen Sie diesen for-loop an

<details>
<summary><strong>Lösung:</strong></summary>

```python
NumDonors = [NumHDonors(x) for x in mols]
```
</details>

Um die Anzahl der Donoren zusammen mit den Molekülen anzusehen, können Sie die Funktion `MolsToGridImage()` benutzen. Hier müssen Sie einfach dem Input Parameter `legends` die `NumDonors` geben. Das Problem ist, dass die Funktion immer nur `strings` erwartet. Also keine `integers`. Deshalb benutzen wir einen weiteren `for loop`, um die `int` in `NumDonors` zu `str` zu konvertieren.

In [None]:
NumDonors = [str(x) for x in NumDonors]# Sie konvertieren die Anzahl der Donoren zum str damit wir sie als Legende benutzen können
Draw.MolsToGridImage(mols, legends = NumDonors,subImgSize = (300,300))

In der Bildunterschrift sehen Sie die Anzahl der Wasserstoffbrückendonoren. Alle identifizierten Moleküle haben weniger Donoren als die von Lipinski genannte Obergrenze. Wir können dasselbe für die Akzeptoren machen.
Diesmal aber schreiben Sie den `for loop` aber so, dass die `integers` sofort in `strings` umgewandelt werden. So sparen Sie sich einen `for loop`.

In [None]:
NumAcceptors = [str(________) for x in ________]# passen Sie diesen for-loop an
Draw.MolsToGridImage(mols, legends = NumAcceptors, subImgSize= (300,300))

<details>
<summary><strong>Lösung:</strong></summary>

```python
NumAcceptors = [str(NumHAcceptors(x)) for x in mols]
Draw.MolsToGridImage(mols, legends = NumAcceptors, subImgSize= (300,300))
```
</details>

Auch hier bricht keines der Moleküle mit Lipinskis Regel.
Als Nächstes berechnen Sie die das molekulare Gewicht (`MolWt()`) für die alternativen Moleküle.

In [None]:
molWeight = [str(_________) for __ in _______] # passen Sie diesen for-loop an
Draw.MolsToGridImage(mols, legends = molWeight, subImgSize=(300, 300))

<details>
<summary><strong>Lösung:</strong></summary>

```python
molWeight = [str(MolWt(x)) for x in mols]
Draw.MolsToGridImage(mols, legends = molWeight, subImgSize=(300, 300))
```
</details>

Einige Moleküle sind tatsächlich schwerer als Lipinskis Rule of Five erlaubt.

Als Letztes berechnen Sie noch den LogP (`MolLogP()`).

In [None]:
logP = [_______ for ____ in _____] # passen Sie diesen for-loop an. Achten Sie auch auf die str() Funktion
Draw.MolsToGridImage(mols, legends = logP,subImgSize=(300, 300))

<details>
<summary><strong>Lösung:</strong></summary>

```python
logP = [str(MolLogP(x)) for x in mols]
Draw.MolsToGridImage(mols, legends = logP,subImgSize=(300, 300))
```
</details>

Tatsächlich überschreiten die meisten Moleküle Lipinskis LogP Wert. Nur drei Moleküle haben einen Wert geringer als fünf. Diese beiden letzten Moleküle sind die einzigen Moleküle, die allen vier Regeln von Lipinski entsprechen. Deshalb sind sie besonders geeignet als Arzneistoff. Doch sollten Sie nicht alleine aufgrund eines zu hohen LogP Wertes alle andere Moleküle verwerfen. 

Sorafenib hat nämlich selber einen LogP Wert der größer als 5 ist. Deswegen entfernen wir nur Moleküle die sowohl ein zu hohen LogP und ein zu hohes Gewicht haben. Sie können `booleans` benutzen, um die richtigen Moleküle auszuwählen, z.B. `logP < 5`. Allerdings haben wir vorhin die Werte als `str` gespeichert, um sie unter den Molekülen auszugeben. Deshalb berechnen wir die Werte noch einmal, ohne diese zu einem `str` zu konvertieren. Zusätzlich müssen Sie auch die Listen in einen `array` konvertieren, da Sie sonst keine Werte vergleichen können.

In [None]:
import numpy as np
logP = [MolLogP(x) for x in mols]
logP = np.array(logP) # die Liste muss erst noch in einen Array konvertiert werden
logP < 5.0

Machen Sie nun dasselbe für das Gewicht (`MolWt()`).

In [None]:
molWeight = [____() ___ ____ ___ ___] #passen Sie diesen for-loop an
molWeight = ______________ # konvertieren Sie die Liste in ein Array
molWeight < 500

<details>
<summary><strong>Lösung:</strong></summary>

```python
molWeight = [MolWt(x) for x in mols]
molWeight = np.array(molWeight)
molWeight < 500
```
</details>

Um die Moleküle auszuwählen die entweder ein Gewicht unter 500 oder einen logP von unter fünf haben können Sie das Symbol `|` benutzen. Das `|` steht für "oder". Das Statement `(logP < 5) | (molWeight<500)` gibt `True` aus für Elemente, die mindestens eine der beiden Konditionen erfüllt. `False` wird ausgegeben, wenn ein Element keine der beiden Konditionen erfüllt. Es liest sich also als entweder einen logP kleiner als fünf oder ein Gewicht unter 500 g/mol.


In [None]:
(logP < 5) | (molWeight<500)

Mit diesem `bool` array können wir jetzt die Moleküle auswählen die noch übrig bleiben.

In [None]:
mols=np.array(mols)
mols_subset=mols[(logP < 5) | (molWeight<500)] #wir konvertieren die `mol` Liste auch zu einem array
Draw.MolsToGridImage(mols_subset,subImgSize=(300, 300))

Mit dem Berechnen von Deskriptoren konnten Sie die Anzahl der infrage kommenden Moleküle reduzieren. Im nächsten Schritt lernen Sie wie mit einer Similarity Search die Auswahl noch weiter reduziert werden kann

## Fingerprints & Similarity Search

RDKit kann auch verschiedene *Molecular Fingerprints* berechnen. Unter anderem auch den *Extended Connectivty Fingerprint* (ECFP) ursprünglich entwickelt von [Hahn et al.](https://pubs.acs.org/doi/10.1021/ci100050t) 2010. 
RDKit hat eine abgewandelte Version, den sie den *Morgan Fingerprint* nennen.
Sie können die Funktion `Chem.GetMorganFingerprint(mol,radius)` benutzen, um einen den ECFP zu berechnen. Um die Ähnlichkeit von Fingerprints bewerten stellt RDKit auch Funktion zur Verfügung. Mit `DataStructs.TanimotoSimilarity(fp1,fp2)`  lässt sich zum Beispiel die Tanimoto Similarity berechnen.

In [None]:
from rdkit import DataStructs
fp_sorafenib = Chem.GetMorganFingerprint(sorafenib,radius=2)
fp_sorafenib

Der Morganfingerprint wird nicht als normales `np.array` gespeichert. In den nächsten Wochen werden Sie aber lernen, wie Sie auch die *normalen* Vektoren der Fingerprints erhalten können.

Sie haben den Fingerprint für Sorafenib berechnet, aber um die Similarity zu berechnen brauchen Sie auch die Fingerprints der anderen Moleküle.

*Schreiben Sie einen `for-loop` der für alle Moleküle in `mols_subset` den Fingerprint berechnet und diese als Liste in `fp_mols` speichert*

In [None]:
fp_mols = [Chem.GetMorganFingerprint( ___ ,radius = 2) for __ in ___ ]

<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

```python
    fp_mols = [Chem.GetMorganFingerprint( x ,radius = 2) for x in mols_subset]
```
</details>
<br>
Um die Similarity zu berechnen benutzen Sie die oben beschriebene Funktion `TanimotoSimilarity(fp1, fp2)`





In [None]:
DataStructs.TanimotoSimilarity(fp_sorafenib,fp_mols[5])

Schreiben Sie einen `for-loop` der für jedes Moleküle in `fp_mols` die Similarity zu Sorafenib berechnet.

In [None]:
sorafenib_similarity = [DataStructs.TanimotoSimilarity(___ , ___ ) for x in ____]
sorafenib_similarity

<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

```python
    sorafenib_similarity=[DataStructs.TanimotoSimilarity(fp_sorafenib, x) for x in fp_mols]
```
</details>
<br>


In [None]:
Draw.MolsToGridImage(mols_subset,legends = [str(x) for x in sorafenib_similarity],subImgSize=(300, 300))

Hier drüber sehen Sie die Similarity der einzelnen Moleküle zu Sorafenib. Ein Molekül hat eine Similarity von 0.80. Eine oft benutzte Faustregel ist, dass ab einer Similarity von 0.8 die Moleküle ähnlich genug sind, um als relevante Alternative zu gelten. Das heißt in unserem Fall, dass wir nur ein Molekül testen würde. Das Molekül mit einer Similarity von `0.7979...` würde man wahrscheinlich auch noch als relevant betrachten.
Grundsätzlich wird eine Similarity Search auch oft nur benutzt, um den Raum der relevanten Moleküle einzugrenzen.

Aus neun Molekülen die relevantesten herauszusuchen könnte ein medizinischer Chemiker wahrscheinlich auch ohne Computer. Der eigentliche Vorteil vom Computer wird erst ersichtlich, wenn Sie einen Pool aus mehreren Millionen Molekülen haben. Der Code würde genau so funktionieren, Sie müssten nur die extra SMILES am Anfang des Notebooks einlesen.


## Übungsaufgabe: Alternativen zum Norfloxacin Antibiotikum

**Zur Benotung einreichen!**

Als etwas anspruchsvollere Aufgabe sollen Sie nun das bis jetzt Gelernte noch einmal selbstständig anwenden. 
Grundsätzlich sind ist die Aufgabe sehr ähnlich zu den bisherigen, Sie erhalten aber weniger Hilfestellungen.
Suchen Sie zuerst den SMILES `string` für Norfloxacin bei [PubChem](https://pubchem.ncbi.nlm.nih.gov/) heraus. Anschließend konvertieren Sie den String zum mol Format und lassen sich das Molekül anzeigen.

In [None]:
# Falls Sie diese Aufgabe zu einem späteren Zeitpunkt erledigen, können Sie mit dieser Zelle
# die benötigten Libraries auf ein Mal neu importieren
from rdkit.Chem import AllChem as Chem
from rdkit.Chem import Draw
from rdkit.Chem.Descriptors import MolWt 
from rdkit.Chem.Crippen import MolLogP
from rdkit.Chem.Lipinski import NumHAcceptors, NumHDonors
from rdkit import DataStructs

In [None]:
norfloxacin = "CCN1C=C(C(=O)C2=CC(=C(C=C21)N3CCNCC3)F)C(=O)O"
# konvertieren Sie den string zum mol Format
norfloxacin = 
# lassen Sie sich das Molekül anzeigen
norfloxacin

Berechnen Sie als Nächstes die für *Lipinskis Rule of Five* wichtigen Deskriptoren für Norfloxacin.

In [None]:
# Berechnen Sie MW
MW_norfloxacin = 

# Berechnen Sie die Anzahl an H-Brücken Akzeptoren
NumHAcceptors_norfloxacin = 

# Berechnen Sie die Anzahl an H-Brücken Donoren
NumHDonors_norfloxacin = 

# Berechen Sie logP
logP_norfloxacin = 

Die nächste Zelle gibt ihnen die berechneten Deskriptoren aus:

In [1]:
print("MW:", MW_norfloxacin)
print("NumHAcceptors", NumHAcceptors_norfloxacin)
print("NumHDonors", NumHDonors_norfloxacin)
print("LogP",logP_norfloxacin)

NameError: name 'MW_norfloxacin' is not defined

Eine Vorauswahl an möglichen Norfloxacin Alternativen ist in der nächsten Zelle aufgelistet. Konvertieren Sie die SMILES ins mol Format und berechnen Sie im Anschluss die Deskriptoren. Am einfachsten geht dies mit der oben mehrfach verwendeten Schreibweise `Liste = [Funktion(x) for x in AndereListe]`.

In [None]:
# Vergessen Sie nicht, zuerst diese Zelle auszuführen.
quinolones = ["C1CC1N2C=C(C(=O)C3=CC(=C(C=C32)N4CCNCC4)F)C(=O)O",
             "CN1CCN(CC1)C2=C(C=C3C(=C2F)N(C=C(C3=O)C(=O)O)CCF)F",
             "CCN1C=C(C(=O)C2=CC(=C(C(=C21)F)N3CCNC(C3)C)F)C(=O)O",
             "CC1CCC2=C3N1C=C(C(=O)C3=CC(=C2N4CCC(CC4)O)F)C(=O)O",
             "CC1COC2=C3N1C=C(C(=O)C3=CC(=C2N4CCN(CC4)C)F)C(=O)O"
             "CCN1C=C(C(=O)C2=CC(=C(C=C21)N3CCN(CC3)C)F)C(=O)O",
             "CN1CCN(CC1)C2=C(C=C3C4=C2SCCN4C=C(C3=O)C(=O)O)F",
             "CCN1C=C(C(=O)C2=CC(=C(N=C21)N3CCNCC3)F)C(=O)O",
             "CNC1CCCN(C1)C2=C(C=C3C(=C2OC)N(C=C(C3=O)C(=O)O)C4CC4)F",
             "CC1CN(CCN1)C2=C(C(=C3C(=C2)N(C=C(C3=O)C(=O)O)C4CC4)C)F",
             "C[C@H]1COC2=C3N1C=C(C(=O)C3=CC(=C2N4CCN(CC4)C)F)C(=O)O",
             "C[C@H]1COC2=C3N1C=C(C(=O)C3=CC(=C2C4(CC4)N)F)C(=O)O",
             "C[C@@H]1CN(C[C@@H](N1)C)C2=C(C(=C3C(=C2F)N(C=C(C3=O)C(=O)O)C4CC4)N)F",
             "CC1CN(CCN1)C2=C(C=C3C(=C2)N(C=C(C3=O)C(=O)O)C4=C(C=C(C=C4)F)F)F",
             "C1CN(CC1N)C2=C(C=C3C(=O)C(=CN(C3=N2)C4=C(C=C(C=C4)F)F)C(=O)O)F"]

In [None]:
# Formen Sie die Strings zum mol Format um 
quinolones = 

In [None]:
# Berechnen Sie hier die vier Deskriptoren für alle Moleküle der Liste
MW_quinolones = 
NumHAcceptors_quinolones = 
NumHDonors_quinolones = 
logP_quinolones = 

In der folgenden Zelle können Sie sich die Moleküle mit den berechneten Deskriptoren anzeigen lassen. Den Code müssen Sie dabei nicht nachvollziehen. 

Sie müssen rein zommen, um die Werte lesen zukönnen. `Strg` + Mausrad

In [2]:
legend = []
for i in range(len(MW_quinolones)):
    legend.append("MW: "+str(round(MW_quinolones[i]))+"\n"+
                 "NumHAcceptors: "+str(NumHAcceptors_quinolones[i])+"\n"+
                 "NumHDonors: "+str(NumHDonors_quinolones[i])+"\n"+
                 "logP: "+str(round(logP_quinolones[i], 4)))

Draw.MolsToGridImage(quinolones, molsPerRow=3, legends = legend,
                    subImgSize=(250,150), useSVG=True)

NameError: name 'MW_quinolones' is not defined

Da so gut wie alle Moleküle *Lipinskis Rule of Five* folgen, verzichten wir an dieser Stelle darauf, Moleküle aus unserer Datenbank zu entfernen und berechnen stattdessen direkt die Ähnlichkeit zu Norfloxacin. Dafür müssen erst die Fingerprints und anschließend die Tanimoto Similarity berechnet werden.

In [None]:
# Berechnen Sie zuerst die Fingerprints der Quinolone und von Norfloxacin
norfloxacin_fp = 
quinolones_fp = 

Berechnen Sie nun die Ähnlichkeit von der Quinolone zu Norfloxacin. <br>In der Zelle darunter können Sie sich die Ähnlichkeiten anzeigen lassen.

In [None]:
quinolones_similarity = 

In [None]:
Draw.MolsToGridImage(quinolones, legends = [str(round(x, 2)) for x in quinolones_similarity],
                    subImgSize=(250,200), useSVG=True)

Wie Sie sehen, sind die meisten Moleküle nicht besonders ähnlich zu Norfloxacin (zumindest nach der Tanimoto Similarity). Tatsächlich handelt es sich jedoch bei jedem der Moleküle um Breitbandantibiotika, die zumindest in der Vergangenheit erhältlich waren. Man kann sich also nicht alleine auf die Ähnlichkeit zwischen Molekülen verlassen, um auf die Aktivität zu schließen.