# Anwendung von Maschinellem Lernen in Virtuelle Screening-Kampagnen

Willkommen zu diesem praktischen Kurs über die Anwendung von maschinellem Lernen (ML) im virtuellen Screening (VS) für die Arzneimittelentdeckung!
Dieser Kurs setzt keine Vorkenntnisse in ML voraus, und alle Schritte werden erklärt. In diesem Notizbuch werden Sie die wichtigsten ML-Konzepte verstehen, lernen, wie man Daten von chemischen Verbindungen verarbeitet, ML-Modelle trainiert und virtuelles Screening durchführt.

## Abschnitt 1: Einführung in die Schlüsselkonzepte

### Grundbegriffe

**Virtuelles Screening (VS)** ist eine computergestützte Methodik zur Ermittlung potenzieller Arzneimittelkandidaten aus großen Molekülbibliotheken. Das virtuelle Screening kann sowohl mit ligandenbasierten Ansätzen wie QSAR-Modellen oder Klassifikatoren des maschinellen Lernens als auch mit strukturbasierten Methoden wie molekularem Docking und Pharmakophormodellierung durchgeführt werden. Heute wird das Training von ML-Klassifikatoren für VS ausprobiert werden.

![VS](./figures/VS.jpg)

Mit **Maschinellem Lernen (ML)** können wir Modelle erstellen, die aus bekannten Daten lernen, um die Aktivität von unbekannten Verbindungen vorherzusagen.

Heute wird **Überwachtes Lernen**/**Supervised Learning** angewendet werden, beidem wir beschriftete Datensätze verwenden, um unser Modelle zu trainieren.

Zudem wird es sich um **Binäre Klassifizierung**/**Binary Classification** drehen, bei der wir voraussagen, ob eine Verbindung aktiv oder inaktiv ist, aber nicht einen genauen Wert bestimmen(z. B. IC50-Wert, KI...).

### ML-Modelle:
Im heutigen Praktikum beschäftigen wir uns mit vier verschiedenen klassischen ML-Modelltypen:

### Random Forest (RF)
Ein Ensemble-Lernverfahren, das mehrere Entscheidungsbäume erzeugt und deren Vorhersagen kombiniert, um die Genauigkeit zu erhöhen und Überanpassung zu verringern. Es ist robust, eignet sich für Klassifikation und Regression und arbeitet zuverlässig mit störbehafteten oder unvollständigen Daten, wie sie in der Arzneistoffforschung aufgrund experimenteller Varianz häufig auftreten.

![RF](./figures/RF.png)

Der **Random Forest (RF)** besteht aus vielen einzelnen Entscheidungsbäumen, die jeweils unterschiedliche Entscheidungsregeln lernen. Jeder Baum betrachtet dabei nur einen Teil der Daten und Merkmale, sodass eine Vielfalt an Modellen entsteht. Am Ende werden die Vorhersagen der Bäume entweder gemittelt (bei Regression) oder per Mehrheitsentscheidung zusammengefasst (bei Klassifikation). Dadurch wird das Gesamtmodell robust gegen Überanpassung und liefert meist stabilere Ergebnisse als ein einzelner Baum.

### Support Vector Machine (SVM)
Ein leistungsstarker Supervized-Lerning-Algorithmus, der eine optimale Trennlinie (Hyperplane) findet, um Daten in Klassen zu unterteilen. Er eignet sich besonders für hochdimensionale Daten und klare Trennungen zwischen Klassen.

![SVM](./figures/SVM.png)

Eine **Support Vector Machine (SVM)** versucht, die beiden Klassen durch eine moeglichst klare Trennlinie zu separieren. Diese Grenze wird so gewählt, dass der Abstand zu den naechstliegenden Datenpunkten maximal ist. Liegt der Datensatz nicht linear trennbar, nutzt die SVM sogenannte Kernelfunktionen, um den Raum so zu transformieren, dass eine Trennung dennoch möglich wird. Am Ende entscheidet die Position eines neuen Punktes relativ zu dieser Trennfläche darueber, zu welcher Klasse er gehoert.

### k-Nearest Neighbors (kNN) 
Ein einfacher, instanzbasierter Algorithmus, der einen Datenpunkt anhand der Eigenschaften seiner ‚k‘ nächsten Nachbarn klassifiziert. Er ist intuitiv, nicht-parametrisch und eignet sich am besten für kleinere, gut verteilte Datensätze.

![KNN](./figures/KNN.png)

Beim **k-Nearest-Neighbors-Algorithmus (kNN)** wird keine explizite Trainingsphase durchgeführt. Stattdessen werden neue Datenpunkte danach klassifiziert, wie ähnlich sie den bestehenden Punkten im Datensatz sind. Dafür sucht kNN die k nächsten Nachbarn eines neuen Punktes im Merkmalsraum und bestimmt dann, zu welcher Klasse die Mehrheit dieser Nachbarn gehört. Die Qualität der Vorhersage hängt stark von der Wahl von k und der verwendeten Distanzmetrik ab.


### Neuronales Netzwerk (NN)
Ein rechnerisches Modell, das vom menschlichen Gehirn inspiriert ist und aus Schichten miteinander verbundener Knoten (Neuronen) besteht. NNs erkennen komplexe, nichtlineare Muster und werden häufig in Bereichen wie Bilderkennung oder Sprachverarbeitung eingesetzt. Klassische NNs benötigen oft große Datenmengen, weshalb sie in der frühen Arzneistoffforschung meist suboptimal sind. Aufgrund ihrer enormen Vorhersagekraft werden sie jedoch stetig weiterentwickelt, um auch auf kleinere Datensätze angewendet werden zu können.

![NN](./figures/NN.png)

Beim **Neuronalen Netzwerk (NN)** durchlaufen die Daten zunächst den Input Layer, der die Merkmale einfach entgegennimmt. Anschliessend werden sie in den Hidden Layers weiterverarbeitet, wo Gewichte und Aktivierungsfunktionen Schritt fuer Schritt immer komplexere Muster herausarbeiten. Im Output Layer werden diese transformierten Informationen dann in eine finale Vorhersage überführt. Währen des Trainings passt das Netzwerk seine Gewichte so an, dass die Ausgaben zunehmend besser zu den wahren Zielwerten passen.


### Representation von Molekülen im Computer

Bevor Moleküle in ein ML-Modell eingespeist werden können, müssen sie computerlesbar gemacht werden. Eine verbreitete Möglichkeit ist die Darstellung als **SMILES** (Simplified Molecular Input Line Entry System). SMILES kodiert die Molekülstruktur als Textstring, z. B. `"CCO"` für Ethanol. SMILES ist praktisch zur Speicherung und für chemische Datenbanken, wird aber für Machine Learning oft nicht direkt genutzt. Der Grund ist, dass ML-Modelle typischerweise **gleich lange numerische Eingaben** erwarten, während SMILES-Strings je nach Molekül unterschiedlich lang sind.  

Deshalb werden Moleküle in **Fingerprints** umgewandelt, die eine feste Länge haben und die chemische Struktur numerisch repräsentieren.  

**ECFP-Fingerprints**

Eine verbreitete Art von Fingerprints sind die **Extended-Connectivity Fingerprints (ECFPs)**. Sie bilden lokale atomare Umgebungen kreisförmig ab. Ausgehend von einem definierten Radius erfassen verschiedene ECFP-Varianten Substrukturen unterschiedlicher Größe: ECFP4 entspricht einem Radius von 2 (bis zu zwei Bindungen vom Zentralatom entfernt, auch Morgan2 genannt), ECFP6 einem Radius von 3 (Morgan3).  

![ECFP](./figures/ECFP.png)

Beim Fingerprinting bekommt jedes Atom zunächst eine Kennung, die seine Eigenschaften wie Ordnungszahl, Valenz und Bindungen beschreibt. Diese Kennungen werden iterativ aktualisiert, indem Informationen von benachbarten Atomen und Bindungen hinzugefügt werden – so viele Schritte, wie der gewählte Radius vorgibt. Am Ende entsteht für jede kreisförmige Unterstruktur ein eindeutiger Identifikator, der als binärer Vektor dargestellt wird.


### Statistische Evaluation

Eine statistische Evaluation prüft, ob ein ML Modell wirklich verallgemeinert und nicht nur Zufallsmuster gelernt hat. Sie macht die Leistungsfaehigkeit messbar und zeigt, wie stabil und verlaesslich die Vorhersagen tatsaechlich sind. 
Ein zentraler Bestandteil ist dabei die Verwendung von Daten, die das Modell waehrend des Trainings nie gesehen hat, denn nur so laesst sich beurteilen,
ob es echte Zusammenhaenge erfasst oder lediglich die Trainingsdaten reproduziert.

Vor dem eigentlichen **Training** werden die Daten in ein **Trainingset** und ein **Testset** aufgeteilt. Häufig geschieht das zufällig im Verhältnis 80-20, doch es gibt auch ausgefeiltere Vorgehensweisen. Bei einem **Cluster-Split** werden etwa chemisch ähnliche Substanzen gruppiert und dem Modell während des Trainings ganze Gruppen für die Evaluation vorenthalten. Ein **Stratified-Split** hingegen sorgt dafuer, dass wichtige Klassenverhaeltnisse, zum Beispiel aktiv und inaktiv, in beiden Datensaetzen gleichmaessig erhalten bleiben. Zusätzlich kann man **k-Fold Cross-Validation** nutzen, bei der die Daten in k Teilmengen aufgeteilt werden und das Modell k Mal trainiert und getestet wird, sodass jede Teilmenge einmal als Testset dient, was robustere und stabilere Leistungsschätzungen liefert.

Um die Leistung eines Modells im **Test** zu bewerten, wird häufig eine **Confusion-Matrix** eingesetzt – dies gilt jedoch nur für **Klassifikationsmodelle**. Sie zeigt auf einen Blick, wie viele Vorhersagen richtig oder falsch waren und unterscheidet dabei zwischen den verschiedenen Klassen – zum Beispiel „aktiv“ versus „inaktiv“. Dadurch lässt sich nicht nur die Gesamtgenauigkeit beurteilen, sondern auch erkennen, ob das Modell bestimmte Klassen systematisch überschätzt oder unterschätzt. Für **Regressionsmodelle** werden stattdessen andere Metriken wie z. B. Mean Squared Error (MSE), Mean Absolut Error (MAE) oder R² verwendet. Die Confusion-Matrix ist somit ein zentrales Werkzeug, um die Stärken und Schwächen eines **Klassifikationsmodells** im Detail zu verstehen und gezielt Verbesserungen vorzunehmen.

**Confusion Matrix(Verwirrungsmatrix:)**:

$$
\begin{array}{c|cc}
\text{} & \text{Predicted Positive} & \text{Predicted Negative} \\\hline
\text{Actual Positive} & TP & FN \\
\text{Actual Negative} & FP & TN
\end{array}
$$


$$ \mathrm{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} $$
$$ \mathrm{Precision} = \frac{TP}{TP + FP} $$
$$ \mathrm{Recall} = \frac{TP}{TP + FN} $$
$$ \mathrm{Specificity} = \frac{TN}{TN + FP} $$

Aus einer **Confusion-Matrix** lassen sich vier zentrale Kennzahlen ableiten, die das Modellverhalten präzise beschreiben:

- **Accuracy**: Anteil aller korrekt klassifizierten Proben an der Gesamtzahl der Proben; gibt einen allgemeinen Überblick über die Modellleistung.  
- **Precision** (auch *Positive Predictive Value*): Anteil der tatsächlich positiven Fälle unter den vom Modell als positiv vorhergesagten; misst die Zuverlässigkeit positiver Vorhersagen.  
- **Recall** (oder *Sensitivität*): Anteil der korrekt erkannten positiven Fälle; zeigt, wie gut das Modell die positiven Klassen erfasst.  
- **Spezifität** (*Specificity*): Anteil der korrekt erkannten negativen Fälle; bewertet, wie zuverlässig das Modell negative Klassen identifiziert.

Diese Kennzahlen ergänzen sich und liefern zusammen ein differenziertes Bild der Modellleistung, das über die einfache Gesamtgenauigkeit hinausgeht.


**ROC-Kurve**:

![ROC](./figures/roc_curve.png)

Die **Receiver Operating Characteristic (ROC)-Kurve** visualisiert die Leistungsfähigkeit eines Modells über verschiedene Schwellenwerte hinweg. Sie wird erzeugt, indem die Wahr-Positiv-Rate (TPR) gegen die Falsch-Positiv-Rate (FPR) für unterschiedliche Schwellenwerte aufgetragen wird. Die Fläche unter der ROC-Kurve (**ROC-AUC**) quantifiziert die Fähigkeit des Modells, richtig die Klasse zu erkennen. Die ROC-AUC wird dabei nicht nur zur Bewertung von maschinellen Lernmodellen verwendet, sondern auch zur Beurteilung anderer Methoden, wie etwa 3D-Pharmacophore-Modelle und Docking-Ergebnisse in virtuellen Screening-Kampagnen oder auch klinischen Tests.  

Wir definieren die Wahr-Positiv-Rate \(t(x)\) und die Falsch-Positiv-Rate \(f(x)\) als Funktionen eines geeigneten Parameters \(x \in [0,1]\), beispielsweise einer Klassifizierungsschwelle oder einer Variablen, die bestimmt, ob ein Molekül in ein 3D-Pharmakophormodell passt. Unter der Annahme, dass \(f\) invertierbar ist, lässt sich die Fläche unter der ROC-Kurve (AUC) folgendermaßen ausdrücken:

$$ \mathrm{AUC} = \int_0^1 t\big(f^{-1}(x)\big) \, dx

### Visualisierung des chemischen Raums

Um einschätzen zu können, wo sich unser Trainingsdatensatz im chemischen Raum befindet, ist eine Visualisierung hilfreich. Modelle funktionieren in der Regel nur innerhalb eines bestimmten Bereichs der chemischen Variabilität; außerhalb dieser **Applicability Domain** liefern sie oft zufällige oder sogar falsche Vorhersagen.

**Datenvisualisierung mit PCA:**  
Die Hauptkomponentenanalyse (PCA) ist eine zentrale Technik zur Visualisierung und Interpretation hochdimensionaler Daten, wie z.B. **Fingerprints**. Molekulare Deskriptoren oder Fingerabdrücke können sich über Hunderte oder Tausende Dimensionen erstrecken, was direkte Interpretationen erschwert. Die PCA transformiert diesen hochdimensionalen Raum in einen niedrigdimensionalen Raum und bewahrt dabei die wichtigsten Varianzquellen. So können Forscher komplexe Datensätze visualisieren und die Lage von Verbindungen in verschiedenen chemischen Räumen vergleichen.

## Abschnitt 2: Modelle Selbst Trainieren

### Schritt 1: Laden der benötigten Python-Bibliotheken

Zu Beginn aktivieren wir einige Python-Bibliotheken, die Funktionen bereitstellen, die wir im Verlauf des Praktikums nutzen, ohne sie von Grund auf neu schreiben zu müssen.

In [None]:
import pandas as pd  # eine Bibliothek zur Datenverarbeitung, ähnlich wie eine Tabellenkalkulation (Excel)
                     

import numpy as np  # eine Bibliothek für numerische Operationen
                    

from rdkit import Chem  # eine Bibliothek für Chemoinformatik
from rdkit.Chem import AllChem, Draw  
from rdkit.DataStructs import ConvertToNumpyArray

import matplotlib.pyplot as plt # eine Bibliothek zum Erstellen von Diagrammen

from sklearn.decomposition import PCA  # eine Bibliothek zur Dimensionsreduktion
from sklearn.preprocessing import StandardScaler  # eine Bibliothek zur Skalierung von Daten – für PCA ist die Skalierung besonders wichtig   
from physicochem_properties_for_pca import *  # eine Bibliothek mit Funktionen zur Berechnung physikochemischer Eigenschaften für die PCA         
                         
from sklearn.model_selection import train_test_split # eine Bibliothek zum Aufteilen der Daten in Trainings- und Testdatensätze

from sklearn.metrics import roc_curve, auc # eine Bibliothek zur Berechnung von ROC-Kurven und AUC-Werten

Im näachsten Schritt aktiviert ihr das Modell, welches ihr im verlauf des Praktikums verwenden werdet.

Entfernt dafür das \# vor dem entsprechenden Import um die Zeile von einem Kommentar in eine Funktion zu ändern

In [None]:
#from sklearn.ensemble import RandomForestClassifier # eine Bibliothek für Random Forest Klassifikatoren
#from sklearn.svm import SVC # eine Bibliothek für Support Vector Machine Klassifikatoren
#from sklearn.neighbors import KNeighborsClassifier # eine Bibliothek für k-Nearest Neighbors Klassifikatoren
#from sklearn.neural_network import MLPClassifier # eine Bibliothek für Neuronale Netzwerke zur Klassifikatoren

### Schritt 2: Laden des Datensatzes

Im nächsten Schritt werden die vorbereiteten Trainingsdatensätze geladen. Üblicherweise muss ein Datensatz vor dem Training sorgfältig aufbereitet und bereinigt werden, um ein optimales Modell zu erhalten, da große Datenbanken wie ChEMBL oft widersprüchliche oder fehlerhafte Einträge enthalten. Um Zeit zu sparen, verwenden wir im Praktikum bereits vorbereitete und für das Training von ML-Modellen geeignete Datensätze. Tragt dazu bittte den entsprechenden Dateipfad in die Funtion ein.

#### PPAR-γ:

PPAR-γ (Peroxisome Proliferator-Activated Receptor Gamma) ist ein nuklearer Hormonrezeptor und Transkriptionsfaktor, der eine zentrale Rolle bei der Regulierung der Genexpression spielt, die am Glukosestoffwechsel, der Lipidhomöostase, Entzündungen und der Adipozytendifferenzierung beteiligt sind.

**Klinische Relevanz**
**Typ-2-Diabetes mellitus (T2DM):**  
**PPAR-γ-Agonisten** wie **Pioglitazon** und **Rosiglitazon** verbessern die Insulinempfindlichkeit und werden als Antidiabetika eingesetzt.

**Metabolisches Syndrom:** 
PPAR-γ kann den Lipid- und Glukosestoffwechsel beeinflussen und ist damit ein therapeutisches Ziel.

**Entzündung und Atherosklerose:** 
PPAR-γ wirkt entzündungshemmend und beeinflusst die Makrophagenaktivität, was einen Zusammenhang mit Herz-Kreislauf-Erkrankungen herstellt.

**Krebs:** 
PPAR-γ kann je nach Gewebekontext tumorfördernde oder -hemmende Wirkungen haben und wird als potenzielles Ziel in der Onkologie untersucht.

**Dateipfad**:

#### AA2A:

Der **A2A-Rezeptor** (Adenosin A2A-Rezeptor) ist ein G-Protein-gekoppelter Rezeptor (GPCR), der vor allem auf Immun- und Nervenzellen exprimiert wird. Er vermittelt seine Wirkung durch Aktivierung der Adenylylcyclase, erhöht cAMP-Spiegel und moduliert zahlreiche zelluläre Signalwege. Der A2A-Rezeptor spielt eine zentrale Rolle bei der Regulation von Entzündungsprozessen, neuronaler Aktivität und der Immunantwort.

**Klinische Relevanz**  
**Entzündliche Erkrankungen:**  
A2A-Rezeptor-Agonisten oder -Antagonisten modulieren die Immunantwort, wodurch entzündliche Prozesse gedämpft oder aktiviert werden können.

**Neurologische Erkrankungen:**  
Der A2A-Rezeptor ist im Striatum stark exprimiert und beeinflusst dopaminerge Signalwege. Antagonisten werden im Kontext der **Parkinson-Erkrankung** zur Verbesserung motorischer Funktionen untersucht.  
**Coffein:** Coffein wirkt als natürlicher **Antagonist am A2A-Rezeptor**. Durch die Blockade der hemmenden Wirkung von Adenosin steigert Coffein Wachheit, Aufmerksamkeit und neuronale Aktivität und kann subtile Effekte auf Motivation und Bewegung ausüben.

**Krebsimmuntherapie:**  
Durch seine Wirkung auf T-Zellen kann der A2A-Rezeptor das Tumormikromilieu unterdrücken. Inhibitoren des A2A-Rezeptors werden daher als potenzielle Immuntherapeutika in der Onkologie erforscht.

**Kardiovaskuläre Effekte:**  
Der Rezeptor moduliert Gefäßtonus und Herzfrequenz und ist damit ein Ziel für kardiovaskuläre Erkrankungen wie Ischämie und Herzinfarkt.

**Dateipfad**:

In [None]:
df = pd.read_csv('DATEIPFAD/ZUM/DATENSATZ', delimiter=';') #  Laden des Datensatzes in ein Pandas-Dataframe
                                                                                
df # Anzeige des Dataframe, sieht aus wie ein Tabellenblatt in Excel aus (nur das Anklicken machen wir hier nicht mit der Maus sondern mit Code)
        

In [None]:
df.head(10) # Anzeige der ersten 10 Zeilen des Dataframe

### Step 3: Betrachten unseres Datensatzes

Im nächsten Schritt verschaffen wir uns einen Überblick über unseren Trainingsdatensatz und die darin enthaltenen Moleküle. So können wir einschätzen, in welchem chemischen Raum sich die Daten bewegen und wie vielfältig die Verbindungen sind. Zur Visualisierung nutzen wir eine PCA auf Basis der physikochemischen Eigenschaften der Moleküle. Gleichzeitig beziehen wir als Referenz die **DrugBank** ein, eine Datenbank zugelassener und in klinischen Tests befindlicher Arzneimittel, um den chemischen Raum besser einordnen zu können.


Zuerst berechnen wir die physikochemischen Eigenschaften unseres Datensatzes und kontrollieren, dass alles korrekt berechnet wurde. Am Ende sollte eine Liste erscheinen, die die für die PCA relevanten Eigenschaften enthält:

['N',
 'O',
 'chiral',
 'MW',
 'heavy_atoms',
 'h_acc',
 'h_don',
 'logP',
 'TPSA',
 'numAro',
 'formalCharge',
 'numRings',
 'frac_csp3',
 'S',
 'nHalogens',
 'MR',
 '2D']

In [None]:
# Berechnung der physikochemischen Eigenschaften der Moleküle
get_physicochemical_properties(df,'preprocessedSmiles')
get_further_physicochemical_properties(df)

# Bestätigung, dass nur die Merkmals-Spalten für die Analyse ausgewählt sind
featureList = []
for column in df.columns:  #deselect the columns that are not features
                                # die Spalten, die keine Merkmale sind, abwählen
        if column not in ['Molecule ChEMBL ID', 'y_true_label', 'preprocessedSmiles', 'Molecule']:
                featureList.append(column)
# show the feature list to confirm 
# die Feature-Liste anzeigen, um zu bestätigen
featureList

Nun laden wir die DrugBank und berechnen ebenfalls die physikochemischen Eigenschaften. Gebt dazu den Dateipfad zur DrugBank in der entsprechenden Funktion an.

**Dateipfad**:

In [None]:
# Laden der DrugBank
df_drugbank = pd.read_csv('PFAD/ZUR/DRUGBANK') 
df_drugbank.head(5)

In [None]:
# generate the feature list same as above
get_physicochemical_properties(df_drugbank, 'preprocessedSmiles')
get_further_physicochemical_properties(df_drugbank)

# Auswählen der physikochemischen Merkmale 
df_drugbank = df_drugbank[['preprocessedSmiles', 'DATABASE_ID'] + featureList]

Nun beschriften wir die beiden Datensätze und führen sie anschließend zusammen, um die PCA auf einer einheitlichen Datenbasis berechnen zu können.

In [None]:
# Beschriften der DrugBank-Daten
df_drugbank['label'] = 'DrugBank' 

#Beschriften der Trainingsdaten mit 'Active' und 'Inactive'
df['label'] = df['y_true_label'].apply(lambda x: 'Active' if x == 1 else 'Inactive')

# Zusammenführen der beiden Dataframes
df_merged = pd.concat([df, df_drugbank], axis=0, ignore_index=True)
df_merged.head(5)

Nun führen wir eine PCA-Analyse auf Basis der physikochemischen Eigenschaften der Trainingsdaten und der DrugBank durch.

In [None]:
x = df_merged.loc[:, featureList].values # X Werte für die PCA
y = df_merged.loc[:, ['label']].values # Y Werte zur Beschriftung


# Standardisierung der Daten, dies ist wichtig für PCA, da sonst die Ergebnisse durch den Maßstab der Eigenschaften (verschiedene Einheiten) verzerrt werden
x = StandardScaler().fit_transform(x) 

# Durchführung der PCA
pca = PCA(n_components=2)
principalComponents = pca.fit_transform(x)
variance = pca.explained_variance_ratio_
principalDF = pd.DataFrame(data=principalComponents, columns=['PC1', 'PC2'])
pcaDF = pd.concat([principalDF, df_merged[['label']]], axis=1)
pcaDF


Nun erstellen wir eine Funktion um die PCA Visualisieren zu können

In [None]:
def plot_pca(pcaDF,variance,databases,colors):
    plt.rcParams['font.family'] = 'STIXGeneral'
    plt.rcParams['figure.figsize'] = 5, 5
    fig = plt.figure(dpi=300)
    axes = fig.add_subplot()
    axes.set_xlabel('PC1 ({:.2%})'.format(variance[0]), fontsize=16)
    axes.set_ylabel('PC2 ({:.2%})'.format(variance[1]), fontsize=16)

    for database, color in zip(databases, colors):
        indicesToKeep = pcaDF['label'] == database
        axes.scatter(pcaDF.loc[indicesToKeep, 'PC1'], pcaDF.loc[indicesToKeep, 'PC2'], c=color, s=5,alpha=0.8)
    axes.legend(databases, fontsize=15, loc='upper left', scatterpoints=5)

    plt.tick_params(labelsize=12)

    axes.set_yticks([-5,0,5,10,15])
    axes.set_xticks([-5,0,5,10,15])
 
    plt.tight_layout()
    plt.show()


In [None]:
plot_pca(pcaDF,variance,[ 'DrugBank', 'Active', 'Inactive'],['#c5c9c7','#145c37', 'yellow']) # Ändert gern die Farben und Datenbanken nach Belieben

### Step 4: Datenvorbereitung und Fingerprintgenerierung

Nun generieren wir ECFPs für unseren Trainingsdatensatz mithilfe von RDKit. Gebt dazu den gewünschten Radius für den Fingerprint in der entsprechenden Funktion an. Wir starten zunächst mit Radius 2; später könnt ihr gerne längere Radii oder eine größere Bitlänge ausprobieren, wenn ihr die Modelle trainiert.

In [None]:
# Funktion zur Generierung von Morgan-Fingerprints (ECFPs) für jedes Molekül definieren
def mol2fingerprint(mol):
    # Generate Morgan fingerprint
    fp = AllChem.GetMorganFingerprintAsBitVect(mol, radius=RADIUS, nBits=2048)
    arr = np.zeros((1,), dtype=np.int8)
    ConvertToNumpyArray(fp, arr)
    return arr

# Anwenden der Funktion auf den Datensatz, um Fingerprints zu generieren
df['fingerprint'] = df['preprocessedSmiles'].apply(lambda x: mol2fingerprint(Chem.MolFromSmiles(x)))
df.head(5)

In [None]:
# Aufteilen der Fingerprint-Spalte in einzelne Spalten für jede Bit-Position um die Daten für ML-Modelle vorzubereiten
morgan2_cols = ['morgan2_b'+str(i) for i in list(range(2048))]
df[morgan2_cols] = df.fingerprint.to_list()
df.head(5)

### Step 5: Trainieren und Evaluieren des eigenen ML-Modells

Zunächst wird euer Datensatz in Trainings- und Testset aufgeteilt und anschließend in X- (Input) und y-Werte (Zielvariable) unterteilt, da ein Modell immer als Funktion \(f(X) = y\) betrachtet werden kann.


In [None]:
# Training und Testdaten aufteilen
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42, stratify=df['y_true_label'])

In [None]:
# Aufteilen unserer Daten in Merkmale (X) und Zielvariable (y)
morgan2_cols = ['morgan2_b'+str(i) for i in list(range(2048))]
X_train = train_df[morgan2_cols] 
y_train = train_df.y_true_label
X_test = test_df[morgan2_cols]
y_test = test_df.y_true_label


Nun erstellt ihr euer eigenes Modell und startet das Training mit `model.fit`, indem ihr das Modell mit eurem Trainingsdatensatz füttert. Zunächst legt ihr jedoch das Grundgerüst für die verschiedenen Modelltypen fest, indem ihr die entsprechende Funktion bei `model =` einfügt. (Ihr könnt die Basiseinstellungen der Modelle gerne noch anpassen – schaut dafür in die Dokumentation der jeweiligen Funktion im Netz.)


```python
RF  = RandomForestClassifier(n_estimators=100, random_state=42) # https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html
SVM = SVC(kernel='rbf', probability=True, random_state=42) # https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC
KNN = KNeighborsClassifier(n_neighbors=5) # https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html
NN  = MLPClassifier(hidden_layer_sizes=(1048, 256), activation='relu', solver='adam', max_iter=300, random_state=42) # https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

In [None]:
# Trainiere das Modell
model = HIER_EUER_MODELL_ALS_FUNKTION
model.fit(X_train, y_train)

Um zu prüfen, wie gut euer Modell funktioniert, erstellen wir nun eine **ROC-Kurve** (Receiver Operating Characteristic), die die Vorhersageleistung visualisiert und die Fähigkeit des Modells zeigt, zwischen den Klassen zu unterscheiden.


In [None]:
# Initialize a figure for plotting
plt.figure(figsize=(10, 8))

# Predict probabilities for the positive class
y_pred_prob = model.predict_proba(X_test)[:, 1]

# Calculate the ROC curve points and AUC
fpr, tpr, thresholds = roc_curve(test_df['y_true_label'], y_pred_prob)
roc_auc = auc(fpr, tpr)

plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

Schaut nun, ob ihr die Kennwerte aus der Einführung berechnen könnt, indem ihr folgende Variablen verwendet:  

- `X_test` = die Input-Werte des Testsets  
- `y_test` = die wahren Labels des Testsets  
- `y_pred_prob[:, 1]` = die vom Modell vorhergesagten Wahrscheinlichkeiten für die positive Klasse  

Die zu berechnenden Kennwerte sind: **Accuracy, Precision, Recall und Specificity**. 

- Zum Addieren nutzt ihr `+`  
- Zum Subtrahieren nutzt ihr `-`  
- Zum Multiplizieren nutzt ihr `*`  
- Zum Dividieren nutzt ihr `/`

*BONUS*: Finde therausfinden was der F1 Score ist, wie man ihn berrechnet und warum man diesen gern nutzt


In [None]:
# Beispiel für eine rechnung 1 + 1 * 1 / 1 in Python
result = 1 + 1 * 1 / 1
result

In [None]:
accuracy = RECHNUNG_HIER_EINFÜGEN
precision = RECHNUNG_HIER_EINFÜGEN
recall = RECHNUNG_HIER_EINFÜGEN
specificity = RECHNUNG_HIER_EINFÜGEN

print(f"""Accuracy: {accuracy}
Precision: {precision}
Recall: {recall}
Specificity: {specificity}
""")

# HIER BONUS CODE EINFÜGEN

### Step 6: Screening der DrugBank

Nun nutzen wir unser ML-Modell, um die **DrugBank** zu screenen. Das Modell soll dabei Moleküle identifizieren, die an euer Target wahrscheinlich aktiv sind.

Zuerst generieren wir für die DrugBank-Moleküle Fingerprints mit derselben Funktion wie für unser Trainingsset, damit Länge und Aufbau der X-Werte konsistent bleiben.

In [None]:
df_drugbank['fingerprint'] = df_drugbank['preprocessedSmiles'].apply(lambda x: mol2fingerprint(Chem.MolFromSmiles(x)))
df_drugbank = df_drugbank.assign(mol=df_drugbank['preprocessedSmiles'].apply(Chem.MolFromSmiles))   
df_drugbank[morgan2_cols] = df_drugbank.fingerprint.to_list()
X = df_drugbank[morgan2_cols]

Nun nutzen wir unser Modell, um vorherzusagen, welche Moleküle in der DrugBank an unserem Target aktiv sein könnten, und prüfen anschließend auf der Webseite der DrugBank, wie gut unsere Vorhersagen mit den bekannten Daten übereinstimmen.

In [None]:
predictions_proba = model.predict_proba(X)[:, 1]
df_drugbank['Predicted_result'] = predictions_proba

# Sortieren nach welcher klasse unser molekül zugeordnet wurde und Anzeige der ersten 20 Verbindungen
df_drugbank[['DATABASE_ID','mol', 'Predicted_result']].sort_values(by='Predicted_result', ascending=False).head(20)

# Überprüft die database_id und schaut aufder DrugBank website nach euren Molekülen: https://go.drugbank.com/
# Schlägt das Modell sinvolle Dinge vor? (*w*) 

Hier könnt ihr euch eure **Top 50 Vorhersagen** noch einmal als chemische Strukturen anzeigen lassen.

In [None]:
# show the top 20 predictions in rdkit gird
def show_top_50_predictions(df, column):
    # Get the top 50 predictions
    top_50 = df.nlargest(50, column)
    
    # Create a list of molecules
    mols = [Chem.MolFromSmiles(smiles) for smiles in top_50['preprocessedSmiles']]
    
    # Draw the molecules in a grid
    img = Draw.MolsToGridImage(mols, molsPerRow=5, subImgSize=(200, 200))
    
    return img
# Display the top 20 predictions
img = show_top_50_predictions(df_drugbank, 'Predicted_result')
img

### Step 7: Screening bisher unerforschter Moleküle

Als letztes nutzt ihr euer Modell, um aus einer Datenbank bisher unerforschter Moleküle Vorhersagen zu treffen und potenziell neue Wirkstoffe für euer Target zu identifizieren.