## **Hauptkomponentenanalyse (PCA)**

Dieses Notebook enthält Beispiele für die Verwendung von Hauptkomponentenanalyse (PCA) in der Chemie. Alle Beispiele verwenden Python-Code, um die Hauptkomponentenanalyse durchzuführen und die Daten zu visualisieren.

Einzelne Kapitel können über den kleinen Pfeil neben dem Kapitelnamen (▶) aufgeklappt oder zugeklappt werden. Im "zugeklappten" Zustand kann ein gesamtes Kapitel durch Klick auf den "Ausführen"-Button (links neben der Information `↪ X Zellen ausgeblendet`) ausgeführt werden. Alternativ können die Zellen innerhalb eines Kapitels auch einzeln ausgeführt werden. Weitere Erklärungen dazu finden sich in dem jeweiligen Kapitel. 

## Elemente im Periodensystem

Dieser Abschnitt verarbeitet den in der Lehrprobe ausführlich diskutierten Datensatz zu Elementen im Periodensystem und ihren Eigenschaften.

In der ersten Zelle werden lediglich die für die Datenverarbeitung, Berechnung und Darstellung notwendigen Module importiert.

In [31]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
import plotly.express as px

Im ersten Schritt wird der Datensatz importiert. Die für die  Hauptkomponentenanalyse verwendeten Variablen können über die Liste `feature_names` angepasst werden.

In [32]:
feature_names = [
    "ionization_potential",
    "van_der_waals_radius",
    "pauling_electronegativity",
    "polarizability",
    "mc_gowan_volume",
]

element_dataset = pd.read_csv('element_dataset.csv', index_col=0)

Im zweiten Schritt werden die Daten skaliert, indem für jede Variable der Mittelwert subtrahiert wird und anschließend durch die Varianz des Datensatzes dividiert wird. 

In [33]:
scale_features = True

features = element_dataset[feature_names].to_numpy()

if scale_features is True:
    for i in range(features.shape[1]):
        features[:, i] = (features[:, i] - np.mean(features[:, i])) / np.std(features[:, i])

Anschließend werden die Hauptkomponenten berechnet.

In [34]:
pca_model = PCA()
pca_model.fit(features)
data_transformed = pca_model.transform(features)

Die letzte Zelle dient der Visualisierung der erhaltenen Daten und generiert einen interaktiven Plot der Daten als Funktion der ersten beiden Hauptkomponenten. 

In [35]:
fig = px.scatter(
    data_transformed[:, :2],
    x=0,
    y=1,
    labels={"0": "Hauptkomponente 1", "1": "Hauptkomponente 2"},
    hover_name=element_dataset.index.values,
    size=np.ones(data_transformed.shape[0]),
    range_x=(-1.05 * np.max(np.abs(data_transformed[:, 0])), 1.05 * np.max(np.abs(data_transformed[:, 0]))),
    range_y=(-1.05 * np.max(np.abs(data_transformed[:, 1])), 1.05 * np.max(np.abs(data_transformed[:, 1]))),
)

fig.update_traces(hovertemplate="<b>%{hovertext}</b><br>")
fig.update_layout(paper_bgcolor="rgba(0, 0, 0, 0)", plot_bgcolor="rgba(0, 0, 0, 0.1)")
fig.update_xaxes(showgrid=True, gridcolor="rgba(0, 0, 0, 0.2)", gridwidth=1, zeroline=True, zerolinecolor="rgba(0, 0, 0, 0.2)", zerolinewidth=1)
fig.update_yaxes(showgrid=True, gridcolor="rgba(0, 0, 0, 0.2)", gridwidth=1, zeroline=True, zerolinecolor="rgba(0, 0, 0, 0.2)", zerolinewidth=1)
fig.show()

# Lösungsmittel

In [37]:
!pip install molplotly

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
import plotly.express as px
import molplotly

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting molplotly
  Downloading molplotly-1.1.7.tar.gz (16 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dash>=2.0.0
  Downloading dash-2.9.3-py3-none-any.whl (10.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.2/10.2 MB[0m [31m46.7 MB/s[0m eta [36m0:00:00[0m
Collecting jupyter-dash>=0.4.2
  Downloading jupyter_dash-0.4.2-py3-none-any.whl (23 kB)
Collecting rdkit-pypi>=2021.9.4
  Downloading rdkit_pypi-2022.9.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (29.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m29.4/29.4 MB[0m [31m32.1 MB/s[0m eta [36m0:00:00[0m
Collecting dash-html-components==2.0.0
  Downloading dash_html_components-2.0.0-py3-none-any.whl (4.1 kB)
Collecting dash-table==5.0.0
  Downloading dash_table-5.0.0-py3-none-any.whl (3.9 kB)
Collecting dash-core-components==2.0.0
  Download

In [40]:
feature_names = [
    "δD",
    "δP",
    "δH",
    "δHDon",
    "δHAcc",
    "MWt",
    "Density",
    "MVol",
    "Area",
    "Ovality",
    "BPt",
    "MPt",
    "Tc",
    "Pc",
    "Vc",
    "Zc",
    "AntA",
    "AntB",
    "AntC",
    "Ant1T",
    "LogKow",
    "LogS",
    "Henry",
    "LogOHR",
    "RI",
    "ΔHfus",
    "ΔHv@BPt",
    "Trouton",
    "RER",
    "Abr-a",
    "Abr-b",
    "EdmiW",
    "Parachor",
    "RD",
    "ΔCp",
    "log η",
    "Cond.",
    "SurfTen",
    "MaxPc",
    "MinMc",
    "Sym",
    "MCI",
    "ΔHcomb",
    "ΔHform",
    "ΔGform"
]

dataset = pd.read_csv("drive/MyDrive/Colab Notebooks/solvent_dataset_clean.csv")

In [41]:
scale_features = True

features = dataset[feature_names].to_numpy()

if scale_features is True:
    for i in range(features.shape[1]):
        features[:, i] = (features[:, i] - np.mean(features[:, i])) / np.std(features[:, i])

In [42]:
pca_model = PCA()
pca_model.fit(features)
data_transformed = pca_model.transform(features)

In [43]:
fig = px.scatter(
    data_transformed[:, :2],
    x=0,
    y=1,
    labels={"0": "Hauptkomponente 1", "1": "Hauptkomponente 2"},
    hover_name=dataset["Name"],

)

fig.update_traces(hovertemplate="<b>%{hovertext}</b><br>")
fig.update_layout(paper_bgcolor="rgba(0, 0, 0, 0)", plot_bgcolor="rgba(0, 0, 0, 0.1)")
fig.update_xaxes(showgrid=True, gridcolor="rgba(0, 0, 0, 0.2)", gridwidth=1, zeroline=True, zerolinecolor="rgba(0, 0, 0, 0.2)", zerolinewidth=1)
fig.update_yaxes(showgrid=True, gridcolor="rgba(0, 0, 0, 0.2)", gridwidth=1, zeroline=True, zerolinecolor="rgba(0, 0, 0, 0.2)", zerolinewidth=1)

app = molplotly.add_molecules(
    fig=fig,
    df=dataset,
    smiles_col="SMILES",
    title_col="Name"
)

app.run_server(mode='inline', port=8700, height=1000)

Dash is running on http://127.0.0.1:8700/



INFO:dash.dash:Dash is running on http://127.0.0.1:8700/



<IPython.core.display.Javascript object>